大家好,我是程序員魚皮。
設(shè)想一下,你剛進(jìn)一家公司,老板突然跟你說:“咱們的項(xiàng)目,不是給人類用的!”
你內(nèi)心是什么感受?
“老板失了智?”、“公司之后咋賺錢啊?”、“老板竟然不把用戶當(dāng)人?”
但其實(shí),這件事情在如今,倒是挺正常的……
最近,我發(fā)現(xiàn) GitHub 上有一批很特別的開源項(xiàng)目,它們的目標(biāo)用戶不是人類,而是 AI。
這些項(xiàng)目天生就是為 AI 服務(wù)的,幫 AI 看網(wǎng)頁(yè)、讀文件、操作瀏覽器,讓 AI 從一個(gè)只會(huì)聊天的嘴強(qiáng)王者,變成真正能干活的六邊形戰(zhàn)士。
今天就來(lái)盤點(diǎn)一下 AI 最喜歡的 15 個(gè)開源項(xiàng)目,建議收藏,給你的 AI 接上這些項(xiàng)目后,堪比開掛!
1、AI 的眼睛 - 看懂互聯(lián)網(wǎng)
AI 雖然知識(shí)淵博,但最大的短板就是獲取不到最新的網(wǎng)頁(yè)內(nèi)容。
比如你想讓 AI 幫你總結(jié)某個(gè)網(wǎng)站的內(nèi)容、或者學(xué)習(xí)某個(gè)開源項(xiàng)目的文檔,一個(gè)沒有聯(lián)網(wǎng)能力的 AI 大模型要么直接告訴你它訪問不了,要么給你一堆過時(shí)的信息。
Firecrawl 就是來(lái)解決這個(gè)問題的。它可以搜索網(wǎng)頁(yè)、抓取單個(gè)頁(yè)面或者爬取整站內(nèi)容,把網(wǎng)頁(yè)轉(zhuǎn)成干凈的 Markdown 或 JSON,還自帶 JavaScript 渲染和反爬處理。
而且它提供了官方 MCP Server 和 Agent Skills 技能包,Cursor、Claude Code 這些 AI 編程工具可以接入使用。之后開發(fā)項(xiàng)目的時(shí)候,直接讓 AI 參考某個(gè)技術(shù)文檔、分析競(jìng)品頁(yè)面,AI 就會(huì)自動(dòng)調(diào)用 Firecrawl 去抓取網(wǎng)頁(yè)內(nèi)容,給出更靠譜的回答。
開源指路:https://github.com/firecrawl/firecrawl
類似的開源項(xiàng)目還有 Crawl4AI,定位是對(duì)大模型友好的爬蟲工具。它的功能和 Firecrawl 類似,也內(nèi)置了 MCP Server 和 Agent Skills 技能包,可以直接在 AI 編程工具中使用。
開源指路:https://github.com/unclecode/crawl4ai
有時(shí)候你不光想讓 AI 看網(wǎng)頁(yè),還想讓它直接動(dòng)手操作。比如幫你自動(dòng)填一個(gè)表單、批量點(diǎn)贊收藏、或者在后臺(tái)系統(tǒng)里做一些重復(fù)性的操作,解放雙手。
Browser Use 是一個(gè)基于 Python 的瀏覽器自動(dòng)化框架,讓 AI 能像真人一樣操控瀏覽器。
比如我跟 AI 說:幫我打開魚皮的編程導(dǎo)航網(wǎng)站,找到 Java 學(xué)習(xí)路線并截圖。
它就能一步步完成,支持點(diǎn)擊、輸入、滾動(dòng)等各種操作。甚至還支持多標(biāo)簽頁(yè)操作和自動(dòng)規(guī)劃執(zhí)行步驟,復(fù)雜的多步任務(wù)也能搞定。
開源指路:https://github.com/browser-use/browser-use
Browser Use 的底層基于微軟開源的 Playwright 瀏覽器自動(dòng)化框架。Playwright 雖然不是專門給 AI 設(shè)計(jì)的,但它已經(jīng)成了 AI 操控瀏覽器的事實(shí)標(biāo)準(zhǔn),幾乎所有 AI 瀏覽器自動(dòng)化項(xiàng)目都繞不開它。
開源指路:https://github.com/microsoft/playwright
AI 天然擅長(zhǎng)跟命令行打交道,對(duì)它來(lái)說,敲命令比點(diǎn)鼠標(biāo)方便很多倍。
但問題是,很多網(wǎng)站和工具壓根沒有提供命令行接口……
于是,一個(gè)牛唄的開源項(xiàng)目 OpenCLI 出現(xiàn)了,它能把 任意網(wǎng)站、Electron 應(yīng)用、甚至本地工具 統(tǒng)統(tǒng)變成命令行接口!
比如你想讓 AI 幫你查科技熱點(diǎn)、B 站熱門、知乎熱榜等。裝上 OpenCLI 的瀏覽器插件和命令行工具后,輸入一行命令就搞定了。而且它會(huì)復(fù)用瀏覽器里已有的登錄狀態(tài),不需要把密碼交給第三方。
![]()
它內(nèi)置了幾十個(gè)適配器,覆蓋了 B 站、知乎、Twitter、Reddit 等一大堆平臺(tái)。接入之后,AI 就可以直接通過命令行從這些網(wǎng)站獲取數(shù)據(jù),不需要你手動(dòng)復(fù)制粘貼了,就像給 AI 裝了一個(gè)萬(wàn)能遙控器。
開源指路:https://github.com/jackwener/opencli
日常工作中,很多資料都是 PDF、Word、Excel、PPT 格式的。
但 AI 默認(rèn)只能讀純文本,你直接把一個(gè) PDF 文件丟給它,大概率讀不出什么有用的東西。
解決方法很簡(jiǎn)單,AI 最喜歡 Markdown 了,那不妨把文件先轉(zhuǎn)成 Markdown,再交給它處理就好了。
MarkItDown 是微軟開源的萬(wàn)能格式轉(zhuǎn)換器,PDF、Word、Excel、PPT、圖片、音頻、HTML、甚至 YouTube 視頻,它都能一把梭轉(zhuǎn)成 Markdown。
開源指路:https://github.com/microsoft/markitdown
本質(zhì)上就是個(gè) Python 腳本,安裝上之后輸入一行命令就能用:
![]()
它還提供了 MCP Server,可以直接接入到 AI 編程工具中。之后你在項(xiàng)目里丟一個(gè) PDF 或 Word 文件讓 AI 分析,它就會(huì)自動(dòng)調(diào)用 MarkItDown 先轉(zhuǎn)成 Markdown 再處理。
![]()
MarkItDown 的優(yōu)點(diǎn)在于格式覆蓋廣,幾乎啥格式都能轉(zhuǎn),但遇到排版很復(fù)雜的 PDF 就有點(diǎn)力不從心了。
如果你需要處理論文里的多欄排版、數(shù)學(xué)公式、復(fù)雜表格這類內(nèi)容,可以再看看 MinerU 和 Docling。
MinerU 專攻 PDF 深度解析,能把公式轉(zhuǎn)成 LaTeX、表格轉(zhuǎn)成 HTML,還能自動(dòng)提取圖片,最終輸出的是包含圖文的多模態(tài) Markdown。
開源指路:https://github.com/opendatalab/MinerU
Docling 是 IBM 開源的文檔解析工具,除了 PDF 之外還支持 Word、PPT、Excel、圖片,甚至裝上語(yǔ)音識(shí)別擴(kuò)展后還能處理音視頻(提取音軌轉(zhuǎn)文字),在復(fù)雜文檔的版面理解和結(jié)構(gòu)還原上比 MarkItDown 更強(qiáng)。
開源指路:https://github.com/docling-project/docling
如果你想讓 AI 幫你整理一段會(huì)議錄音、或者給一個(gè)播客視頻生成文字稿,它首先要能把語(yǔ)音轉(zhuǎn)成文字。
whisper.cpp 是 OpenAI Whisper 模型的 C/C++ 移植版,最大的優(yōu)勢(shì)就是純本地運(yùn)行,CPU 也能跑,不需要 GPU 也不需要聯(lián)網(wǎng)。
它可以作為 AI 的耳朵,轉(zhuǎn)錄會(huì)議錄音、播客、視頻字幕都不在話下,也完全不用擔(dān)心隱私數(shù)據(jù)外泄。它支持多種語(yǔ)言的語(yǔ)音識(shí)別,還能自動(dòng)檢測(cè)語(yǔ)種,丟進(jìn)去一段音頻就能出文字。
開源指路:https://github.com/ggml-org/whisper.cpp
不管是讓 AI 幫你總結(jié)視頻、提取音頻還是生成字幕,第一步都得先把原始視頻素材下載到本地。
無(wú)奈很多平臺(tái)的視頻是不支持直接下載的……
于是有個(gè)天才開源了 yt-dlp 這個(gè)神級(jí)視頻下載工具,支持 上千個(gè) 網(wǎng)站,包括 YouTube、B 站、TikTok、Twitter 等等,你能想到的基本都有!
開源指路:https://github.com/yt-dlp/yt-dlp
它是純命令行工具,AI 調(diào)用起來(lái)非常絲滑,指定一個(gè) URL 和輸出格式就完事了。還能選擇分辨率、提取純音頻、下載字幕,功能非常全面。
之前我直播帶大家開發(fā)的 項(xiàng)目,就是基于 yt-dlp 二次開發(fā)的,感興趣的同學(xué)可以看看。
![]()
7、AI 的剪輯師 - 處理音視頻
如果你想讓 AI 幫你剪輯視頻、轉(zhuǎn)碼音頻、合成素材,光下載還不夠,還得有一個(gè)處理音視頻的工具。
人工做這些活兒要開各種軟件,但 AI 只需要一個(gè)命令行工具就夠了。
這個(gè)工具就是 FFmpeg,可能是整個(gè)計(jì)算機(jī)歷史上最重要的開源項(xiàng)目之一,幾乎所有涉及音視頻的軟件底層都在用它。
不管是轉(zhuǎn)碼、裁剪、拼接、加字幕、提取音頻還是轉(zhuǎn)換格式,使用 FFmpeg 一條命令就能搞定。
開源指路:https://github.com/FFmpeg/FFmpeg
雖然它的參數(shù)多到讓人類頭皮發(fā)麻,但 AI 記參數(shù)可太擅長(zhǎng)了!
比如你跟 AI 說:把這個(gè)視頻裁剪前 30 秒并轉(zhuǎn)成 GIF。
它立刻就能生成對(duì)應(yīng)的 FFmpeg 命令并執(zhí)行,效果很完美:
![]()
換成人工操作,可能還得先去搜半天參數(shù)……
現(xiàn)在組合 AI + FFmpeg,直接王炸!哪還需要到網(wǎng)上找什么視頻格式轉(zhuǎn)換工具?
8、AI 的百寶箱 - 調(diào)用外部服務(wù)
現(xiàn)在越來(lái)越多人想用 AI 來(lái)提升日常工作效率,比如讓 AI 幫你發(fā)郵件、創(chuàng)建 GitHub Issue、更新 Notion 文檔、給聊天軟件發(fā)消息。
但這些事情每個(gè)都要對(duì)接不同的平臺(tái)和 API,認(rèn)證方式也各不相同,一個(gè)個(gè)對(duì)接起來(lái)很麻煩。
Composio 就是幫 AI 搞定這些臟活累活的。它預(yù)先集成了 1000+ 外部服務(wù),幫你處理好 OAuth 認(rèn)證、API 調(diào)用、錯(cuò)誤重試這些細(xì)節(jié)。
開源指路:https://github.com/ComposioHQ/composio
AI 只需要調(diào)一個(gè)函數(shù)就能操作 GitHub、Gmail、Slack、Notion 等各種平臺(tái),省去了逐個(gè)對(duì)接的痛苦。不管你用 Python 還是 TypeScript 開發(fā) AI 應(yīng)用,都能直接用上。
![]()
官方還提供了不少現(xiàn)成的應(yīng)用模板,比如能自動(dòng)跨平臺(tái)操作的 AI 助手 TrustClaw、連接 HubSpot 和 Google Sheets 做數(shù)據(jù)分析的 Data Analyst Agent 等。
![]()
9、AI 的備忘錄 - 讓它記住你是誰(shuí)
用過 AI 編程的同學(xué)應(yīng)該都有過這種體驗(yàn):跟 AI 聊了好幾輪的需求和技術(shù)細(xì)節(jié),結(jié)果一開新對(duì)話,它全忘了,又得從頭介紹一遍。
這是因?yàn)?AI 本身是 沒有記憶 的,每次對(duì)話結(jié)束上下文就清空了。
雖然現(xiàn)在不少 AI 編程工具已經(jīng)自帶了記憶管理功能,但如果你想自己開發(fā) AI 應(yīng)用,記憶這塊兒就得自己解決。
可以用開源項(xiàng)目 Mem0 給 AI 裝上一個(gè)持久記憶層。它會(huì)自動(dòng)從對(duì)話中提取關(guān)鍵信息存到數(shù)據(jù)庫(kù)里,下次對(duì)話時(shí)自動(dòng)檢索出來(lái)。
開源指路:https://github.com/mem0ai/mem0
這樣一來(lái),AI 能記住你喜歡用什么編程語(yǔ)言、你的項(xiàng)目用了什么技術(shù)棧、上次聊到哪了,下次對(duì)話直接接著來(lái),不用重復(fù)交代背景了。
而且它支持用戶級(jí)、會(huì)話級(jí)、Agent 級(jí)三層記憶管理,不同用戶的上下文不會(huì)互相混淆。
![]()
如果你在學(xué) AI 應(yīng)用開發(fā),建議研究一下 Mem0 的記憶系統(tǒng)實(shí)現(xiàn),從信息提取、沖突消解到向量檢索,這套設(shè)計(jì)很有參考價(jià)值。
10、AI 的技能包 - Agent Skills
前面的項(xiàng)目都是給 AI 提供某種 “能力”,比如看網(wǎng)頁(yè)、讀文件、操作瀏覽器。
而 Agent Skills 解決的是另一個(gè)問題,直接給 AI 提供專業(yè)知識(shí)和做事方法。
![]()
anthropics/skills 是 Anthropic 官方開源的技能倉(cāng)庫(kù),里面裝的不是代碼,而是一份份給 AI 準(zhǔn)備的技能包。每個(gè) Skill 就是一個(gè)文件夾,里面寫著詳細(xì)的指令,教 AI 怎么完成特定的任務(wù),比如怎么做 PPT、怎么寫技術(shù)文檔、怎么做代碼審查。
開源指路:https://github.com/anthropics/skills
Agent Skills 已經(jīng)成了跨工具的開放標(biāo)準(zhǔn),Cursor、Claude Code、Codex 等 40 多個(gè) AI 編程工具都支持,安裝一次到處能用。
如果你想快速安裝技能,可以用 vercel-labs/skills 這個(gè)開源的技能安裝器。輸入一行 npx skills add 命令就能搞定,還支持搜索、更新和卸載技能。
開源指路:https://github.com/vercel-labs/skills
看完這些項(xiàng)目,你會(huì)發(fā)現(xiàn)開源世界正在悄悄發(fā)生一個(gè)變化。
以前大家做開源,目標(biāo)用戶都是人類開發(fā)者;但現(xiàn)在越來(lái)越多的項(xiàng)目,從設(shè)計(jì)之初就是給 AI 用的。比如輸出 Markdown 方便 AI 閱讀、提供命令行方便 AI 調(diào)用、暴露 MCP Server 方便 AI 編程工具接入,甚至直接給 AI 準(zhǔn)備技能包教它做事。
以后做開源,可能不光要考慮「人類用戶體驗(yàn)好不好」,還得想想「AI 調(diào)用起來(lái)方不方便」。
這些項(xiàng)目是免費(fèi)開源的,而且可以本地部署,如果你正在使用 AI 編程,不妨挑幾個(gè)試試,說不定會(huì)打開新世界的大門。
我是魚皮,持續(xù)關(guān)注和分享 AI 編程教程和資源,帶你探索更多提高效率的玩法。覺得有用的話,記得點(diǎn)贊收藏和關(guān)注,也歡迎在評(píng)論區(qū)分享更多實(shí)用的開源項(xiàng)目~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.