這兩個月我一直在折騰Agent skill的事,一是想持續把自己日常的工作流標準化,抽象成skill;二是在想怎么讓 AI 自己搞定技能。
先做了女媧,它可以把任何人的思維方式蒸餾成一個能跑的 Skill。后來又做了達爾文,干脆讓寫好的 Skill 自己進化,分數低的版本自動迭代到分數高的。一個管技能「生出來」,一個管技能「變好」。
兩塊拼圖,到手了。但是唯一的問題是,我的skill也變得越來越多,越來越混亂了。
你讓 agent 干一件復雜的事,它得在一堆 Skill 里挑、組合、按順序接力,這套活到現在我都還常常是需要手動觸發和配置。配一個寫作流程,我得自己想清楚先搜資料、再學風格、再寫初稿、再審校,一步步寫死在腦子里。技能造得再多、優化得再好,怎么讓 agent 自己把它們組織起來,這第三塊拼圖我一直沒拼好。
然后,這幾天在Github 上刷到個2.4k+ 星標的項目:OpenSquilla ,我在它最新的 3.0 里看到一個叫 MetaSkill 的東西,頗受啟發。![]()
先說啥是OpenSquilla
OpenSquilla 是個開源、能本地跑的 AI agent,Python 寫的。基本上可以理解為和OpenClaw、Hermes Agent是同一個賽道的產品,但是它在這條開源的agent線上又走了幾步,在模型調用和skill的開發/管理上有著更先進的策略。
![]()
它的產品主線就一句話:不卷模型,卷 Harness。
Harness 你可以理解成模型外面那層「殼」。模型是發動機,殼是變速箱、油門和導航。大家都在比發動機馬力的時候,它去優化那層殼:每一輪該調哪個模型、該用哪個技能、怎么不白燒 token。
![]()
這層殼它分兩步搭:1.0 先把智能模型路由做進底座,3.0 在上面長出 MetaSkill。我重點測了這兩個方向的能力,順帶也把那層路由底座跑了一遍。
![]()
第一件:它開機就把我現成的技能庫認了進去
裝好到技能列表頁面的時候,我還挺驚喜的。
它認出了 134 個技能。除了它自帶的,我 Claude Code 里那些個人技能它全認了:飛書全家桶、瀏覽器自動化、我自己寫的女媧、達爾文、選題生成、表格處理等,都原封不動出現在列表里。
我沒導,它自己掃到的。
技能生態現在在爆炸,社區里幾千上萬個 Skill 在冒出來,從人寫的到 AI 自動生成的。但每個人真正用得順手的,是自己攢下來那一小撮。OpenSquilla 沒讓我從零重配,我攢下的這些原樣就能用。
![]()
第二件:我讓它一句話造一個新技能,它真造出來了
這才是我最想看的。
它有個東西叫 MetaSkill Creator,號稱你用一句自然語言描述需求,它就自動合成一個新的技能,把手寫一個技能的半小時壓到幾分鐘。
我沒客氣,直接丟了句需求:
「先對一段中文初稿做事實核查,再改寫成更口語、去 AI 腔的版本,最后輸出一份修改清單。」
它跑了一會兒,給我生成了一個技能文件。不是一段說明,是一張完整的流程圖,長這樣:
fact_check(事實核查)
→ rewrite(去AI腔改寫)
→ modlist(生成修改清單)
每一步用哪個技能、依賴前面哪一步、結果傳給誰,它都替我填好了。這套東西能照著一張流程圖、把多步驟真接力跑起來,我是親手跑通過的。
剛才那個潤色技能我測試的時候忘錄了。為了給你看個完整不剪的,我又換了個需求從頭錄了一遍,讓它造一個能基于視頻字幕給剪輯建議、還能寫腳本的技能,看它怎么自己一步步拼出來:
![]()
這正是我缺的那塊拼圖。女媧是我造的,讓 AI 造單個技能;達爾文也是我造的,讓單個技能變好;而第三塊「把多個技能組織成一條真能跑的流水線」,我一直沒動手,這回是 OpenSquilla 的 MetaSkill 替我補上的。造、優化、組織,到這里才算湊齊。
所以 MetaSkill 到底是什么
官方給它的定義我覺得有點繞,我用大白話講。
它本質就是一份特殊的 Markdown 文件,開頭標一行「這是個 meta 技能」,下面把若干步驟連成一張流程圖。但關鍵不在文件本身。
打個比方。過去那種編排框架,是我提前把流程寫死,agent 照著我畫好的線跑。MetaSkill 反過來:我不寫流程,只把規則和能用的技能告訴模型,讓它自己現編一條流程出來。一個是我給你畫好路線圖,一個是我給你地圖和規則、你自己找路。
你用自然語言說目標,剩下的它自己來:挑出相關技能、拼成一條工作流、把工具和上下文都安排好。
而且它不是放任 agent 亂來。這張圖交給 runtime 之后,依賴順序、工具白名單、風險等級、模板安全,都是被強制校驗的。哪一步能讀文件、哪一步能跑命令,都得提前聲明。既讓它自己組織,又給它上了護欄。
用一句話解釋的話大致就是:以前是我把技能怎么配想清楚再喂給 agent,現在是我把目標說清楚,agent 自己把技能配出來。
順便說個更省錢的點
測的過程里還有個東西值得單獨拎出來:它的模型路由,也就是我前面說的那層 1.0 底座。
我先用火山方舟的豆包測。OpenSquilla 在里面內置了四檔模型,從最便宜的 mini 到最強的 code 版,路由器會判斷每一輪任務的難度,自動挑。
我讓它用一句話解釋 HTTP,它走了最便宜的 mini,沒開思考。我給它出了道狼、羊、白菜過河、還要順帶分析這題和圖著色問題抽象共性的難題,它自己升到了最強那檔,還主動打開了深度思考。這兩檔的輸入價格差大概 16 倍。
光在一家廠商里挑還不夠意思。我又換成 OpenRouter 測了一遍,它能在幾十家廠商的模型之間跨著挑。同樣那道 HTTP 題,它路由到了 DeepSeek 一個便宜的 flash 模型;同樣那道過河難題,它直接跳到了 Claude 的 Opus,還是打開了深度思考。簡單活交給國產便宜模型,難活才上最貴的旗艦,這個選擇是跨著廠商做出來的。
還有個對國內挺友好的點。它不挑食,除了 OpenRouter 這種海外聚合,國內像火山方舟、阿里云、騰訊云這些模型一大把的云廠商也能直接接。你想全程國產,照樣跑得起來。
不管哪種接法,賬都一樣省:能用便宜的就不動貴的,錢花在真正難的那幾輪上。而且這個難度判斷是在我本地做的,沒把我的問題發給某個外部模型去打分。
說點更深一層的體會。現在幾乎所有 agent 產品,都是把選模型這件事明晃晃甩給用戶:下拉菜單里一排模型,你自己挑。我還算會挑的那種,天天做模型評測,誰擅長寫代碼、誰推理強、誰便宜,我門兒清。
但正因為天天干這個,我越來越覺得這不該是最終形態。普通用戶憑什么要懂這些?讓人為每一次對話操心該選哪個模型,本身就是產品沒做好分內的事。自動路由把這份負擔免掉,你只管說要干什么,剩下的交給它分配。
這就是「卷 Harness」的實感。同樣一筆預算,能多干不少活。
![]()
這還只是隨手一次請求的演示。我又看了它整整 25 個任務跑完的總賬:和單用 Opus 的方案比,分數基本沒任何差異,花的錢卻差出了一個數量級。
![]()
回到那三塊拼圖。
造(女媧)、優化(達爾文),這兩塊我自己拼上了。第三塊,組織,一直空著。說拼圖其實不太準,組織更像蓋在前兩塊上面的一層。可缺了這層,技能造得再多再好,也各干各的,串不成事。
這兩個月我最深的體感是,當技能多到一定程度,瓶頸早就不是模型聰不聰明,而是這一堆技能能不能被組織起來。OpenSquilla 給的答案,是把「組織」這件事做進 agent 的底座,讓它自己來,而不是等我一條條配。從 1.0 的智能路由到 3.0 的 MetaSkill,走的都是「卷 Harness 不卷模型」這一條路。
行業的注意力,幾乎都在「模型又漲了幾分」上。但工作流編排,會不會正在變得比參數量更重要?我不敢下定論。只是在我這種手里攥著一堆技能的人身上,這個方向,我是真希望它走通的。
它是開源的,GitHub 上搜 OpenSquilla 就能找到,想自己裝來試的可以去翻翻。我那塊拼圖,是真被它補上的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.