![]()
新智元報道
編輯:好困 KingZH
【新智元導讀】澳洲牧羊大叔隨手寫的三行bash,11天內被OpenAI、Anthropic和Hermes集體收編了。
一覺醒來,Claude Code又更新!
為了讓Claude 持續工作直到任務完成,Claude Code最近推出的新功能:/goal 。
![]()
你只要設定條件,Claude不完成任務它絕不罷休!
![]()
用過AI編程工具的人都懂,這到底多重要!
你給Agent下了一個任務,它跑了三個回合,改了兩個文件,突然停下來問你「接下來需要我做什么?」
不是,bug你這還沒修完呢啊!
![]()
Agent越來越聰明,寫代碼越來越快,但「從頭到尾把一件事干完」這件事,到2026年初都沒有一家能做到。
然后,一位來自澳大利亞的牧羊大叔Geoffrey Huntley,用三行bash解決了。
done他把它命名為Ralph Loop,致敬《辛普森一家》里那個永遠搞不清狀況但從不放棄的小孩Ralph Wiggum。
邏輯極其粗暴,無限循環,反復把同一個prompt喂給Agent。進度寫在文件系統和Git歷史里,上下文滿了就開新實例,讀文件接著干。
![]()
原始,不優雅,但十分有效。
有效到OpenAI看見了,Nous Research看見了,Anthropic也看見了。
11天,三家頂級AI實驗室,不約而同地把這三行bash寫進了官方產品。
這一刻,所有人都明白了一件事——
通用人工智能的臨門一腳,可能不是更聰明的模型,而是「把事做完」的模型。
換句話說,AI編程的核心戰場正在從「生成代碼」轉向「閉環交付」。
11天,三條線,同一個終點
4月30日,OpenAI的Codex率先上線/goal。
Greg Brockman在X上只丟了一句,「Codex現已內置Ralph loop++」。
![]()
一周后,Hermes Agent跟上。又過4天,Claude Code也上了。
11天。三家。同一個命令。同一個功能。
但實現路徑,差了十萬八千里。
Codex「不忘事」,Hermes「不爛尾」,Claude Code「不自欺」。
![]()
Codex:
把目標存成一條數據庫記錄
OpenAI是三家里最先出手的,方案也最簡潔。
在Codex里,/goal是一個持久化的工作流對象,存在本地的app-server狀態層里。
關掉終端、合上筆記本、甚至重啟系統,目標都不會丟。下次打開Codex,自動接上。
![]()
模型通過結構化的update_goal工具匯報進度狀態,token預算耗盡時觸發「軟著陸」而非硬停。
有人用這個功能連續跑了14個小時,中間暫停5小時去睡覺,回來Codex從斷點續跑,把一個設備驅動項目做完了。
工程化,干凈,但克制。
![]()
Hermes Agent:
一個人干不完,那就上一個團隊
Hermes Agent的野心最大。
在這里,/goal只是冰山一角。真正的重頭戲是多智能體看板系統,Hermes把「讓AI把活干完」從單Agent問題升級成了團隊協作問題。
![]()
看板的底層是本地SQLite,持久化存儲,跨重啟不丟。
你在上面創建一個任務卡片,Hermes會直接把它拆成多個子任務,分配給不同的Agent worker。每個worker是一個獨立的OS進程,有自己的身份、模型配置和工作目錄。
看板和/goal是兩套互補的系統。/goal管的是單個Agent的目標鎖定(Ralph loop),看板管的是多個Agent之間的任務調度。一個縱向深入,一個橫向鋪開。
最后,是五層防爛尾機制。
第一層,心跳檢測。每個worker定期向看板報到,證明自己還活著。
第二層,僵尸回收。worker超時沒響應?系統自動判定死亡,回收它手上的任務重新分配。macOS上還有專門的達爾文僵尸檢測邏輯。
第三層,退出攔截。worker沒完成任務就退出了?系統自動把它標記為blocked,不讓它再接新活,防止「摸魚型Agent」反復領任務又不做。
第四層,幻覺攔截。這是最狠的一層。AI說「我做完了」不算數,系統會驗證它實際產出的代碼是否真的落盤了。Agent說自己創建了一個文件但實際上沒有?抓住,回滾,重來。
第五層,重試預算。每個任務有獨立的max_retries,最多重試N次,超過就上報人類。絕對不會無限循環到死機。
![]()
Claude Code:
做事的人和驗收的人,不能是同一個
Anthropic是三家里最后出手的,但方案最巧妙。
本質上,Claude Code的/goal是一個session級別的Stop Hook。
你設定一個完成條件(比如「test/auth目錄下所有測試通過且lint無報錯」),Claude就開始干活。
![]()
關鍵設計在驗收環節。每干完一輪,系統不讓Claude自己判斷「我做完了沒有」。
它把對話記錄和你的完成條件一起發給一個獨立的小模型(默認是Haiku),讓這個小模型來裁判。
小模型如果覺得沒完成,就需要返回一個具體理由(比如「test_login.py還有2個failure」)。然后這個理由會被注入Claude下一輪的上下文,指導它接著干。
如果小模型認為完成了,目標就會自動清除,任務結束。
值得一提的是,這個裁判模型不調用任何工具,不讀文件,不跑命令。它只看Claude在對話里產出的內容。
所以,你的完成條件必須是Claude在對話中能證明的東西。
它最長支持4000字符,因此你可以寫得很細。
甚至,還可以在條件里加約束,比如「不修改其他測試文件」「20輪內完成否則停止」等等。
![]()
決賽進行時:工作流入口
把視角拉遠一步。
Claude Code背后站著Anthropic,Codex背后站著OpenAI,Hermes Agent接入了兩邊的模型,同時也是DeepSeek V4等模型的主力分發渠道。
三條路徑,恰好覆蓋了ASI決賽的三個生態入口。
而他們爭的,也是同一樣東西——工作流。
誰的Agent先讓開發者養成「設完目標就走開」的習慣,誰就鎖死了工作流入口。
因為習慣一旦形成,遷移成本是指數級的。
你不會輕易離開一個已經跑通了看板調度、斷點續傳、checkpoint回滾的Agent基礎設施。
一個看似很小的/goal命令,背后卡的是整條Agent工作流的護城河。
參考資料:
https://code.claude.com/docs/en/goal
https://github.com/NousResearch/hermes-agent/releases/tag/v2026.5.7
https://github.com/anthropics/claude-code/releases/tag/v2.1.139
https://developers.openai.com/codex/changelog
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.