![]()
機器之心編輯部
最近,Anthropic 團隊研究產(chǎn)品經(jīng)理 Theodora(Theo)Chu 的一段演講視頻,引起了大家的注意。
Theo 表示,當前越來越多的開發(fā)者已經(jīng)不再只是「聽說過 Claude」,而是在日常工作中真正感受到效率提升。有人認為 Claude 讓自己效率翻倍,也有人認為提升了 10 倍。更重要的是,Claude 已經(jīng)開始深入 Anthropic 自身的工程流程,「Anthropic 內(nèi)部超過 80% 的代碼由 Claude 合并。」
![]()
這意味著,模型的角色正在發(fā)生變化。
模型不再只是停留在回答問題階段,而是在一個可以反饋、驗證、修正的環(huán)境里持續(xù)完成任務(wù)。「Close the Loop(閉合循環(huán)),給模型一種驗證自身輸出結(jié)果的方式。」
而在這場分享中,Theo 想要告訴開發(fā)者的是,「你應(yīng)該如何適應(yīng)這個新世界,又應(yīng)該如何面向未來構(gòu)建產(chǎn)品,而不是只為過去構(gòu)建產(chǎn)品。」
為此,Theo 詳細拆解了如何構(gòu)建能夠自我改進的 Agent,「真正的配置,是讓 Claude 在循環(huán)、計劃模式和動態(tài)工作流中持續(xù)運行。」
網(wǎng)友 rari@0xwhrrari 認為,「這要比大多數(shù) 300 美元的 Agent 課程都要好。」
那么,接下來,我們就來詳細了解一下這場演講到底講了什么。
一年之內(nèi),模型失敗率被大幅壓低
Theo 用編程評估基準 SWE-bench Verified 舉了一個例子,它由一系列 GitHub issue 組成,模型需要理解問題、修改代碼,并通過測試來證明自己真正解決了任務(wù),這是 Anthropic 內(nèi)部用來觀察 Claude 編程能力提升的重要評測:
一年前的 Sonnet 3.7 得分僅為 60% 左右,而到了 Opus 4.8,得分已經(jīng)達到了 88%。
![]()
這意味著,一年前的模型在這些任務(wù)上的失敗次數(shù),大約是現(xiàn)在的 3 倍。
這也是演講中最值得注意的地方:模型能力提升,并不只是「多做對幾道題」,而是失敗率正在快速下降。失敗率下降之后,模型才有可能承擔更長、更復雜、更接近真實工作的任務(wù)。
此外,更不可思議的是,在最新的 Mythos 和 Fable 系列模型中,該基準測試實際上已經(jīng)出現(xiàn)接近飽和的跡象。換句話說,一些過去足夠難的測試,今天可能已經(jīng)不再能有效區(qū)分模型能力。
這對開發(fā)者來說是一個重要信號:如果你還在用 12 個月前的任務(wù)測試今天的模型,就很容易低估模型真正的能力邊界。
而新模型這種智能的增長,具體落在了以下三個核心領(lǐng)域:
一是先規(guī)劃,再行動
Theo 展示了同一個任務(wù)在兩個不同模型上的表現(xiàn):讓模型一次性重建 Claude.ai 網(wǎng)站。
結(jié)果表明,舊模型的典型做法是,上來就開始寫大量代碼、調(diào)用大量工具,幾乎沒有充分規(guī)劃。結(jié)果是,界面看起來似乎合理,但實際運行并不完整,功能也不能真正閉環(huán)。
「有點像我裝宜家家具時的樣子:一上來就動手,根本不看說明書,先開始拼,拼著拼著發(fā)現(xiàn)做錯了,然后才意識到自己應(yīng)該回去看說明書。」
而以 Opus 4.8 為代表的新模型則表現(xiàn)出了自適應(yīng)思考(Adaptive thinking)的能力。它們會先在內(nèi)部深思熟慮具體的規(guī)范,在預先規(guī)劃的過程中及時捕捉錯誤(你甚至會在邏輯推理中看到它們輸出「實際上……」或「算了,還是……」這樣的自我修正詞)。
這種先規(guī)劃后行動的方式,讓模型在第一次實際執(zhí)行時就能高效落地,大幅減少了不必要的工具調(diào)用與代碼行數(shù)。
因此,Theo 給開發(fā)者的建議是:要允許模型先思考。
![]()
產(chǎn)品體驗也應(yīng)該為這種思考留下空間:比如使用自適應(yīng)思考,讓模型自己判斷什么時候需要思考、需要思考多久。簡單問題不必讓模型大動干戈,但復雜任務(wù)應(yīng)該給它足夠的規(guī)劃空間。
二是錯誤恢復和自我糾正
過去很多人做 Agent,重點放在「讓模型能調(diào)用更多工具」。但 Theo 強調(diào):工具調(diào)用本身還不夠,模型必須知道自己什么時候做錯了。
舊模型有一個常見問題是 doom looping:模型接到任務(wù)之后,如果失敗了,你告訴它:「嘿,我覺得你應(yīng)該換一種方式做」。或者,環(huán)境給了它某種反饋,提示它應(yīng)該做另一件事。它會說:「好的,我再試一次。」
但當它再次嘗試時,往往又會回到之前同樣的解法,并不會真正改變做法。
新模型在這方面進步明顯。它能夠讀取反饋、理解失敗原因,然后嘗試不同路徑。這樣一來,模型不再只是被動執(zhí)行命令,而是開始具備某種錯誤恢復能力。
這對 Agent 產(chǎn)品尤其關(guān)鍵。因為只要任務(wù)足夠長,模型就一定會遇到錯誤:代碼跑不通、頁面點擊失敗、測試沒有通過、用戶反饋不滿意、環(huán)境返回異常結(jié)果。真正有價值的 Agent,不是永遠不犯錯,而是犯錯之后能不能恢復。
因此,Theo 認為,開發(fā)者需要重新設(shè)計模型所處的環(huán)境。環(huán)境要能給模型反饋,讓模型知道自己哪里做錯了。
![]()
「這也意味著,模型不會因為 doom looping 而浪費 token,而是可以用更少的 token 完成任務(wù)。」
比如,如果你正在做一個應(yīng)用生成 Agent,就應(yīng)該給它訪問前端界面的能力,讓它可以自己點擊、自己測試、自己判斷按鈕是否可用、頁面是否正常。
模型只有拿到這些驗證信號,才有可能形成:執(zhí)行 → 驗證 → 修正 → 再執(zhí)行。
而這一點,也正是前面網(wǎng)友 rari@0xwhrrari 認為很重要的一點:close the agent loop(閉環(huán)智能體循環(huán)),「Loop 設(shè)計,讓模型能夠驗證自身的輸出結(jié)果。」
三是模型越來越擅長在更長任務(wù)周期上運行
舊模型在長任務(wù)中經(jīng)常會陷入「跟丟主線」(Losing the plots)的窘境,用戶給它一個長任務(wù),它做著做著就忘了最初目標,或在執(zhí)行到一半時遺忘最初的上下文或核心指令。
而現(xiàn)在,模型在長程任務(wù)的上下文連貫性上有了顯著突破,能夠穩(wěn)定地將注意力維持在 100 萬個 Token 甚至更高的級別。這意味著開發(fā)者不再需要把上下文窗口切得那么碎,而是可以直接將整個代碼庫遞給模型。
![]()
未來更合理的方式,是把更完整的任務(wù)交給模型。比如,給它整個代碼庫,而不是只給它某個文件;給它完整產(chǎn)品需求,而不是只給一個孤立函數(shù);讓它跑完整流程,而不是只完成一個局部步驟。
當規(guī)劃能力、錯誤恢復能力和長上下文能力疊加到一起,Agent 的形態(tài)就會發(fā)生變化。
它可以先規(guī)劃,再執(zhí)行;執(zhí)行之后,通過工具或人類反饋驗證結(jié)果;如果發(fā)現(xiàn)問題,就調(diào)整計劃,繼續(xù)執(zhí)行。這個循環(huán)持續(xù)進行,直到最終完成任務(wù)。
開發(fā)者該如何為未來進行構(gòu)建?
因此,隨著模型變得越來越智能,用戶基本上可以讓它運行更長時間,而它完成任務(wù)的效率和效果都會比過去更好。
那么,從戰(zhàn)術(shù)上講,用戶現(xiàn)在到底應(yīng)該如何為這個「未來」構(gòu)建產(chǎn)品?也就是說,如何為正在變得越來越強的模型構(gòu)建產(chǎn)品?
Theo 認為,開發(fā)者在產(chǎn)品與工程層面需要全面升級自己的研發(fā)戰(zhàn)術(shù):
一是主動保持野心,動態(tài)刷新評估基準(Evals)
首先,要更大膽地嘗試、允許 Claude 處理更多事情,不要總是測試那些你覺得 Claude 12 個月前就能完成的任務(wù),而應(yīng)該開始思考那些 Claude 今天還做不到的任務(wù),并持續(xù)關(guān)注這些任務(wù)。
另外,在模型快速進步之后,開發(fā)者最容易遇到的一個誤判是:覺得新模型沒有明顯提升。其實,背后原因可能不在模型,而在 Evals。
Theo 提到,有些客戶在新模型發(fā)布后會說:「我的 Evals 只提升了 1%,所以這個模型好像沒強多少。」但真正用起來之后,他們又會發(fā)現(xiàn),新模型在某些能力上提升非常明顯,只是原來的 Evals 根本沒有測到。
這說明,Evals 也會過時。
AI 時代,Evals 有點像單元測試,它可以幫助開發(fā)者判斷模型是否真正具備某種能力,也可以幫助產(chǎn)品團隊追蹤模型變化對用戶體驗的影響。但一個好的 Eval,不能只測試今天模型已經(jīng)會做的事情,還應(yīng)該包含今天模型尚未完全解決、但未來用戶體驗真正需要的任務(wù)。
換句話說,Evals 要面向未來設(shè)計。不要只盯著眼前的客戶體驗,要將用戶報告的最新失敗模式,以及你希望應(yīng)用未來發(fā)展的方向融入到測試用例中。如果某些遺留問題被證明不可解,請立刻更新更難的題目。
二是精簡「腳手架」(Shrink the Scaffolding)
Theo 反復強調(diào)的另一個建議是:shrink your scaffolding,縮小模型周圍的「腳手架」。
所謂「腳手架」,即在工程實踐中,開發(fā)者為了修補舊模型的各種漏洞,在其周圍套上的系統(tǒng)提示詞、外部工具、代碼 Harness,以及各種圍繞模型搭建的約束和補丁。
比如,模型某次引用格式錯了,就加一條規(guī)則;模型某次沒遵守要求,就再寫一段約束;模型某次調(diào)用工具失敗,就在外層加更多邏輯…… 這些補丁在舊模型時代可能有用。但當新模型的指令遵循能力變強之后,舊補丁反而可能成為問題。
Theo 舉了 Anthropic 自身的一個例子。團隊曾一度以為新模型在 Claude.ai 的引用功能上出了 Bug,后來檢查才發(fā)現(xiàn),是因為新模型遵循指令的能力大幅提升,導致它極其聽話地去執(zhí)行了一行很久以前寫在系統(tǒng)提示詞里、但現(xiàn)在已經(jīng)過時的引用格式指令。團隊最終只需將那行過時的提示詞徹底刪掉,功能便恢復了正常。
這說明,開發(fā)者應(yīng)當「針對意圖」去編寫簡潔的提示詞,明確最終想要的結(jié)果,而不是圍繞著過去老模型的失敗經(jīng)驗去過度包裝。給模型松綁,精簡「腳手架」,讓它擁有更多的自主權(quán),你才能看清它真正的天花板在哪里。
三是閉環(huán)設(shè)計,讓模型驗證自身的輸出結(jié)果
模型要完成更復雜的任務(wù),只會思考還不夠,它還需要動作能力。
這是構(gòu)建自改進 Agent 最核心的底層邏輯。既然模型已經(jīng)具備了極強的錯誤恢復能力,就必須在工程上「閉環(huán)智能體循環(huán)」(Close the Agent Loop):
- 給模型留出思考與工作的空間:引入自適應(yīng)思考機制。在產(chǎn)品設(shè)計上允許模型進行前端思考,甚至可以通過投入度撥盤(Effort Dial)讓模型可以自由上調(diào)或下調(diào)在某個復雜問題上的鉆研程度。
- 以受控的方式開放高權(quán)限:想要發(fā)揮 Agent 的自主性,就必須賦予它在環(huán)境里采取行動的權(quán)限。Anthropic 在 Claude Code 中推出了「自動模式」分類器,它能夠在「開發(fā)者的控制欲」與「模型的自主權(quán)」之間找到完美平衡,自動甄別哪些行動是安全可取的,防止模型誤刪環(huán)境。
- 提供自我質(zhì)檢的工具:應(yīng)該為 Agent 配備諸如 「Computer Use」這樣的自動化驗證工具,讓智能體能夠自己去前端到處點一點、做質(zhì)檢,通過環(huán)境的真實反饋發(fā)現(xiàn)自身的錯誤,從而實現(xiàn)代碼的自我迭代與修正。
https://x.com/0xwhrrari/status/2069163624375976103
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.