80%代碼由Claude合并，Anthropic內(nèi)部人員點破Agent真相

2026-06-25 10:52:57　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

最近，Anthropic 團隊研究產(chǎn)品經(jīng)理 Theodora（Theo）Chu 的一段演講視頻，引起了大家的注意。

Theo 表示，當前越來越多的開發(fā)者已經(jīng)不再只是「聽說過 Claude」，而是在日常工作中真正感受到效率提升。有人認為 Claude 讓自己效率翻倍，也有人認為提升了 10 倍。更重要的是，Claude 已經(jīng)開始深入 Anthropic 自身的工程流程，「Anthropic 內(nèi)部超過 80% 的代碼由 Claude 合并。」

這意味著，模型的角色正在發(fā)生變化。

模型不再只是停留在回答問題階段，而是在一個可以反饋、驗證、修正的環(huán)境里持續(xù)完成任務(wù)。「Close the Loop（閉合循環(huán)），給模型一種驗證自身輸出結(jié)果的方式。」

而在這場分享中，Theo 想要告訴開發(fā)者的是，「你應(yīng)該如何適應(yīng)這個新世界，又應(yīng)該如何面向未來構(gòu)建產(chǎn)品，而不是只為過去構(gòu)建產(chǎn)品。」

為此，Theo 詳細拆解了如何構(gòu)建能夠自我改進的 Agent，「真正的配置，是讓 Claude 在循環(huán)、計劃模式和動態(tài)工作流中持續(xù)運行。」

網(wǎng)友 rari@0xwhrrari 認為，「這要比大多數(shù) 300 美元的 Agent 課程都要好。」

那么，接下來，我們就來詳細了解一下這場演講到底講了什么。

一年之內(nèi)，模型失敗率被大幅壓低

Theo 用編程評估基準 SWE-bench Verified 舉了一個例子，它由一系列 GitHub issue 組成，模型需要理解問題、修改代碼，并通過測試來證明自己真正解決了任務(wù)，這是 Anthropic 內(nèi)部用來觀察 Claude 編程能力提升的重要評測：

一年前的 Sonnet 3.7 得分僅為 60% 左右，而到了 Opus 4.8，得分已經(jīng)達到了 88%。

這意味著，一年前的模型在這些任務(wù)上的失敗次數(shù)，大約是現(xiàn)在的 3 倍。

這也是演講中最值得注意的地方：模型能力提升，并不只是「多做對幾道題」，而是失敗率正在快速下降。失敗率下降之后，模型才有可能承擔更長、更復雜、更接近真實工作的任務(wù)。

此外，更不可思議的是，在最新的 Mythos 和 Fable 系列模型中，該基準測試實際上已經(jīng)出現(xiàn)接近飽和的跡象。換句話說，一些過去足夠難的測試，今天可能已經(jīng)不再能有效區(qū)分模型能力。

這對開發(fā)者來說是一個重要信號：如果你還在用 12 個月前的任務(wù)測試今天的模型，就很容易低估模型真正的能力邊界。

而新模型這種智能的增長，具體落在了以下三個核心領(lǐng)域：

一是先規(guī)劃，再行動

Theo 展示了同一個任務(wù)在兩個不同模型上的表現(xiàn)：讓模型一次性重建 Claude.ai 網(wǎng)站。

結(jié)果表明，舊模型的典型做法是，上來就開始寫大量代碼、調(diào)用大量工具，幾乎沒有充分規(guī)劃。結(jié)果是，界面看起來似乎合理，但實際運行并不完整，功能也不能真正閉環(huán)。

「有點像我裝宜家家具時的樣子：一上來就動手，根本不看說明書，先開始拼，拼著拼著發(fā)現(xiàn)做錯了，然后才意識到自己應(yīng)該回去看說明書。」

而以 Opus 4.8 為代表的新模型則表現(xiàn)出了自適應(yīng)思考（Adaptive thinking）的能力。它們會先在內(nèi)部深思熟慮具體的規(guī)范，在預先規(guī)劃的過程中及時捕捉錯誤（你甚至會在邏輯推理中看到它們輸出「實際上……」或「算了，還是……」這樣的自我修正詞）。

這種先規(guī)劃后行動的方式，讓模型在第一次實際執(zhí)行時就能高效落地，大幅減少了不必要的工具調(diào)用與代碼行數(shù)。

因此，Theo 給開發(fā)者的建議是：要允許模型先思考。

產(chǎn)品體驗也應(yīng)該為這種思考留下空間：比如使用自適應(yīng)思考，讓模型自己判斷什么時候需要思考、需要思考多久。簡單問題不必讓模型大動干戈，但復雜任務(wù)應(yīng)該給它足夠的規(guī)劃空間。

二是錯誤恢復和自我糾正

過去很多人做 Agent，重點放在「讓模型能調(diào)用更多工具」。但 Theo 強調(diào)：工具調(diào)用本身還不夠，模型必須知道自己什么時候做錯了。

舊模型有一個常見問題是 doom looping：模型接到任務(wù)之后，如果失敗了，你告訴它：「嘿，我覺得你應(yīng)該換一種方式做」。或者，環(huán)境給了它某種反饋，提示它應(yīng)該做另一件事。它會說：「好的，我再試一次。」

但當它再次嘗試時，往往又會回到之前同樣的解法，并不會真正改變做法。

新模型在這方面進步明顯。它能夠讀取反饋、理解失敗原因，然后嘗試不同路徑。這樣一來，模型不再只是被動執(zhí)行命令，而是開始具備某種錯誤恢復能力。

這對 Agent 產(chǎn)品尤其關(guān)鍵。因為只要任務(wù)足夠長，模型就一定會遇到錯誤：代碼跑不通、頁面點擊失敗、測試沒有通過、用戶反饋不滿意、環(huán)境返回異常結(jié)果。真正有價值的 Agent，不是永遠不犯錯，而是犯錯之后能不能恢復。

因此，Theo 認為，開發(fā)者需要重新設(shè)計模型所處的環(huán)境。環(huán)境要能給模型反饋，讓模型知道自己哪里做錯了。

「這也意味著，模型不會因為 doom looping 而浪費 token，而是可以用更少的 token 完成任務(wù)。」

比如，如果你正在做一個應(yīng)用生成 Agent，就應(yīng)該給它訪問前端界面的能力，讓它可以自己點擊、自己測試、自己判斷按鈕是否可用、頁面是否正常。

模型只有拿到這些驗證信號，才有可能形成：執(zhí)行 → 驗證 → 修正 → 再執(zhí)行。

而這一點，也正是前面網(wǎng)友 rari@0xwhrrari 認為很重要的一點：close the agent loop（閉環(huán)智能體循環(huán)），「Loop 設(shè)計，讓模型能夠驗證自身的輸出結(jié)果。」

三是模型越來越擅長在更長任務(wù)周期上運行

舊模型在長任務(wù)中經(jīng)常會陷入「跟丟主線」（Losing the plots）的窘境，用戶給它一個長任務(wù)，它做著做著就忘了最初目標，或在執(zhí)行到一半時遺忘最初的上下文或核心指令。

而現(xiàn)在，模型在長程任務(wù)的上下文連貫性上有了顯著突破，能夠穩(wěn)定地將注意力維持在 100 萬個 Token 甚至更高的級別。這意味著開發(fā)者不再需要把上下文窗口切得那么碎，而是可以直接將整個代碼庫遞給模型。

未來更合理的方式，是把更完整的任務(wù)交給模型。比如，給它整個代碼庫，而不是只給它某個文件；給它完整產(chǎn)品需求，而不是只給一個孤立函數(shù)；讓它跑完整流程，而不是只完成一個局部步驟。

當規(guī)劃能力、錯誤恢復能力和長上下文能力疊加到一起，Agent 的形態(tài)就會發(fā)生變化。

它可以先規(guī)劃，再執(zhí)行；執(zhí)行之后，通過工具或人類反饋驗證結(jié)果；如果發(fā)現(xiàn)問題，就調(diào)整計劃，繼續(xù)執(zhí)行。這個循環(huán)持續(xù)進行，直到最終完成任務(wù)。

開發(fā)者該如何為未來進行構(gòu)建？

因此，隨著模型變得越來越智能，用戶基本上可以讓它運行更長時間，而它完成任務(wù)的效率和效果都會比過去更好。

那么，從戰(zhàn)術(shù)上講，用戶現(xiàn)在到底應(yīng)該如何為這個「未來」構(gòu)建產(chǎn)品？也就是說，如何為正在變得越來越強的模型構(gòu)建產(chǎn)品？

Theo 認為，開發(fā)者在產(chǎn)品與工程層面需要全面升級自己的研發(fā)戰(zhàn)術(shù)：

一是主動保持野心，動態(tài)刷新評估基準（Evals）

首先，要更大膽地嘗試、允許 Claude 處理更多事情，不要總是測試那些你覺得 Claude 12 個月前就能完成的任務(wù)，而應(yīng)該開始思考那些 Claude 今天還做不到的任務(wù)，并持續(xù)關(guān)注這些任務(wù)。

另外，在模型快速進步之后，開發(fā)者最容易遇到的一個誤判是：覺得新模型沒有明顯提升。其實，背后原因可能不在模型，而在 Evals。

Theo 提到，有些客戶在新模型發(fā)布后會說：「我的 Evals 只提升了 1%，所以這個模型好像沒強多少。」但真正用起來之后，他們又會發(fā)現(xiàn)，新模型在某些能力上提升非常明顯，只是原來的 Evals 根本沒有測到。

這說明，Evals 也會過時。

AI 時代，Evals 有點像單元測試，它可以幫助開發(fā)者判斷模型是否真正具備某種能力，也可以幫助產(chǎn)品團隊追蹤模型變化對用戶體驗的影響。但一個好的 Eval，不能只測試今天模型已經(jīng)會做的事情，還應(yīng)該包含今天模型尚未完全解決、但未來用戶體驗真正需要的任務(wù)。

換句話說，Evals 要面向未來設(shè)計。不要只盯著眼前的客戶體驗，要將用戶報告的最新失敗模式，以及你希望應(yīng)用未來發(fā)展的方向融入到測試用例中。如果某些遺留問題被證明不可解，請立刻更新更難的題目。

二是精簡「腳手架」（Shrink the Scaffolding）

Theo 反復強調(diào)的另一個建議是：shrink your scaffolding，縮小模型周圍的「腳手架」。

所謂「腳手架」，即在工程實踐中，開發(fā)者為了修補舊模型的各種漏洞，在其周圍套上的系統(tǒng)提示詞、外部工具、代碼 Harness，以及各種圍繞模型搭建的約束和補丁。

比如，模型某次引用格式錯了，就加一條規(guī)則；模型某次沒遵守要求，就再寫一段約束；模型某次調(diào)用工具失敗，就在外層加更多邏輯…… 這些補丁在舊模型時代可能有用。但當新模型的指令遵循能力變強之后，舊補丁反而可能成為問題。

Theo 舉了 Anthropic 自身的一個例子。團隊曾一度以為新模型在 Claude.ai 的引用功能上出了 Bug，后來檢查才發(fā)現(xiàn)，是因為新模型遵循指令的能力大幅提升，導致它極其聽話地去執(zhí)行了一行很久以前寫在系統(tǒng)提示詞里、但現(xiàn)在已經(jīng)過時的引用格式指令。團隊最終只需將那行過時的提示詞徹底刪掉，功能便恢復了正常。

這說明，開發(fā)者應(yīng)當「針對意圖」去編寫簡潔的提示詞，明確最終想要的結(jié)果，而不是圍繞著過去老模型的失敗經(jīng)驗去過度包裝。給模型松綁，精簡「腳手架」，讓它擁有更多的自主權(quán)，你才能看清它真正的天花板在哪里。

三是閉環(huán)設(shè)計，讓模型驗證自身的輸出結(jié)果

模型要完成更復雜的任務(wù)，只會思考還不夠，它還需要動作能力。

這是構(gòu)建自改進 Agent 最核心的底層邏輯。既然模型已經(jīng)具備了極強的錯誤恢復能力，就必須在工程上「閉環(huán)智能體循環(huán)」（Close the Agent Loop）：

給模型留出思考與工作的空間：引入自適應(yīng)思考機制。在產(chǎn)品設(shè)計上允許模型進行前端思考，甚至可以通過投入度撥盤（Effort Dial）讓模型可以自由上調(diào)或下調(diào)在某個復雜問題上的鉆研程度。
以受控的方式開放高權(quán)限：想要發(fā)揮 Agent 的自主性，就必須賦予它在環(huán)境里采取行動的權(quán)限。Anthropic 在 Claude Code 中推出了「自動模式」分類器，它能夠在「開發(fā)者的控制欲」與「模型的自主權(quán)」之間找到完美平衡，自動甄別哪些行動是安全可取的，防止模型誤刪環(huán)境。
提供自我質(zhì)檢的工具：應(yīng)該為 Agent 配備諸如「Computer Use」這樣的自動化驗證工具，讓智能體能夠自己去前端到處點一點、做質(zhì)檢，通過環(huán)境的真實反饋發(fā)現(xiàn)自身的錯誤，從而實現(xiàn)代碼的自我迭代與修正。

https://x.com/0xwhrrari/status/2069163624375976103

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.