![]()
![]()
檢驗Agent水平的唯一標準是長任務。
這個判斷,建立在一個簡單的事實上:短任務可以靠記憶完成,長任務必須靠理解完成。短任務中,模型只需處理當前輸入;長任務中,模型需要保持上下文的連貫性,需要在數百步后還記得最初的意圖,需要在遇到異常時自主調整策略。
學術基準的殘酷數據告訴我們,當前最頂尖的Agent在長任務中的通過率不足20%,而且隨著任務迭代,代碼質量持續(xù)惡化。這不是一個可以通過增加參數量來解決的問題,而是需要重新思考Agent架構,一個從上下文管理到工作流編排、從多智能體協(xié)作到縱深防御的系統(tǒng)性工程。
Claude與Codex的競爭,揭示了兩種不同的進化路徑。Claude強化上下文容量與協(xié)作能力,Codex強化超人類調試與自我進化。這兩條路徑并不互斥。真正能夠攻克長任務的Agent,可能同時需要兩者的優(yōu)勢。
而Token經濟學的興起,則為長任務提供了商業(yè)價值的錨點。當Agent能夠完成人類需要數小時甚至數天的復雜任務,消耗百萬級Token的成本就變得微不足道。問題在于,如何讓Agent的完成率從20%提升到80%,如何讓代碼質量在迭代中不退化,如何在不確定性中保持穩(wěn)定。
這些問題沒有簡單的答案。但有一點是確定的:在這個Agent元年的春天,長任務能力不再是一個技術指標,而是區(qū)分“玩具”與“工具”的唯一標準。能完成長任務的Agent,其Token才有價值,其商業(yè)模型才有意義,其存在才能重構人類的工作流與生活流。
01
從短任務到長任務,Agent的成人禮
2026年被多方確認為“智能體元年”。這個判斷背后的真實含義是:AI正在從“回答問題的人”變成“完成任務的人”。第三波AI浪潮的核心是自主執(zhí)行,而不再是輔助性質的Copilot。
這個轉變聽起來簡單,但它在工程層面的含義是顛覆性的。
過去兩年,大模型競爭的核心敘事一直是模型能力本身:參數規(guī)模有多大,推理深度有多強,復雜任務的單步完成率有多高。這些指標在Chatbot時代是有效的,因為那時候AI的角色是“回答者”,你問一句,它答一句,任務在單輪交互中結束。
但當AI開始扮演“執(zhí)行者”,規(guī)則徹底改變了。一個稍微復雜的任務,比如從零開發(fā)一個網頁應用,或者跨系統(tǒng)完成一份數據分析報告,需要幾十甚至上百個步驟:理解需求、拆解任務、調用工具、處理異常、驗證結果、自我修正。每一步都可能出錯,每一步的錯誤都會累積。
這意味著,短任務能力是各家模型都能做到的,它本質上只是披著Agent外衣的編程自動化。而長任務能力,才是Agent真正的入門門檻,它考驗的不僅僅是模型的推理能力,更是上下文管理的精度、工作流編排的韌性、以及對不確定性的處理能力。
2026年2月發(fā)布的LongCLI-Bench,專門測試Agent在真實開發(fā)場景中的長任務能力。評測集涵蓋了從零開發(fā)、功能添加、錯誤修復到代碼重構四大工程類別,每個任務都需要數十步的連續(xù)操作。
結果令人警醒:即使是最先進的Agent,通過率也低于20%。更值得玩味的是失敗模式:大部分任務在完成度不到30%的階段就已停滯,關鍵失敗往往發(fā)生在早期階段。
這意味著當前最頂尖的Agent,在面對真正的長任務時,連“開個好頭”都做不到。
它們可以在單步任務中表現出驚人的能力,但當任務的鏈條拉長、依賴關系變得復雜、需要持續(xù)的上下文記憶和策略調整時,它們就會迷失。
![]()
圖表:長任務通過率對比;數據來源:LongCLI-Bench,2026年2月。即便最先進的Agent,在長任務基準上的通過率仍不足20%。
另一項名為SlopCodeBench的研究揭示了更深層的問題。該研究追蹤了Agent在迭代式任務中的表現,發(fā)現了一個系統(tǒng)性的退化模式:隨著任務迭代次數的增加,Agent生成的代碼質量持續(xù)下降。80%的軌跡中出現了結構侵蝕,近90%的軌跡中冗余代碼比例上升。
研究團隊對比了Agent代碼與48個開源Python倉庫中的代碼,發(fā)現Agent代碼的冗余度是人工代碼的2.2倍,結構侵蝕程度也明顯更嚴重。當追蹤20個代碼倉庫隨時間的演變時,人類代碼的質量保持穩(wěn)定,而Agent代碼隨著每次迭代都在惡化。
![]()
圖表:Agent代碼冗余度隨迭代次數持續(xù)上升,而人類代碼保持穩(wěn)定。數據來源:SlopCodeBench,2026年3月。
這一發(fā)現揭示了一個根本性的問題:當前的Agent缺乏那種在復雜任務中保持結構一致性、不被短期需求帶偏的能力。而這種能力,恰恰是長任務成功的核心。
02
Claude與Codex,兩條通往長任務的路
在AI編程工具的競技場上,Claude和Codex的競爭是觀察Agent能力演進的最佳窗口。
2026年2月5日,Anthropic與OpenAI同日發(fā)布了各自的王牌模型:Claude Opus 4.6與GPT-5.3-Codex。這場正面交鋒,表面上是一場性能競賽,實質上是對Agent核心能力的兩種不同理解。
Claude的路線:長上下文與團隊協(xié)作
Claude Opus 4.6最關鍵的升級是上下文窗口從20萬token直接躍升至100萬token。這意味著你可以把整個項目的代碼庫一次性喂給它,它能同時看到項目里所有文件,理解整體架構。
但真正的殺手锏并非單純的長上下文,而是Anthropic在“上下文拆分”上的精細設計。前OpenAI Codex核心研發(fā)者Calvin French-Owen在一檔播客中直言,Claude Code最厲害的地方,就是其上下文拆分能力。
當面對復雜任務時,Claude Code會自動生成多個探索型子智能體,這些子智能體會通過工具掃描整個文件系統(tǒng)、檢索相關內容,而且每個子智能體都有獨立的上下文窗口。完成任務后,它們會將關鍵信息匯總反饋給主智能體。
這種設計的意義在于顯著降低了“上下文噪音”。
在代碼倉庫這樣信息密度極高的環(huán)境中,不是所有信息都同等重要。Claude的策略是讓專門的子智能體去探索、篩選、總結,然后只將最關鍵的信息傳遞給主智能體。這種分工協(xié)作的模式,使主智能體能夠專注于高層決策,而不會被底層細節(jié)淹沒。
![]()
圖表:上下文容量提升5倍,關鍵信息檢索能力提升4倍。(Claude Opus 4.6 vs 前代);數據來源:Anthropic官方技術報告。
Codex的路線:超人類調試與自我進化
相比之下,OpenAI的GPT-5.3-Codex選擇了另一條路。Calvin French-Owen的評價是:Codex很有“個性”,像AlphaGo,在調試復雜問題時的表現堪稱超人類,很多Opus模型解決不了的問題,Codex都能搞定。
Codex的核心優(yōu)勢在于其“自我構建”能力。它是OpenAI第一個幫助構建自己的模型。Codex團隊用Codex來調試自己的訓練過程、管理自己的部署、診斷測試結果和評估。這種“AI自己造AI”的反饋循環(huán),意味著進化速度會越來越快。
在產品理念上,OpenAI更關注做出最強的大模型(即AGI)。這體現在Codex的設計中:它不追求最優(yōu)雅的交互,不追求最透明的決策過程,它追求的是在最困難的調試場景中,找到人類找不到的解決方案。
兩種路線的本質
Claude和Codex的競爭,揭示了Agent核心能力的兩個維度。
第一個維度是上下文容量。Claude Opus 4.6在MRCR v2測試(專門測試AI在海量文本中找信息的能力)中得分76%,而Sonnet 4.5只有18.5%。這76%對18.5%的差距,不是量變,是質變。它意味著Agent能否在長任務中記住早期階段的關鍵信息,能否在任務推進數百步后仍然不丟失最初的目標。
第二個維度是上下文質量。Calvin French-Owen分享了一個非常實用的經驗:當上下文token占用超過50%時,他會主動清理。他用一種“金絲雀檢測”方法——在上下文里埋入一些無關但可驗證的小信息,一旦模型開始遺忘,說明上下文已經被污染。
這兩個維度的結合,構成了Agent長任務能力的核心公式:
長任務能力=上下文容量×上下文質量
僅有容量,沒有質量,Agent會在信息的汪洋中迷失;僅有質量,沒有容量,Agent無法處理真正的復雜任務。
03
能完成長任務的Agent,其Token才有價值
當Agent開始執(zhí)行長任務,Token的角色從技術副產品轉變?yōu)閼?zhàn)略資產。
Token正在成為AI時代的“新大宗商品”,標準化、可計量、可交易。無問芯穹聯合創(chuàng)始人夏立雪的體驗很有代表性:從2026年1月開始,公司Token消耗每兩周翻一番,至今已經翻了10倍。
這種增長速度,上一次出現還是在3G手機流量時代。但兩者的含義完全不同:3G流量的增長代表用戶行為的遷移,Token消耗的增長代表經濟活動本身的AI化。
錦緞研究院早在 2025 年就敏銳地捕捉到了這一趨勢,在其文章《Token 將成為未來世界最重要資源》中率先提出了“Token 經濟學”的概念框架,指出 Token 將作為衡量智能時代價值的基本單位,重塑資源配置的邏輯。
2026年GTC大會上,黃仁勛正式提出“Token經濟學”概念,讓這一概念被更廣泛地認知。Agent當下已經成為大模型最核心的工作負載,Token則是驅動數字經濟的核心生產要素。國家數據局在2026年3月將Token的官方翻譯定為“詞元”,并指出其是“智能時代的價值錨點”。
Token消耗與任務長度之間存在正相關關系。但更重要的是,Token的價值密度隨著任務長度而增加。
![]()
圖表4:長任務Token消耗量級對比,長任務Token消耗可達百萬級,是短任務的數十甚至數百倍。
在短任務場景中,Token的價值是線性的:1000個Token完成一個問答,價值有限。但在長任務場景中,Token的價值是指數級的:百萬級Token完成一個完整的軟件開發(fā)任務,其產出可能是數萬美元的商業(yè)價值。
這解釋了為什么商業(yè)模式正在從訂閱制向Token制遷移。
但這同時也帶來了新的挑戰(zhàn)。一旦Agent高頻自動運轉,不可控的龐大算力消耗讓企業(yè)客戶難以承受成本壓力。
這意味著,長任務的商業(yè)價值不僅體現在它能完成什么,還體現在它消耗多少Token——以及這些Token的定價權掌握在誰手中。
AI對SaaS賽道最深遠的沖擊,是對其底層按坐席收費模式的結構性瓦解。AI作為數字勞動力,客觀具備消減人類工作量的屬性,這直接威脅了傳統(tǒng)SaaS賴以生存的年度經常性收入增長邏輯。
![]()
圖表:Agent商業(yè)模式遷移:License → Token → 結果付費。長任務的價值錨定是這一遷移的關鍵。來源:錦緞研究院
行業(yè)的終局愿景,是邁向按業(yè)務價值或最終結果付費的模式。但這一模式面臨一個根本性的度量難題:當任務足夠長、足夠復雜,AI的貢獻與人類的貢獻便深度交織、難以分割。這種價值歸因的困境,并非某個特定場景下的技術問題,而是智能體商業(yè)模式必須面對的核心命題。
這些問題沒有現成的答案。
但可以肯定的是,在智能體元年的春天,對長任務能力的探索,不再僅僅是技術指標的角逐,而是決定AI能否從“玩具”蛻變?yōu)椤肮ぞ摺钡年P鍵一躍。
圍繞上下文容量與質量、多智能體協(xié)作、縱深防御的編排系統(tǒng)以及Token經濟學的持續(xù)創(chuàng)新,正共同描繪著這幅從“回答問題”到“完成任務”的宏大圖景。這場變革的終局,將深刻地重塑我們與數字世界互動的方式,以及商業(yè)價值創(chuàng)造的底層邏輯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.