當人們熱衷于討論 AI 智能體還能變得多強時,Toby Ord 把問題拉回到了一個更現實的維度:成本。 本文基于其文章 《Are the Costs of AI Agents Also Rising Exponentially?》 做延展解讀,嘗試回答一個值得所有人關注的問題——AI 不斷突破任務時長邊界的同時,它的使用成本是否也在悄然逼近,甚至接近人類勞動成本?
AI 智能體的成本,也在指數級上升嗎?
關于 AI 近期發展,有一個極其重要、卻幾乎很少被認真討論的問題。
過去幾年,我們已經反復看到 METR 的圖表:AI 智能體能夠完成的任務時長,正在以驚人的速度增長。7 年前,GPT-2 只能處理那些只需要幾秒鐘的軟件工程任務;而如今,最新模型已經能夠以約 50% 的成功率,完成那些通常需要人類數小時才能完成的任務。
![]()
隨著這一趨勢沒有明顯放緩,許多人自然開始進一步外推:AI 何時能完成一整天的工程任務?一整周?甚至一整年?
但在這些討論中,往往缺少一個關鍵變量——成本。
只看能力增長,還不夠
過去 7 年間,AI 系統本身經歷了指數級擴張。模型參數量增長了數千倍,而單個任務中使用的 token 數量更是增長了數萬倍。雖然研究者也持續提升了效率,但一個完全合理的推測是:為了實現 METR 所展示的“最優表現”,其背后的成本也很可能在持續上升,甚至同樣呈指數增長。
這件事本身未必一定糟糕。
比如,如果 AI 每年能夠處理的任務時長增長 3 倍,而達到這種能力所需的成本也同步增長 3 倍,那么 AI 相對于人類的成本競爭力并沒有發生根本變化。甚至如果成本增長慢于能力增長,那么 AI 實際上會變得越來越便宜。
真正值得警惕的是另一種情況:如果成本增長速度快于任務時長增長速度,會發生什么?
如果真是這樣,那么最前沿的 AI 系統,雖然在“能力上”越來越強,但在“經濟上”可能反而越來越不劃算。METR 的時間跨度趨勢,也就可能變得具有誤導性:它展示的是技術邊界如何不斷推進,但其中一部分進步,可能只是因為投入了越來越奢侈的推理算力。
那樣的話,最先進的 AI 更像是性能競賽中的“一級方程式賽車”——它展示了什么是可能的,卻不一定展示了什么是現實可用的。
一個更關鍵的問題:AI 的“每小時成本”如何變化?
因此,真正值得追問的問題應該是:
AI 智能體的“每小時成本”究竟在如何變化?
這里所謂的“每小時成本”,并不是指模型實際運行了多久,而是指:
一個模型在其 50% 時間跨度附近完成任務所需的成本,除以這類任務通常需要人類花費的時間。
舉個例子,如果某個模型能夠以 50% 的成功率,完成“人類軟件工程師通常需要 2 小時完成”的任務,那么我們就可以把它執行這類任務的費用除以 2,得到它在這種任務上的“每小時成本”。
這個問題看似簡單,但現實中真正思考過的人并不多。
而一旦問起大家的直覺,答案往往差異極大。有人默認 AI 完成任務的總成本大體沒變,只是任務時長在不斷增長;這意味著 AI 的單位小時成本正在快速下降。也有人認為,隨著前沿模型價格不斷上漲,AI 完成任務的總成本本身也在快速上升。
但事實上,大多數人——包括作者自己——其實并不知道,今天讓 AI 智能體完成一小時的軟件工程工作,究竟是幾美分、幾美元,還是幾百美元。
一個聽起來幾乎有些反直覺的問題開始出現:
AI 智能體每小時的成本,難道真的可能接近甚至超過人類嗎?
為什么不能直接拿“總花費”來回答這個問題
作者曾向 METR 詢問是否能直接分享基準測試的成本數據,原本以為只要把不同模型的測試花費按發布日期畫出來,就能大致看出趨勢。
但問題沒有這么簡單。
原因在于,METR 的 headline time horizon,本來就不是為了衡量“達到某種表現的最低成本”,而是為了衡量:在不計成本的情況下,一個模型理論上能達到的最佳表現。
為此,他們會讓模型在 agent scaffold 中不斷運行,直到性能明顯進入平臺期。因為他們關心的是“這個平臺到底有多高”,而不是“從哪里開始變平”,所以他們會投入相當多的算力,也不太在意是否已經超出了達到該表現所需的最優成本。
這意味著:不同模型的總測試花費,有時只是剛好足夠進入平臺期,有時卻可能遠遠超過所需。因此,總支出不能直接視為“實現該能力所需的經濟成本”。
一張關鍵圖:性能如何隨著成本上升
幸運的是,METR 發布了一張非常有價值的圖。它展示的不是單純的時間跨度結果,而是:
![]()
模型性能如何隨著成本增加而提升。這里的“成本”,主要指為了完成任務而投入更多 token,也就是更多推理算力所帶來的開銷。
圖中,黃色曲線代表人類表現。它的走勢大體接近線性:完成更長時間的任務,需要投入更多工作時間和工資,這幾乎是線性關系。比如,讓一位軟件工程師做 8 小時任務,成本大約就是 1 小時任務的 8 倍。
而其他彩色曲線,則代表不同的 LLM 智能體。
與人類不同,這些模型都展現出一個共同特征:邊際收益遞減。
也就是說,在一開始增加算力時,模型性能會有所提升;但隨著投入越來越多,收益開始變小,最后逐漸趨于停滯,進入平臺期。繼續投入更多推理資源,帶來的提升已經越來越有限。
作者也提醒,這些曲線末端有時會出現短暫上翹。這并不一定意味著模型能力突然躍升,而更可能是評測偽影:某些模型傾向于等到最后時刻才輸出答案,導致圖上看起來像是前面一段時間都在“橫盤”,最后卻突然向上跳了一下。
用“固定每小時成本線”重新看這張圖
為了從這張圖中進一步提取信息,作者做了一個非常巧妙的處理:在圖中加入固定每小時成本線。
![]()
在雙對數坐標下,這樣的線會表現為斜率為 1 的直線。對于這些線而言,越靠左,表示每小時成本越低。
![]()
然后,作者為每條模型曲線都找出一條“剛好與之相切”的固定每小時成本線。這個相切點,就是該模型所能達到的最低每小時成本。作者把它稱為模型的sweet spot。
這個點很重要,因為它代表的是模型在“單位成本效率”上最優的位置。
在 sweet spot 之前,隨著成本上升,模型的任務時長增長得更快,說明此時投入算力仍然非常劃算;而一旦過了 sweet spot,邊際收益遞減開始顯著出現,繼續往上加錢就不再那么值了。
AI 的最低“時薪”其實差異極大
從圖中可以看出,人類軟件工程師的成本大約是120 美元/小時。
而不同 AI 模型在 sweet spot 上的成本差異極大:高的如 o3,大約40 美元/小時;低的如 Grok 4 和 Sonnet 3.5,可以低到0.4 美元/小時。
![]()
這說明,雖然這些模型在“能完成多長任務”上的差距大約只有十幾倍,但在“最佳單位成本”上的差距卻可能達到兩位數量級。
更值得注意的是,sweet spot 只是這些模型最劃算的時候。
一旦進入更長任務區間,尤其是接近平臺期時,它們的單位小時成本會迅速上升,往往高出 10 倍甚至 100 倍。比如,某個模型在最佳點可能只要幾角錢一小時,但一旦逼近其能力上限,成本就可能漲到十幾美元,甚至上百美元一小時。
換句話說:
模型越接近它的最長任務能力,往往也越不經濟。
而這正是作者試圖強調的問題——如果人們只看“能做多久”,卻不看“做這么久要花多少錢”,就會對 AI 智能體的現實可用性產生過于樂觀的判斷。
平臺期附近:能力還在漲,但成本可能已經不現實
除了 sweet spot,作者還為每條曲線定義了一個saturation point(飽和點),用來近似表示“平臺期從哪里開始”。
![]()
這個點的定義雖然帶有一定任意性,但它比 sweet spot 更接近 METR 在 headline 結果中真正展示的“接近能力上限的表現”。
作者的分析顯示,不論看 sweet spot 還是 saturation point,結論都相似:
時間跨度更長的模型,通常成本更高;不僅總成本更高,連單位小時成本也往往更高;
某些模型在接近其峰值表現時,單位小時成本已經接近甚至逼近人類水平。
這意味著一個重要判斷:我們也許正在接近這樣一個階段:AI 的“最強表現”雖然存在,但要以明顯不切實際的成本才能獲得。
如果這種趨勢持續下去,那么簡單根據 METR 的時間跨度曲線去預測“AI 何時能做完一天、一周或一年的任務”,很可能會誤導人們。因為模型第一次達到這些能力時,也許仍然貴得難以實際部署。真正進入大規模現實應用,還需要再等待一段時間,直到成本進一步下降。
這篇文章真正想提醒我們的是什么?
作者并不是在否認 AI 智能體能力的快速進步。相反,他承認這條能力曲線非常驚人。
但他想提醒的是:
能力增長曲線,并不等于現實可用曲線。
如果實現這些能力所需的推理成本也在快速上升,那么“原則上能做到什么”和“經濟上可行到能廣泛使用什么”之間,可能會出現越來越大的差距。
這也意味著,AI 智能體在現實世界中的部署速度,未必會與 METR 的時間跨度趨勢同步增長。技術前沿可以繼續高速推進,但真正落地到企業、開發者和普通用戶手中的節奏,可能會慢得多。
作者的結論
基于現有圖表,作者認為已經有中等強度的證據表明:達到更長時間跨度所需的成本,可能也在指數上升;甚至連單位“每小時成本”本身,也可能在上升;一些模型在高端能力區間的成本,已經接近人類勞動成本。如果這些判斷成立,那么就意味著:METR 展示的趨勢,部分是由越來越高昂的推理投入推動的;AI 的“理論能力邊界”和“經濟可行邊界”會逐漸分離;現實世界中的 AI 智能體應用,將越來越落后于單純從時間跨度曲線中得出的樂觀預期。
結語
在今天的 AI 討論中,我們已經很習慣于追問:模型變強了多少、能完成多長任務、距離“自動化工程師”還有多遠。
但也許我們同樣需要開始認真追問另一個問題:
這些能力,究竟是以怎樣的成本換來的?
因為真正決定 AI 是否會大規模改變現實世界的,未必只是“它能不能做到”,更是“它是否值得這樣去做”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.