无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

牛津?qū)W者: AI 越來越像人了,但用得起嗎

0
分享至

當(dāng)人們熱衷于討論 AI 智能體還能變得多強(qiáng)時(shí),Toby Ord 把問題拉回到了一個(gè)更現(xiàn)實(shí)的維度:成本。 本文基于其文章 《Are the Costs of AI Agents Also Rising Exponentially?》 做延展解讀,嘗試回答一個(gè)值得所有人關(guān)注的問題——AI 不斷突破任務(wù)時(shí)長邊界的同時(shí),它的使用成本是否也在悄然逼近,甚至接近人類勞動(dòng)成本?

AI 智能體的成本,也在指數(shù)級(jí)上升嗎?

關(guān)于 AI 近期發(fā)展,有一個(gè)極其重要、卻幾乎很少被認(rèn)真討論的問題。

過去幾年,我們已經(jīng)反復(fù)看到 METR 的圖表:AI 智能體能夠完成的任務(wù)時(shí)長,正在以驚人的速度增長。7 年前,GPT-2 只能處理那些只需要幾秒鐘的軟件工程任務(wù);而如今,最新模型已經(jīng)能夠以約 50% 的成功率,完成那些通常需要人類數(shù)小時(shí)才能完成的任務(wù)。


隨著這一趨勢(shì)沒有明顯放緩,許多人自然開始進(jìn)一步外推:AI 何時(shí)能完成一整天的工程任務(wù)?一整周?甚至一整年?

但在這些討論中,往往缺少一個(gè)關(guān)鍵變量——成本。

只看能力增長,還不夠

過去 7 年間,AI 系統(tǒng)本身經(jīng)歷了指數(shù)級(jí)擴(kuò)張。模型參數(shù)量增長了數(shù)千倍,而單個(gè)任務(wù)中使用的 token 數(shù)量更是增長了數(shù)萬倍。雖然研究者也持續(xù)提升了效率,但一個(gè)完全合理的推測是:為了實(shí)現(xiàn) METR 所展示的“最優(yōu)表現(xiàn)”,其背后的成本也很可能在持續(xù)上升,甚至同樣呈指數(shù)增長。

這件事本身未必一定糟糕。

比如,如果 AI 每年能夠處理的任務(wù)時(shí)長增長 3 倍,而達(dá)到這種能力所需的成本也同步增長 3 倍,那么 AI 相對(duì)于人類的成本競爭力并沒有發(fā)生根本變化。甚至如果成本增長慢于能力增長,那么 AI 實(shí)際上會(huì)變得越來越便宜。

真正值得警惕的是另一種情況:如果成本增長速度快于任務(wù)時(shí)長增長速度,會(huì)發(fā)生什么?

如果真是這樣,那么最前沿的 AI 系統(tǒng),雖然在“能力上”越來越強(qiáng),但在“經(jīng)濟(jì)上”可能反而越來越不劃算。METR 的時(shí)間跨度趨勢(shì),也就可能變得具有誤導(dǎo)性:它展示的是技術(shù)邊界如何不斷推進(jìn),但其中一部分進(jìn)步,可能只是因?yàn)橥度肓嗽絹碓缴莩薜耐评硭懔Α?/p>

那樣的話,最先進(jìn)的 AI 更像是性能競賽中的“一級(jí)方程式賽車”——它展示了什么是可能的,卻不一定展示了什么是現(xiàn)實(shí)可用的。

一個(gè)更關(guān)鍵的問題:AI 的“每小時(shí)成本”如何變化?

因此,真正值得追問的問題應(yīng)該是:

AI 智能體的“每小時(shí)成本”究竟在如何變化?

這里所謂的“每小時(shí)成本”,并不是指模型實(shí)際運(yùn)行了多久,而是指:

一個(gè)模型在其 50% 時(shí)間跨度附近完成任務(wù)所需的成本,除以這類任務(wù)通常需要人類花費(fèi)的時(shí)間。

舉個(gè)例子,如果某個(gè)模型能夠以 50% 的成功率,完成“人類軟件工程師通常需要 2 小時(shí)完成”的任務(wù),那么我們就可以把它執(zhí)行這類任務(wù)的費(fèi)用除以 2,得到它在這種任務(wù)上的“每小時(shí)成本”。

這個(gè)問題看似簡單,但現(xiàn)實(shí)中真正思考過的人并不多。

而一旦問起大家的直覺,答案往往差異極大。有人默認(rèn) AI 完成任務(wù)的總成本大體沒變,只是任務(wù)時(shí)長在不斷增長;這意味著 AI 的單位小時(shí)成本正在快速下降。也有人認(rèn)為,隨著前沿模型價(jià)格不斷上漲,AI 完成任務(wù)的總成本本身也在快速上升。

但事實(shí)上,大多數(shù)人——包括作者自己——其實(shí)并不知道,今天讓 AI 智能體完成一小時(shí)的軟件工程工作,究竟是幾美分、幾美元,還是幾百美元。

一個(gè)聽起來幾乎有些反直覺的問題開始出現(xiàn):

AI 智能體每小時(shí)的成本,難道真的可能接近甚至超過人類嗎?

為什么不能直接拿“總花費(fèi)”來回答這個(gè)問題

作者曾向 METR 詢問是否能直接分享基準(zhǔn)測試的成本數(shù)據(jù),原本以為只要把不同模型的測試花費(fèi)按發(fā)布日期畫出來,就能大致看出趨勢(shì)。

但問題沒有這么簡單。

原因在于,METR 的 headline time horizon,本來就不是為了衡量“達(dá)到某種表現(xiàn)的最低成本”,而是為了衡量:在不計(jì)成本的情況下,一個(gè)模型理論上能達(dá)到的最佳表現(xiàn)。

為此,他們會(huì)讓模型在 agent scaffold 中不斷運(yùn)行,直到性能明顯進(jìn)入平臺(tái)期。因?yàn)樗麄冴P(guān)心的是“這個(gè)平臺(tái)到底有多高”,而不是“從哪里開始變平”,所以他們會(huì)投入相當(dāng)多的算力,也不太在意是否已經(jīng)超出了達(dá)到該表現(xiàn)所需的最優(yōu)成本。

這意味著:不同模型的總測試花費(fèi),有時(shí)只是剛好足夠進(jìn)入平臺(tái)期,有時(shí)卻可能遠(yuǎn)遠(yuǎn)超過所需。因此,總支出不能直接視為“實(shí)現(xiàn)該能力所需的經(jīng)濟(jì)成本”。

一張關(guān)鍵圖:性能如何隨著成本上升

幸運(yùn)的是,METR 發(fā)布了一張非常有價(jià)值的圖。它展示的不是單純的時(shí)間跨度結(jié)果,而是:


模型性能如何隨著成本增加而提升。這里的“成本”,主要指為了完成任務(wù)而投入更多 token,也就是更多推理算力所帶來的開銷。

圖中,黃色曲線代表人類表現(xiàn)。它的走勢(shì)大體接近線性:完成更長時(shí)間的任務(wù),需要投入更多工作時(shí)間和工資,這幾乎是線性關(guān)系。比如,讓一位軟件工程師做 8 小時(shí)任務(wù),成本大約就是 1 小時(shí)任務(wù)的 8 倍。

而其他彩色曲線,則代表不同的 LLM 智能體。

與人類不同,這些模型都展現(xiàn)出一個(gè)共同特征:邊際收益遞減。

也就是說,在一開始增加算力時(shí),模型性能會(huì)有所提升;但隨著投入越來越多,收益開始變小,最后逐漸趨于停滯,進(jìn)入平臺(tái)期。繼續(xù)投入更多推理資源,帶來的提升已經(jīng)越來越有限。

作者也提醒,這些曲線末端有時(shí)會(huì)出現(xiàn)短暫上翹。這并不一定意味著模型能力突然躍升,而更可能是評(píng)測偽影:某些模型傾向于等到最后時(shí)刻才輸出答案,導(dǎo)致圖上看起來像是前面一段時(shí)間都在“橫盤”,最后卻突然向上跳了一下。

用“固定每小時(shí)成本線”重新看這張圖

為了從這張圖中進(jìn)一步提取信息,作者做了一個(gè)非常巧妙的處理:在圖中加入固定每小時(shí)成本線。


在雙對(duì)數(shù)坐標(biāo)下,這樣的線會(huì)表現(xiàn)為斜率為 1 的直線。對(duì)于這些線而言,越靠左,表示每小時(shí)成本越低。


然后,作者為每條模型曲線都找出一條“剛好與之相切”的固定每小時(shí)成本線。這個(gè)相切點(diǎn),就是該模型所能達(dá)到的最低每小時(shí)成本。作者把它稱為模型的sweet spot。

這個(gè)點(diǎn)很重要,因?yàn)樗淼氖悄P驮凇皢挝怀杀拘省鄙献顑?yōu)的位置。

在 sweet spot 之前,隨著成本上升,模型的任務(wù)時(shí)長增長得更快,說明此時(shí)投入算力仍然非常劃算;而一旦過了 sweet spot,邊際收益遞減開始顯著出現(xiàn),繼續(xù)往上加錢就不再那么值了。

AI 的最低“時(shí)薪”其實(shí)差異極大

從圖中可以看出,人類軟件工程師的成本大約是120 美元/小時(shí)。

而不同 AI 模型在 sweet spot 上的成本差異極大:高的如 o3,大約40 美元/小時(shí);低的如 Grok 4 和 Sonnet 3.5,可以低到0.4 美元/小時(shí)。


這說明,雖然這些模型在“能完成多長任務(wù)”上的差距大約只有十幾倍,但在“最佳單位成本”上的差距卻可能達(dá)到兩位數(shù)量級(jí)。

更值得注意的是,sweet spot 只是這些模型最劃算的時(shí)候。

一旦進(jìn)入更長任務(wù)區(qū)間,尤其是接近平臺(tái)期時(shí),它們的單位小時(shí)成本會(huì)迅速上升,往往高出 10 倍甚至 100 倍。比如,某個(gè)模型在最佳點(diǎn)可能只要幾角錢一小時(shí),但一旦逼近其能力上限,成本就可能漲到十幾美元,甚至上百美元一小時(shí)。

換句話說:

模型越接近它的最長任務(wù)能力,往往也越不經(jīng)濟(jì)。

而這正是作者試圖強(qiáng)調(diào)的問題——如果人們只看“能做多久”,卻不看“做這么久要花多少錢”,就會(huì)對(duì) AI 智能體的現(xiàn)實(shí)可用性產(chǎn)生過于樂觀的判斷。

平臺(tái)期附近:能力還在漲,但成本可能已經(jīng)不現(xiàn)實(shí)

除了 sweet spot,作者還為每條曲線定義了一個(gè)saturation point(飽和點(diǎn)),用來近似表示“平臺(tái)期從哪里開始”。


這個(gè)點(diǎn)的定義雖然帶有一定任意性,但它比 sweet spot 更接近 METR 在 headline 結(jié)果中真正展示的“接近能力上限的表現(xiàn)”。

作者的分析顯示,不論看 sweet spot 還是 saturation point,結(jié)論都相似:

時(shí)間跨度更長的模型,通常成本更高;不僅總成本更高,連單位小時(shí)成本也往往更高;

某些模型在接近其峰值表現(xiàn)時(shí),單位小時(shí)成本已經(jīng)接近甚至逼近人類水平。

這意味著一個(gè)重要判斷:我們也許正在接近這樣一個(gè)階段:AI 的“最強(qiáng)表現(xiàn)”雖然存在,但要以明顯不切實(shí)際的成本才能獲得。

如果這種趨勢(shì)持續(xù)下去,那么簡單根據(jù) METR 的時(shí)間跨度曲線去預(yù)測“AI 何時(shí)能做完一天、一周或一年的任務(wù)”,很可能會(huì)誤導(dǎo)人們。因?yàn)槟P偷谝淮芜_(dá)到這些能力時(shí),也許仍然貴得難以實(shí)際部署。真正進(jìn)入大規(guī)?,F(xiàn)實(shí)應(yīng)用,還需要再等待一段時(shí)間,直到成本進(jìn)一步下降。

這篇文章真正想提醒我們的是什么?

作者并不是在否認(rèn) AI 智能體能力的快速進(jìn)步。相反,他承認(rèn)這條能力曲線非常驚人。

但他想提醒的是:

能力增長曲線,并不等于現(xiàn)實(shí)可用曲線。

如果實(shí)現(xiàn)這些能力所需的推理成本也在快速上升,那么“原則上能做到什么”和“經(jīng)濟(jì)上可行到能廣泛使用什么”之間,可能會(huì)出現(xiàn)越來越大的差距。

這也意味著,AI 智能體在現(xiàn)實(shí)世界中的部署速度,未必會(huì)與 METR 的時(shí)間跨度趨勢(shì)同步增長。技術(shù)前沿可以繼續(xù)高速推進(jìn),但真正落地到企業(yè)、開發(fā)者和普通用戶手中的節(jié)奏,可能會(huì)慢得多。

作者的結(jié)論

基于現(xiàn)有圖表,作者認(rèn)為已經(jīng)有中等強(qiáng)度的證據(jù)表明:達(dá)到更長時(shí)間跨度所需的成本,可能也在指數(shù)上升;甚至連單位“每小時(shí)成本”本身,也可能在上升;一些模型在高端能力區(qū)間的成本,已經(jīng)接近人類勞動(dòng)成本。如果這些判斷成立,那么就意味著:METR 展示的趨勢(shì),部分是由越來越高昂的推理投入推動(dòng)的;AI 的“理論能力邊界”和“經(jīng)濟(jì)可行邊界”會(huì)逐漸分離;現(xiàn)實(shí)世界中的 AI 智能體應(yīng)用,將越來越落后于單純從時(shí)間跨度曲線中得出的樂觀預(yù)期。

結(jié)語

在今天的 AI 討論中,我們已經(jīng)很習(xí)慣于追問:模型變強(qiáng)了多少、能完成多長任務(wù)、距離“自動(dòng)化工程師”還有多遠(yuǎn)。

但也許我們同樣需要開始認(rèn)真追問另一個(gè)問題:

這些能力,究竟是以怎樣的成本換來的?

因?yàn)檎嬲龥Q定 AI 是否會(huì)大規(guī)模改變現(xiàn)實(shí)世界的,未必只是“它能不能做到”,更是“它是否值得這樣去做”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
耿同學(xué)打假中山大學(xué)獲得2024年度中國生命科學(xué)十大進(jìn)展的論文?

耿同學(xué)打假中山大學(xué)獲得2024年度中國生命科學(xué)十大進(jìn)展的論文?

文憶天下
2026-07-02 20:04:08
要不是世界杯,恐怕沒人知道中國在52萬人的佛得角投入了多少

要不是世界杯,恐怕沒人知道中國在52萬人的佛得角投入了多少

莫地方
2026-07-03 00:06:18
女子驚呆!人在廣東卻收到上海亞朵5晚入住訂單,前臺(tái)打來問什么時(shí)候退房……

女子驚呆!人在廣東卻收到上海亞朵5晚入住訂單,前臺(tái)打來問什么時(shí)候退房……

上觀新聞
2026-07-03 12:38:08
C羅:相比進(jìn)球被取消和被換下,更難受的是沒有進(jìn)入首發(fā)陣容

C羅:相比進(jìn)球被取消和被換下,更難受的是沒有進(jìn)入首發(fā)陣容

懂球帝
2026-07-03 12:14:29
日企員工偷運(yùn)稀土案調(diào)查升級(jí)!日媒宣稱:多名中國籍人員涉嫌幫助

日企員工偷運(yùn)稀土案調(diào)查升級(jí)!日媒宣稱:多名中國籍人員涉嫌幫助

半身Naked
2026-07-03 11:34:14
1936 錢壯飛烏江失蹤成謎,尋 50 年 1986 金沙縣考證結(jié)局唏噓

1936 錢壯飛烏江失蹤成謎,尋 50 年 1986 金沙縣考證結(jié)局唏噓

磊子講史
2026-01-08 15:47:38
天塌了:高市早苗被莫迪哄得心花怒放,轉(zhuǎn)頭發(fā)現(xiàn)中美韓傳出大消息

天塌了:高市早苗被莫迪哄得心花怒放,轉(zhuǎn)頭發(fā)現(xiàn)中美韓傳出大消息

史虇的生活科普
2026-07-03 11:18:54
潘長江69歲生日!徒弟魏三攜眾師兄弟為其慶祝,喝五糧液樂開了花

潘長江69歲生日!徒弟魏三攜眾師兄弟為其慶祝,喝五糧液樂開了花

裕豐娛間說
2026-07-02 16:40:22
找到了,是浙EDZ82X6!53歲湖州理想車主回憶高速救特斯拉車主瞬間:事故車輛已竄出火苗,“她的右腳還在車?yán)?,小腿部分已?jīng)著火了……”

找到了,是浙EDZ82X6!53歲湖州理想車主回憶高速救特斯拉車主瞬間:事故車輛已竄出火苗,“她的右腳還在車?yán)?,小腿部分已?jīng)著火了……”

都市快報(bào)橙柿互動(dòng)
2026-07-02 18:24:23
西蒙斯2年1230萬簽約76人!來了!都要來了!

西蒙斯2年1230萬簽約76人!來了!都要來了!

貴圈真亂
2026-07-03 13:31:17
建黨105周年慶祝大會(huì)當(dāng)天,央視點(diǎn)名張桂梅,句句說到大家心坎

建黨105周年慶祝大會(huì)當(dāng)天,央視點(diǎn)名張桂梅,句句說到大家心坎

冰語歷史
2026-07-02 08:56:57
C羅被提前換下!皺眉搖頭不滿主帥,媒體人:進(jìn)球表現(xiàn)也不達(dá)標(biāo)

C羅被提前換下!皺眉搖頭不滿主帥,媒體人:進(jìn)球表現(xiàn)也不達(dá)標(biāo)

奧拜爾
2026-07-03 09:00:18
阿里鐵了心要上岸

阿里鐵了心要上岸

鈦媒體APP
2026-07-02 09:51:56
沒中國的亞運(yùn)會(huì)一文不值!

沒中國的亞運(yùn)會(huì)一文不值!

安安說
2026-07-02 11:25:47
世界杯預(yù)測,澳大利亞隊(duì)被淘汰,重點(diǎn)分析哥倫比亞隊(duì)與加納隊(duì)比賽

世界杯預(yù)測,澳大利亞隊(duì)被淘汰,重點(diǎn)分析哥倫比亞隊(duì)與加納隊(duì)比賽

足球分析員
2026-07-03 11:00:04
經(jīng)濟(jì)斷奶、軍演冷啟動(dòng)!兩大跡象表明:大陸真要出手了

經(jīng)濟(jì)斷奶、軍演冷啟動(dòng)!兩大跡象表明:大陸真要出手了

音樂時(shí)光的娛樂
2026-07-03 07:46:55
不敢作了!親眼看到庫明加的下場,伊森果斷簽下5年8150萬

不敢作了!親眼看到庫明加的下場,伊森果斷簽下5年8150萬

楊仔述
2026-07-03 09:33:36
C羅:我祝愿莫德里奇在職業(yè)生涯接下來的歲月里一切順利

C羅:我祝愿莫德里奇在職業(yè)生涯接下來的歲月里一切順利

懂球帝
2026-07-03 11:00:15
研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

番外行
2026-05-11 08:49:20
上周面試過了一個(gè)候選人,薪資也談到58k*16了。結(jié)果背調(diào)的時(shí)候,前公司給了句:不建議錄用。offer懸了,前司的離職評(píng)價(jià)真那么重要么

上周面試過了一個(gè)候選人,薪資也談到58k*16了。結(jié)果背調(diào)的時(shí)候,前公司給了句:不建議錄用。offer懸了,前司的離職評(píng)價(jià)真那么重要么

勵(lì)職派
2026-07-01 22:50:59
2026-07-03 14:07:00
圖解金融 incentive-icons
圖解金融
圖解金融,你的金融視界
5559文章數(shù) 26721關(guān)注度
往期回顧 全部

科技要聞

特斯拉交付超預(yù)期7.4萬輛,股價(jià)卻大跌7.5%

頭條要聞

齊達(dá)內(nèi)兒子被梅西打穿后一度崩潰 淘汰賽又被灌進(jìn)2球

頭條要聞

齊達(dá)內(nèi)兒子被梅西打穿后一度崩潰 淘汰賽又被灌進(jìn)2球

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

黃曉明深夜約會(huì)美女,分手原因曝光

財(cái)經(jīng)要聞

AI“鬼故事”不斷,市場開始重估?

汽車要聞

極氪9X五座版官宣,如圖!

態(tài)度原創(chuàng)

房產(chǎn)
親子
時(shí)尚
旅游
家居

房產(chǎn)要聞

稀缺預(yù)警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

親子要聞

這種情況如何破局?

盛夏,穿這三組配色呀!

旅游要聞

九寨溝一男子被擠落入鈣化池,游客質(zhì)疑無護(hù)欄,景區(qū)回應(yīng)

家居要聞

傳奇筑 日常詩

無障礙瀏覽 進(jìn)入關(guān)懷版