无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

牛津學者: AI 越來越像人了,但用得起嗎

0
分享至

當人們熱衷于討論 AI 智能體還能變得多強時,Toby Ord 把問題拉回到了一個更現實的維度:成本。 本文基于其文章 《Are the Costs of AI Agents Also Rising Exponentially?》 做延展解讀,嘗試回答一個值得所有人關注的問題——AI 不斷突破任務時長邊界的同時,它的使用成本是否也在悄然逼近,甚至接近人類勞動成本?

AI 智能體的成本,也在指數級上升嗎?

關于 AI 近期發展,有一個極其重要、卻幾乎很少被認真討論的問題。

過去幾年,我們已經反復看到 METR 的圖表:AI 智能體能夠完成的任務時長,正在以驚人的速度增長。7 年前,GPT-2 只能處理那些只需要幾秒鐘的軟件工程任務;而如今,最新模型已經能夠以約 50% 的成功率,完成那些通常需要人類數小時才能完成的任務。


隨著這一趨勢沒有明顯放緩,許多人自然開始進一步外推:AI 何時能完成一整天的工程任務?一整周?甚至一整年?

但在這些討論中,往往缺少一個關鍵變量——成本

只看能力增長,還不夠

過去 7 年間,AI 系統本身經歷了指數級擴張。模型參數量增長了數千倍,而單個任務中使用的 token 數量更是增長了數萬倍。雖然研究者也持續提升了效率,但一個完全合理的推測是:為了實現 METR 所展示的“最優表現”,其背后的成本也很可能在持續上升,甚至同樣呈指數增長。

這件事本身未必一定糟糕。

比如,如果 AI 每年能夠處理的任務時長增長 3 倍,而達到這種能力所需的成本也同步增長 3 倍,那么 AI 相對于人類的成本競爭力并沒有發生根本變化。甚至如果成本增長慢于能力增長,那么 AI 實際上會變得越來越便宜。

真正值得警惕的是另一種情況:如果成本增長速度快于任務時長增長速度,會發生什么?

如果真是這樣,那么最前沿的 AI 系統,雖然在“能力上”越來越強,但在“經濟上”可能反而越來越不劃算。METR 的時間跨度趨勢,也就可能變得具有誤導性:它展示的是技術邊界如何不斷推進,但其中一部分進步,可能只是因為投入了越來越奢侈的推理算力。

那樣的話,最先進的 AI 更像是性能競賽中的“一級方程式賽車”——它展示了什么是可能的,卻不一定展示了什么是現實可用的。

一個更關鍵的問題:AI 的“每小時成本”如何變化?

因此,真正值得追問的問題應該是:

AI 智能體的“每小時成本”究竟在如何變化?

這里所謂的“每小時成本”,并不是指模型實際運行了多久,而是指:

一個模型在其 50% 時間跨度附近完成任務所需的成本,除以這類任務通常需要人類花費的時間。

舉個例子,如果某個模型能夠以 50% 的成功率,完成“人類軟件工程師通常需要 2 小時完成”的任務,那么我們就可以把它執行這類任務的費用除以 2,得到它在這種任務上的“每小時成本”。

這個問題看似簡單,但現實中真正思考過的人并不多。

而一旦問起大家的直覺,答案往往差異極大。有人默認 AI 完成任務的總成本大體沒變,只是任務時長在不斷增長;這意味著 AI 的單位小時成本正在快速下降。也有人認為,隨著前沿模型價格不斷上漲,AI 完成任務的總成本本身也在快速上升。

但事實上,大多數人——包括作者自己——其實并不知道,今天讓 AI 智能體完成一小時的軟件工程工作,究竟是幾美分、幾美元,還是幾百美元。

一個聽起來幾乎有些反直覺的問題開始出現:

AI 智能體每小時的成本,難道真的可能接近甚至超過人類嗎?

為什么不能直接拿“總花費”來回答這個問題

作者曾向 METR 詢問是否能直接分享基準測試的成本數據,原本以為只要把不同模型的測試花費按發布日期畫出來,就能大致看出趨勢。

但問題沒有這么簡單。

原因在于,METR 的 headline time horizon,本來就不是為了衡量“達到某種表現的最低成本”,而是為了衡量:在不計成本的情況下,一個模型理論上能達到的最佳表現。

為此,他們會讓模型在 agent scaffold 中不斷運行,直到性能明顯進入平臺期。因為他們關心的是“這個平臺到底有多高”,而不是“從哪里開始變平”,所以他們會投入相當多的算力,也不太在意是否已經超出了達到該表現所需的最優成本。

這意味著:不同模型的總測試花費,有時只是剛好足夠進入平臺期,有時卻可能遠遠超過所需。因此,總支出不能直接視為“實現該能力所需的經濟成本”

一張關鍵圖:性能如何隨著成本上升

幸運的是,METR 發布了一張非常有價值的圖。它展示的不是單純的時間跨度結果,而是:


模型性能如何隨著成本增加而提升。這里的“成本”,主要指為了完成任務而投入更多 token,也就是更多推理算力所帶來的開銷。

圖中,黃色曲線代表人類表現。它的走勢大體接近線性:完成更長時間的任務,需要投入更多工作時間和工資,這幾乎是線性關系。比如,讓一位軟件工程師做 8 小時任務,成本大約就是 1 小時任務的 8 倍。

而其他彩色曲線,則代表不同的 LLM 智能體。

與人類不同,這些模型都展現出一個共同特征:邊際收益遞減

也就是說,在一開始增加算力時,模型性能會有所提升;但隨著投入越來越多,收益開始變小,最后逐漸趨于停滯,進入平臺期。繼續投入更多推理資源,帶來的提升已經越來越有限。

作者也提醒,這些曲線末端有時會出現短暫上翹。這并不一定意味著模型能力突然躍升,而更可能是評測偽影:某些模型傾向于等到最后時刻才輸出答案,導致圖上看起來像是前面一段時間都在“橫盤”,最后卻突然向上跳了一下。

用“固定每小時成本線”重新看這張圖

為了從這張圖中進一步提取信息,作者做了一個非常巧妙的處理:在圖中加入固定每小時成本線


在雙對數坐標下,這樣的線會表現為斜率為 1 的直線。對于這些線而言,越靠左,表示每小時成本越低。


然后,作者為每條模型曲線都找出一條“剛好與之相切”的固定每小時成本線。這個相切點,就是該模型所能達到的最低每小時成本。作者把它稱為模型的sweet spot

這個點很重要,因為它代表的是模型在“單位成本效率”上最優的位置。

在 sweet spot 之前,隨著成本上升,模型的任務時長增長得更快,說明此時投入算力仍然非常劃算;而一旦過了 sweet spot,邊際收益遞減開始顯著出現,繼續往上加錢就不再那么值了。

AI 的最低“時薪”其實差異極大

從圖中可以看出,人類軟件工程師的成本大約是120 美元/小時

而不同 AI 模型在 sweet spot 上的成本差異極大:高的如 o3,大約40 美元/小時;低的如 Grok 4 和 Sonnet 3.5,可以低到0.4 美元/小時


這說明,雖然這些模型在“能完成多長任務”上的差距大約只有十幾倍,但在“最佳單位成本”上的差距卻可能達到兩位數量級。

更值得注意的是,sweet spot 只是這些模型最劃算的時候。

一旦進入更長任務區間,尤其是接近平臺期時,它們的單位小時成本會迅速上升,往往高出 10 倍甚至 100 倍。比如,某個模型在最佳點可能只要幾角錢一小時,但一旦逼近其能力上限,成本就可能漲到十幾美元,甚至上百美元一小時。

換句話說:

模型越接近它的最長任務能力,往往也越不經濟。

而這正是作者試圖強調的問題——如果人們只看“能做多久”,卻不看“做這么久要花多少錢”,就會對 AI 智能體的現實可用性產生過于樂觀的判斷。

平臺期附近:能力還在漲,但成本可能已經不現實

除了 sweet spot,作者還為每條曲線定義了一個saturation point(飽和點),用來近似表示“平臺期從哪里開始”。


這個點的定義雖然帶有一定任意性,但它比 sweet spot 更接近 METR 在 headline 結果中真正展示的“接近能力上限的表現”。

作者的分析顯示,不論看 sweet spot 還是 saturation point,結論都相似:

時間跨度更長的模型,通常成本更高;不僅總成本更高,連單位小時成本也往往更高;

某些模型在接近其峰值表現時,單位小時成本已經接近甚至逼近人類水平。

這意味著一個重要判斷:我們也許正在接近這樣一個階段:AI 的“最強表現”雖然存在,但要以明顯不切實際的成本才能獲得。

如果這種趨勢持續下去,那么簡單根據 METR 的時間跨度曲線去預測“AI 何時能做完一天、一周或一年的任務”,很可能會誤導人們。因為模型第一次達到這些能力時,也許仍然貴得難以實際部署。真正進入大規模現實應用,還需要再等待一段時間,直到成本進一步下降。

這篇文章真正想提醒我們的是什么?

作者并不是在否認 AI 智能體能力的快速進步。相反,他承認這條能力曲線非常驚人。

但他想提醒的是:

能力增長曲線,并不等于現實可用曲線。

如果實現這些能力所需的推理成本也在快速上升,那么“原則上能做到什么”和“經濟上可行到能廣泛使用什么”之間,可能會出現越來越大的差距。

這也意味著,AI 智能體在現實世界中的部署速度,未必會與 METR 的時間跨度趨勢同步增長。技術前沿可以繼續高速推進,但真正落地到企業、開發者和普通用戶手中的節奏,可能會慢得多。

作者的結論

基于現有圖表,作者認為已經有中等強度的證據表明:達到更長時間跨度所需的成本,可能也在指數上升;甚至連單位“每小時成本”本身,也可能在上升;一些模型在高端能力區間的成本,已經接近人類勞動成本。如果這些判斷成立,那么就意味著:METR 展示的趨勢,部分是由越來越高昂的推理投入推動的;AI 的“理論能力邊界”和“經濟可行邊界”會逐漸分離;現實世界中的 AI 智能體應用,將越來越落后于單純從時間跨度曲線中得出的樂觀預期。

結語

在今天的 AI 討論中,我們已經很習慣于追問:模型變強了多少、能完成多長任務、距離“自動化工程師”還有多遠。

但也許我們同樣需要開始認真追問另一個問題:

這些能力,究竟是以怎樣的成本換來的?

因為真正決定 AI 是否會大規模改變現實世界的,未必只是“它能不能做到”,更是“它是否值得這樣去做”。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
無人車運載300千克炸藥大爆破!戰力嚴重削弱,俄軍只能AI插旗

無人車運載300千克炸藥大爆破!戰力嚴重削弱,俄軍只能AI插旗

鷹眼Defence
2026-05-13 17:17:13
廣東大叔釣獲10多斤“打鐵婆”?直接用手摳鰓,網友:手不要了?

廣東大叔釣獲10多斤“打鐵婆”?直接用手摳鰓,網友:手不要了?

貍貓之一的動物圈
2026-05-13 10:40:08
福建一縣委書記,升副廳

福建一縣委書記,升副廳

人民資訊
2026-05-13 19:11:04
莫雷被76人放棄邁爾斯暫時上任,他能在費城復刻金州模式嗎

莫雷被76人放棄邁爾斯暫時上任,他能在費城復刻金州模式嗎

兵哥籃球故事
2026-05-13 20:05:10
34℃!雨雨雨!7級陣風!有霧或濃霧!江蘇天氣最新預測

34℃!雨雨雨!7級陣風!有霧或濃霧!江蘇天氣最新預測

圖說南通
2026-05-13 12:34:19
別了 | 知名餐飲創始人逝世,享年66歲!

別了 | 知名餐飲創始人逝世,享年66歲!

天津廣播
2026-05-13 01:04:34
今晚開播,央八 北京衛視黃金檔2部王炸大劇來襲 陣容不錯 開播必火

今晚開播,央八 北京衛視黃金檔2部王炸大劇來襲 陣容不錯 開播必火

情感大頭說說
2026-05-13 18:12:29
李賽鳳的亂倫,床縫摸出個用過的套,衣柜里還藏著個半裸的干兒子

李賽鳳的亂倫,床縫摸出個用過的套,衣柜里還藏著個半裸的干兒子

西樓知趣雜談
2026-04-26 10:18:11
胖虎:有一次巴西隊半場出現爭執,安帥抽完煙后講話平復眾人

胖虎:有一次巴西隊半場出現爭執,安帥抽完煙后講話平復眾人

懂球帝
2026-05-13 08:57:18
徹底攤牌!外交部一字之差定乾坤,臺灣徹底出局,美國這次也沒轍

徹底攤牌!外交部一字之差定乾坤,臺灣徹底出局,美國這次也沒轍

劉浶開挖機
2026-05-12 15:53:28
庫克、馬斯克、蘇世民集體飛北京,這哪是陪同團,實則組團來請愿

庫克、馬斯克、蘇世民集體飛北京,這哪是陪同團,實則組團來請愿

八斗小先生
2026-05-13 19:18:51
梅西新合同年薪2500萬美元,冠絕美職聯遠超孫興慜

梅西新合同年薪2500萬美元,冠絕美職聯遠超孫興慜

樂道足球C
2026-05-13 17:15:11
敗光王寶強5千萬后,馬蓉定居國外近況曝光,超市打工只是其中一點

敗光王寶強5千萬后,馬蓉定居國外近況曝光,超市打工只是其中一點

可樂談情感
2026-05-13 13:11:25
國際足聯終于慌了!緊急宣布新方案,世界杯版權將迎來重大轉機

國際足聯終于慌了!緊急宣布新方案,世界杯版權將迎來重大轉機

甜到你心坎
2026-05-13 10:47:07
特朗普上飛機前坦白,對華稱呼已變,美參議員:絕不能向華讓步

特朗普上飛機前坦白,對華稱呼已變,美參議員:絕不能向華讓步

云舟史策
2026-05-13 07:27:57
特朗普落地北京前夕!126名議員聯名施壓,嚴禁承諾中國這一件事

特朗普落地北京前夕!126名議員聯名施壓,嚴禁承諾中國這一件事

史智文道
2026-05-13 19:20:47
軍購剛落定,鄭麗文立刻派張榮恭赴陸交底,一出手送上一份大禮!

軍購剛落定,鄭麗文立刻派張榮恭赴陸交底,一出手送上一份大禮!

阿器談史
2026-05-12 07:56:40
手機號要變了:中國移動開了個頭

手機號要變了:中國移動開了個頭

林子說事
2026-05-12 18:37:55
老了才看透:父弱母強的家庭,養出來的孩子,大多是這兩種結局

老了才看透:父弱母強的家庭,養出來的孩子,大多是這兩種結局

心理觀察局
2026-05-11 10:00:27
長安街“大動脈”手術倒計時:北京1號線封站3個月暗藏房價新邏輯

長安街“大動脈”手術倒計時:北京1號線封站3個月暗藏房價新邏輯

靚仔情感
2026-05-13 14:16:55
2026-05-13 20:19:00
圖解金融 incentive-icons
圖解金融
圖解金融,你的金融視界
5493文章數 26716關注度
往期回顧 全部

科技要聞

騰訊一季度營收1964.6億元 同比增9%

頭條要聞

出租車司機被兩老外"拐跑":3萬車費從海南開到黑龍江

頭條要聞

出租車司機被兩老外"拐跑":3萬車費從海南開到黑龍江

體育要聞

14年半,74萬,何冰嬌沒選那條更安穩的路

娛樂要聞

白鹿掉20萬粉,網友為李晨鳴不平

財經要聞

盤中最高4041.99點!創業板創歷史新高

汽車要聞

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

房產
教育
本地
公開課
軍事航空

房產要聞

卷瘋了!最低殺到7字頭!手握30萬,海口樓市橫著走!

教育要聞

新課標?新教材?新課堂|5月15日蘇州姑蘇公益師訓會暨小學語文跨區域教學研討即將啟幕

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

沙特被指3月曾對伊朗發動多次“報復性”空襲

無障礙瀏覽 進入關懷版