網易首頁 > 網易號 > 正文 申請入駐

我們正在嚴重低估AI的進展!AlphaGo締造者罕見發聲:2026年AI自主上崗8小時

0
分享至

  

  來源:新智元

  【導讀】當我們還在調侃「AI寫錯代碼」時,實驗室里的科學家卻看到它能獨立完成幾個小時的復雜任務。AlphaGo作者Julian罕見發聲:公眾對AI的認知,至少落后一個世代。最新數據更顯示,AI正以指數速度逼近專家水準,2026或許就是臨界點。我們,是在見證未來,還是在自欺欺人?

  AlphaGo、AlphaZero的核心作者——Julian拋出了一個尖銳的比喻:人們今天對AI的態度,很像當初面對新冠疫情早期的反應。

  Julian的意思很直接:我們正在嚴重低估AI的進展。

  

  很多人還在笑它寫錯代碼,抱怨它沒法替代人類;但在實驗室里,研究者早已看到另一幅景象——AI已經能獨立完成幾個小時的復雜任務,并且還在按指數速度進化。

  這就是他決定站出來發聲的原因:公眾的認知,和前沿的現實,之間至少隔著一個世代的落差。

  

  科學家不忍再沉默:AI為何被大眾低估?

  Julian Schrittwieser的名字,或許不像馬斯克、奧特曼那樣家喻戶曉,但在AI圈,他是響當當的存在。

  

  作為AlphaGo、AlphaZero、MuZero的核心作者之一,他親歷了AI從「圍棋科幻」到「現實碾壓」的全過程。

  也正因如此,當他在個人博客寫下那段話時,格外刺耳:

  人們注意到AI還會犯錯,就急著下結論:它永遠不可能達到人類水準,或者影響有限?蓜e忘了——就在幾年前,讓AI寫程序、設計網站還完全是科幻!

  在他看來,今天的輿論氛圍有點荒謬。

  大眾盯著模型出錯的細節,就斷言「AI不過如此」;記者拿兩代模型的閑聊對比,覺得「沒啥變化」,就認定「進步停滯」;政策討論里,AI被當成遙遠的、虛浮的「泡沫」。

  

  然而,實驗室里的研究者看到的,卻是另一幅畫面:AI的能力曲線正在以指數型躍升。

  Julian bluntly指出,公眾與前沿之間的認知差距,至少滯后了一個世代

  他之所以站出來發聲,不是為了渲染危機,而是為了提醒:如果連科學家眼前清晰可見的趨勢都被忽視,真正的臨界點到來時,我們幾乎沒有準備。

  指數曲線下的震撼

  AI「獨立上班」的時間在翻倍

  Julian提出的第一個關鍵證據,來自一家專門研究模型能力的機構——METR (Model Evaluation and Threat Research)。

  他們的思路很直白:不再只看模型答題對錯,而是衡量它們能自主完成多長時間的真實任務。

  在今年早些時候的研究里,METR給出的答案是:Claude 3.7 Sonnet能在約1小時長度的軟件工程任務中保持50%的成功率。

  

  這意味著,它已經具備獨立撐起一段「實打實的工作時長」的能力。

  Julian指出,更令人震驚的是——這條曲線呈現出指數增長趨勢,每7個月翻一倍。

  Sonnet 3.7已經是7個月前的模型,正好對應METR統計出的翻倍周期。

  他隨即給出最新的對照:在METR官網更新的圖表里,可以看到Grok 4、Claude Opus 4.1、GPT-5已經排在右上角。

  

  Julian博文引用的METR數據,橫軸為時間,縱軸為可完成任務的時長?梢钥吹紾PT-5、Opus 4.1已經突破兩小時大關。

  它們不再是「1小時工作」,而是能夠支撐超過2小時的任務。指數并沒有放緩,反而略超預期。

  這條線的含義不止是「2小時」,而是它所暗示的外推未來

  如果趨勢不變,2026年年中,模型將能連續完成8小時工作;再往后,2027年,模型可能在不少復雜任務上超越人類專家。

  Julian的意思很明確:你也許不必喜歡這種預測,但忽視它的代價極高。

  跨行業評測:AI已逼近人類專家

  如果說METR的研究證明了AI在軟件工程任務上的「時間地平線」不斷拉長,那么另一項研究——OpenAI的GDPval則把這個趨勢帶進了現實經濟。

  GDPval的設計非常直接:找來44個職業、9大行業的任務,每個職業挑選30個真實工作樣本,總共1320項任務。

  

  GDPval任務覆蓋9大行業,44個職業,模型表現已與人類差距極小。Claude Opus 4.1在多個維度甚至領先GPT-5。

  這些任務由平均14年經驗的行業專家設計,再交給模型去完成,最后由盲評打分:只看結果,不看作者是誰。

  Julian在博文里寫道:

  最新的結果顯示,GPT-5在許多職業任務上已經接近人類水準。更令人意外的是,Claude Opus 4.1(發布時間甚至早于 GPT-5),在GDPval上的表現顯著優于GPT-5,幾乎追平了行業專家。

  這不是某個孤立benchmark的「漂亮成績」,而是在跨越法律、金融、工程、醫療、創意等行業的真實檢驗中,AI開始逼近人類平均水平。

  

  OpenAI GDPval評測結果(2024–2025)?v軸為模型在真實職業任務中的勝率(對比有多年經驗的行業專家),深色為純勝率,淺色為勝或平局?梢钥吹紾PT-5已逼近「行業專家水平線」。

  更值得注意的是:OpenAI在這份報告中,并沒有刻意凸顯自家模型,反而坦誠承認友商Claude的表現更好。

  

  Julian特別稱贊這一點,認為這是行業少見的「科研誠信」:

  在追求安全和有益結果時,比拼輸贏反而不是最重要的。

  當然,GDPval的設計也并非完美。

  Julian也提醒,許多任務依然相對「整潔」(messy程度不高),沒有模擬長周期、多輪反饋的復雜工作環境。

  但即便如此,趨勢已經足夠說明問題——AI不只是能寫點小程序,而是在真實的職業場景里,正一步步靠近甚至超越人類。

  質疑聲出現:趨勢真的可靠嗎?

  在Julian的博文下,不少讀者認同「AI沒有泡沫」,但也有人提出尖銳的質疑。

  其中,Atharva Raykar的評論獲得了高贊。他指出:

  把AI的進展直接類比成指數曲線,其實很危險。疫情的指數傳播有明確機制支撐,而AI的提升并不是必然的。

  

  他的觀點是:AI的進步更像是摩爾定律,靠整個行業不斷疊加創新與工程突破。

  如果沒有推理模型等關鍵節點的突破,能力曲線可能早就「撞墻」。所以,單純外推曲線,未必能保證未來必然繼續加速。

  Atharva還提到另一個問題:評測任務不夠「messy」。

  METR的任務平均「復雜度得分」只有3/16,相當于結構清晰的小型工程任務;而現實世界中的軟件項目、科研探索,往往在7–16的區間,遠比benchmark混亂。

  也就是說,現在的評測結果可能高估了AI在真實世界中的適用性。

  Julian在后續回復中承認了這些提醒的合理性,但也強調:

  我類比的重點并不是AI一定會像病毒傳播那樣加速,而是公眾和決策層正在忽視已經發生的增長。

  短期(1–2 年)的趨勢依然很清晰——在這種尺度上,外推往往比專家預測更靠譜。

  在他看來,問題的關鍵不是曲線未來是否會「拐彎],而是:如果趨勢真的繼續,而社會卻沒有準備,那代價將會極其沉重。

  未來是替代,還是百倍增幅的協作?

  Julian 在文章的最后給出了他最具沖擊力的預測:

  2026年中,至少有一款頂級模型能連續自主完成8小時的工作任務——這意味著它不再只是一個「對話工具」,而是能真正以「全職員工」的形式參與工作流。

  2026年底,在多個行業任務中,會有模型的表現正式達到人類專家的平均水平

  2027年之后,在不少垂直任務里,AI的表現將頻繁超越專家,并逐步成為生產力的主力。

  這不是科幻,而是從當前曲線直接外推出的「保守版本」。

  

  Julian直言,忽視這種趨勢,比過度擔憂更危險。

  但他同時也強調,AI的未來不一定意味著「替代」。在他設想的畫面里,更有可能出現的是這樣一種場景:

  人類依舊是指揮者,但身邊會有幾十個、上百個超強助手。人機協作下的效率提升,不是1倍,而是10倍、100倍。

  這種模式不僅能避免大規模失業的恐慌,還可能釋放前所未有的創造力。

  科研、設計、醫療、法律、金融……幾乎所有行業都會因此重組。

  Julian把這種可能性稱為「更安全、更有益的道路」:讓AI成為超強工具,而不是對手。

  這幅未來圖景令人震撼:或許在不遠的2026或2027,你不是被AI取代,而是帶著一支「AI 團隊」去上班。

  Julian的提醒,其實很簡單:我們正在低估AI。

  不是說它完美無缺,而是它的曲線比多數人想象的更快、更陡。

  按照當前的趨勢,2026或許就是關鍵轉折點——AI可能不再是「實驗室的奇觀」,而是走進每一個普通行業,真正改寫經濟的底層邏輯。

  這不是危言聳聽,而是一個事實:未來兩三年內,我們都將直面一個被低估的臨界點。

  而當那一刻到來時,每個人都要回答同一個問題:你會抵抗、觀望,還是率先和你的AI團隊并肩上崗?

  參考資料:

  https://x.com/polynoamial/status/1972167347088904371

  https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
英偉達推出Nemotron 3 Nano Omni全模態模型,AI智能體效率提升9倍,多家企業已采用或評估

英偉達推出Nemotron 3 Nano Omni全模態模型,AI智能體效率提升9倍,多家企業已采用或評估

金融界
2026-04-29 08:06:33
巴黎圣日耳曼5-4拜仁,賽后評分出爐:不是登貝萊第1,拜仁9號第1

巴黎圣日耳曼5-4拜仁,賽后評分出爐:不是登貝萊第1,拜仁9號第1

側身凌空斬
2026-04-29 04:58:07
2026最嚴禁賭來襲!棋牌室、家庭麻將全部核查,紅線已劃定

2026最嚴禁賭來襲!棋牌室、家庭麻將全部核查,紅線已劃定

何氽簡史
2026-04-28 19:31:43
為什么說陽痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

為什么說陽痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

醫藥養生保健報社
2026-04-28 17:59:19
今夜,集體暴跌!

今夜,集體暴跌!

中國基金報
2026-04-29 00:16:33
張柱任農業農村部黨組書記

張柱任農業農村部黨組書記

界面新聞
2026-04-28 20:57:23
汪涵妻子被爆近況沖上熱搜:什么樣的“愛”會讓人窒息?

汪涵妻子被爆近況沖上熱搜:什么樣的“愛”會讓人窒息?

桌子的生活觀
2026-04-28 12:19:53
5月1日起,紅包轉賬全面嚴查!這幾條紅線碰了真的會坐牢

5月1日起,紅包轉賬全面嚴查!這幾條紅線碰了真的會坐牢

音樂時光的娛樂
2026-04-28 17:42:47
剛下飛機就被抓!美國佬用抓孟晚舟的套路、逮捕了中國公民徐澤偉

剛下飛機就被抓!美國佬用抓孟晚舟的套路、逮捕了中國公民徐澤偉

吃貨的分享
2026-04-29 04:49:05
最煩是自發免費做“躺平”內容的人

最煩是自發免費做“躺平”內容的人

不主流講話
2026-04-28 23:10:32
聽中國勸!伊朗這路走對了,短短48小時,打出漂亮合縱連橫組合拳

聽中國勸!伊朗這路走對了,短短48小時,打出漂亮合縱連橫組合拳

軍機Talk
2026-04-28 14:40:27
巴黎5-4拜仁!金球先生2射1傳 9000萬飛翼雙響 單場9球創歐冠紀錄

巴黎5-4拜仁!金球先生2射1傳 9000萬飛翼雙響 單場9球創歐冠紀錄

我愛英超
2026-04-29 04:59:25
拜托!不要再拿“致敬”當抄襲的遮羞布

拜托!不要再拿“致敬”當抄襲的遮羞布

細雨中的呼喊
2026-04-28 15:35:07
斯諾克世錦賽1/4決賽前二階段:趙心童8-8平墨菲,2桿破百5桿50+

斯諾克世錦賽1/4決賽前二階段:趙心童8-8平墨菲,2桿破百5桿50+

側身凌空斬
2026-04-29 05:19:11
“失去”了阿聯酋的阿拉伯世界,會變成怎樣?

“失去”了阿聯酋的阿拉伯世界,會變成怎樣?

曉栗
2026-04-28 06:02:42
日本首先發言,28國在聯合國接連圍攻,中方仇當場報,審判已開始

日本首先發言,28國在聯合國接連圍攻,中方仇當場報,審判已開始

歸史
2026-04-29 03:20:52
為紀念建國250周年,美國將推出一版限量版護照:將在內頁加入特朗普肖像及《獨立宣言》圖案,并配有其簽名,同時保留現有安全防偽設計

為紀念建國250周年,美國將推出一版限量版護照:將在內頁加入特朗普肖像及《獨立宣言》圖案,并配有其簽名,同時保留現有安全防偽設計

魯中晨報
2026-04-29 07:08:03
2次落后2次追平!吳宜澤單桿制勝,瓦菲1球不進,羅伯遜2-1逆轉!

2次落后2次追平!吳宜澤單桿制勝,瓦菲1球不進,羅伯遜2-1逆轉!

劉姚堯的文字城堡
2026-04-28 23:04:23
我在沙特開餐館娶了3位妻子,回國奔喪一星期,再回去時當場愣了

我在沙特開餐館娶了3位妻子,回國奔喪一星期,再回去時當場愣了

千秋文化
2026-04-28 20:17:01
特朗普:伊朗剛告知我們,他們已處于“崩潰狀態”,希望美國盡快開放海峽!伊朗:已絕對控制霍爾木茲,通過須繳費、用波斯語通訊

特朗普:伊朗剛告知我們,他們已處于“崩潰狀態”,希望美國盡快開放海峽!伊朗:已絕對控制霍爾木茲,通過須繳費、用波斯語通訊

每日經濟新聞
2026-04-28 22:58:06
2026-04-29 08:20:49
互聯網思想 incentive-icons
互聯網思想
AI時代,互聯網思想觀察
2434文章數 16907關注度
往期回顧 全部

科技要聞

微軟剛“松綁”,OpenAI火速牽手亞馬遜!

頭條要聞

阿聯酋突然退出歐佩克 被視為是"特朗普的一次勝利"

頭條要聞

阿聯酋突然退出歐佩克 被視為是"特朗普的一次勝利"

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

中央政治局會議定調,八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

旅游
房產
本地
時尚
公開課

旅游要聞

印度熱浪有多猛?游客受不住 大象也受不住

房產要聞

紅利爆發!海南,沖到全國人口增量第4。

本地新聞

用青花瓷的方式,打開西溪濕地

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版