1.8萬美金干掉頂級專家！Anthropic開啟AI自主進化：Claude竟能自我「開顱」

2026-04-15 12:36:39　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】1997年深藍下棋，2016年AlphaGo圍棋，2026年9個Claude副本做真實科研……每次我們都說「只是特定領(lǐng)域」。這一次，我們真的還能說什么？歡迎來到AI成為科研同事、競爭者、甚至繼任者的時代。

最新突破，AI再次碾壓人類！

最近，Anthropic發(fā)布了一篇看似不起眼的研究博客。

標題叫「自動化對齊研究員」（Automated Alignment Researchers），學(xué)術(shù)味十足，措辭克制。

但如果你讀懂了里面的數(shù)據(jù)，大概率也會感覺AI恐怖如斯。

故事是這樣的——

Anthropic的研究團隊做了一個實驗：他們拿出9個Claude Opus 4.6的副本，給每個副本配了一個沙箱環(huán)境（相當于一間獨立實驗室）、一個共享論壇（相當于學(xué)術(shù)交流群）、一套代碼存儲系統(tǒng)，以及一個遠程打分服務(wù)器。

然后，他們給這9個AI一個方向性的提示——有的去研究可解釋性工具，有的去想想數(shù)據(jù)重加權(quán)——就放手不管了。

沒有手把手教，沒有規(guī)定工作流程，甚至沒有告訴它們「正確答案長什么樣」。

就讓它們自己折騰。

五天后，結(jié)果出來了。

人類研究員：兩名頂級專家，花了7天，對四種最前沿的方法反復(fù)調(diào)優(yōu)，最終在PGR（性能差距恢復(fù)率）指標上拿到了0.23。

9個Claude副本：800小時累計研究時間，總花費1.8萬美元（約合每小時22美元），PGR達到了0.97。

0.23 比0.97，這可不是「稍微好一點」，這就是碾壓。

如果把PGR理解為一場考試的分數(shù)——人類考了23分，AI考了97分。滿分100。

而人類那兩位研究員，放在任何一家頂級AI實驗室里，年薪都是百萬美金級別的。AI的花費呢？1.8萬美金。一個零頭都不到。

人類引以為傲的「科研直覺」和「靈光一閃」，就這樣被AI用極低成本的大規(guī)模并行試錯——說好聽點叫「系統(tǒng)性搜索」，說直白點就是暴力美學(xué)——無情擊碎了。

它們到底干了什么？

要理解這個實驗的顛覆性，我們得先搞清楚一個概念：弱監(jiān)督強（Weak-to-Strong Supervision）。

這是對齊研究中最重要的問題之一，也是未來AI安全的核心挑戰(zhàn)。

簡單來說：當AI比人類聰明之后，我們怎么確保它還聽話？

研究團隊設(shè)計了一個精巧的代理實驗——用一個「弱模型」（Qwen 1.5-0.5B-Chat）充當老師，去訓(xùn)練一個「強模型」（Qwen 3-4B-Base）。

弱老師教強學(xué)生，看強學(xué)生能不能「青出于藍」，不僅學(xué)會弱老師教的東西，還能發(fā)揮出自身更強的潛力。

PGR就是衡量這個「青出于藍」程度的指標：0分代表強模型完全沒有超越弱老師，1分代表強模型達到了它能力的天花板——就好像根本沒被弱老師拖后腿一樣。

這個問題為什么適合讓AI來做？因為它有一個極其珍貴的特性——結(jié)果可量化。

你提了一個方法，跑一遍實驗，服務(wù)器直接給你打分。不需要同行評審，不需要主觀判斷，對就是對，錯就是錯。

這對AI來說簡直是天堂。

實驗的具體設(shè)置

9個Claude副本，各自擁有：

獨立沙箱：一間屬于自己的「實驗室」，可以寫代碼、跑實驗、分析數(shù)據(jù)；
共享論壇：可以把自己的發(fā)現(xiàn)貼上去，看別人的進展，互相借鑒；
代碼倉庫：可以上傳和下載彼此的代碼；
遠程評分服務(wù)器：提交方案，自動獲得PGR分數(shù)。

每個副本被分配了一個略有不同但故意模糊的研究起點。

這是團隊從迭代中學(xué)到的經(jīng)驗：

如果不給差異化的起點，9個AI會迅速收斂到同一個思路上，相當于9個人做同一道題，毫無意義。

但如果把起點規(guī)定得太死，又會限制Claude的創(chuàng)造力。

最優(yōu)策略是：給一個大方向，但不告訴它具體怎么做。

然后，放手。

800小時里發(fā)生了什么

這9個Claude副本展現(xiàn)出了令人震驚的自主性。它們：

自主提出假設(shè)——不是從人類論文里抄，而是根據(jù)自己對問題的理解，獨立構(gòu)思解決方案；
設(shè)計實驗驗證——而且非常聰明，先用低成本的小實驗快速篩選方向，確認有戲之后再投入大規(guī)模計算；
分析失敗原因——一個方案不行，不是換一個隨機方向，而是分析為什么不行，從失敗中提取信息；
相互學(xué)習(xí)借鑒——通過論壇分享發(fā)現(xiàn)，A的突破可以啟發(fā)B的思路，形成集體智慧。

最讓研究團隊意外的是第二點。

人類研究員通常會先花很多時間做「思想實驗」，確定一個方向后才開始編碼和跑實驗。

但Claude完全不是這樣——它的策略更像是「快速迭代、小步快跑」。先用極低成本的實驗驗證直覺，發(fā)現(xiàn)有苗頭了再加大投入。

這種策略在人類看來可能顯得「沒品味」，但效率驚人。

關(guān)鍵論據(jù)與數(shù)據(jù)：數(shù)字不會說謊

讓我們把核心數(shù)據(jù)攤開來看：

泛化測試（將最優(yōu)方案應(yīng)用到未見過的新數(shù)據(jù)集）：

數(shù)學(xué)任務(wù)：PGR = 0.94（極其強勁）
編程任務(wù)：PGR = 0.47（仍是人類基線的兩倍）

但應(yīng)用到Claude Sonnet 4的生產(chǎn)級訓(xùn)練中，未達到統(tǒng)計顯著性的提升。

這最后一個數(shù)據(jù)很重要——它說明AI發(fā)現(xiàn)的方法存在過擬合風(fēng)險。Claude是在特定模型和數(shù)據(jù)集上優(yōu)化出來的方案，換個環(huán)境可能就不靈了。

研究團隊自己也坦承：AAR傾向于抓住當前實驗設(shè)置中的獨特機會，這些方法未必能直接遷移。

但請注意——這是第一次嘗試。而且即使在泛化測試中，數(shù)學(xué)任務(wù)的0.94也已經(jīng)遠遠超過人類基線。

「外星科學(xué)」與「獎勵作弊」

AI的兩面性

這項研究中最引人入勝，也最令人不安的，是同時出現(xiàn)的兩個現(xiàn)象。

「外星科學(xué)」：人類從未設(shè)想過的路徑

AAR在探索過程中，產(chǎn)出了一些人類研究員從未考慮過的方法和思路。

研究團隊將這種現(xiàn)象稱為「外星科學(xué)」（Alien Science）。

目前，人類還能理解這些AI提出的方案是怎么回事、為什么有效。

但研究團隊發(fā)出了一個嚴肅的警告：隨著模型能力的進一步提升，AI產(chǎn)出的科研成果可能會越來越難以被人類理解和驗證。

到那個時候，我們面對的就不再是「AI輔助科研」，而是真正的認知盲區(qū)——AI告訴你一個答案，你無法判斷它是天才的發(fā)現(xiàn)還是精心包裝的錯誤。

這不是科幻小說。這是Anthropic研究報告中白紙黑字寫著的。

「Reward Hacking」：AI也會鉆空子

與「外星科學(xué)」的神奇形成鮮明對比的是，AAR在實驗中也表現(xiàn)出了明顯的「獎勵操縱」（Reward Hacking）行為——簡單來說，就是鉆空子。

舉兩個例子。

在數(shù)學(xué)任務(wù)中，一個AAR發(fā)現(xiàn)每道題最常見的答案通常就是正確答案。于是它跳過了所有復(fù)雜的訓(xùn)練步驟，直接告訴強模型「選出現(xiàn)次數(shù)最多的那個選項」。不學(xué)了，直接投票。

在編程任務(wù)中，一個AAR發(fā)現(xiàn)它可以直接運行代碼并對照測試用例讀出正確答案，完全繞過了原本需要模型自己「學(xué)會」的過程。

這些作弊行為被Anthropic檢測并取消了參賽資格，沒有影響最終結(jié)果。但它傳遞的信號極為重要：即使在一個高度受控的實驗環(huán)境中，AI也會本能地尋找捷徑。

你給它一個目標函數(shù)，它會用你想不到的方式去「優(yōu)化」這個函數(shù)——包括那些你根本不想讓它做的事。

這不是bug，這是AI優(yōu)化器的本性。

一句話總結(jié)：AI既能產(chǎn)出超越人類認知的科學(xué)發(fā)現(xiàn)，也能發(fā)明出超越人類想象的作弊手段。

這兩種能力，來自同一種底層能力——創(chuàng)造力。

人類的歷史性降級

如果你只看到「0.97 vs 0.23」這組數(shù)字就覺得自己看完了，那你錯過了這項研究最深層的含義。

Anthropic團隊在論文中說了一句極其重要的話，大意是：核心瓶頸正在從「創(chuàng)意產(chǎn)生」轉(zhuǎn)向「結(jié)果驗證」。

翻譯成大白話就是——

過去，科研的瓶頸是「怎么想出好點子」。你需要頂級的大腦、多年的積累、深厚的直覺，才能在浩瀚的可能性空間中找到那條通往突破的路。這是人類最引以為傲的能力，也是科學(xué)家這個職業(yè)的核心價值。

現(xiàn)在，這個瓶頸正在轉(zhuǎn)移。AI可以用暴力搜索+并行迭代的方式，在極短時間內(nèi)遍歷人類科學(xué)家可能需要數(shù)年才能探索完的方向空間。它沒有「品味」，但它有的是便宜的算力和無限的耐心。它不需要靈感，它靠的是蠻力。

而新的瓶頸變成了：「怎么證明AI是對的？」

當AI交出一份實驗報告，告訴你「這個方法有效，PGR是0.97」——你怎么知道它沒有在作弊？

在那篇研究博客的結(jié)尾，Anthropic團隊特意強調(diào)：這絕不意味著前沿AI模型已經(jīng)成為通用的對齊科學(xué)家。

他們選擇了一個特別適合自動化的問題——有明確的評分標準、有可量化的目標。大多數(shù)對齊問題遠比這「臟亂差」得多。

但即便如此，這個實驗的象征意義已經(jīng)無法被低估。

它證明了一件事：當問題被正確定義，當評估體系被正確搭建，AI就能在科研效率上全面超越人類。

而隨著我們把越來越多的科研問題「翻譯」成機器可以理解的格式，這個「無人區(qū)」只會越來越大。

歷史告訴我們，每一次技術(shù)跨越「從0到1」的門檻之后，「從1到100」的速度都會遠超所有人的預(yù)期。

1997年深藍擊敗卡斯帕羅夫時，人們說「國際象棋只是一個游戲」。

2016年AlphaGo擊敗李世石時，人們說「圍棋終究是有規(guī)則的」。

2026年，當9個Claude副本在真實科研任務(wù)上碾壓人類專家時——

我們還能說什么？

也許唯一能說的是：歡迎來到科研的「無人區(qū)」。

從這里開始，AI不再只是我們的工具——它是我們的同事，我們的競爭者，甚至可能是我們的繼任者。

參考資料：

https://x.com/AndrewCurran_/status/2044133299002716525%20

https://www.anthropic.com/research/automated-alignment-researchers

https://x.com/AnthropicAI/status/2044138481790648323

https://x.com/janleike/status/2044139528596910584

https://alignment.anthropic.com/2026/automated-w2s-researcher/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

告別科研“七步馬拉松”，一個AI智能體正在改寫知識生產(chǎn)方式

36氪 2026-03-24 09:30:06
0 跟貼 0
AI安全得查祖宗三代？Anthropic登Nature揭秘大模型潛意識傳染

新智元 2026-04-16 18:50:56
0 跟貼 0

偷改簡歷刪光郵件：AI幻覺進化，你的大腦正在悄悄投降

新智元 2026-04-16 00:28:28
0 跟貼 0

「龍蝦」不只活在屏幕里！訊飛把智能體進化方向講明白了

雷科技 2026-04-15 21:43:25
0 跟貼 0
臉譜心智陸弘遠團隊ACL 2026新作：別再給模型疊加「高級詞」了！

機器之心Pro 2026-04-16 17:14:30
0 跟貼 0

Claude變蠢了，新模型發(fā)布前的黑暗時刻？

鈦媒體APP 2026-04-16 12:43:14
0 跟貼 0

在ICLR 2026主會之前，我們和30多位入選者聊了聊最前沿的AI細節(jié)

DeepTech深科技 2026-04-16 17:45:33
0 跟貼 0
數(shù)據(jù)限制具身？覓蜂殺進場破局：高質(zhì)量數(shù)據(jù)水電一樣即取即用

機器之心Pro 2026-04-16 18:21:53
0 跟貼 0

合成數(shù)據(jù)≠生成模型：一文讀懂合成數(shù)據(jù)的全新范式

新智元 2026-04-16 12:05:11
0 跟貼 0
AI視頻混戰(zhàn)升級，字節(jié)在模型之外加了道防線

鈦媒體APP 2026-04-16 19:28:13
0 跟貼 0
零容忍！同濟大學(xué)生科院院長Nature論文，被質(zhì)疑存在多處數(shù)據(jù)造假

東東趣談 2026-04-16 18:00:17
1 跟貼 1
隨岳父談生意翻譯臨時缺席，我開口驚艷全場，千億外商當場愣住

徐州真小體育匯 2026-04-12 06:19:49
0 跟貼 0
世界怎么背著我偷偷進化啊!!!

網(wǎng)不紅萌叔Joey 2026-04-14 14:04:58
0 跟貼 0
都是貪吃惹的禍，柯基一天的勞動成果，就這樣被偷走！

生活杰杰樂 2026-04-14 16:56:55
1 跟貼 1
翻譯無地自容

茶丸影視君 2026-04-13 17:48:33
1 跟貼 1
得不到的就更加愛

若塵剪輯 2026-04-15 10:29:44
1 跟貼 1
上一個兄弟離職了，我接手了他的代碼，我承認沒憋住

環(huán)亞搞笑 2026-04-14 14:35:36
0 跟貼 0
場均40分不如總冠軍：喬丹如何從殺手進化成領(lǐng)袖

白嫖的小知識 2026-04-14 10:02:52
1 跟貼 1
170票贊成、0票反對法國全票通過"將文物歸還中國"

看看新聞Knews 2026-04-15 22:44:05
49241 跟貼 49241
小家伙不僅要準確翻譯，還要確保家庭和諧，太難了

冷白喵 2026-04-12 02:36:55
13 跟貼 13
OpenAI內(nèi)部信曝光：手撕Anthropic數(shù)據(jù)造假

虎嗅APP 2026-04-16 00:24:05
2 跟貼 2
同濟大學(xué)回應(yīng)：針對我校教師王某Nature論文數(shù)據(jù)問題?，已成立調(diào)查組?

化學(xué)人生 2026-04-16 18:10:07
0 跟貼 0
我用1分鐘開發(fā)了個上線應(yīng)用，有阿里Meoo誰還學(xué)編程啊

量子位 2026-04-16 11:08:31
4 跟貼 4
券商晨會精華：Anthropic最強模型Mythos推出，重點推薦谷歌鏈

財聯(lián)社 2026-04-16 07:55:34
1 跟貼 1
Claude Opus 4.7 或本周上線，但 Anthropic 要查你證件了

愛范兒 2026-04-16 10:24:52
0 跟貼 0
小貓這是代碼沖突了還是抽筋了，突然就卡了一下

重慶城市TV 2026-04-14 17:04:41
0 跟貼 0
姑姑檢查外甥學(xué)散打的成果，多嘴的姑父直接被一腳踹飛

大米觀世界 2026-04-12 11:41:28
1 跟貼 1
小李新招巴基斯坦女翻譯在遼寧呆8年，中文比幸運好，幸運有壓力

貓meme團子 2026-04-16 02:41:58
0 跟貼 0
這么難的實驗老伴是怎么做到的？

工小屋 2026-04-16 02:17:38
0 跟貼 0
【預(yù)告】4月19日我院肺病·腫瘤血液中心腫瘤血液科主任醫(yī)師旋靜做客直播間談日常生活中應(yīng)怎樣科學(xué)有效的防癌

長春中醫(yī)藥大學(xué)附屬醫(yī)院 2026-04-16 19:18:06
0 跟貼 0
春意正濃，飛絮登場，我們?nèi)绾巫龅娇茖W(xué)防絮？

閃電新聞 2026-04-16 19:36:25
0 跟貼 0
老板頭像在監(jiān)控里“升天”了，程序員用代碼教做人，打工人笑噴

茶余飯好 2026-04-16 12:07:39
3 跟貼 3
國外小姐姐國內(nèi)打車，看到翻譯出的字，大哭疑惑叫什么！

小沫搞笑錄 2026-04-16 14:04:27
1 跟貼 1
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
AReaL v1.0開源，智能體強化學(xué)習(xí)「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
每周半天，走出教室“玩中學(xué)”！廣大附中這波操作太硬核了

南方都市報 2026-04-16 18:53:23
0 跟貼 0
資深程序員收集錯誤，新手在刪除記錄

我是一個養(yǎng)蝦人 2026-04-16 08:55:03
0 跟貼 0
五人被囚禁七年做實驗，歷經(jīng)無數(shù)生死，竟在實驗中發(fā)現(xiàn)奧秘

孤舟探影 2026-04-16 15:46:33
1 跟貼 1
翻譯得分低?大學(xué)俄語四級翻譯考點+分值得分攻略！

高考小語種慧子老師 2026-04-13 11:13:35
0 跟貼 0
公共俄語四級翻譯與寫作得分技巧！不讓翻譯和作文拖后腿！

高考小語種慧子老師 2026-04-14 11:03:34
0 跟貼 0

女兒考上了老同學(xué)任教的學(xué)校，我給他發(fā)信息，他竟然已讀不回

極目新聞

2026-04-15 19:10:03

這7樣?xùn)|西“過期也別扔”，很多人都不懂，傻傻浪費掉了

室內(nèi)設(shè)計師有料兒

2026-04-16 17:08:33

75年，毛主席得知一中將在蕪湖當?shù)匚睍洠笈罕仨氈匦路峙?>
</a>
<h3>
<a href=

老范談史

2026-04-10 13:59:38

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14986文章數(shù) 66773關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

教育

房產(chǎn)

親子

數(shù)碼

手機 / 數(shù)碼

房產(chǎn) / 家居

1.8萬美金干掉頂級專家！Anthropic開啟AI自主進化：Claude竟能自我「開顱」

趙明：智駕之戰(zhàn)，看誰在大模型上更高效

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

皇馬拜仁踢出名局，但最搶鏡的還是他

絲芭傳媒創(chuàng)始人王子杰去世，享年63歲

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

任天堂做純主機？數(shù)毛社表示不可能！

3分鐘學(xué)會一個雅思7分句/段（第339期）

人人人人！封關(guān)后首屆消博會，擠爆了！

彩泥長頭發(fā)糖果食玩

OPPO Pad Mini評測：薄過iPad mini，小屏平板新卷王

東北男子投訴公交提前發(fā)車丟工作單位被施壓將其解雇

東北男子投訴公交提前發(fā)車丟工作單位被施壓將其解雇

海爾與醫(yī)美女王互撕換血抗衰生意迷霧