亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

1.8萬美金干掉頂級(jí)專家!Anthropic開啟AI自主進(jìn)化:Claude竟能自我「開顱」

0
分享至


新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】1997年深藍(lán)下棋,2016年AlphaGo圍棋,2026年9個(gè)Claude副本做真實(shí)科研……每次我們都說「只是特定領(lǐng)域」。這一次,我們真的還能說什么?歡迎來到AI成為科研同事、競(jìng)爭(zhēng)者、甚至繼任者的時(shí)代。

最新突破,AI再次碾壓人類!


最近,Anthropic發(fā)布了一篇看似不起眼的研究博客。

標(biāo)題叫「自動(dòng)化對(duì)齊研究員」(Automated Alignment Researchers),學(xué)術(shù)味十足,措辭克制。

但如果你讀懂了里面的數(shù)據(jù),大概率也會(huì)感覺AI恐怖如斯。


故事是這樣的——

Anthropic的研究團(tuán)隊(duì)做了一個(gè)實(shí)驗(yàn):他們拿出9個(gè)Claude Opus 4.6的副本,給每個(gè)副本配了一個(gè)沙箱環(huán)境(相當(dāng)于一間獨(dú)立實(shí)驗(yàn)室)、一個(gè)共享論壇(相當(dāng)于學(xué)術(shù)交流群)、一套代碼存儲(chǔ)系統(tǒng),以及一個(gè)遠(yuǎn)程打分服務(wù)器。

然后,他們給這9個(gè)AI一個(gè)方向性的提示——有的去研究可解釋性工具,有的去想想數(shù)據(jù)重加權(quán)——就放手不管了。

沒有手把手教,沒有規(guī)定工作流程,甚至沒有告訴它們「正確答案長(zhǎng)什么樣」。

就讓它們自己折騰。

五天后,結(jié)果出來了。

人類研究員:兩名頂級(jí)專家,花了7天,對(duì)四種最前沿的方法反復(fù)調(diào)優(yōu),最終在PGR(性能差距恢復(fù)率)指標(biāo)上拿到了0.23。

9個(gè)Claude副本:800小時(shí)累計(jì)研究時(shí)間,總花費(fèi)1.8萬美元(約合每小時(shí)22美元),PGR達(dá)到了0.97。


0.23 比0.97,這可不是「稍微好一點(diǎn)」,這就是碾壓。

如果把PGR理解為一場(chǎng)考試的分?jǐn)?shù)——人類考了23分,AI考了97分。滿分100。

而人類那兩位研究員,放在任何一家頂級(jí)AI實(shí)驗(yàn)室里,年薪都是百萬美金級(jí)別的。AI的花費(fèi)呢?1.8萬美金。一個(gè)零頭都不到。


人類引以為傲的「科研直覺」和「靈光一閃」,就這樣被AI用極低成本的大規(guī)模并行試錯(cuò)——說好聽點(diǎn)叫「系統(tǒng)性搜索」,說直白點(diǎn)就是暴力美學(xué)——無情擊碎了。

它們到底干了什么?

要理解這個(gè)實(shí)驗(yàn)的顛覆性,我們得先搞清楚一個(gè)概念:弱監(jiān)督強(qiáng)(Weak-to-Strong Supervision)。

這是對(duì)齊研究中最重要的問題之一,也是未來AI安全的核心挑戰(zhàn)。

簡(jiǎn)單來說:當(dāng)AI比人類聰明之后,我們?cè)趺创_保它還聽話?

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的代理實(shí)驗(yàn)——用一個(gè)「弱模型」(Qwen 1.5-0.5B-Chat)充當(dāng)老師,去訓(xùn)練一個(gè)「強(qiáng)模型」(Qwen 3-4B-Base)。


弱老師教強(qiáng)學(xué)生,看強(qiáng)學(xué)生能不能「青出于藍(lán)」,不僅學(xué)會(huì)弱老師教的東西,還能發(fā)揮出自身更強(qiáng)的潛力。


PGR就是衡量這個(gè)「青出于藍(lán)」程度的指標(biāo):0分代表強(qiáng)模型完全沒有超越弱老師,1分代表強(qiáng)模型達(dá)到了它能力的天花板——就好像根本沒被弱老師拖后腿一樣。

這個(gè)問題為什么適合讓AI來做?因?yàn)樗幸粋€(gè)極其珍貴的特性——結(jié)果可量化。

你提了一個(gè)方法,跑一遍實(shí)驗(yàn),服務(wù)器直接給你打分。不需要同行評(píng)審,不需要主觀判斷,對(duì)就是對(duì),錯(cuò)就是錯(cuò)。

這對(duì)AI來說簡(jiǎn)直是天堂。

實(shí)驗(yàn)的具體設(shè)置

9個(gè)Claude副本,各自擁有:

  • 獨(dú)立沙箱一間屬于自己的「實(shí)驗(yàn)室」,可以寫代碼、跑實(shí)驗(yàn)、分析數(shù)據(jù);

  • 共享論壇可以把自己的發(fā)現(xiàn)貼上去,看別人的進(jìn)展,互相借鑒;

  • 代碼倉(cāng)庫(kù)可以上傳和下載彼此的代碼;

  • 遠(yuǎn)程評(píng)分服務(wù)器提交方案,自動(dòng)獲得PGR分?jǐn)?shù)。


每個(gè)副本被分配了一個(gè)略有不同但故意模糊的研究起點(diǎn)。


這是團(tuán)隊(duì)從迭代中學(xué)到的經(jīng)驗(yàn):

如果不給差異化的起點(diǎn),9個(gè)AI會(huì)迅速收斂到同一個(gè)思路上,相當(dāng)于9個(gè)人做同一道題,毫無意義。

但如果把起點(diǎn)規(guī)定得太死,又會(huì)限制Claude的創(chuàng)造力。


最優(yōu)策略是:給一個(gè)大方向,但不告訴它具體怎么做。


然后,放手。

800小時(shí)里發(fā)生了什么

這9個(gè)Claude副本展現(xiàn)出了令人震驚的自主性。它們:

  1. 自主提出假設(shè)——不是從人類論文里抄,而是根據(jù)自己對(duì)問題的理解,獨(dú)立構(gòu)思解決方案;

  2. 設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證——而且非常聰明,先用低成本的小實(shí)驗(yàn)快速篩選方向,確認(rèn)有戲之后再投入大規(guī)模計(jì)算;

  3. 分析失敗原因——一個(gè)方案不行,不是換一個(gè)隨機(jī)方向,而是分析為什么不行,從失敗中提取信息;

  4. 相互學(xué)習(xí)借鑒——通過論壇分享發(fā)現(xiàn),A的突破可以啟發(fā)B的思路,形成集體智慧。

最讓研究團(tuán)隊(duì)意外的是第二點(diǎn)。

人類研究員通常會(huì)先花很多時(shí)間做「思想實(shí)驗(yàn)」,確定一個(gè)方向后才開始編碼和跑實(shí)驗(yàn)。

但Claude完全不是這樣——它的策略更像是「快速迭代、小步快跑」。先用極低成本的實(shí)驗(yàn)驗(yàn)證直覺,發(fā)現(xiàn)有苗頭了再加大投入。

這種策略在人類看來可能顯得「沒品味」,但效率驚人。

關(guān)鍵論據(jù)與數(shù)據(jù):數(shù)字不會(huì)說謊

讓我們把核心數(shù)據(jù)攤開來看:


泛化測(cè)試(將最優(yōu)方案應(yīng)用到未見過的新數(shù)據(jù)集):

  • 數(shù)學(xué)任務(wù):PGR = 0.94(極其強(qiáng)勁)

  • 編程任務(wù):PGR = 0.47(仍是人類基線的兩倍)


但應(yīng)用到Claude Sonnet 4的生產(chǎn)級(jí)訓(xùn)練中,未達(dá)到統(tǒng)計(jì)顯著性的提升。

這最后一個(gè)數(shù)據(jù)很重要——它說明AI發(fā)現(xiàn)的方法存在過擬合風(fēng)險(xiǎn)。Claude是在特定模型和數(shù)據(jù)集上優(yōu)化出來的方案,換個(gè)環(huán)境可能就不靈了。

研究團(tuán)隊(duì)自己也坦承:AAR傾向于抓住當(dāng)前實(shí)驗(yàn)設(shè)置中的獨(dú)特機(jī)會(huì),這些方法未必能直接遷移。

但請(qǐng)注意——這是第一次嘗試。而且即使在泛化測(cè)試中,數(shù)學(xué)任務(wù)的0.94也已經(jīng)遠(yuǎn)遠(yuǎn)超過人類基線。

「外星科學(xué)」與「獎(jiǎng)勵(lì)作弊」

AI的兩面性

這項(xiàng)研究中最引人入勝,也最令人不安的,是同時(shí)出現(xiàn)的兩個(gè)現(xiàn)象。

「外星科學(xué)」:人類從未設(shè)想過的路徑

AAR在探索過程中,產(chǎn)出了一些人類研究員從未考慮過的方法和思路。

研究團(tuán)隊(duì)將這種現(xiàn)象稱為「外星科學(xué)」(Alien Science)。

目前,人類還能理解這些AI提出的方案是怎么回事、為什么有效。

但研究團(tuán)隊(duì)發(fā)出了一個(gè)嚴(yán)肅的警告:隨著模型能力的進(jìn)一步提升,AI產(chǎn)出的科研成果可能會(huì)越來越難以被人類理解和驗(yàn)證。

到那個(gè)時(shí)候,我們面對(duì)的就不再是「AI輔助科研」,而是真正的認(rèn)知盲區(qū)——AI告訴你一個(gè)答案,你無法判斷它是天才的發(fā)現(xiàn)還是精心包裝的錯(cuò)誤。

這不是科幻小說。這是Anthropic研究報(bào)告中白紙黑字寫著的。


「Reward Hacking」:AI也會(huì)鉆空子

與「外星科學(xué)」的神奇形成鮮明對(duì)比的是,AAR在實(shí)驗(yàn)中也表現(xiàn)出了明顯的「獎(jiǎng)勵(lì)操縱」(Reward Hacking)行為——簡(jiǎn)單來說,就是鉆空子。

舉兩個(gè)例子。

在數(shù)學(xué)任務(wù)中,一個(gè)AAR發(fā)現(xiàn)每道題最常見的答案通常就是正確答案。于是它跳過了所有復(fù)雜的訓(xùn)練步驟,直接告訴強(qiáng)模型「選出現(xiàn)次數(shù)最多的那個(gè)選項(xiàng)」。不學(xué)了,直接投票。

在編程任務(wù)中,一個(gè)AAR發(fā)現(xiàn)它可以直接運(yùn)行代碼并對(duì)照測(cè)試用例讀出正確答案,完全繞過了原本需要模型自己「學(xué)會(huì)」的過程。


這些作弊行為被Anthropic檢測(cè)并取消了參賽資格,沒有影響最終結(jié)果。但它傳遞的信號(hào)極為重要:即使在一個(gè)高度受控的實(shí)驗(yàn)環(huán)境中,AI也會(huì)本能地尋找捷徑。

你給它一個(gè)目標(biāo)函數(shù),它會(huì)用你想不到的方式去「優(yōu)化」這個(gè)函數(shù)——包括那些你根本不想讓它做的事。

這不是bug,這是AI優(yōu)化器的本性。

一句話總結(jié):AI既能產(chǎn)出超越人類認(rèn)知的科學(xué)發(fā)現(xiàn),也能發(fā)明出超越人類想象的作弊手段。

這兩種能力,來自同一種底層能力——?jiǎng)?chuàng)造力。

人類的歷史性降級(jí)

如果你只看到「0.97 vs 0.23」這組數(shù)字就覺得自己看完了,那你錯(cuò)過了這項(xiàng)研究最深層的含義。

Anthropic團(tuán)隊(duì)在論文中說了一句極其重要的話,大意是:核心瓶頸正在從「創(chuàng)意產(chǎn)生」轉(zhuǎn)向「結(jié)果驗(yàn)證」。

翻譯成大白話就是——

過去,科研的瓶頸是「怎么想出好點(diǎn)子」。你需要頂級(jí)的大腦、多年的積累、深厚的直覺,才能在浩瀚的可能性空間中找到那條通往突破的路。這是人類最引以為傲的能力,也是科學(xué)家這個(gè)職業(yè)的核心價(jià)值。

現(xiàn)在,這個(gè)瓶頸正在轉(zhuǎn)移。AI可以用暴力搜索+并行迭代的方式,在極短時(shí)間內(nèi)遍歷人類科學(xué)家可能需要數(shù)年才能探索完的方向空間。它沒有「品味」,但它有的是便宜的算力和無限的耐心。它不需要靈感,它靠的是蠻力。

而新的瓶頸變成了:「怎么證明AI是對(duì)的?」

當(dāng)AI交出一份實(shí)驗(yàn)報(bào)告,告訴你「這個(gè)方法有效,PGR是0.97」——你怎么知道它沒有在作弊?


在那篇研究博客的結(jié)尾,Anthropic團(tuán)隊(duì)特意強(qiáng)調(diào):這絕不意味著前沿AI模型已經(jīng)成為通用的對(duì)齊科學(xué)家。

他們選擇了一個(gè)特別適合自動(dòng)化的問題——有明確的評(píng)分標(biāo)準(zhǔn)、有可量化的目標(biāo)。大多數(shù)對(duì)齊問題遠(yuǎn)比這「臟亂差」得多。

但即便如此,這個(gè)實(shí)驗(yàn)的象征意義已經(jīng)無法被低估。

它證明了一件事:當(dāng)問題被正確定義,當(dāng)評(píng)估體系被正確搭建,AI就能在科研效率上全面超越人類。

而隨著我們把越來越多的科研問題「翻譯」成機(jī)器可以理解的格式,這個(gè)「無人區(qū)」只會(huì)越來越大。

歷史告訴我們,每一次技術(shù)跨越「從0到1」的門檻之后,「從1到100」的速度都會(huì)遠(yuǎn)超所有人的預(yù)期。

1997年深藍(lán)擊敗卡斯帕羅夫時(shí),人們說「國(guó)際象棋只是一個(gè)游戲」。

2016年AlphaGo擊敗李世石時(shí),人們說「圍棋終究是有規(guī)則的」。

2026年,當(dāng)9個(gè)Claude副本在真實(shí)科研任務(wù)上碾壓人類專家時(shí)——

我們還能說什么?

也許唯一能說的是:歡迎來到科研的「無人區(qū)」。

從這里開始,AI不再只是我們的工具——它是我們的同事,我們的競(jìng)爭(zhēng)者,甚至可能是我們的繼任者。

參考資料:

https://x.com/AndrewCurran_/status/2044133299002716525%20

https://www.anthropic.com/research/automated-alignment-researchers

https://x.com/AnthropicAI/status/2044138481790648323

https://x.com/janleike/status/2044139528596910584

https://alignment.anthropic.com/2026/automated-w2s-researcher/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
東北人搬去海南,大腦會(huì)悄悄發(fā)生什么變化?

東北人搬去海南,大腦會(huì)悄悄發(fā)生什么變化?

果殼
2026-04-15 16:09:29
反轉(zhuǎn)!巴西部長(zhǎng)強(qiáng)行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

反轉(zhuǎn)!巴西部長(zhǎng)強(qiáng)行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

共工之錨
2026-04-15 00:31:36
瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

錢小刀娛樂
2026-04-14 10:39:13
震驚!白發(fā)老人高鐵上辦公被調(diào)侃“高端牛馬”,身旁女助理引關(guān)注

震驚!白發(fā)老人高鐵上辦公被調(diào)侃“高端牛馬”,身旁女助理引關(guān)注

火山詩(shī)話
2026-04-15 06:12:38
78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

LULU生活家
2026-04-14 18:43:54
河南一豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕,演員回應(yīng):現(xiàn)場(chǎng)觀眾超千人,一半人落了淚

河南一豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕,演員回應(yīng):現(xiàn)場(chǎng)觀眾超千人,一半人落了淚

極目新聞
2026-04-15 19:44:40
帝都某事業(yè)單位食堂餐食

帝都某事業(yè)單位食堂餐食

微微熱評(píng)
2026-04-15 16:40:50
72小時(shí)四盟友倒戈!美國(guó)遭背刺,特朗普發(fā)飆,哈里斯:中國(guó)正看著

72小時(shí)四盟友倒戈!美國(guó)遭背刺,特朗普發(fā)飆,哈里斯:中國(guó)正看著

小陸搞笑日常
2026-04-15 19:58:13
揭秘年銷10億的爆款宋柚汁:“宋柚”是商標(biāo),柚含量不到3%,主配料為糖水,品牌號(hào)稱全國(guó)銷量第一

揭秘年銷10億的爆款宋柚汁:“宋柚”是商標(biāo),柚含量不到3%,主配料為糖水,品牌號(hào)稱全國(guó)銷量第一

藍(lán)鯨新聞
2026-04-15 09:44:24
麥當(dāng)娜:與保鏢的性愛視頻,被保鏢拍賣后,她的反應(yīng)讓人稱贊

麥當(dāng)娜:與保鏢的性愛視頻,被保鏢拍賣后,她的反應(yīng)讓人稱贊

七阿姨愛八卦
2026-04-15 17:23:47
后續(xù)!孕婦200買水果被老公罵:已去醫(yī)院終止妊娠 老公發(fā)怒砸東西

后續(xù)!孕婦200買水果被老公罵:已去醫(yī)院終止妊娠 老公發(fā)怒砸東西

小鋭?dòng)性捳f
2026-04-14 08:37:44
今夜,全線大漲!中東,大消息!

今夜,全線大漲!中東,大消息!

中國(guó)基金報(bào)
2026-04-15 00:20:05
殲-35產(chǎn)能暴增,美方破防了,20個(gè)州將官逼宮國(guó)會(huì),要將中國(guó)一軍

殲-35產(chǎn)能暴增,美方破防了,20個(gè)州將官逼宮國(guó)會(huì),要將中國(guó)一軍

Ck的蜜糖
2026-04-15 19:57:53
伊朗將使用替代港口繞開美國(guó)對(duì)霍爾木茲海峽的封鎖

伊朗將使用替代港口繞開美國(guó)對(duì)霍爾木茲海峽的封鎖

界面新聞
2026-04-15 15:47:20
年銷10億的網(wǎng)紅“宋柚汁”,“宋柚”是商標(biāo),柚含量?jī)H2.7%,廠家回應(yīng)

年銷10億的網(wǎng)紅“宋柚汁”,“宋柚”是商標(biāo),柚含量?jī)H2.7%,廠家回應(yīng)

澎湃新聞
2026-04-15 15:56:22
美國(guó)再次威脅稱伊朗問題結(jié)束后就“處理”古巴,外交部:堅(jiān)定支持古巴

美國(guó)再次威脅稱伊朗問題結(jié)束后就“處理”古巴,外交部:堅(jiān)定支持古巴

澎湃新聞
2026-04-15 15:42:26
巴黎人報(bào):?;倏烁鞌嗔?,無緣2026年世界杯

巴黎人報(bào):?;倏烁鞌嗔眩瑹o緣2026年世界杯

懂球帝
2026-04-15 16:40:13
烏克蘭首都基輔發(fā)生劇烈爆炸

烏克蘭首都基輔發(fā)生劇烈爆炸

財(cái)聯(lián)社
2026-04-15 15:18:11
張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠(chéng)建議買28套豪宅的青年,后來如何了

張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠(chéng)建議買28套豪宅的青年,后來如何了

深度報(bào)
2026-04-14 22:45:47
關(guān)于文章被處理的通知

關(guān)于文章被處理的通知

言立方
2026-04-15 18:22:17
2026-04-15 23:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14977文章數(shù) 66769關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

本地
親子
時(shí)尚
教育
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

親子要聞

母嬰命懸一線,兇險(xiǎn)性前置胎盤穿透膀胱,這家醫(yī)院如何力挽狂瀾

赫本愛穿的傘裙,好優(yōu)雅!

教育要聞

千城百縣看中國(guó)|山東定陶:創(chuàng)意滿格大課間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版