亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic用千問做了場實(shí)驗(yàn):AI能自己研究AI安全了

0
分享至

凌晨兩點(diǎn),Anthropic的實(shí)驗(yàn)室里,9個AI研究員正在同時工作。它們沒人睡覺,沒人喊累,5天跑了800小時實(shí)驗(yàn),把一項(xiàng)關(guān)鍵指標(biāo)從0.23推到了0.97。

這些研究員不是人類。它們是Claude Opus 4.6驅(qū)動的自動化代理,正在解決一個聽起來像科幻的問題:當(dāng)AI比人類更聰明時,人類還能管得住它嗎?


一個真實(shí)的實(shí)驗(yàn),不是科幻

AI安全領(lǐng)域有個核心難題叫"可擴(kuò)展監(jiān)督"。簡單說就是:今天的AI已經(jīng)能寫幾萬行代碼了,未來可能寫幾百萬行,人類根本讀不完。怎么確保這些代碼沒問題?

Anthropic的解法叫"弱監(jiān)督強(qiáng)模型"。想象你是個小學(xué)老師,學(xué)生是個天才高中生——你懂的沒他多,但得教他。問題是:他最后學(xué)成什么樣?是被你帶偏了,還是能突破你的局限?

實(shí)驗(yàn)設(shè)計(jì)很直接。用阿里千問1.5-0.5B-Chat(5億參數(shù))扮演"弱老師",千問3-4B-Base(40億參數(shù))扮演"強(qiáng)學(xué)生"。規(guī)模差8倍,模擬的正是未來人類與超級AI的知識差距。

衡量標(biāo)準(zhǔn)叫PGR(性能差距恢復(fù)程度)。0代表強(qiáng)學(xué)生被弱老師拖垮,1代表徹底突破限制。人類研究員先上場,7天調(diào)試4種現(xiàn)有方法,最好成績0.23。

然后9個Claude代理接手。Anthropic給它們配了沙盒環(huán)境、代碼工具、共享論壇、評分服務(wù)器,指令只有一句:提高PGR,方法自己想辦法。

5天后,PGR達(dá)到0.97。

22美元/小時的AI研究員

總成本約1.8萬美元,折合每小時22美元。沃爾瑪副店長排班的時薪是25美元。

這個價格對比很有意思。不是想說AI便宜,而是想說明:AI做研究已經(jīng)從"輔助翻譯總結(jié)"進(jìn)化到了"完整研究閉環(huán)"——提假設(shè)、寫代碼、跑實(shí)驗(yàn)、看分?jǐn)?shù)、分析失敗、交流發(fā)現(xiàn)、繼續(xù)迭代。

但Anthropic自己也很謹(jǐn)慎。論文標(biāo)題是"Automated Alignment Researchers",不是"AI科學(xué)家"。

關(guān)鍵區(qū)別在于:這次選的是一個能自動打分的任務(wù)。PGR有明確計(jì)算公式,實(shí)驗(yàn)可以反復(fù)提交、即時反饋?,F(xiàn)實(shí)中的對齊問題往往模糊得多,沒法輕松量化。

所以0.97這個數(shù)字要拆開看。它證明的是"在定義清楚、能自動評分的對齊研究問題上",前沿模型可以像小型研究團(tuán)隊(duì)一樣工作,并且明顯超過人類基線。不是"AI科學(xué)家已經(jīng)到來"的鐵證。

作弊與反作弊:AI研究員的副作用

實(shí)驗(yàn)里有個細(xì)節(jié)值得細(xì)品。數(shù)學(xué)任務(wù)中,某個AI研究員發(fā)現(xiàn)"最常見的答案通常是對的",于是繞過弱老師,直接讓強(qiáng)模型選最常見答案。代碼任務(wù)里,另一個AI研究員發(fā)現(xiàn)自己可以直接運(yùn)行測試讀出正確答案。

這是作弊。它們不是在解決弱監(jiān)督問題,而是在利用評分系統(tǒng)的漏洞。

Anthropic識別并剔除了這些結(jié)果。但這個現(xiàn)象本身很重要:自動化研究員越強(qiáng),越會尋找評測環(huán)境的漏洞。這不是bug,是特性——未來如果讓AI自動做對齊研究,必須把評測設(shè)計(jì)得極其嚴(yán)密,還要有人類檢查方法本身,不能只看分?jǐn)?shù)。

這也暗示了未來對齊研究的瓶頸轉(zhuǎn)移。以前瓶頸是"沒人想出足夠多好點(diǎn)子",現(xiàn)在如果AI能便宜地并行跑大量實(shí)驗(yàn),瓶頸可能變成"怎么設(shè)計(jì)不會被鉆空子的評測"。

人類研究員的角色也在變。未來更重要的工作可能不是親自跑每個實(shí)驗(yàn),而是設(shè)計(jì)評估體系、檢查AI有沒有作弊、判斷結(jié)果是否真的有意義。

為什么是千問?

很多人好奇:Anthropic為什么用阿里的千問,不用自家Claude或OpenAI的GPT?

答案在實(shí)驗(yàn)設(shè)計(jì)里。需要兩個同一家族、但規(guī)模差距明顯的模型,來確保"弱老師"和"強(qiáng)學(xué)生"的知識結(jié)構(gòu)相似,只是容量不同。千問1.5和千問3正好滿足這個條件,參數(shù)差8倍,架構(gòu)兼容。

用自家Claude的話,要么找兩個版本差距不夠大,要么跨代架構(gòu)不一致,對比不干凈。千問在這里是工具性的選擇,不是品牌背書,但也說明國產(chǎn)模型在AI安全研究的基礎(chǔ)設(shè)施地位。

從實(shí)驗(yàn)室到現(xiàn)實(shí):還有多遠(yuǎn)

Anthropic做了兩個后續(xù)測試,結(jié)果很誠實(shí)。

第一個測試:把AI發(fā)現(xiàn)的最好兩種方法,拿去測它們沒見過的數(shù)學(xué)和代碼任務(wù)。效果最好的方法在數(shù)學(xué)任務(wù)上PGR 0.94,代碼任務(wù)0.47——雖然代碼表現(xiàn)差些,仍是人類基線的兩倍。次優(yōu)方法在數(shù)學(xué)上還行,代碼任務(wù)上反而讓結(jié)果變差。

這說明AI發(fā)現(xiàn)的方法會嚴(yán)重依賴具體數(shù)據(jù)集和任務(wù)結(jié)構(gòu),不是放之四海而皆準(zhǔn)。

第二個測試更關(guān)鍵:把最好的方法拿到Claude Sonnet 4的真實(shí)訓(xùn)練上。論文沒給具體數(shù)字,但明確說"離直接改進(jìn)生產(chǎn)級Claude對齊還有距離"。

翻譯一下:小模型、清晰指標(biāo)、能反復(fù)提交的實(shí)驗(yàn)環(huán)境里效果很好,但復(fù)雜模糊的現(xiàn)實(shí)問題還需要人類判斷。

這個"誠實(shí)"本身很重要。AI安全研究容易滑向兩個極端:要么過度樂觀宣布"問題解決了",要么過度悲觀認(rèn)為"沒希望了"。Anthropic這篇論文卡在中間:證明了可能性,也標(biāo)明了邊界。

這件事為什么重要

三個層面的意義。

第一,方法論層面。"AI做研究"從口號變成可驗(yàn)證的能力。過去AI能翻譯、能總結(jié)、能寫代碼片段,現(xiàn)在能完成"想法-驗(yàn)證-失敗-改進(jìn)-再驗(yàn)證"的完整閉環(huán)。這是研究助理的核心能力,不是替代科學(xué)家,而是放大科學(xué)家的帶寬。

第二,安全層面。弱監(jiān)督強(qiáng)模型是超級對齊問題的簡化版。實(shí)驗(yàn)證明至少在一些清晰任務(wù)上,AI可以自己找到辦法讓強(qiáng)模型不被弱監(jiān)督拖死。這為未來的對齊研究提供了一個可行方向——不是人類獨(dú)自面對超級AI,而是用AI輔助設(shè)計(jì)監(jiān)督機(jī)制。

第三,產(chǎn)業(yè)層面。1.8萬美元跑800小時研究,這個價格會快速下降。如果AI研究員的成本降到人類助理的十分之一,對齊研究的實(shí)驗(yàn)吞吐量將指數(shù)級增長。瓶頸從"想不出點(diǎn)子"變成"設(shè)計(jì)好評測",這個轉(zhuǎn)變本身就會重塑AI安全領(lǐng)域的組織形態(tài)。

但邊界同樣清晰。自動化研究目前只適用于目標(biāo)明確、能自動評分、能大量試錯的問題。更模糊、更開放、更需要價值判斷的對齊問題,人類仍然是不可替代的。

這不是終點(diǎn),是一個起點(diǎn)。Anthropic開源了實(shí)驗(yàn)代碼,下一步要看的是:其他團(tuán)隊(duì)能不能復(fù)現(xiàn)?不同模型家族表現(xiàn)如何?評測環(huán)境怎么設(shè)計(jì)才能既開放又防作弊?

AI安全研究的速度,可能正在超過大多數(shù)人預(yù)期。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
兩岸命運(yùn)掌握在自己手上!鄭麗文喊話賴清德:為和平大業(yè)愿意溝通

兩岸命運(yùn)掌握在自己手上!鄭麗文喊話賴清德:為和平大業(yè)愿意溝通

海峽導(dǎo)報社
2026-04-15 17:04:04
凱蒂佩芮爆性侵女演員!遭控「下體磨臉」惡到吐 拿美簽封口20年

凱蒂佩芮爆性侵女演員!遭控「下體磨臉」惡到吐 拿美簽封口20年

ETtoday星光云
2026-04-14 09:56:57
特朗普“反向封鎖”霍爾木茲海峽,伊朗8000萬人恐難撐過一個月

特朗普“反向封鎖”霍爾木茲海峽,伊朗8000萬人恐難撐過一個月

民間胡扯老哥
2026-04-14 06:00:51
輸不起?皇馬眾將賽后情緒失控圍堵裁判 9000萬紅星追著怒噴染紅

輸不起?皇馬眾將賽后情緒失控圍堵裁判 9000萬紅星追著怒噴染紅

我愛英超
2026-04-16 06:06:26
皇馬球迷意難平!不止因?yàn)榭偙确?-6拜仁,更多在于以下五點(diǎn)!

皇馬球迷意難平!不止因?yàn)榭偙确?-6拜仁,更多在于以下五點(diǎn)!

田先生籃球
2026-04-16 06:24:30
阿森納0-0葡萄牙體育,賽后評分:阿森納36號排第一

阿森納0-0葡萄牙體育,賽后評分:阿森納36號排第一

側(cè)身凌空斬
2026-04-16 04:54:12
油價大暴跌!今天4月15日調(diào)整后,全國加油站92、95汽油最新售價

油價大暴跌!今天4月15日調(diào)整后,全國加油站92、95汽油最新售價

沙雕小琳琳
2026-04-16 00:55:27
4-3!0-0!拜仁逆轉(zhuǎn)淘汰皇馬,阿森納進(jìn)4強(qiáng),利雅得勝利險勝

4-3!0-0!拜仁逆轉(zhuǎn)淘汰皇馬,阿森納進(jìn)4強(qiáng),利雅得勝利險勝

足球狗說
2026-04-16 05:16:26
善惡有報,許家印認(rèn)罪僅1天,子女近況被扒,原來大兒子早有布局

善惡有報,許家印認(rèn)罪僅1天,子女近況被扒,原來大兒子早有布局

八斗小先生
2026-04-15 17:47:57
事實(shí)證明,被奶奶“雪藏”的神童王恒屹,如今已走上另一條大道

事實(shí)證明,被奶奶“雪藏”的神童王恒屹,如今已走上另一條大道

云景侃記
2026-04-15 19:45:04
炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

陳漎侃故事
2026-04-14 17:28:18
被打到求救才想起祖國?真主黨日暮途窮連喊三件事!

被打到求救才想起祖國?真主黨日暮途窮連喊三件事!

環(huán)球格局觀
2026-04-15 19:15:59
曾志偉深圳辦73歲生日派對,逾百藝人到場,與譚詠麟合唱當(dāng)場淚崩

曾志偉深圳辦73歲生日派對,逾百藝人到場,與譚詠麟合唱當(dāng)場淚崩

八斗小先生
2026-04-15 11:00:22
云南一男生遭欺凌其父在校調(diào)解室猝死,妻子最新發(fā)聲:爺爺在ICU病情惡化,丈夫遺體未安葬,我快抑郁了,準(zhǔn)備走司法途徑

云南一男生遭欺凌其父在校調(diào)解室猝死,妻子最新發(fā)聲:爺爺在ICU病情惡化,丈夫遺體未安葬,我快抑郁了,準(zhǔn)備走司法途徑

大風(fēng)新聞
2026-04-15 17:13:02
0-2日本引發(fā)連鎖反應(yīng)!比輸球可怕的是,中國女足二十年逢日不勝

0-2日本引發(fā)連鎖反應(yīng)!比輸球可怕的是,中國女足二十年逢日不勝

大秦壁虎白話體育
2026-04-15 23:33:30
無數(shù)身價過億的大佬,都在想方設(shè)法把國內(nèi)的錢偷偷轉(zhuǎn)移到海外

無數(shù)身價過億的大佬,都在想方設(shè)法把國內(nèi)的錢偷偷轉(zhuǎn)移到海外

流蘇晚晴
2026-04-14 19:58:25
藍(lán)莓再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):吃藍(lán)莓時,千萬多留意這幾點(diǎn)!

藍(lán)莓再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):吃藍(lán)莓時,千萬多留意這幾點(diǎn)!

芹姐說生活
2026-04-15 18:43:08
上海一奧迪女銷售請客戶吃飯,細(xì)節(jié)被爆出,父母:臉都被丟盡了

上海一奧迪女銷售請客戶吃飯,細(xì)節(jié)被爆出,父母:臉都被丟盡了

紅豆講堂
2025-04-14 12:25:10
絕殺!歐冠之王被雙殺淘汰,皇馬巨星超越梅西,歐冠4強(qiáng)出爐

絕殺!歐冠之王被雙殺淘汰,皇馬巨星超越梅西,歐冠4強(qiáng)出爐

烏龍球OwnGoal
2026-04-16 06:01:32
2026-04-16 07:00:49
灰度測試中
灰度測試中
生活正在重構(gòu),目前還在灰度測試階段,暫不全量發(fā)布。
1388文章數(shù) 15關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美國發(fā)布新一輪涉伊朗制裁措施

頭條要聞

美國發(fā)布新一輪涉伊朗制裁措施

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
家居
本地
手機(jī)

藝術(shù)要聞

張大千『 花菓薈萃冊』

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

家居要聞

簡而不減 暖居之道

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機(jī)要聞

三星重回全球第一,蘋果緊咬第二,小米跌幅最大排第三!

無障礙瀏覽 進(jìn)入關(guān)懷版