亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI學會左腳踩右腳自進化?Meta華人新研究改寫Agent法則

0
分享至


新智元報道

編輯:元宇

【新智元導讀】過去Agent比誰更會干活,現(xiàn)在可能要比誰更會變強。

AI已經(jīng)學會「左腳踩右腳上天」了?

Meta的一項最新研究表明:AI已經(jīng)開始碰自己的「進化引擎」了。

華人學者Jenny Zhang在Meta實習期間,聯(lián)合Meta AI、UBC、紐約大學等機構(gòu)研究者,提出了一種新的智能體框架:HyperAgents(DGM-H。


https://arxiv.org/abs/2603.19461

這項工作的重點,不是再造一個更能干活的Agent。

它瞄準的是更高一層的問題:

如果AI已經(jīng)能夠修改自己的任務解法,那它能不能連「自己以后該怎么修改自己」這件事,也一并改掉?

論文給出的答案是:可以。

而且,這不再是概念推演,而是已經(jīng)在實驗中跑通的系統(tǒng)能力。

HyperAgents做的關(guān)鍵一步,是把「執(zhí)行任務的 agent」和「負責改進 agent 的 meta agent」合并進同一個可編輯程序里,作者將之稱為hyperagent。


DGM依賴任務與自修改能力的對齊,而DGM-H不再需要這種對齊

在新框架下,系統(tǒng)不只會修改任務求解邏輯,還開始修改未來生成改進方案的機制本身。

論文把這種能力稱為metacognitive self-modification,也就是:元認知自我修改。

過去行業(yè)競爭的是:誰的Agent更會干活。

而HyperAgents 指向的下一階段則可能是:誰的Agent更會變強,而且會越來越會變強。

以往的「自我進化」

其實還只是半手工

這篇論文,指出了上一代自我進化路線的天花板。

去年的Darwin G?del Machine(DGM),已經(jīng)很驚艷。

它能在coding任務中不斷自改代碼、自我驗證、把成功版本存進archive,再從這些「墊腳石」里繼續(xù)往前長。

論文披露,DGM在SWE-bench上能從20.0%拉到50.0%,在Polyglot上從14.2%拉到30.7%。

但問題在于,DGM之所以能在coding里成立,是因為「評估」和「自我修改」本身也都是coding任務。

寫代碼更強了,反過來就更會改自己的代碼。任務能力和自我改進能力,在這個場景里是對齊的。

然而一旦離開coding,這個對齊關(guān)系就斷了。

比如評審論文、設計機器人獎勵函數(shù)、給IMO級數(shù)學解答打分,這些任務做得更好,不等于你就更會修改自己的元機制。

HyperAgents論文最核心的一招,就是直接把這個假設砍掉:

既然任務能力和自我改進能力未必天然對齊,那就不要再把meta層寫死。

這說明過去很多「自我進化」系統(tǒng),本質(zhì)上還是在人為設定的軌道里進化。

HyperAgents真正改變的,是改變機制本身。

HyperAgents新在哪里?

表面上看,HyperAgents只是多了一個meta agent。

但真正值得注意的是,它把task agent和meta agent合成了同一個可編輯程序。

以前的DGM里,系統(tǒng)有一個手工設計的instruction-generation機制,負責根據(jù)過往表現(xiàn)決定下一步怎么改。

這一步不能被改,所以它反而成了整個系統(tǒng)的瓶頸。

HyperAgents的做法是把這部分也納入可修改范圍。

換句話說,AI不只是改自己的答案、自己的工具、自己的流程,它開始改「自己怎么提出修改建議」。

DGM里上層機制基本固定,DGM-H里meta層本身也進入可演化空間,也就是說,它是一個會經(jīng)營自己進化過程的系統(tǒng)。

所以,HyperAgents做的不是「再加一個Agent」,而是取消了「上層永遠不變」這個默認前提

自我改進開始跨域遷移

在coding任務中,HyperAgents在Polyglot 上的提升,與原始DGM處在同一量級:50-task訓練子集從0.140提升到0.340,完整benchmark從0.084提升到0.267。

換句話說,它并不是只靠犧牲泛化來換局部成績。

更關(guān)鍵的是,它不只在coding任務成立,還能在paper review、robotics reward design等非coding任務上繼續(xù)自我改進。


在paper review上,初始agent在測試集得分為0.0,DGM-H提升到0.710;在robotics reward design上,則從0.060提升到0.372。

更關(guān)鍵的是,這些提升不僅出現(xiàn)在訓練任務里,也轉(zhuǎn)移到了held-out test tasks。

與此同時,對照組也很說明問題:去掉self-improve,效果明顯變?nèi)酰蝗サ鬿pen-ended exploration,系統(tǒng)也很難取得有意義進展;原始DGM直接搬到非coding 域幾乎失效,只有經(jīng)過人工定制成DGM-custom后,才恢復競爭力。

這說明HyperAgents 的關(guān)鍵價值,不在于某一個benchmark多拿了幾個點,而在于它把原本依賴coding場景對齊關(guān)系的自我改進,推進成了一個能在非coding任務中運行的框架。

更值得注意的是遷移實驗。


作者把在paper review和robotics任務中演化出來的hyperagents,轉(zhuǎn)移到Olympiad-level math grading。

雖然這些轉(zhuǎn)移體自身初始得分仍接近0,但它們作為「生成更優(yōu)agent的meta agent」,卻能在50輪內(nèi)把最好生成體推到0.630,對應imp@50從0拉到0.630。

相比之下,來自DGM-custom的轉(zhuǎn)移體幾乎沒有這種能力。

換句話說,遷移過去的,不只是任務經(jīng)驗,而是「如何持續(xù)變好」的能力。

它開始自己長基礎(chǔ)設施了

很多人看到「自我進化」會以為,無非是AI自己改prompt、調(diào)工作流、加幾個規(guī)則。

但論文展示給我們、最讓人感到?jīng)_擊力的一個地方在于:它開始自己長基礎(chǔ)設施了。

DGM-H在迭代中會自動長出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎(chǔ)設施。



論文中甚至直接給出了自動生成的性能追蹤器代碼和持久記憶條目:它開始記錄跨代指標、總結(jié)哪些代際策略有效、診斷過度修正、制定下一輪改進計劃。

這還不是「日志記錄」那么簡單,系統(tǒng)開始把改進看成一個長期經(jīng)營過程,而不是一次次孤立的pa?tch。

它不只記錄每一代分數(shù),還會比較趨勢、識別回退,并把跨代經(jīng)驗沉淀進persistent memory。

正如網(wǎng)友所說,真正讓這一切變成現(xiàn)實的關(guān)鍵,恰恰是persistent memory的自主出現(xiàn)。


論文展示的memory示例中寫道:某一代評審準確率更高,但過于嚴苛;另一代平衡更好;下一輪要融合兩者優(yōu)點。


沒有這層記憶,agent往往只會反復「重新發(fā)明輪子」;有了它,過去幾代的有效經(jīng)驗才第一次能真正沉淀為下一輪改進的起點。

這說明Agent正在從「輸出一個結(jié)果」,走向「維護一個持續(xù)優(yōu)化系統(tǒng)」。

這不是AGI宣言

但舊規(guī)則確實在失效

當然,這篇論文沒有證明「無限自我進化AI」已經(jīng)降臨。

作者自己也寫得很清楚:

實驗都在沙箱、資源限制和人工監(jiān)督下完成;外層循環(huán)還有不少部分沒有開放給系統(tǒng)自改,比如任務分布、parent selection、evaluation protocol等;真正無界的open-ended self-improvement,還遠遠沒到。

但風險預警已經(jīng)出現(xiàn)。

一旦AI開始改自己的改進機制,安全討論就變得重要起來。

論文也專門有一節(jié)談風險:隨著系統(tǒng)越來越能開放式地修改自己,它的演化速度可能超過人類審計和理解速度。

今天靠sandbox和人工盯著還能管住,明天未必。


HyperAgents代表了一種新的路線,它可能會改寫Agent競爭。

未來比的不只是誰會調(diào)模型、誰會寫workflow、誰會做更強單點工具,而是誰能把「改進能力」本身產(chǎn)品化、系統(tǒng)化、可遷移化。

這將改變AI公司的護城河。

真正的壁壘,可能不再只是參數(shù)、算力和數(shù)據(jù),而是有沒有一套能跨任務累積經(jīng)驗、跨運行持續(xù)變好的自我改進系統(tǒng)。

也會改變開發(fā)者位置。

開發(fā)者不再只是寫功能的人,而更像是在設計AI可以繼續(xù)自我設計的邊界條件。

最重要的一點,它改寫了AI行業(yè)過去默認的一條規(guī)則:系統(tǒng)可以變強,但變強的方法由人來定義。

現(xiàn)在,這條規(guī)則開始松動了。

作者簡介

Jenny Zhang


Jenny Zhang

Jenny Zhang,現(xiàn)為英屬哥倫比亞大學人工智能博士生,師從Jeff Clune,同時也是Vector Institute研究生,并曾在Meta擔任Research Scientist Intern。

她本科畢業(yè)于帝國理工學院,研究方向聚焦開放式進化、強化學習與自我改進AI,代表工作包括《Darwin G?del Machine》《HyperAgents》以及OMNI系列研究。

她的長期目標,是構(gòu)建能夠自主提出新任務、持續(xù)自我提升、不斷演化復雜能力的AI系統(tǒng)。

參考資料:

https://x.com/jennyzhangzt/status/2036099935083618487%20

https://arxiv.org/abs/2603.19461

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新疆姑娘確實漂亮,堪比西施太美了吧!

新疆姑娘確實漂亮,堪比西施太美了吧!

情感大頭說說
2026-04-16 14:59:11
耗資12億建世界最高佛,如今水喝不起拜不起

耗資12億建世界最高佛,如今水喝不起拜不起

時光流轉(zhuǎn)追夢人
2026-02-20 13:09:13
搶劫殺害網(wǎng)紅“羅大美”主犯余金生,被執(zhí)行死刑

搶劫殺害網(wǎng)紅“羅大美”主犯余金生,被執(zhí)行死刑

觀察者網(wǎng)
2026-04-16 14:56:06
牡丹花下死!送走馬蓉又迎馮清,43歲王寶強,終究栽進“女人坑”

牡丹花下死!送走馬蓉又迎馮清,43歲王寶強,終究栽進“女人坑”

小噎論事
2026-04-15 05:19:35
一季度中國GDP同比增長5.0%

一季度中國GDP同比增長5.0%

新華社
2026-04-16 10:39:03
突發(fā),武漢一大型商超宣布閉店!

突發(fā),武漢一大型商超宣布閉店!

藍色海邊
2026-04-16 01:35:05
鄭麗文、李乾龍、蕭旭岑被列入名單,尹乃菁主動證實,綠營露馬腳

鄭麗文、李乾龍、蕭旭岑被列入名單,尹乃菁主動證實,綠營露馬腳

靚仔情感
2026-04-16 11:45:42
全世界會發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個超級大國了

全世界會發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個超級大國了

傲傲講歷史
2026-04-15 03:43:24
上海阿姨掏心掏肺帶孫女,卻稱被兒子家暴?索要36萬“帶孫費”!兒子卻喊冤?

上海阿姨掏心掏肺帶孫女,卻稱被兒子家暴?索要36萬“帶孫費”!兒子卻喊冤?

大風新聞
2026-04-16 11:09:04
研究表明:我國男性的早泄率只有2.3%,勃起功能障礙卻高達35%!

研究表明:我國男性的早泄率只有2.3%,勃起功能障礙卻高達35%!

黯泉
2026-04-14 18:19:30
雙色球第26042期,單挑5注,精選一注,獨藍精選,沖擊6+1

雙色球第26042期,單挑5注,精選一注,獨藍精選,沖擊6+1

藍色海邊
2026-04-16 11:30:01
韓女星樸娜萊和男性朋友在車上發(fā)生了性關(guān)系,兩名經(jīng)紀人被迫圍觀

韓女星樸娜萊和男性朋友在車上發(fā)生了性關(guān)系,兩名經(jīng)紀人被迫圍觀

西樓知趣雜談
2026-04-09 09:35:17
陜西官宣!5月1日起,65歲以上老人這些福利全落地

陜西官宣!5月1日起,65歲以上老人這些福利全落地

三農(nóng)老歷
2026-04-16 09:20:52
就憑霍思燕胸前這顆美人痣,杜江哪敢花心啊!

就憑霍思燕胸前這顆美人痣,杜江哪敢花心??!

飛娛日記
2026-04-16 07:48:04
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
著名畫家、上海市文聯(lián)原主席施大畏去世,享年76歲

著名畫家、上海市文聯(lián)原主席施大畏去世,享年76歲

上觀新聞
2026-04-16 13:04:50
1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

磊子講史
2025-12-23 20:04:20
這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

阿廢冷眼觀察所
2026-04-11 18:41:14
任達華老婆琦琦分享和關(guān)之琳,李嘉明周麗淇聚會合影,大家都好美

任達華老婆琦琦分享和關(guān)之琳,李嘉明周麗淇聚會合影,大家都好美

東方不敗然多多
2026-04-16 00:05:01
歐冠出局!皇馬2大巨星現(xiàn)場吵架 熊皇反擊貝林:你給我閉嘴

歐冠出局!皇馬2大巨星現(xiàn)場吵架 熊皇反擊貝林:你給我閉嘴

葉青足球世界
2026-04-16 08:19:08
2026-04-16 15:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14984文章數(shù) 66773關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預售“純電增程同價”

頭條要聞

杭州女子買5份海鮮3份僅退款 商家氣憤跨省趕來質(zhì)問

頭條要聞

杭州女子買5份海鮮3份僅退款 商家氣憤跨省趕來質(zhì)問

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

一季度GDP,5.0%!

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

時尚
家居
教育
公開課
軍事航空

赫本愛穿的傘裙,好優(yōu)雅!

家居要聞

智能舒適 簡約風尚

教育要聞

雙第一!他蓄力生長、迎難而上,從文華學院考研上岸輕工大!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號

無障礙瀏覽 進入關(guān)懷版