網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

卡帕西630行代碼炸出81個(gè)智能體，4天協(xié)作跑2333次實(shí)驗(yàn)，公布預(yù)訓(xùn)練十大發(fā)現(xiàn)

2026-03-15 19:27:43　來源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

Karpathy讓AI通宵干活，自己去蒸桑拿了。

這個(gè)Autoresearch項(xiàng)目總共630行Python代碼，兩天AI自主完成276次實(shí)驗(yàn)，篩出29項(xiàng)有效改進(jìn)，把一個(gè)語言模型的訓(xùn)練效率提升了約11%，全程零人類干預(yù)。

但真正有意思的故事，發(fā)生在Karpathy放下鍵盤之后。

全球開發(fā)者社區(qū)接過了這個(gè)項(xiàng)目，把它從“一個(gè)AI做實(shí)驗(yàn)”變成了“一群AI做科研”。

他們搭了一個(gè)分布式協(xié)作層，讓數(shù)十個(gè)智能體在不同GPU上共享成果、分工協(xié)作，4天已經(jīng)跑了超過2000次實(shí)驗(yàn)。

人類進(jìn)去檢查成果時(shí)才突然發(fā)現(xiàn)：

不知不覺間，AI已經(jīng)自發(fā)形成了智能體間的同行評(píng)審制度。

AI“重新發(fā)明”科學(xué)共同體

Karpathy本人曾給出autoresearch的下一步方向：

目標(biāo)不是模擬一個(gè)博士生，而是模擬一整個(gè)研究社區(qū)。

社區(qū)照著這個(gè)方向做了。

受SETI@home（尋找外星信號(hào)的分布式計(jì)算項(xiàng)目）啟發(fā)，開發(fā)者在autoresearch上層加了一個(gè)協(xié)作層，誕生了autoresearch@home。

任何互聯(lián)網(wǎng)用戶都可以參與并協(xié)作進(jìn)行人工智能/機(jī)器學(xué)習(xí)研究。

智能體可以閱讀并學(xué)習(xí)以往的實(shí)驗(yàn)結(jié)果，避免重復(fù)工作，并實(shí)時(shí)地在彼此成果的基礎(chǔ)上繼續(xù)發(fā)展。

不到一周已經(jīng)從最初的13個(gè)智能體擴(kuò)展到80+個(gè)智能體、運(yùn)行2000+實(shí)驗(yàn)。

其中智能體自發(fā)產(chǎn)生了角色分化，沒人事先分配任務(wù)，但群體運(yùn)行一段時(shí)間后，不同智能體開始各司其職：

實(shí)驗(yàn)員負(fù)責(zé)跑實(shí)驗(yàn)
驗(yàn)證員專門復(fù)現(xiàn)別人的結(jié)論
統(tǒng)計(jì)員測(cè)量方差和置信度
元分析員提新研究方向
……

數(shù)字最能說明問題：

一個(gè)智能體一天跑了188次實(shí)驗(yàn)，專門驗(yàn)證別人的聲明。另一組智能體生成了5895條研究假設(shè)，但一個(gè)實(shí)驗(yàn)都沒跑。

整個(gè)系統(tǒng)開始像一個(gè)分布式研究實(shí)驗(yàn)室。

項(xiàng)目發(fā)起者Ensue創(chuàng)始人Christine Yip公布了十大發(fā)現(xiàn)，除了智能體角色分化之外，還有很多涉及最底層的AI訓(xùn)練技術(shù)細(xì)節(jié)。

更多step始終優(yōu)于更大的batch

將batch_size減半從2^19 → 2^18，訓(xùn)練步驟加倍，BPB（Bits Per Byte）改善了0.007。

簡(jiǎn)單的注意力模式就是最好的

多個(gè)智能體獨(dú)立發(fā)現(xiàn)并驗(yàn)證，最終收斂到了一個(gè)窗口注意力模式：SSSL（3個(gè)短上下文層，1個(gè)長(zhǎng)上下文層，重復(fù)）。

過多的長(zhǎng)層會(huì)浪費(fèi)計(jì)算資源在全局注意力機(jī)制上，過少會(huì)導(dǎo)致跨toke信息缺失。

調(diào)整初始化比調(diào)整優(yōu)化器更重要

僅三項(xiàng)改動(dòng)就帶來了約0.004 BPB的改善：value embedding使用正態(tài)初始化、QKV縮放倍率、給殘差連接（skip-connection）加上可學(xué)習(xí)權(quán)重。

這些改動(dòng)都沒有涉及到優(yōu)化器，而在大模型預(yù)訓(xùn)練里，0.001都算有效。

能學(xué)習(xí)的就別寫死

把固定常數(shù)替換為可學(xué)習(xí)參數(shù)，幾乎總能提升性能。案例包括skip-2殘差權(quán)重、殘差混合的lambda系數(shù)、value embedding的門控參數(shù)。

即使在5分鐘的短訓(xùn)練中，這些新參數(shù)也能收斂并產(chǎn)生收益。

最優(yōu)架構(gòu)出人意料地小

群體智能在深度和寬度之間做了大范圍探索，最終最優(yōu)配置是：12層、維度512、aspect ratio 40。

加深網(wǎng)絡(luò)很快就適得其反，16層帶來84%更多的參數(shù)，但步數(shù)減少23%，BPB反而更差。

大量“改進(jìn)”其實(shí)是噪聲

一個(gè)智能體專門跑了100組隨機(jī)種子實(shí)驗(yàn)，發(fā)現(xiàn)種子方差約為0.002 BPB，這恰好是很多聲稱的”改進(jìn)”的量級(jí)。換句話說，之前很多“發(fā)現(xiàn)”可能只是運(yùn)氣好。

有了這個(gè)結(jié)論后，智能體群體自發(fā)調(diào)整了行為：開始要求重復(fù)實(shí)驗(yàn)、多種子驗(yàn)證、獨(dú)立確認(rèn)。

一些公認(rèn)好技術(shù)直接翻車

幾個(gè)實(shí)驗(yàn)產(chǎn)生了災(zāi)難性退化：weight tying直接把BPB炸到3.216，label smoothing炸到1.32，PaLM風(fēng)格的z-loss帶來一致性退化。

這些負(fù)面結(jié)果寫進(jìn)共享記憶后，成了整個(gè)集群最有用的知識(shí)，所有后來的智能體都自動(dòng)避開這些坑，不再浪費(fèi)算力重復(fù)踩。

最大的機(jī)會(huì)可能還沒智能體碰

1045次實(shí)驗(yàn)中，幾乎所有改動(dòng)都在改模型架構(gòu)。但元智能體生成了1000多條關(guān)于數(shù)據(jù)管道的假設(shè)：課程學(xué)習(xí)、數(shù)據(jù)排序、領(lǐng)域特定批處理，一條都沒被測(cè)試。

最大的突破可能根本不在架構(gòu)上，而在數(shù)據(jù)調(diào)度上。

集體記憶加速了發(fā)現(xiàn)過程

因?yàn)橹悄荏w共享實(shí)驗(yàn)結(jié)果，后來的智能體可以直接從已知最優(yōu)配置出發(fā)，不用從頭重新發(fā)現(xiàn)前人的工作。

幾個(gè)關(guān)鍵突破來自那些綜合了已有結(jié)果而非盲目探索的智能體，證明共享記憶能顯著加速研究進(jìn)程。

為了優(yōu)化，智能體“不擇手段”

在autoresearch激發(fā)的另一個(gè)衍生項(xiàng)目auto-discovery中，發(fā)現(xiàn)除了自動(dòng)訓(xùn)練模型，智能體在科學(xué)發(fā)現(xiàn)和算法發(fā)現(xiàn)中表現(xiàn)也不錯(cuò)。

在幾個(gè)經(jīng)典的數(shù)學(xué)優(yōu)化任務(wù)上竟然比AlphaEvolve、SkyDiscover和LoongFlow等重量級(jí)的結(jié)果更好。

項(xiàng)目發(fā)起者華盛頓大學(xué)博士生Tu Xinming發(fā)現(xiàn)了AI智能體為了優(yōu)化令人捧腹大笑的時(shí)刻。

他忘了在指令文件里寫“不許上網(wǎng)搜答案”。結(jié)果AI直接上網(wǎng)搜了一圈，從別人的開源倉庫里把最優(yōu)解抄了過來。

還有一次，AI碰到評(píng)估腳本里的嚴(yán)格容差限制。它沒有卡住，也沒有報(bào)錯(cuò)，而是自己去讀了評(píng)估器的源代碼，理解了約束條件，然后專門設(shè)計(jì)了一套“容差感知優(yōu)化”策略，在規(guī)則邊界內(nèi)繼續(xù)推進(jìn)。

這與傳統(tǒng)超參數(shù)搜索不同，傳統(tǒng)方法在預(yù)設(shè)范圍內(nèi)調(diào)數(shù)字；autoresearch框架下的AI可以直接刪掉AdamW優(yōu)化器，然后從零寫一個(gè)新的，自由度完全不同。

One More Thing

Karpathy在最初設(shè)計(jì)autoresearch時(shí)只寫了630行代碼。

他也沒想到，社區(qū)會(huì)在幾天內(nèi)把它變成一個(gè)分布式科學(xué)共同體，有實(shí)驗(yàn)、有驗(yàn)證、有評(píng)審、有分工，甚至有了自己的“負(fù)面結(jié)果知識(shí)庫”。

這場(chǎng)實(shí)驗(yàn)中最有意思的發(fā)現(xiàn)，不是任何一個(gè)具體的模型架構(gòu)，而是這個(gè)過程本身。

Karpathy在OpenAI的前同事Noam Brown提問：為什么在自工業(yè)革命以來人類歷史上最關(guān)鍵的時(shí)刻，他沒有在人工智能前沿實(shí)驗(yàn)室工作？

Karpathy還沒有回應(yīng)，但有人替他答了。

我想他可能會(huì)問你類似的問題：在至少自工業(yè)革命以來人類歷史上最關(guān)鍵的時(shí)刻，你為什么要把自己局限于商業(yè)組織？

autoresearch：

https://github.com/karpathy/autoresearch

autoresearch@home：

https://ensue-network.ai/autoresearch?view=strategies

auto-discovery：

https://github.com/XinmingTu/auto-discovery

參考鏈接：
[1]https://x.com/christinetyip/status/2032590900107346327
[2]https://x.com/TuXinming/status/2032478765033701835

文章來源：量子位。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

為什么這篇谷歌論文被稱為「Attention is all you need」V2

量子位 2025-12-21 15:15:36
26 跟貼 26
2026年，大模型訓(xùn)練的下半場(chǎng)屬于「強(qiáng)化學(xué)習(xí)云」

機(jī)器之心Pro 2026-01-12 14:03:47
0 跟貼 0

讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0

清華聯(lián)手千問重塑歸一化范式，讓 Transformer 回歸「深度」學(xué)習(xí)

機(jī)器之心Pro 2026-02-10 18:50:12
0 跟貼 0
更新越頻繁，Claude Code與Codex越像

機(jī)器之心Pro 2026-04-20 10:12:15
0 跟貼 0

大廠資深程序員，“未來碼農(nóng)的優(yōu)勢(shì)可能是比AI更便宜”

新周刊 2026-04-20 09:07:23
0 跟貼 0

Opus 4.7重新登頂榜單，但強(qiáng)得多的GPT-5.5極大概率下周就發(fā)

新智元 2026-04-19 19:05:24
7 跟貼 7
表格建模也能Scaling？樹模型的時(shí)代要改變了

機(jī)器之心Pro 2026-04-17 11:12:25
0 跟貼 0

新一代框架MIA：讓智能體告別「失憶式工作」，在持續(xù)進(jìn)化中變強(qiáng)

機(jī)器之心Pro 2026-04-20 11:10:39
0 跟貼 0
大模型最難的AI Infra，用Vibe Coding搞定

機(jī)器之心Pro 2026-01-07 15:33:06
0 跟貼 0
CVPR 2026 | 20步也能穩(wěn)住畫質(zhì)，這個(gè)擴(kuò)散加速方法不一樣

機(jī)器之心Pro 2026-04-10 18:40:17
0 跟貼 0
Agent不是關(guān)鍵！人大AiScientist實(shí)現(xiàn)23小時(shí)、74輪長(zhǎng)程記憶

新智元 2026-04-20 12:07:13
0 跟貼 0
MiniMax來承包你的桌面了-4

機(jī)器之心Pro 2026-01-20 20:19:42
0 跟貼 0
當(dāng)老板與員工展開“蒸餾”對(duì)抗

經(jīng)濟(jì)觀察報(bào) 2026-04-18 17:48:45
22 跟貼 22
讓兩個(gè)大模型在線吵架，跑通全網(wǎng)95%科研代碼｜深勢(shì)Deploy-Master

機(jī)器之心Pro 2026-01-09 14:22:47
0 跟貼 0
你的「龍蝦」真記得你嗎？劍橋發(fā)布長(zhǎng)期個(gè)性化記憶基準(zhǔn)ATM-Bench

機(jī)器之心Pro 2026-04-20 12:44:27
0 跟貼 0
告別想完再做卡頓！清華StreamingVLA讓VLA邊想邊行動(dòng)，提速2.4倍

機(jī)器之心Pro 2026-04-20 12:23:21
0 跟貼 0
靈光做了一個(gè)“AI應(yīng)用版GitHub”，但重點(diǎn)不在代碼

智東西 2026-04-20 12:48:18
0 跟貼 0
大模型架構(gòu)的下半場(chǎng)

量子位 2026-04-19 18:11:02
1 跟貼 1
實(shí)驗(yàn)結(jié)果驚掉下巴，大頭針不扎漂亮女人，背后原因太意外

趣味加工廠 2026-04-20 00:00:00
0 跟貼 0
印度油輪在霍爾木茲遭炮擊船員喊話伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
15731 跟貼 15731
精彩實(shí)驗(yàn)子彈，加熱后發(fā)射，一秒擊中雞蛋！

奇葩笑料鋪 2026-04-18 15:33:51
0 跟貼 0
從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個(gè)性化潛力

機(jī)器之心Pro 2026-03-02 16:10:32
0 跟貼 0
加一行代碼，不放回充電槍收費(fèi)加倍，下回就老實(shí)了！

凌霄淺談生活 2026-04-19 09:48:04
1 跟貼 1
女特工身中數(shù)槍，竟摧毀了鬼子的實(shí)驗(yàn)基地

影中見影 2026-04-19 09:05:56
1 跟貼 1
蘇林訪華罕見深度體驗(yàn)中國(guó)高鐵 “半個(gè)政治局”都來了

國(guó)是直通車 2026-04-20 09:48:04
2 跟貼 2
985物理哪家強(qiáng)？別只看排名，這幾所是真天花板，選錯(cuò)直接毀四年

唐老師小課堂 2026-04-20 08:24:45
0 跟貼 0
美財(cái)長(zhǎng)說中國(guó)電車是燃煤車，網(wǎng)友評(píng)論一針見血

中國(guó)日?qǐng)?bào)網(wǎng) 2026-04-20 00:21:10
356 跟貼 356
采用800V架構(gòu)，標(biāo)配寶華韋健，靜態(tài)體驗(yàn)沃爾沃EX90

苑叔聊車官方賬號(hào) 2026-04-15 21:09:17
3 跟貼 3
用心險(xiǎn)惡！拿中國(guó)孩子當(dāng)小白鼠做實(shí)驗(yàn)？湖南“黃金大米”事件回顧

談史論天地 2026-04-20 10:58:15
0 跟貼 0
比賽提前結(jié)束，WSBK荷蘭站第二輪正賽張雪機(jī)車斬獲第七名

澎湃新聞 2026-04-19 20:28:26
5935 跟貼 5935
三層防御仍然不夠，一條PR標(biāo)題就能偷走你的API密鑰：AI Agent安全裂痕再現(xiàn)

鈦媒體APP 2026-04-18 10:44:12
0 跟貼 0
AI時(shí)代月薪6萬vs被裁：K型分化正在撕裂職場(chǎng)

職場(chǎng)快評(píng) 2026-04-20 10:25:30
1 跟貼 1
五一假期火車票開售以來，鐵路12306拒絕出票105.6萬張

環(huán)球網(wǎng)資訊 2026-04-19 15:23:04
4110 跟貼 4110
連按Tab完成重構(gòu)：螞蟻CodeFuse團(tuán)隊(duì)提出無指令代碼編輯框架NES

機(jī)器之心Pro 2026-04-20 12:32:25
0 跟貼 0
媒體：日本近期一系列危險(xiǎn)動(dòng)作挑釁中國(guó) 中國(guó)需警惕

環(huán)球網(wǎng)資訊 2026-04-20 00:22:16
705 跟貼 705
這么難的實(shí)驗(yàn)老伴是怎么做到的？

工小屋 2026-04-16 02:17:38
0 跟貼 0
36氪首發(fā) | 首創(chuàng)“玩偶+主機(jī)”模式，多智能體兒童AI玩具品牌獲數(shù)千萬元融資

36氪 2026-04-20 13:01:14
0 跟貼 0
視覺模型既懂語義，又能還原細(xì)節(jié)，南洋理工&商湯提出棱鏡假說

機(jī)器之心Pro 2026-01-13 18:26:48
0 跟貼 0
一個(gè)實(shí)驗(yàn)告訴你，為什么不能給寶寶，喝太熱的奶

大齊聊笑 2026-04-18 17:18:42
3 跟貼 3

算法與數(shù)學(xué)之美

分享知識(shí)，交流思想

5482文章數(shù) 64624關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產(chǎn)

數(shù)碼

公開課

軍事航空

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
13個(gè)毀掉你生活的不良習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

卡帕西630行代碼炸出81個(gè)智能體，4天協(xié)作跑2333次實(shí)驗(yàn)，公布預(yù)訓(xùn)練十大發(fā)現(xiàn)

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

媒體：伊朗剛說不談 美國(guó)立即開打

媒體：伊朗剛說不談 美國(guó)立即開打

七大獎(jiǎng)項(xiàng)候選官宣！文班或全票DPOY

鹿晗生日上熱搜，被關(guān)曉彤撕下體面

月之暗面IPO迷局

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

我發(fā)現(xiàn)一個(gè)殘酷真相：孩子長(zhǎng)大后，最怨恨的不是管太嚴(yán)的父母……

官宣簽約最強(qiáng)城更！海口樓市，突然殺入神秘房企！

華為全新鴻蒙電腦搭載云晰柔光屏，硬件級(jí)低藍(lán)光，今日下午發(fā)布

特朗普:美艦向伊朗貨船開火炸出個(gè)洞

藍(lán)色起源一級(jí)火箭完美回收客戶衛(wèi)星未入軌

媒體：伊朗剛說不談美國(guó)立即開打

媒體：伊朗剛說不談美國(guó)立即開打

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻我腿軟了