Karpathy讓AI通宵干活,自己去蒸桑拿了。
這個(gè)Autoresearch項(xiàng)目總共630行Python代碼,兩天AI自主完成276次實(shí)驗(yàn),篩出29項(xiàng)有效改進(jìn),把一個(gè)語言模型的訓(xùn)練效率提升了約11%,全程零人類干預(yù)。
![]()
但真正有意思的故事,發(fā)生在Karpathy放下鍵盤之后。
全球開發(fā)者社區(qū)接過了這個(gè)項(xiàng)目,把它從“一個(gè)AI做實(shí)驗(yàn)”變成了“一群AI做科研”。
他們搭了一個(gè)分布式協(xié)作層,讓數(shù)十個(gè)智能體在不同GPU上共享成果、分工協(xié)作,4天已經(jīng)跑了超過2000次實(shí)驗(yàn)。
![]()
人類進(jìn)去檢查成果時(shí)才突然發(fā)現(xiàn):
不知不覺間,AI已經(jīng)自發(fā)形成了智能體間的同行評(píng)審制度。
AI“重新發(fā)明”科學(xué)共同體
Karpathy本人曾給出autoresearch的下一步方向:
目標(biāo)不是模擬一個(gè)博士生,而是模擬一整個(gè)研究社區(qū)。
社區(qū)照著這個(gè)方向做了。
受SETI@home(尋找外星信號(hào)的分布式計(jì)算項(xiàng)目)啟發(fā),開發(fā)者在autoresearch上層加了一個(gè)協(xié)作層,誕生了autoresearch@home。
任何互聯(lián)網(wǎng)用戶都可以參與并協(xié)作進(jìn)行人工智能/機(jī)器學(xué)習(xí)研究。
![]()
智能體可以閱讀并學(xué)習(xí)以往的實(shí)驗(yàn)結(jié)果,避免重復(fù)工作,并實(shí)時(shí)地在彼此成果的基礎(chǔ)上繼續(xù)發(fā)展。
不到一周已經(jīng)從最初的13個(gè)智能體擴(kuò)展到80+個(gè)智能體、運(yùn)行2000+實(shí)驗(yàn)。
其中智能體自發(fā)產(chǎn)生了角色分化,沒人事先分配任務(wù),但群體運(yùn)行一段時(shí)間后,不同智能體開始各司其職:
實(shí)驗(yàn)員負(fù)責(zé)跑實(shí)驗(yàn)
驗(yàn)證員專門復(fù)現(xiàn)別人的結(jié)論
統(tǒng)計(jì)員測(cè)量方差和置信度
元分析員提新研究方向
……
數(shù)字最能說明問題:
一個(gè)智能體一天跑了188次實(shí)驗(yàn),專門驗(yàn)證別人的聲明。另一組智能體生成了5895條研究假設(shè),但一個(gè)實(shí)驗(yàn)都沒跑。
整個(gè)系統(tǒng)開始像一個(gè)分布式研究實(shí)驗(yàn)室。
![]()
項(xiàng)目發(fā)起者Ensue創(chuàng)始人Christine Yip公布了十大發(fā)現(xiàn),除了智能體角色分化之外,還有很多涉及最底層的AI訓(xùn)練技術(shù)細(xì)節(jié)。
![]()
更多step始終優(yōu)于更大的batch
將batch_size減半從2^19 → 2^18,訓(xùn)練步驟加倍,BPB(Bits Per Byte)改善了0.007。
簡(jiǎn)單的注意力模式就是最好的
多個(gè)智能體獨(dú)立發(fā)現(xiàn)并驗(yàn)證,最終收斂到了一個(gè)窗口注意力模式:SSSL(3個(gè)短上下文層,1個(gè)長(zhǎng)上下文層,重復(fù))。
過多的長(zhǎng)層會(huì)浪費(fèi)計(jì)算資源在全局注意力機(jī)制上,過少會(huì)導(dǎo)致跨toke信息缺失。
調(diào)整初始化比調(diào)整優(yōu)化器更重要
僅三項(xiàng)改動(dòng)就帶來了約0.004 BPB的改善:value embedding使用正態(tài)初始化、QKV縮放倍率、給殘差連接(skip-connection)加上可學(xué)習(xí)權(quán)重。
這些改動(dòng)都沒有涉及到優(yōu)化器,而在大模型預(yù)訓(xùn)練里,0.001都算有效。
能學(xué)習(xí)的就別寫死
把固定常數(shù)替換為可學(xué)習(xí)參數(shù),幾乎總能提升性能。案例包括skip-2殘差權(quán)重、殘差混合的lambda系數(shù)、value embedding的門控參數(shù)。
即使在5分鐘的短訓(xùn)練中,這些新參數(shù)也能收斂并產(chǎn)生收益。
最優(yōu)架構(gòu)出人意料地小
群體智能在深度和寬度之間做了大范圍探索,最終最優(yōu)配置是:12層、維度512、aspect ratio 40。
加深網(wǎng)絡(luò)很快就適得其反,16層帶來84%更多的參數(shù),但步數(shù)減少23%,BPB反而更差。
大量“改進(jìn)”其實(shí)是噪聲
一個(gè)智能體專門跑了100組隨機(jī)種子實(shí)驗(yàn),發(fā)現(xiàn)種子方差約為0.002 BPB,這恰好是很多聲稱的”改進(jìn)”的量級(jí)。換句話說,之前很多“發(fā)現(xiàn)”可能只是運(yùn)氣好。
有了這個(gè)結(jié)論后,智能體群體自發(fā)調(diào)整了行為:開始要求重復(fù)實(shí)驗(yàn)、多種子驗(yàn)證、獨(dú)立確認(rèn)。
一些公認(rèn)好技術(shù)直接翻車
幾個(gè)實(shí)驗(yàn)產(chǎn)生了災(zāi)難性退化:weight tying直接把BPB炸到3.216,label smoothing炸到1.32,PaLM風(fēng)格的z-loss帶來一致性退化。
這些負(fù)面結(jié)果寫進(jìn)共享記憶后,成了整個(gè)集群最有用的知識(shí),所有后來的智能體都自動(dòng)避開這些坑,不再浪費(fèi)算力重復(fù)踩。
最大的機(jī)會(huì)可能還沒智能體碰
1045次實(shí)驗(yàn)中,幾乎所有改動(dòng)都在改模型架構(gòu)。但元智能體生成了1000多條關(guān)于數(shù)據(jù)管道的假設(shè):課程學(xué)習(xí)、數(shù)據(jù)排序、領(lǐng)域特定批處理,一條都沒被測(cè)試。
最大的突破可能根本不在架構(gòu)上,而在數(shù)據(jù)調(diào)度上。
集體記憶加速了發(fā)現(xiàn)過程
因?yàn)橹悄荏w共享實(shí)驗(yàn)結(jié)果,后來的智能體可以直接從已知最優(yōu)配置出發(fā),不用從頭重新發(fā)現(xiàn)前人的工作。
幾個(gè)關(guān)鍵突破來自那些綜合了已有結(jié)果而非盲目探索的智能體,證明共享記憶能顯著加速研究進(jìn)程。
為了優(yōu)化,智能體“不擇手段”
在autoresearch激發(fā)的另一個(gè)衍生項(xiàng)目auto-discovery中,發(fā)現(xiàn)除了自動(dòng)訓(xùn)練模型,智能體在科學(xué)發(fā)現(xiàn)和算法發(fā)現(xiàn)中表現(xiàn)也不錯(cuò)。
在幾個(gè)經(jīng)典的數(shù)學(xué)優(yōu)化任務(wù)上竟然比AlphaEvolve、SkyDiscover和LoongFlow等重量級(jí)的結(jié)果更好。
![]()
項(xiàng)目發(fā)起者華盛頓大學(xué)博士生Tu Xinming發(fā)現(xiàn)了AI智能體為了優(yōu)化令人捧腹大笑的時(shí)刻。
他忘了在指令文件里寫“不許上網(wǎng)搜答案”。結(jié)果AI直接上網(wǎng)搜了一圈,從別人的開源倉庫里把最優(yōu)解抄了過來。
還有一次,AI碰到評(píng)估腳本里的嚴(yán)格容差限制。它沒有卡住,也沒有報(bào)錯(cuò),而是自己去讀了評(píng)估器的源代碼,理解了約束條件,然后專門設(shè)計(jì)了一套“容差感知優(yōu)化”策略,在規(guī)則邊界內(nèi)繼續(xù)推進(jìn)。
這與傳統(tǒng)超參數(shù)搜索不同,傳統(tǒng)方法在預(yù)設(shè)范圍內(nèi)調(diào)數(shù)字;autoresearch框架下的AI可以直接刪掉AdamW優(yōu)化器,然后從零寫一個(gè)新的,自由度完全不同。
![]()
One More Thing
Karpathy在最初設(shè)計(jì)autoresearch時(shí)只寫了630行代碼。
他也沒想到,社區(qū)會(huì)在幾天內(nèi)把它變成一個(gè)分布式科學(xué)共同體,有實(shí)驗(yàn)、有驗(yàn)證、有評(píng)審、有分工,甚至有了自己的“負(fù)面結(jié)果知識(shí)庫”。
這場(chǎng)實(shí)驗(yàn)中最有意思的發(fā)現(xiàn),不是任何一個(gè)具體的模型架構(gòu),而是這個(gè)過程本身。
Karpathy在OpenAI的前同事Noam Brown提問:為什么在自工業(yè)革命以來人類歷史上最關(guān)鍵的時(shí)刻,他沒有在人工智能前沿實(shí)驗(yàn)室工作?
![]()
Karpathy還沒有回應(yīng),但有人替他答了。
我想他可能會(huì)問你類似的問題:在至少自工業(yè)革命以來人類歷史上最關(guān)鍵的時(shí)刻,你為什么要把自己局限于商業(yè)組織?
autoresearch:
https://github.com/karpathy/autoresearch
autoresearch@home:
https://ensue-network.ai/autoresearch?view=strategies
auto-discovery:
https://github.com/XinmingTu/auto-discovery
參考鏈接:
[1]https://x.com/christinetyip/status/2032590900107346327
[2]https://x.com/TuXinming/status/2032478765033701835
文章來源:量子位。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.