亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI自我進(jìn)化?斯坦福華人博士答辯視頻火了,龐若鳴參與評審

0
分享至

昨天,Thinking Maching Lab 研究者、斯坦福大學(xué)博士生 Zitong Yang 正式完成了他的博士論文答辯,課題為「持續(xù)自我提升式 AI」(Continually self-improving AI),并且他在答辯完成后很快就放出了自己的答辯視頻,從中我們可以看到他對未來 AI 發(fā)展路徑的系統(tǒng)性探索。針對當(dāng)前模型在訓(xùn)練后權(quán)重靜態(tài)化、高質(zhì)量人類數(shù)據(jù)面臨枯竭,以及新算法發(fā)現(xiàn)高度依賴人力這三大局限,他提出了明確的解決方案。


https://x.com/ZitongYang0/status/2029034067992437139

在本次答辯中,Zitong Yang 主要分享了三個(gè)核心研究方向。

首先是「合成持續(xù)訓(xùn)練」范式,團(tuán)隊(duì)利用實(shí)體圖合成數(shù)據(jù)生成技術(shù),讓模型在預(yù)訓(xùn)練之后依然能持續(xù)學(xué)習(xí)小眾領(lǐng)域知識,同時(shí)避免災(zāi)難性遺忘。

其次是探索預(yù)訓(xùn)練能力的自我提升,通過「合成引導(dǎo)預(yù)訓(xùn)練」技術(shù),讓模型自主挖掘龐大文檔間的潛在結(jié)構(gòu)與關(guān)聯(lián),進(jìn)一步優(yōu)化自身的預(yù)訓(xùn)練效果并顯著降低事實(shí)錯(cuò)誤率。

最后,他展示了「邁向 AI 設(shè)計(jì) AI」的潛力,通過構(gòu)建包含代碼庫和價(jià)值函數(shù)的獨(dú)立研究環(huán)境,引入演化搜索機(jī)制,讓模型自主提出算法思路、編寫代碼并運(yùn)行實(shí)驗(yàn)。

Zitong Yang 在總結(jié)中指出,正如愛因斯坦創(chuàng)造的場方程能夠預(yù)言連其本人最初都無法接受的宇宙膨脹一樣,人類基于算法過程所創(chuàng)造出的智能體,也完全擁有進(jìn)化出超越創(chuàng)造者智能水平的必然性

其答辯委員會的陣容也非常強(qiáng)大,主席為斯坦福大學(xué)電氣工程、計(jì)算機(jī)科學(xué)與管理科學(xué)教授 Stephen Boyd,另外還包括斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授 Percy Liang、數(shù)學(xué)和統(tǒng)計(jì)學(xué)教授 Emmanuel Candès、計(jì)算機(jī)科學(xué)助理教授 Tatsunori Hashimoto 以及前段時(shí)間剛剛離開 Meta 加入 OpenAI 的龐若鳴。

這條推文也收獲了諸多行業(yè)大佬的點(diǎn)贊,包括 Thinking Maching Lab CEO、前 OpenAI CTO Mira Murati 和 PyTorch 之父 Soumith Chintala 等。



下面是對 Zitong Yang 答辯內(nèi)容的整理。

題目:Continually self-improving AI

地址:https://zitongyang.github.io/slides/ZitongYang_defense_slides.pdf

持續(xù)自我提升式 AI


我本次答辯的題目是「持續(xù)自我改進(jìn)式 AI」,首先我想嘗試定義一下我想要構(gòu)建的系統(tǒng)。

所謂持續(xù)自我改進(jìn)式 AI 系統(tǒng),是指一旦被創(chuàng)造出來,就能自主且持續(xù)地進(jìn)行自我改進(jìn),并且其改進(jìn)效果要優(yōu)于人類創(chuàng)造者對它的改進(jìn)。


為了使這個(gè)定義更加精確和實(shí)用,我認(rèn)為我們應(yīng)該從一些假設(shè)出發(fā),縮小我們所討論的 AI 系統(tǒng)的范圍,這樣我們提出的主張也會更加嚴(yán)謹(jǐn)。因此,在本次演講中,我們探討的 AI 系統(tǒng)僅限于滿足以下兩個(gè)假設(shè)的情況。

第一個(gè)假設(shè)是參數(shù)化的,即 AI 系統(tǒng)基于一個(gè)或多個(gè)神經(jīng)網(wǎng)絡(luò),知識被存儲在一組明確定義的參數(shù)權(quán)重中;第二個(gè)假設(shè)是 AI 系統(tǒng)必須經(jīng)過預(yù)訓(xùn)練。AI 系統(tǒng)經(jīng)歷了一個(gè)資源密集型的預(yù)訓(xùn)練階段,在這個(gè)階段中,它接收包含大部分或全部人類知識的訓(xùn)練信號,并將其轉(zhuǎn)化為參數(shù)權(quán)重。


在這兩個(gè)假設(shè)下,持續(xù)自我改進(jìn)式 AI 應(yīng)該具備三個(gè)特性:


在初始預(yù)訓(xùn)練階段之后,系統(tǒng)能夠繼續(xù)獲取新知識并融入其參數(shù)權(quán)重中,而不會災(zāi)難性地遺忘舊知識。

系統(tǒng)能夠生成自身的訓(xùn)練信號,并且通過學(xué)習(xí)這種自生成的信號所帶來的提升,要超越學(xué)習(xí)人類生成信號所帶來的提升。

系統(tǒng)能夠自主設(shè)計(jì)學(xué)習(xí)算法,以便從其訓(xùn)練信號中進(jìn)行學(xué)習(xí)。

一旦我們確立了這些假設(shè),這個(gè)定義就是精確的。這些假設(shè)的初衷顯然是為了涵蓋我們今天所見到的所有大型語言模型(LLM)或相關(guān)范式。但是,它們排除了早期國際象棋游戲中那種硬編碼的智能。

為什么需要持續(xù)自我改進(jìn)式 AI?

那么,為什么我們希望 AI 系統(tǒng)具備這三種能力呢?我認(rèn)為這源于人類創(chuàng)造者固有的三個(gè)局限性。

首先,在人類創(chuàng)造它們之后,它們的權(quán)重是靜態(tài)的。


在與 ChatGPT 或 Claude 的典型對話中,一開始你可能有 100 輪對話,然后你會經(jīng)歷一個(gè)上下文壓縮階段,試圖總結(jié)到目前為止的對話。在這之后,如果你試圖問 AI 之前發(fā)生過什么,它不會有完美的記憶,因?yàn)殡S著上下文變長,壓縮是一個(gè)非常容易丟失信息的有損過程。但對于人類記憶來說,也許你在前 100 輪對話后睡了一覺,你的記憶轉(zhuǎn)移到了大腦的其他部分,然后你還能隱約記得你之前談?wù)撨^的一些事情。

第二個(gè)局限性是在有限的人類數(shù)據(jù)下進(jìn)行擴(kuò)展。


在左邊,我們展示了 Scaling Law。X 軸代表語言模型訓(xùn)練的 token 數(shù)量,Y 軸代表測試損失。在右邊,我們有 Epoch AI 的預(yù)測:隨著時(shí)間的推移,前沿語言模型所使用的 token 數(shù)量正迅速逼近互聯(lián)網(wǎng)上公開可用的 token 總量。當(dāng)然,人們正試圖購買和獲取私有領(lǐng)域的數(shù)據(jù)。但同樣的邏輯依然適用,即人類數(shù)據(jù)是有限的,并且隨著我們想要訓(xùn)練越來越深的神經(jīng)網(wǎng)絡(luò),這些數(shù)據(jù)正在被耗盡。

第三,當(dāng)前的 AI 系統(tǒng)在某種意義上受限于人類所能發(fā)現(xiàn)的算法。


如果我們思考一下人類是如何提出算法的:它經(jīng)歷了一個(gè)產(chǎn)生想法的過程(例如最大似然估計(jì)),然后進(jìn)行實(shí)驗(yàn)(這可能是編寫代碼或進(jìn)行數(shù)學(xué)推導(dǎo)),最終你得到一些研究成果;隨后其他人在此基礎(chǔ)上繼續(xù)研究,這個(gè)循環(huán)再次開始。這個(gè)過程極其依賴人力,并且成本非常高昂。因此,我們發(fā)現(xiàn)的僅僅是所有可能算法中的一個(gè)子集,而我們希望利用 AI 本身來使這個(gè)過程自動化。

接下來將從以下這三個(gè)方面展開:



持續(xù)知識獲取:合成持續(xù)訓(xùn)練范式

第一個(gè)方面:持續(xù)知識獲取。

在此之前,我想說明一下,本論文包含了四篇文章,所有這些都是與合作者的共同研究成果,特別是那些標(biāo)注了同等貢獻(xiàn)的合作者。在這段旅程中能與各位共事,我感到非常榮幸。


為了在訓(xùn)練后不斷獲取新知識,我們提出了這種名為「合成持續(xù)訓(xùn)練(Synthetic continuing)」的范式。


這里的目標(biāo)是,我們希望將來自僅包含少量源文檔的小眾領(lǐng)域的知識教授給語言模型。

隨之而來的一個(gè)自然的問題是:為什么這個(gè)過程必須使用合成數(shù)據(jù)?

我們提出了以下觀察:如果沒有合成數(shù)據(jù),知識可能是稀疏的。


如果我們對比模型對線性代數(shù)的知識,與對 GitHub 上新發(fā)布的一個(gè)代碼庫的了解程度,模型對線性代數(shù)有著極其完美的記憶和深入的理解;但如果你問它關(guān)于這個(gè)新代碼庫的問題,比如抽象和 token 計(jì)算機(jī)之間的關(guān)系是什么,模型可能甚至不理解這個(gè)問題在問什么。通過這種對比我們發(fā)現(xiàn),模型從各種各樣的互聯(lián)網(wǎng)數(shù)據(jù)中獲取線性代數(shù)知識,這些數(shù)據(jù)包括許多教科書、講義、關(guān)于線性代數(shù)習(xí)題的在線討論,甚至包括 GitHub 上奇異值分解的代碼實(shí)現(xiàn),而對于新發(fā)布的代碼庫來說,這種多樣化的表征根本不存在。這就是我們?yōu)槭裁葱枰铣蓴?shù)據(jù)的原因。

為了將這個(gè)提案轉(zhuǎn)化為具體的實(shí)驗(yàn)設(shè)置,我們需要兩樣?xùn)|西來確保實(shí)驗(yàn)的嚴(yán)謹(jǐn)性。

第一,我們需要收集一些小眾領(lǐng)域的源文檔,并且這不能是語言模型已經(jīng)知道的內(nèi)容。

第二,我們需要一個(gè)任務(wù)來測試模型對這些源文檔的了解程度,以便我們追蹤進(jìn)展。在本文中,我們使用了該團(tuán)隊(duì)構(gòu)建的 QuALITY 數(shù)據(jù)集,它同時(shí)滿足源文檔和問答任務(wù)這兩個(gè)標(biāo)準(zhǔn)。


關(guān)于源文檔,它是一個(gè)包含 265 本專業(yè)書籍的數(shù)據(jù)集,總計(jì)約 180 萬個(gè) token,這些內(nèi)容都是模型未曾接觸過的。至于測試部分,它包含約 4000 個(gè)高質(zhì)量的多項(xiàng)選擇問答題。這使得評估和解析變得非常簡單,并且題目數(shù)量足夠大,可以獲得可靠的信號。


有了這兩個(gè)設(shè)置,回顧一下我們的目標(biāo):我們希望模型在不提供上下文書籍的情況下回答問題。所以這就好比是一場閉卷考試。源文檔是高質(zhì)量的書籍,任務(wù)是閉卷問答。


在這個(gè)設(shè)置下,我們評估了一些靜態(tài)模型,以了解該任務(wù)的難度。


這是四選一的選擇題,所以隨機(jī)瞎蒙的準(zhǔn)確率是 25%。我們要微調(diào)的模型是 Llama 3 基礎(chǔ)模型,它開箱即用的準(zhǔn)確率只有 39%。一個(gè)順理成章的做法是直接在原始數(shù)據(jù)本身上進(jìn)行微調(diào)。我們稱之為原始的持續(xù)預(yù)訓(xùn)練,我們發(fā)現(xiàn)準(zhǔn)確率實(shí)際上略有下降。這是因?yàn)?token 的數(shù)量實(shí)在太少了,除非你進(jìn)行合理數(shù)量的回放(replay),否則你的 batch 設(shè)置和學(xué)習(xí)率規(guī)劃都沒有被正確設(shè)定。此外,我們還有兩個(gè)來自閉源模型的靜態(tài)參考, GPT-3.5 和 GPT-4,我們看到它們的準(zhǔn)確率分別在 44% 和 45% 左右,所以這是一個(gè)模型擁有一定相關(guān)知識的基準(zhǔn)測試,它不是完全隨機(jī)的,但也絕對達(dá)不到 60% 之類的水平。

那么問題來了,我們該如何生成合成數(shù)據(jù)呢?

我們考慮的一個(gè)非常簡單的基準(zhǔn)做法,就是直接重寫這篇論文提出的文檔。讓我們來看看它的表現(xiàn)。

在這里的圖表中, X 軸是我們在重寫過程中生成的合成 token 的數(shù)量。在重寫過程中,我們的提示詞實(shí)際上就是:「這是一本書,你能像維基百科文章一樣重寫它嗎」。我們有一組四個(gè)固定的提示詞,并且我們迭代地將它們應(yīng)用于本書。在這個(gè)過程中,我們可以看到雖然取得了一些成功,準(zhǔn)確率有所提高,但斜率并不算陡峭,最終達(dá)到的最高點(diǎn)也不是很高。


我們認(rèn)為,重寫數(shù)據(jù)之所以存在這種問題,是因?yàn)槿狈Χ鄻有浴R驗(yàn)槲覀円槐橛忠槐榈刂貜?fù)相同的提示詞,我們所依賴的只是通過調(diào)整生成溫度來讓模型生成不同的數(shù)據(jù),而當(dāng)你經(jīng)歷 200 或 300 次迭代后,你得到的數(shù)據(jù)基本上是一樣的。



實(shí)體圖合成數(shù)據(jù)生成

它缺乏多樣性,這就是為什么我們提出了這種稱為「實(shí)體圖(EntiGraph)合成數(shù)據(jù)生成」的數(shù)據(jù)增強(qiáng)技術(shù)。


實(shí)體圖的操作方式在精神上類似于單純的重寫,但它通過一個(gè)兩階段的過程增強(qiáng)了這一操作。我們首先從這里的源文檔開始,這些源文檔就像是來自 QuALITY 書籍的示例,然后我們將從書中提取實(shí)體。在這里,我們只需提示語言模型:「這是源文檔,書中有哪些核心實(shí)體能幫助我很好地理解這篇文章?」模型會輸出一個(gè)字符串列表。然后我們應(yīng)用關(guān)系描述的提示詞,我們只需隨機(jī)抽取實(shí)體的一個(gè)子集。接著,我們讓模型描述這些實(shí)體之間的關(guān)系。模型會生成諸如「在某某背景下,這兩個(gè)實(shí)體之間的相互作用是……」之類的內(nèi)容,這就能讓我們擁有用于訓(xùn)練的多樣化數(shù)據(jù)。

所以它與重寫之間的區(qū)別在于,在提示詞中你總是在改變實(shí)體;當(dāng)你在提示詞中改變一個(gè) token 時(shí),這是一個(gè)非常非線性的過程,因?yàn)槟銓?shí)際上是在改變詞向量,模型的輸出會有很大的差異,因此你獲得了多樣化的語料用于合成持續(xù)訓(xùn)練,這就是它在實(shí)踐中的運(yùn)作方式。

我們看到,隨著我們生成越來越多的 token,問答的準(zhǔn)確率不斷提高,并且它有一個(gè)好得多的截距。此外,其斜率也遠(yuǎn)優(yōu)于參考基準(zhǔn)。因此,這就是最終的成果:如果正確使用合成數(shù)據(jù),可以產(chǎn)生極具規(guī)模效應(yīng)的改進(jìn)。


以上是閉卷考試部分的主要結(jié)果。接下來,我們考慮一個(gè)不同的任務(wù) —— 開卷問答,這是一個(gè)非常自然的任務(wù)。這里我們看第二行,關(guān)于書籍訪問權(quán)限:閉卷、開卷、閉卷、開卷。這意味著,當(dāng)你向模型提出有關(guān) QuALITY 的問題時(shí)。「閉卷」意味著你不提供任何上下文;而「開卷」意味著你提供問題所依據(jù)的確切書籍文本,然后讓模型來回答問題。開卷考試有點(diǎn)像測試模型的閱讀理解能力,就像 SAT 考試一樣。對于我們繼續(xù)進(jìn)行實(shí)驗(yàn)的 Llama 3 API 模型,我們和之前一樣以 39% 的準(zhǔn)確率起步,而開卷測試將其提升到了 60%,這是非常高的。


對于實(shí)體圖方法,在閉卷情況下,我們的準(zhǔn)確率大約是 56%,雖然這并沒有完全填補(bǔ)與開卷測試的差距,但我們發(fā)現(xiàn),如果你將開卷方法和持續(xù)預(yù)訓(xùn)練結(jié)合起來,實(shí)際上能得到最好的結(jié)果。這意味著它們的改進(jìn)是互補(bǔ)的。

這張表格傳達(dá)的意義是,合成持續(xù)預(yù)訓(xùn)練加上檢索工具可以帶來更好的效果歸因。我認(rèn)為這非常有意義,因?yàn)樵趯?shí)踐中,假設(shè)你想為你的公司或業(yè)務(wù)設(shè)計(jì)一個(gè)語言模型,你要抓住任何可以提升性能的機(jī)會,你應(yīng)該設(shè)計(jì)所有最好的方法,比如合成訓(xùn)練,或者結(jié)合工具使用,設(shè)計(jì)出最佳的可用工具以獲得最佳性能。我認(rèn)為這可能是未來將開源語言模型適配到個(gè)性化應(yīng)用場景的一種范式。

預(yù)訓(xùn)練能力的自我提升

這就解決了我們期望的第一個(gè)特性,即我們希望模型在回到人類創(chuàng)造者手中后能夠持續(xù)獲取知識。第二點(diǎn)是,我們希望自我改進(jìn)模型本身的預(yù)訓(xùn)練能力。

在此之前,我想談?wù)劄槭裁次覀円谝膺@里的訓(xùn)練。我致力于這個(gè)項(xiàng)目的原因源于我在 o1 論文發(fā)表時(shí)積累的 s1 經(jīng)驗(yàn)。那是推理還非常新穎的時(shí)候,大約在 2024 年的 9 月或 10 月。我記得在那個(gè)時(shí)候,AI 推理這種事情還很難想象。所以當(dāng)時(shí)的猜測是,他們肯定耗費(fèi)了大量資源(比如人工標(biāo)注)來構(gòu)建這個(gè)模型。


但我們在這篇論文中展示的是,僅僅對 10,000 條思維鏈數(shù)據(jù)執(zhí)行監(jiān)督微調(diào),就能提供達(dá)到 o1-preview 級別的能力。這是 s1 和 o1-preview 之間的對比。這讓我意識到,后訓(xùn)練能力就像是對預(yù)訓(xùn)練知識的一種極其奇妙的泛化。

因此,從某種意義上說,預(yù)訓(xùn)練才是主心骨。困惑度揭示了模型能力的核心,它通常與預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模和模型規(guī)模有更大的相關(guān)性。因此,為了見證真正的自我改進(jìn),你必須看到在訓(xùn)練層面上的自我改進(jìn),而不僅僅是我們之前項(xiàng)目中看到的中期訓(xùn)練或后訓(xùn)練層面的改進(jìn)。

既然我們的目標(biāo)是解決預(yù)訓(xùn)練問題,我們先停下來思考一下:預(yù)訓(xùn)練中的知識到底從何而來?


為了回答這個(gè)問題,我提出了這樣一個(gè)思想實(shí)驗(yàn)。假設(shè)世界上只有 5 個(gè) token : A、B、C、D 和 E,而我們用于訓(xùn)練的文本文檔只是像這種格式的隨機(jī)字符串,所以在每個(gè)位置,我們都在這些 token 中均勻隨機(jī)地采樣一個(gè)字符,因此它不是一個(gè)馬爾可夫鏈。它就像一個(gè)完全平穩(wěn)的過程。

如果我們用 Transformer 語言模型在這些文本上執(zhí)行下一個(gè) token 預(yù)測,我們將看不到任何有意義的學(xué)習(xí)信號,因?yàn)樵诔跏蓟瘯r(shí),模型會給每個(gè) token 分配 20% 的概率。這與你的訓(xùn)練數(shù)據(jù)所規(guī)定的概率是一樣的。所以當(dāng)你在訓(xùn)練時(shí),你實(shí)際上并沒有學(xué)到任何東西。

但這顯然不是自然語言文本的樣子。自然語言文本比隨機(jī)字符串擁有更多的結(jié)構(gòu)。在撰寫這篇論文的過程中,共同作者之間進(jìn)行了許多有趣的討論,探討這種結(jié)構(gòu)究竟是什么。

我將這些討論總結(jié)為兩種互補(bǔ)的觀點(diǎn)。

一種統(tǒng)計(jì)學(xué)觀點(diǎn)是,將自然語言中的 token 視為從某種分布中抽取的隨機(jī)變量,并且這些 token 彼此之間存在統(tǒng)計(jì)相關(guān)性。

另一種更偏向計(jì)算層面的觀點(diǎn),即更接近香農(nóng)最初提出的理論是,自然語言文本具有允許其被壓縮的模式,而下一個(gè) token 預(yù)測本質(zhì)上是在進(jìn)行信源編碼以壓縮文本。但拋開具體觀點(diǎn)不談,無論是統(tǒng)計(jì)學(xué)還是計(jì)算學(xué)的視角, token 之間確實(shí)存在使得模型能夠?qū)W習(xí)的結(jié)構(gòu)性相關(guān)性。

所以,如果預(yù)訓(xùn)練的知識就是來源于此,我認(rèn)為,在當(dāng)前的預(yù)訓(xùn)練范式中,遺漏了一個(gè)豐富但未被充分利用的相關(guān)性來源。即現(xiàn)有的互聯(lián)網(wǎng)文檔之間存在極其豐富的相關(guān)性。

例如,《哈利?波特》這本書與三年后其電影版劇本之間的相關(guān)性;或者《Attention is All You Need 》這篇論文與 GPT-2 代碼庫之間的相關(guān)性。比如在代碼的第 91 行,它實(shí)現(xiàn)了點(diǎn)積注意力機(jī)制,而在《 Attention is All You Need 》論文中的某個(gè)地方,他們確切地用英語寫了「dot-product attention」。因此,英文短語「dot-product attention」與 Python 代碼實(shí)現(xiàn)之間存在著這種相關(guān)性。



合成引導(dǎo)預(yù)訓(xùn)練

我們將要采用的技術(shù)是,希望通過合成數(shù)據(jù)等手段來利用這種跨文檔的相關(guān)性。鑒于我們要使用合成數(shù)據(jù),我們必須確保我們所看到的是預(yù)訓(xùn)練能力的普遍引導(dǎo)提升,而不僅僅是從教師模型中進(jìn)行的知識蒸餾。 因此,我們會遵循以下三個(gè)步驟:

首先,我們使用固定數(shù)量的數(shù)據(jù)從頭預(yù)訓(xùn)練一個(gè)語言模型;

然后,在不引入任何新文本的情況下,我們將該模型微調(diào)為一個(gè)合成數(shù)據(jù)生成器。

最后,我們將真實(shí)數(shù)據(jù)和合成數(shù)據(jù)結(jié)合起來重新預(yù)訓(xùn)練語言模型,以此來提升性能。


如果我們能成功驗(yàn)證這條流水線,我們就看到了一種對預(yù)訓(xùn)練能力的真正自我改進(jìn)。這正是「合成引導(dǎo)預(yù)訓(xùn)練(Synthetic Bootstrap Pre-training)」。


為了實(shí)施這項(xiàng)技術(shù),它包含了三個(gè)操作步驟。

第一步,我們進(jìn)行這種最近鄰詞向量編碼計(jì)算。我們使用了 DCLM 數(shù)據(jù)集的一個(gè)子集,然后將其輸入到 Qwen 6 的 embedding 模型中,我們就會得到類似這樣的結(jié)果。這些詞向量會對相似度進(jìn)行編碼。例如, Transformer 的論文將會在距離上非常靠近它的 PyTorch 實(shí)現(xiàn)代碼。

接下來的第二步是,將這些相鄰的文檔連接成圖,并執(zhí)行合成微調(diào)。

合成微調(diào)的具體做法是:把一個(gè)經(jīng)過預(yù)訓(xùn)練的檢查點(diǎn)作為語言模型的初始化狀態(tài)(這里的預(yù)訓(xùn)練檢查點(diǎn)指的是已經(jīng)在所有真實(shí)數(shù)據(jù)上訓(xùn)練過的模型);然后通過類似 SFT (監(jiān)督微調(diào))的目標(biāo)對模型進(jìn)行微調(diào)。


在這個(gè)過程中,以圖中相鄰的一側(cè)文檔作為條件,試圖最大化另一側(cè)相鄰文檔的對數(shù)概率。這里需要說明的是,每一個(gè)源文檔(d1)可能對應(yīng)多個(gè)目標(biāo)文檔(d2)。這個(gè)過程會極大程度地增加模型的熵,例如,如果每個(gè) d1 對應(yīng) 20 個(gè) d2,那么在邏輯回歸下,最大似然估計(jì)的分布就會像黑墻一樣,將均勻的概率質(zhì)量分配給每一個(gè)文檔。因此,經(jīng)過這種微調(diào)后,你的模型會處于極高熵的狀態(tài)。

在這個(gè)過程之后,因?yàn)槟P痛嬖诤芏嗾`差,所以在我們生成合成數(shù)據(jù)時(shí),我們不使用任何花哨的提示詞技巧,只是直接使用溫度為 1 的設(shè)置,對你所擁有的所有真實(shí)文檔反復(fù)應(yīng)用溫度為 1 的生成過程。


舉例來說,如果你有一篇不那么長的小說,你會得到一段對這篇小說的合成評論。這就能讓你獲得極其多樣化的合成內(nèi)容。


為了讓大家了解在這種類似于無條件生成范式下生成的內(nèi)容是什么樣子的,這里展示一個(gè)我們訓(xùn)練中的例子。在左側(cè),這是一份來自 DCLM 數(shù)據(jù)集的真實(shí)文檔。它討論了圣地亞哥的咖啡館,基本上是列出了不同的咖啡館。

而右側(cè)的合成文檔,內(nèi)容開始像是在講述一趟圣地亞哥之旅,然后它開始把焦點(diǎn)轉(zhuǎn)向濃縮咖啡機(jī),而濃縮咖啡機(jī)并非源文檔關(guān)注的內(nèi)容。也就是說,模型完全自主地想出了這個(gè)主意,這也展示了合成內(nèi)容的多樣性。我們還有另一篇不同的合成文章,試圖將圣地亞哥的咖啡館與紐約進(jìn)行對比,而「紐約」這個(gè)詞根本沒有在真實(shí)文檔中出現(xiàn)過。這就是為了讓大家體會一下這種生成過程會呈現(xiàn)出什么樣的感覺。在我們準(zhǔn)備好所有這些真實(shí)數(shù)據(jù)和合成數(shù)據(jù)之后,我們將用它們混合在一起來進(jìn)行訓(xùn)練。

這就是「合成引導(dǎo)預(yù)訓(xùn)練」算法層面的內(nèi)容。接下來為了將其付諸實(shí)踐,我們需要一個(gè)實(shí)驗(yàn)設(shè)計(jì)。

對于這個(gè)設(shè)置,你主要需要三個(gè)組件:數(shù)據(jù)模型架構(gòu)評估基準(zhǔn)


關(guān)于數(shù)據(jù)我們之前已經(jīng)討論過了;在架構(gòu)方面,我們使用了 Llama 3 的架構(gòu),并額外加上了 QK LayerNorm,我們發(fā)現(xiàn)這有助于穩(wěn)定訓(xùn)練過程;在評估方面,我們采用了六項(xiàng)問答準(zhǔn)確率、 Few-shot 問答準(zhǔn)確率以及三項(xiàng)困惑度評估,這些都是常用于預(yù)訓(xùn)練階段的指標(biāo)。在這個(gè)設(shè)置下,我們進(jìn)行了計(jì)算量匹配的對比:我們的基準(zhǔn)是通過簡單的重復(fù)來復(fù)用固定數(shù)量的數(shù)據(jù)。這非常直接明了。對于合成引導(dǎo)預(yù)訓(xùn)練,我們以基準(zhǔn)為參考,控制了兩個(gè)變量。

首先是相同的數(shù)據(jù),我們沒有使用任何額外的數(shù)據(jù)源,否則就成作弊了。

其次,我們控制了訓(xùn)練的計(jì)算量,以確保整個(gè)過程的總訓(xùn)練周期是相同的。我在這里要強(qiáng)調(diào)的是,我們并沒有控制總的絕對計(jì)算量,比如生成合成數(shù)據(jù)的所有推理成本等。從這個(gè)角度來看,合成引導(dǎo)預(yù)訓(xùn)練(SBPT)使用了更多的算力,我們僅僅是控制了預(yù)訓(xùn)練階段的計(jì)算量。

區(qū)別在于,每當(dāng)基準(zhǔn)方法試圖重復(fù)數(shù)據(jù)時(shí),我們使用的是合成數(shù)據(jù),而不是簡單的復(fù)制。最后,為了將 SBPT 和基準(zhǔn)測試的性能置于更廣的背景下比較,我們還引入了 Oracle 過程:在這里我們不再控制對相同數(shù)據(jù)的訪問限制,但我們依然控制使用相同的計(jì)算量。這個(gè)作為參考的 Oracle 基準(zhǔn)可以使用無限的真實(shí)數(shù)據(jù)。 所以它試圖模擬這樣一種情況:如果數(shù)據(jù)永遠(yuǎn)增長下去會發(fā)生什么。

讓我們先從更能反映定性結(jié)果的訓(xùn)練動態(tài)開始,試圖直觀地告訴你它是如何運(yùn)作的。


X 軸代表訓(xùn)練 token 的數(shù)量, Y 軸代表在 OpenWebText2 上的測試損失。一開始我們可以看到, Oracle 和基準(zhǔn)測試的表現(xiàn)很相似,但它們都不及合成引導(dǎo)預(yù)訓(xùn)練的效果。我認(rèn)為它們兩者表現(xiàn)相似是很有道理的,因?yàn)榛鶞?zhǔn)方法只是單純的重復(fù)數(shù)據(jù),當(dāng)你的訓(xùn)練計(jì)算量不大時(shí),它們的表現(xiàn)或多或少是一樣的。但隨后基準(zhǔn)方法就會飽和。當(dāng) Oracle 的損失繼續(xù)下降時(shí),基準(zhǔn)方法的曲線開始變平,這是因?yàn)樗槐橛忠槐榈刂貜?fù)相同的訓(xùn)練信號。它再也無法從中獲取新知識了。但是,到了最后階段, Oracle 和合成引導(dǎo)預(yù)訓(xùn)練都繼續(xù)以近似線性的方式進(jìn)行擴(kuò)展。這是定性層面的結(jié)果。接下來,我們來看一個(gè)更具定量性質(zhì)的結(jié)果表。


這個(gè)表格包含三個(gè)主要列。這里的 200B 指的是總的訓(xùn)練 token 長度,也就是模型被訓(xùn)練了多久,而 1 萬億相當(dāng)于 5 倍的訓(xùn)練量。

在第一列中,我們使用了一個(gè) 3B 參數(shù)的模型;在第二列中,我們固定了 3B 參數(shù)模型,但將訓(xùn)練計(jì)算量放大到了 1 萬億 token ;在第三列中,我們固定了 1 萬億 token 的訓(xùn)練計(jì)算量,但將模型規(guī)模放大到了 6B 參數(shù)。

我們看到的關(guān)鍵結(jié)論是,如果我們觀察問答準(zhǔn)確率的平均提升情況,包括 SBPT 和 Oracle 相對于基準(zhǔn)的相對提升,在所有這三種情況下,我們都看到了可以由 Oracle 實(shí)現(xiàn)的約 30% 的提升,所以這種改進(jìn)是非常一致的。有趣的是,我們發(fā)現(xiàn)在某些基準(zhǔn)測試中, 6B 參數(shù)、 1 萬億 token 的模型已經(jīng)幾乎像是一個(gè)可用的語言模型了,這相當(dāng)于 Llama 計(jì)算量的一半,理應(yīng)如此,這意味著我們能改進(jìn)的空間應(yīng)該更少了。但是,在某些基準(zhǔn)測試中,我們實(shí)際上在 6B 參數(shù)的處理?xiàng)l件下看到了更大的提升。這是因?yàn)槟愕暮铣蓴?shù)據(jù)生成器也變得更強(qiáng)大了。它的幻覺變少了。正是這個(gè)觀察將我們引向了關(guān)于自我改進(jìn)預(yù)訓(xùn)練能力的最后一張結(jié)果表。

在這里,我們希望考察的是合成數(shù)據(jù)的質(zhì)量。這張表包含四行,前三行分別代表了我們實(shí)驗(yàn)中的一種設(shè)置。即 200B-3B 、 1T-3B 、 1T-6B,最后一行是真實(shí)數(shù)據(jù)。


這里我們采用的通用范式是,因?yàn)槲覀冊噲D評估數(shù)據(jù)集的某項(xiàng)屬性,而該數(shù)據(jù)集非常龐大。因此,我們會對一部分文檔進(jìn)行子采樣,然后使用像現(xiàn)成的 GPT 模型那樣,編寫一些評分標(biāo)準(zhǔn)來檢測文檔中是否存在重復(fù)內(nèi)容,或者是否包含不符合事實(shí)的信息。我們發(fā)現(xiàn),隨著模型規(guī)模的擴(kuò)大,生成的數(shù)據(jù)質(zhì)量也更好,而且這些合成數(shù)據(jù)并不僅僅是簡單的復(fù)述。在表格的各列中,我想重點(diǎn)強(qiáng)調(diào)「非事實(shí)」這一列,我認(rèn)為這非常令人興奮。因?yàn)閷τ诤铣蓴?shù)據(jù)而言,事實(shí)性始終是一個(gè)難題。在 200B 規(guī)模下,我們看到,事實(shí)錯(cuò)誤率甚至達(dá)到了 50%。存在著大量的幻覺。當(dāng)你把訓(xùn)練計(jì)算量增加 5 倍時(shí),非事實(shí)的比例顯著下降;當(dāng)你把模型規(guī)模增大一半時(shí),這一比例進(jìn)一步降低。雖然它還沒有達(dá)到完全比肩真實(shí)數(shù)據(jù)的水平,但我認(rèn)為這種從 3B 到 6B 的下降非常有趣。因?yàn)槭聦?shí)性在某種程度上,取決于模型掌握了多少關(guān)于世界的知識。

如果你只是將訓(xùn)練數(shù)據(jù)規(guī)模從第一列增加到第二列,這是令人驚訝的,因?yàn)槟P涂吹搅烁嗒?dú)特的數(shù)據(jù),它擁有更多的世界信息。但當(dāng)你增加模型規(guī)模時(shí),環(huán)境的總熵是相同的。你所做的,只是花費(fèi)更多的計(jì)算能力,從環(huán)境中提取信息。如果熵是守恒的,但這允許你擁有更低的事實(shí)錯(cuò)誤率。我認(rèn)為這是一個(gè)非常有意思的結(jié)果。

自我訓(xùn)練能力的部分就講到這里。這表明我們可以普遍地提升語言模型的預(yù)訓(xùn)練能力。

邁向 AI 設(shè)計(jì) AI

在最后一部分,我想展示的是「邁向 AI設(shè)計(jì)AI」的方向。

從根本上說,我們現(xiàn)在在做的是試圖讓語言模型來做我們的工作。

我想先探討這樣一個(gè)哲學(xué)問題:為什么我們期望 AI 在 AI 研究領(lǐng)域能做得更好?


我想追溯到這個(gè)科學(xué)方法論。Fisher 提出了科學(xué)進(jìn)步的兩階段過程:首先提出假設(shè),在提出假設(shè)之后,你需要做兩件事:進(jìn)行實(shí)驗(yàn),然后試圖證偽這個(gè)假設(shè)。這帶來了一個(gè)非常嚴(yán)謹(jǐn)?shù)目茖W(xué)過程。例如,你可能會說你無法證偽牛頓定律,但你不能理所當(dāng)然地假設(shè)牛頓定律是絕對正確的。后來,我們有了愛因斯坦的理論,那只是因?yàn)樵诋?dāng)時(shí)的實(shí)驗(yàn)條件下,你無法證偽牛頓定律而已。這意味著科學(xué)的本質(zhì)就是運(yùn)行實(shí)驗(yàn)和產(chǎn)生想法。

不用說,對于語言模型來說,產(chǎn)生想法就像寫文本一樣簡單。所以它能夠做到,只是校準(zhǔn)度還不夠。

更有趣的部分在于運(yùn)行實(shí)驗(yàn)。如果你看看當(dāng)前 AI 領(lǐng)域的狀態(tài),首先, AI 的進(jìn)展非常依賴基準(zhǔn)測試驅(qū)動,比如 ImageNet 或其他各種基準(zhǔn)數(shù)據(jù)集;其次, AI 實(shí)驗(yàn)最終都會具體化為編寫代碼,而編寫代碼正是計(jì)算機(jī)極其擅長的事情。我們可以看到 SWE-bench 的準(zhǔn)確率隨著時(shí)間推移,從最初的 20% 一路上升,幾乎飽和到了 80%。

這意味著,運(yùn)用 AI 來推動 AI 科學(xué)本身的發(fā)展,擁有強(qiáng)大的第一性原理支撐。

為了使模型能夠做到這一點(diǎn),我將引入「研究環(huán)境」的概念。它提供了一個(gè)簡潔的抽象,告訴你進(jìn)行 AI 實(shí)驗(yàn)需要什么。我們先從一個(gè)更通用的研究環(huán)境開始。


它實(shí)際上有兩個(gè)屬性:其一,是傳遞給語言模型的上下文,用于描述任務(wù)是什么;其二,是一個(gè)價(jià)值函數(shù),你向它輸入一個(gè)想法(表現(xiàn)為一段字符串),它會輸出一個(gè)數(shù)字,來指示這個(gè)想法的優(yōu)劣程度。而對于 AI 研究環(huán)境而言,實(shí)現(xiàn)方式非常直接了當(dāng)。

至于上下文,它應(yīng)該包含代碼庫屬性。也就是說,要告訴你一個(gè)研究問題是什么,只需要告訴你相關(guān)的 GitHub 倉庫是什么,或者你的實(shí)驗(yàn)所操作的核心代碼是什么。

另一件事是,為了評估價(jià)值函數(shù),你還需要一個(gè)沙盒來分配運(yùn)行實(shí)驗(yàn)所需的資源。因此,你將資源(例如一塊 H100 GPU)分配給沙盒。隨后,沙盒首先執(zhí)行這段代碼差異,在 AI 研究的背景下,正是這段代碼將你的想法具體化了。接著,沙盒會執(zhí)行 run 命令,然后運(yùn)行評估腳本。你可以通過精心設(shè)計(jì)你的環(huán)境,使得評估腳本的標(biāo)準(zhǔn)輸出正是你所關(guān)心的最終獎(jiǎng)勵(lì)信號。

所以,在這個(gè)抽象概念之下,讓我們首先具體談?wù)勎覀儗?shí)現(xiàn)了哪些 AI 研究環(huán)境。

我們進(jìn)行了預(yù)訓(xùn)練實(shí)驗(yàn),其代碼庫只是一個(gè)執(zhí)行 GPT-2 預(yù)訓(xùn)練的獨(dú)立 Python 腳本。我們投入的資源是 8 張 A100 GPU。這主要用于基準(zhǔn)測試目的,因?yàn)榕判邪裆系脑u價(jià)指標(biāo)是在此資源限制下,測試損失達(dá)到 3.28 所需的時(shí)間。

至于后訓(xùn)練環(huán)境,我們有這個(gè)使用 GRPO 算法進(jìn)行數(shù)學(xué)推理的任務(wù)。其代碼庫是在 GSM8K 數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在 MATH500 數(shù)據(jù)集上進(jìn)行測試。這實(shí)際上取自斯坦福 CS336 課程的作業(yè)。在資源方面,我們使用了一張單卡 Blackwell GPU,以便在單個(gè)設(shè)備上實(shí)現(xiàn)采樣器和訓(xùn)練器底層權(quán)重的無縫切換。


這就消除了大量繁雜的工程障礙。最終的評估指標(biāo)是使用人工驗(yàn)證的 MATH 測試準(zhǔn)確率。一旦有了這樣一個(gè)研究環(huán)境,我很喜歡自動化的 AI 研究員的運(yùn)作方式,它首先會經(jīng)歷這四個(gè)步驟的過程。


就像從可操作化提議的階段開始,研究員內(nèi)部擁有一個(gè)被稱為構(gòu)思器的組件。所以,首先你要獲取研究環(huán)境的上下文,將其輸入給構(gòu)思器,生成你關(guān)心的想法。然后,你調(diào)用研究員類內(nèi)部的執(zhí)行器。你把上下文(在這個(gè)場景下是指研究環(huán)境的代碼庫)以及構(gòu)思器生成的想法提供給它。這會輸出代碼差異,然后你就可以運(yùn)行實(shí)驗(yàn)了。于是,你用生成的代碼差異來調(diào)用研究環(huán)境的價(jià)值函數(shù),它會返回這個(gè)想法的性能表現(xiàn)。同時(shí),在另一側(cè),你也保留了這個(gè)想法的記錄。這樣你就會積累一張實(shí)驗(yàn)經(jīng)驗(yàn)清單,接著時(shí)不時(shí)地,你可以從這些實(shí)驗(yàn)結(jié)果中進(jìn)行學(xué)習(xí)。

想象一下,這個(gè)「學(xué)習(xí) API」有點(diǎn)像是在更新研究員的一些內(nèi)在特質(zhì)。對于這個(gè)「學(xué)習(xí) API」或構(gòu)思器的更新,可以采用強(qiáng)化學(xué)習(xí)的方法,這意味著將修改研究員內(nèi)部神經(jīng)網(wǎng)絡(luò)的參數(shù)權(quán)重;它也可以像是一個(gè)演化搜索過程,維護(hù)一個(gè)類似實(shí)驗(yàn)結(jié)果清單的庫。在本次演講的范疇內(nèi),我將只聚焦于演化搜索的部分。

我們把「學(xué)習(xí)結(jié)果」的過程實(shí)現(xiàn)為一個(gè)迭代的測試時(shí)搜索過程。

這個(gè)測試時(shí)搜索所做的是,它一輪一輪地運(yùn)行實(shí)驗(yàn);在運(yùn)行了一些實(shí)驗(yàn)之后,它會把過去的想法保存在一個(gè)庫中。有了研究員內(nèi)部的這個(gè)想法庫,當(dāng)它想要生成一個(gè)新想法時(shí),可以執(zhí)行以下兩項(xiàng)操作之一。

它可以通過結(jié)合結(jié)果列表中高價(jià)值想法的優(yōu)勢,來利用現(xiàn)有的好想法;

它也可以進(jìn)行探索,嘗試生成與結(jié)果列表中已有想法截然不同的全新想法。


因此,這變成了一個(gè)搜索問題。以下是搜索的最終核心結(jié)果:我們可以看到,后訓(xùn)練任務(wù)的初始準(zhǔn)確率是 48%,而我們的搜索方法將其提升到了 69%。而 CS336 課程排行榜上的最好成績是 68%。所以,這像是在一種非常弱的意義上,擊敗了最好的人類成績。在預(yù)訓(xùn)練方面,我們確實(shí)取得了一些進(jìn)展,將時(shí)間從 36 分鐘優(yōu)化到了 90 分鐘,但排行榜上的成績實(shí)在太驚人了。排行榜的成績大約是 2.1 分鐘。

所以在那個(gè)案例中,它并沒有達(dá)到超人類的水平。

作為這一部分的總結(jié),我想將其與 s1 項(xiàng)目中的預(yù)算強(qiáng)制技術(shù)聯(lián)系起來。讓我們稍微轉(zhuǎn)換一下話題,談?wù)動糜跀?shù)學(xué)推理的測試時(shí)縮放。

在數(shù)學(xué)推理中,這里的關(guān)鍵點(diǎn)在于如何強(qiáng)迫模型思考比常規(guī) token 數(shù)量更長的時(shí)間。假設(shè)你想強(qiáng)制模型思考超過 10,000 個(gè) token,如果不采用預(yù)算強(qiáng)制技術(shù),模型會先生成一個(gè)開始思考的 token,接著生成最初的 500 個(gè) token,然后就會生成一個(gè)結(jié)束思考的 token。但是有了這項(xiàng)預(yù)算強(qiáng)制技術(shù),你可以去掉那個(gè)結(jié)束思考的 token,并強(qiáng)行追加一個(gè)逗號,然后模型就會繼續(xù)思考下去。


因此,無論是算法搜索還是預(yù)算強(qiáng)制,從原則上講,我們都在類似編寫一個(gè)非常簡單的循環(huán),強(qiáng)迫模型一直運(yùn)行下去。

我們觀察到了一個(gè)非常一致的規(guī)律:不管是算法搜索還是寫循環(huán)讓模型強(qiáng)行思考,單純地?cái)U(kuò)展測試時(shí)計(jì)算量都能帶來性能提升,但它們都會非常迅速地達(dá)到性能瓶頸。另一個(gè)觀察結(jié)果是,無論是在測試時(shí)搜索,還是在測試時(shí)推理中,都存在一種模式:串行搜索比并行搜索更加強(qiáng)大。


在左圖中,這是在 nanoGPT 任務(wù)上的表現(xiàn),最佳選擇和多數(shù)投票并沒有帶來有意義的提升,但搜索方法卻能帶來持續(xù)一致的改進(jìn)。這與推理任務(wù)中的情況十分相似:多數(shù)投票雖然有正的斜率,但提升不大,而串行搜索則大幅提高了這個(gè)斜率。

所以我認(rèn)為,這里反映出復(fù)用具有一定的價(jià)值,這就好比一條法則:串行計(jì)算比并行計(jì)算更有價(jià)值。


我認(rèn)為這正是其價(jià)值的體現(xiàn)。在結(jié)束實(shí)驗(yàn)結(jié)果部分的討論之前,我還沒有展示任何定性結(jié)果,即模型到底能生成什么類型的想法。

在這里,我想向你們展示一個(gè)我非常喜歡的想法,盡管它的準(zhǔn)確率并不是非常高。


這個(gè)想法產(chǎn)生于使用 GRPO 進(jìn)行數(shù)學(xué)推理的任務(wù)中。它提議通過維護(hù)一個(gè)包含數(shù)學(xué)事實(shí)、定義和中間結(jié)果的上下文緩沖區(qū),來創(chuàng)建一個(gè)「數(shù)學(xué)工作記憶模擬」。

隨著模型逐步解決問題,這個(gè)緩沖區(qū)也會隨之更新,并為后續(xù)的推理步驟提供額外的上下文。這就模擬了人類在進(jìn)行復(fù)雜計(jì)算時(shí),如何維持和利用工作記憶的過程。令我驚訝的第一件事是,模型能夠非常準(zhǔn)確地將這個(gè)想法編寫成可執(zhí)行的代碼。

它的具體做法是,引入了一個(gè)名為「上下文緩沖區(qū)」的類。這個(gè)類本質(zhì)上有兩個(gè)方法:添加上下文和基于查詢獲取上下文。在 RL 訓(xùn)練循環(huán)中,它會初始化該緩沖區(qū)。對于每一個(gè)提示詞,它都會嘗試從緩沖區(qū)中獲取上下文,并將檢索到的上下文附加到提示詞中。

這樣一來,在解決數(shù)學(xué)問題時(shí),這就好比在考試情境中直接給你提示。該方法的性能比基準(zhǔn)提升了 10%,雖然不是最好的結(jié)果,但我真的非常喜歡它,因?yàn)槲覀€(gè)人也有一個(gè)類似的緩沖區(qū)。我實(shí)際上有一本手寫的筆記本,里面記錄了各種數(shù)學(xué)技巧,比如裂項(xiàng)相消、 epsilon 球空間、琴生不等式以及何時(shí)使用它們。所以我非常高興能看到它提出了與我在做的事情非常類似的方法,而且像 GPT-4 這樣的模型竟然能夠?qū)⑵鋵?shí)現(xiàn)出來。

結(jié)語:超越人類的必然性

關(guān)于持續(xù)自我改進(jìn)式 AI 的三個(gè)方面的主要結(jié)果就講到這里。接下來,我想進(jìn)入結(jié)語部分,內(nèi)容可能稍微有點(diǎn)形而上。

在演講的開頭,我們明確了這個(gè)定義:持續(xù)自我改進(jìn)式 AI 所能實(shí)現(xiàn)的改進(jìn),要比人類創(chuàng)造者所能達(dá)到的改進(jìn)更好。我之所以這么說,是為了保持嚴(yán)謹(jǐn),這樣這個(gè)主張就能被我們現(xiàn)有的實(shí)驗(yàn)結(jié)果所證實(shí)。但就目前而言,我們看到 AI 勝過人類的方式,主要是通過用數(shù)量堆疊來克服質(zhì)量上的限制。


這種機(jī)制非常無趣。如果我們看一下這張圖,基準(zhǔn)模型是在有限的人類數(shù)據(jù)上訓(xùn)練的。你問 AI 能否擴(kuò)展得更好,但事實(shí)是,首個(gè)檢查點(diǎn)的初始損失表明,人類生成的數(shù)據(jù)質(zhì)量依然更好。只是因?yàn)?AI 的數(shù)據(jù)是無限的,它可以通過數(shù)量來彌補(bǔ)質(zhì)量上的不足。

另外,這是我們團(tuán)隊(duì)的 Weights & Biases 實(shí)驗(yàn)面板,你可以看到,對于研究人員來說,可能只跑了 13 個(gè)或 9 個(gè)實(shí)驗(yàn),但對于 AI 執(zhí)行的實(shí)驗(yàn)來說,我們看到的是 5,000 個(gè)甚至 30,000 個(gè)實(shí)驗(yàn)記錄。如果一個(gè)人類博士生下周來找導(dǎo)師,他不可能說「好的,我上周測試了 30,000 個(gè)想法」。雖然我無法預(yù)見未來,但根據(jù)我們目前的結(jié)果,人類研究員依然具有更強(qiáng)的構(gòu)思能力,只不過 AI 研究員工作得太努力、太不知疲倦了,所以它能霸榜 CS336 的排行榜。

是的。因此我認(rèn)為,AI 社區(qū)里的人們真正關(guān)心的問題是:AI 是否能夠自我改進(jìn),并變得比它的創(chuàng)造者更強(qiáng)大?


因?yàn)槲夷壳皼]有這方面的實(shí)驗(yàn)結(jié)果,所以我想從物理學(xué)中一個(gè)完全正交的視角,來解釋為什么我認(rèn)為這是可能的,甚至幾乎是必然的。

我想向你們展示愛因斯坦是如何以一種安靜而精確的方式,創(chuàng)造了一個(gè)超越他自身認(rèn)知的理論的。

首先,我們可以將一個(gè)理論視作一種生命,因?yàn)樗軌蜻M(jìn)化、能夠變異,它有自己的生命力。愛因斯坦創(chuàng)造的場方程就比他本人更聰明。

起初,愛因斯坦提出了廣義相對論的場方程,這個(gè)方程在未經(jīng)修改的狀態(tài)下,已經(jīng)精準(zhǔn)地預(yù)言了宇宙正在膨脹。然而在 1910 年代,當(dāng)時(shí)的科學(xué)界普遍篤信宇宙是靜止且永恒的。為了迎合這種時(shí)代觀念,愛因斯坦在 1917 年主動修改了自己的方程,硬生生地讓它計(jì)算出一個(gè)靜止的宇宙。直到 1929 年,哈勃通過天文觀測證實(shí)了宇宙確實(shí)在膨脹,而且其規(guī)律與愛因斯坦最初那版未修改的方程所預(yù)測的一模一樣。愛因斯坦后來坦言,那次修改是他一生中「最大的錯(cuò)誤」。

也就是說,當(dāng)一個(gè)理論被創(chuàng)造出來的那一刻,它就擁有了生命并開始演化。就像當(dāng)愛因斯坦寫下那個(gè)場方程的那一刻,該方程就已經(jīng)編碼了一個(gè)當(dāng)時(shí)沒有任何人類能夠理解的真理。

通過類比,我認(rèn)為人類確實(shí)可以創(chuàng)造出比自身更聰明的 AI,而不僅僅是像我剛才說的那種依靠數(shù)量優(yōu)勢。

因此,從某種意義上說,我對「AI 能否超越人類」這個(gè)問題的回答是:從一開始我們就不該問這個(gè)問題。

僅僅因?yàn)槟硺訓(xùn)|西是我們創(chuàng)造的,沒有任何理由去斷定它就不能超越我們。

我認(rèn)為那種認(rèn)為它不能超越人類的邏輯,源于一種子集邏輯。這就好比:我們?nèi)祟悡碛幸唤M規(guī)模為 10 的能力集,而我創(chuàng)造了一個(gè)擁有我能力子集的次級存在,所以它永遠(yuǎn)無法超越我。但是,目前創(chuàng)造 AI 的方式非常具有算法性,比如在海量數(shù)據(jù)上進(jìn)行訓(xùn)練。這種過程與愛因斯坦推導(dǎo)并創(chuàng)造出超越自己認(rèn)知的物理方程的過程極其相似。這種問題一開始就不該被提出。所以我堅(jiān)信,答案絕對是肯定的


? THE END

文章來源:機(jī)器之心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山東省青島市委常委、副市長王波接受審查調(diào)查

山東省青島市委常委、副市長王波接受審查調(diào)查

上觀新聞
2026-04-20 11:38:04
買對了!4200萬搶下“新德布勞內(nèi)”,助瓜迪奧拉擊敗阿森納

買對了!4200萬搶下“新德布勞內(nèi)”,助瓜迪奧拉擊敗阿森納

里芃芃體育
2026-04-20 11:15:21
60歲大爺:每天早起以晨跑為由和情人約會,被老婆發(fā)現(xiàn)后遭報(bào)應(yīng)

60歲大爺:每天早起以晨跑為由和情人約會,被老婆發(fā)現(xiàn)后遭報(bào)應(yīng)

熱心柚子姐姐
2026-04-19 11:56:40
炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

陳漎侃故事
2026-04-14 17:28:18
超百萬兵力集結(jié),美伊總決戰(zhàn)在即?中國態(tài)度已明確,和美奉陪到底

超百萬兵力集結(jié),美伊總決戰(zhàn)在即?中國態(tài)度已明確,和美奉陪到底

無情有思ss
2026-04-17 01:20:47
為啥全世界都容不下猶太人?黑格爾一針見血:猶太教與世界對立

為啥全世界都容不下猶太人?黑格爾一針見血:猶太教與世界對立

通文知史
2026-04-18 17:15:03
拿伊朗沒轍,美國轉(zhuǎn)向馬六甲,強(qiáng)行要印尼領(lǐng)空特權(quán),中國底牌亮出

拿伊朗沒轍,美國轉(zhuǎn)向馬六甲,強(qiáng)行要印尼領(lǐng)空特權(quán),中國底牌亮出

流史歲月
2026-04-19 19:30:03
倒計(jì)時(shí)1天,賴清德將離臺,蔡英文出山!解放軍第一時(shí)間按住日本

倒計(jì)時(shí)1天,賴清德將離臺,蔡英文出山!解放軍第一時(shí)間按住日本

馬浵在解說
2026-04-20 11:11:53
明天谷雨,牢記:1不曬、2要躲、3不坐、4要吃,寓意五谷豐登!

明天谷雨,牢記:1不曬、2要躲、3不坐、4要吃,寓意五谷豐登!

阿龍美食記
2026-04-19 11:50:47
笑得肚疼!你們都開始顯老到什么程度了?網(wǎng)友:我開始吃桃酥了!

笑得肚疼!你們都開始顯老到什么程度了?網(wǎng)友:我開始吃桃酥了!

夜深愛雜談
2026-04-18 19:25:24
徹底撕破臉?《乘風(fēng)2026》蕭薔當(dāng)場罷錄,一句身體不適,藏著對節(jié)目組的不滿

徹底撕破臉?《乘風(fēng)2026》蕭薔當(dāng)場罷錄,一句身體不適,藏著對節(jié)目組的不滿

老吳教育課堂
2026-04-19 14:19:36
章澤天洛杉磯外媒生圖美到發(fā)光!劉強(qiáng)東的臉盲,果然是頂級凡爾賽

章澤天洛杉磯外媒生圖美到發(fā)光!劉強(qiáng)東的臉盲,果然是頂級凡爾賽

觀魚聽雨
2026-04-17 22:15:44
三太陳婉珍昔日絕版照片,看得叫人心動,這才叫“傾國傾城”

三太陳婉珍昔日絕版照片,看得叫人心動,這才叫“傾國傾城”

汪巗的創(chuàng)業(yè)之路
2026-04-19 17:35:07
魏建軍痛批魏牌團(tuán)隊(duì)不會營銷、沒有BBA的品位調(diào)性,魏牌CEO趙永坡致歉

魏建軍痛批魏牌團(tuán)隊(duì)不會營銷、沒有BBA的品位調(diào)性,魏牌CEO趙永坡致歉

新浪財(cái)經(jīng)
2026-04-19 11:41:20
“見過最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

“見過最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

妍妍教育日記
2026-04-15 09:30:09
間諜就在我們身邊!4月16日,央視報(bào)道了一個(gè)讓人后背發(fā)涼的新聞

間諜就在我們身邊!4月16日,央視報(bào)道了一個(gè)讓人后背發(fā)涼的新聞

聞香閣
2026-04-20 11:20:59
許昕打球是不是厲害不敢說,他挑老婆這眼光,絕對屬于天花板級別

許昕打球是不是厲害不敢說,他挑老婆這眼光,絕對屬于天花板級別

眼界縱橫
2026-04-19 19:23:11
爆料!全紅嬋網(wǎng)暴案真正的目的,原來是這個(gè)!

爆料!全紅嬋網(wǎng)暴案真正的目的,原來是這個(gè)!

藝?yán)?/span>
2026-04-18 09:19:15
92年我晉升副營長,選擇嫁給鄉(xiāng)下農(nóng)民,大婚日發(fā)現(xiàn)丈夫的真正身份

92年我晉升副營長,選擇嫁給鄉(xiāng)下農(nóng)民,大婚日發(fā)現(xiàn)丈夫的真正身份

紅豆講堂
2025-03-10 09:41:08
華為Pura 90 Pro Max將搭載麒麟9030 Pro:九核心架構(gòu)設(shè)計(jì) 華為史上最強(qiáng)芯片

華為Pura 90 Pro Max將搭載麒麟9030 Pro:九核心架構(gòu)設(shè)計(jì) 華為史上最強(qiáng)芯片

TechWeb
2026-04-20 12:11:03
2026-04-20 13:36:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5482文章數(shù) 64624關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說不談 美國立即開打

頭條要聞

媒體:伊朗剛說不談 美國立即開打

體育要聞

七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

教育
家居
藝術(shù)
時(shí)尚
親子

教育要聞

我發(fā)現(xiàn)一個(gè)殘酷真相:孩子長大后,最怨恨的不是管太嚴(yán)的父母……

家居要聞

自然慢調(diào) 慢享時(shí)光

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

今年最流行的衣服竟然是它?高級又氣質(zhì)!

親子要聞

女孩兒學(xué)壞,多半栽在初中

無障礙瀏覽 進(jìn)入關(guān)懷版