![]()
這項由Hexo Labs(美國帕洛阿爾托、比利時布魯塞爾、加拿大多倫多三地團隊聯(lián)合)及英國牛津大學(xué)共同完成的研究,以預(yù)印本形式發(fā)布于arXiv平臺,論文編號為arXiv:2605.27276,最新版本于2026年5月28日更新。
一、AI進化的"瓶頸"——為什么人類成了最大的障礙?
每當我們談到人工智能越來越強大,背后其實有一個很少被提及的前提:這些AI系統(tǒng)的每一次進步,幾乎都離不開人類工程師和研究人員的親自介入。從最初訓(xùn)練模型,到調(diào)整參數(shù),再到搭建各種外圍工具,人類一直是整個流程里無法省略的環(huán)節(jié)。可以打個比方,現(xiàn)在的AI就像一個天賦極高的學(xué)生,但這個學(xué)生每次想要提升自己,都需要老師手把手地幫他修改學(xué)習(xí)計劃、更換教材、調(diào)整作息——學(xué)生自己無法獨立完成"自我升級"。
這種對人類干預(yù)的依賴,正是當前AI領(lǐng)域最核心的"瓶頸"之一。Hexo Labs的研究團隊意識到,如果能讓AI系統(tǒng)在給定一個任務(wù)描述和一個評判標準之后,自行決定如何改善自己——既可以調(diào)整外部的"操作手冊",又可以修改內(nèi)部的"思維方式"——那將是一次真正意義上的突破。SIA(Self Improving AI with Harness & Weight Updates,即"帶有工具鏈和權(quán)重更新的自我改進AI")正是這一設(shè)想的具體實現(xiàn)。
二、兩條互不相交的研究路線——各自的局限在哪里?
在SIA出現(xiàn)之前,研究界其實已經(jīng)有兩條探索AI自我改進的路線,但這兩條路線長期以來各自為戰(zhàn),從未真正融合。
第一條路線可以理解為"改裝外殼"。研究者讓一個"元AI"(即一個專門負責改進其他AI的AI)不斷修改任務(wù)AI的操作手冊——包括它使用的工具、提示語、出錯重試邏輯、輸出解析方式等等。這就好像給一個廚師不斷更換廚具、改寫食譜、優(yōu)化備菜流程,但廚師本人的廚藝和知識儲備始終不變。這類工作的代表包括Darwin Godel Machine、Meta-Harness、Hyperagents等系統(tǒng)。這條路線的共同發(fā)現(xiàn)是:反復(fù)修改操作手冊,改進的往往是"流程效率",而不是AI真正的領(lǐng)域理解能力——有些知識,無論怎么改提示語,AI就是無法從內(nèi)部"學(xué)會"。
第二條路線則可以理解為"強化內(nèi)功"。研究者設(shè)計好一套固定的訓(xùn)練流程,然后讓AI在面對新任務(wù)時,通過自身表現(xiàn)的反饋來調(diào)整內(nèi)部參數(shù)(也就是"權(quán)重")。這就像讓廚師通過反復(fù)烹飪、品嘗、總結(jié),真正把新菜式的技巧內(nèi)化為自己的本能。這類工作的代表包括TTRL、Discover-TTT等。但這條路線的問題在于,訓(xùn)練流程是人工設(shè)計的、固定的,AI只能在既定的框架內(nèi)學(xué)習(xí),無法根據(jù)任務(wù)特點靈活調(diào)整學(xué)習(xí)策略。
這兩條路線的共同缺陷,就是"只用一只手"——要么只改外殼,要么只練內(nèi)功,從未同時做到兩者。SIA的核心貢獻,正是首次將這兩個動作融入一個統(tǒng)一的自動化循環(huán)之中。
三、SIA的核心設(shè)計——一個三角協(xié)作的自我進化循環(huán)
SIA的整體架構(gòu)可以用一個三角協(xié)作來理解。這個三角形的三個角,分別是"初始化專家"(Meta-Agent,元智能體)、"執(zhí)行者"(Task-Specific Agent,任務(wù)智能體)和"反饋教練"(Feedback-Agent,反饋智能體)。
元智能體的職責是"開局":給定一個任務(wù)描述和一些參考實現(xiàn),它負責為任務(wù)智能體生成一套初始的操作手冊。這套操作手冊包含系統(tǒng)提示語、工具調(diào)用邏輯、答案提取代碼等,是任務(wù)智能體開始工作的基礎(chǔ)配置。
任務(wù)智能體是真正"干活"的角色:它拿著操作手冊,在一個受控的沙盒環(huán)境中對任務(wù)數(shù)據(jù)集進行處理,產(chǎn)生輸出結(jié)果,同時記錄下完整的執(zhí)行過程日志——每一次模型調(diào)用、每一次工具使用、每一次輸出提取,全都被記錄下來,這份完整的日志被稱為"軌跡"。
反饋智能體則是這個循環(huán)的核心驅(qū)動力。它不僅僅看匯總的成績數(shù)字,而是拿到任務(wù)智能體的完整軌跡,像一位有經(jīng)驗的教練一樣逐條分析哪里出了問題、為什么出問題。分析完之后,反饋智能體要做一個關(guān)鍵決策:下一步,是修改操作手冊(改外殼),還是觸發(fā)一輪強化學(xué)習(xí)訓(xùn)練(練內(nèi)功)?這個決策本身也是動態(tài)的,依賴于觀察到的任務(wù)類型和當前的改進瓶頸。
這個三角形不斷循環(huán)運轉(zhuǎn),直到用完預(yù)算的步驟數(shù)為止。每一輪循環(huán),要么操作手冊變得更好,要么模型的內(nèi)部參數(shù)變得更好,要么兩者兼而有之。整個過程無需人類干預(yù),只需要在最開始提供任務(wù)描述和一個評判標準(即"驗證器")。
四、兩個"旋鈕"的具體運作——操作手冊如何更新,權(quán)重如何訓(xùn)練?
操作手冊的更新過程,遵循一個固定的三步節(jié)拍:先讓當前版本的任務(wù)智能體跑一遍數(shù)據(jù)集,收集完整軌跡;然后反饋智能體分析這些軌跡,找出具體的失敗模式;最后反饋智能體生成一份改進報告和一個全新的操作手冊版本。在這個過程中,模型的權(quán)重保持不變,變化的只是"外部基礎(chǔ)設(shè)施"——工具、提示語、解析邏輯、重試策略等。
為了防止操作手冊因為過度適配某幾個特殊任務(wù)樣本而失去通用性,元智能體在生成初始操作手冊時會接觸到多樣化的任務(wù)描述,這被稱為"樣本任務(wù)正則化"——類似于廚師在制定標準食譜時參考了來自不同地區(qū)、不同口味偏好的顧客反饋,而不是只針對一桌客人。
權(quán)重更新的過程則更像是一種定制化的強化訓(xùn)練。反饋智能體并不會機械地套用同一種訓(xùn)練算法,而是根據(jù)當前任務(wù)的特點和觀察到的獎勵信號分布,動態(tài)選擇最合適的訓(xùn)練策略。在實驗報告的三個任務(wù)中,分別出現(xiàn)了三種不同的訓(xùn)練方式,這體現(xiàn)了SIA在訓(xùn)練策略選擇上的靈活性。
具體來說,當獎勵信號比較密集、訓(xùn)練穩(wěn)定性是主要顧慮時,反饋智能體會選擇一種叫做"PPO with GAE"的方法,這是一種帶有專門"價值評估輔助網(wǎng)絡(luò)"的策略優(yōu)化算法,能夠讓模型在不偏離已有能力太遠的前提下穩(wěn)步改進。當任務(wù)的答案驗證發(fā)生在整個解答完成之后、且可以快速并行生成大量嘗試時,反饋智能體會選擇"GRPO",這種方法不需要額外的價值評估網(wǎng)絡(luò),直接對一批嘗試的結(jié)果進行相對排名,計算成本更低,并行能力更強。當獎勵信號極度稀疏——也就是大多數(shù)嘗試都失敗、只有極少數(shù)嘗試能產(chǎn)生有用信號時,反饋智能體會選擇"熵優(yōu)勢加權(quán)"方法,通過對少數(shù)成功案例給予更大的學(xué)習(xí)權(quán)重,讓模型從稀少的成功經(jīng)驗中最大限度地汲取養(yǎng)分,防止有用的信號被大量失敗的噪音淹沒。
此外,研究團隊還提到,在更廣泛的實驗中(不限于論文正式報告的三個任務(wù)),反饋智能體還觀察到兩種額外的策略:當獎勵密集但主要風(fēng)險是模型能力退化時,會選擇附加了"與原始模型差異懲罰項"的最簡單強化學(xué)習(xí)形式;當獎勵如此稀少以至于策略梯度信號幾乎為零時,會先進行"精英模仿學(xué)習(xí)"——挑出少數(shù)表現(xiàn)最好的嘗試,讓模型直接學(xué)習(xí)這些成功案例,將基準成功率提升到一個合理水平,再切換到正式的強化學(xué)習(xí)階段。
五、三個真實戰(zhàn)場——SIA在法律、計算機系統(tǒng)和生物學(xué)上的實際表現(xiàn)
為了驗證SIA不是只對特定類型任務(wù)有效,研究團隊選擇了三個截然不同的領(lǐng)域來做測試,并與此前最好的已知結(jié)果進行了直接比較。
**法律領(lǐng)域:中文刑事罪名分類**
第一個測試來自法律領(lǐng)域,具體任務(wù)是LawBench——一個191類中文刑事罪名分類基準。給定一段真實案件的事實描述,模型需要從191種罪名中找出正確的那一個。這191種罪名涵蓋了極為細膩的法律區(qū)分:比如普通盜竊、公共財產(chǎn)盜竊和挪用公款都屬于"盜竊"類的不同分支,輕傷、重傷和故意傷害也各有不同的法律定性。對于這個任務(wù),隨機猜測的正確率不到1%,即便是受過專業(yè)訓(xùn)練的法律從業(yè)者也會感到棘手。整個數(shù)據(jù)集包含5332個訓(xùn)練樣本和913個測試樣本,評測在測試集上進行。
SIA的進化過程是這樣展開的。操作手冊的更新階段,前幾代版本建立了基本的分類工作流,后續(xù)幾代逐漸將核心策略收斂到一種基于文本特征匹配和線性分類器的流程,通過不斷調(diào)整字符級別的特征提取范圍和正則化參數(shù),準確率從最初的13.5%穩(wěn)步爬升到了50.0%,超越了此前最好成績(45.0%)。此時,反饋智能體檢測到改進已經(jīng)停滯,隨即切換到權(quán)重訓(xùn)練階段,采用PPO with GAE方法對模型的分類能力施加精確的梯度壓力,最終將準確率推進到了70.1%。這意味著,僅靠更新操作手冊,已經(jīng)超過了之前所有方法;再加上權(quán)重訓(xùn)練,又額外提升了20.1個百分點,達到了此前最優(yōu)結(jié)果的156%。
**計算機系統(tǒng)領(lǐng)域:GPU核心運算優(yōu)化**
第二個測試來自底層計算機系統(tǒng)領(lǐng)域,任務(wù)是為AlphaFold2(一款預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的著名AI系統(tǒng))中的一個核心運算模塊編寫高效的CUDA程序,并在H100 GPU上運行。這個運算模塊叫做"三角乘法更新",它的特點是內(nèi)存訪問模式不連續(xù),導(dǎo)致GPU的并行運算能力無法被充分利用,想要寫出真正高效的實現(xiàn),需要掌握很多H100特有的底層技巧——比如共享內(nèi)存分塊、寄存器壓力管理等。評分標準是1500除以運行時間,數(shù)字越大代表程序越快。此前最好成績對應(yīng)的運行時間約為1161微秒。
SIA在操作手冊更新階段,逐步構(gòu)建并改進了能夠正常運行的CUDA程序,最終將運行時間壓縮到了12483微秒,取得了約1.14倍的加速比。注意這里的運行時間比起點的14254微秒確實有所改善,但仍然遠未超過此前最優(yōu)。切換到權(quán)重訓(xùn)練階段后,反饋智能體采用了熵優(yōu)勢加權(quán)方法來處理這種獎勵極度稀疏的場景(大多數(shù)生成的CUDA程序要么編譯失敗,要么性能極差),讓模型真正掌握了H100特有的優(yōu)化技巧,最終將運行時間一舉壓縮到了1017微秒,速度提升到基準的14.02倍,比此前最優(yōu)結(jié)果快了12.4%。這個改進幅度讓人印象深刻,因為從12483微秒到1017微秒的躍升,幾乎完全來自于權(quán)重訓(xùn)練階段——操作手冊再怎么修改,都無法讓模型"憑空學(xué)會"那些需要深度內(nèi)化的GPU編程知識。
**生物學(xué)領(lǐng)域:單細胞RNA數(shù)據(jù)去噪**
第三個測試來自生物學(xué),任務(wù)是優(yōu)化一種叫做MAGIC的單細胞RNA數(shù)據(jù)處理算法的參數(shù)。單細胞RNA測序是一種測量每個細胞基因活性的技術(shù),但由于技術(shù)本身的局限性,測量結(jié)果中會有大量本來應(yīng)該是非零的數(shù)值被錯誤地記錄為零(這種現(xiàn)象叫做"技術(shù)脫落")。MAGIC算法通過在細胞之間共享和擴散信息來彌補這些缺失值,但它的效果非常依賴于幾個相互耦合的參數(shù):近鄰數(shù)量k太小會過度敏感于個別細胞的噪聲,太大則會把真實的生物差異給"平均掉";擴散步數(shù)t和核帶寬α也存在類似的權(quán)衡。評估指標mse_norm越高越好,此前最好成績?yōu)?.240。
操作手冊更新階段,任務(wù)智能體對這些參數(shù)的組合空間進行了系統(tǒng)性的探索,最終將mse_norm穩(wěn)定在了0.241,剛好超過了此前最優(yōu)。繼續(xù)修改操作手冊已經(jīng)無法帶來進一步改善,反饋智能體于是切換到GRPO權(quán)重訓(xùn)練。在第一個權(quán)重訓(xùn)練檢查點,模型產(chǎn)生了一個在整個操作手冊迭代過程中從未出現(xiàn)過的結(jié)構(gòu)性改進:在MAGIC處理結(jié)果后面增加了兩行代碼,將輸出數(shù)值裁剪為非負整數(shù)。這聽起來是個極其簡單的后處理步驟,但它背后有著明確的生物學(xué)邏輯——真實的基因表達計數(shù)不可能是負數(shù),也不可能是小數(shù),將結(jié)果取整并裁剪到非負范圍,實際上是把一個生物學(xué)常識直接編碼進了模型的輸出策略。這一改動將mse_norm提升到了0.289,比操作手冊最好結(jié)果又高出了20%。
六、兩個旋鈕分別改變了什么?——深入理解"外殼"和"內(nèi)功"的本質(zhì)區(qū)別
操作手冊的更新,本質(zhì)上是對"外部基礎(chǔ)設(shè)施"的改造。在LawBench任務(wù)上,它搭建了一個結(jié)構(gòu)化的答案提取層和候選罪名再排序工具;在CUDA優(yōu)化任務(wù)上,它建立了一個能夠解析編譯錯誤日志并將診斷信息結(jié)構(gòu)化地反饋給模型的工具,以及一個能夠精確測量中位運行時間的計時框架;在去噪任務(wù)上,它構(gòu)建了一個批量配置驅(qū)動器和一個能夠?qū)?參數(shù)組合—得分"配對結(jié)果整齊呈現(xiàn)給模型的解析工具。這些改變都是"外圍的"——模型本身沒有任何變化,變化的是模型與任務(wù)環(huán)境之間的接口和中介層。
權(quán)重訓(xùn)練的更新,則是對"內(nèi)部知識"的真正改寫。在LawBench上,梯度壓力讓模型學(xué)會了區(qū)分191個罪名中那些極度相似的子類別,這種細微辨別力無法通過任何提示語來獲得。在CUDA優(yōu)化上,模型真正掌握了H100 GPU的特定編程技巧,這些技巧無法被寫進操作手冊——你可以在操作手冊里告訴模型"要注意共享內(nèi)存分塊",但模型真正學(xué)會如何做,只能通過自身生成代碼、觀察結(jié)果、接受梯度反饋來實現(xiàn)。在去噪任務(wù)上,那個"裁剪到非負整數(shù)"的后處理步驟,代表了模型將一個生物學(xué)約束內(nèi)化為自己的輸出策略——這個約束在操作手冊的無數(shù)次迭代中從未被提出,卻在權(quán)重訓(xùn)練后自然涌現(xiàn)。
七、這個系統(tǒng)還有哪些值得正視的問題?
研究團隊在論文中坦誠地指出了SIA當前面臨的一個核心挑戰(zhàn),這個挑戰(zhàn)被稱為"耦合協(xié)進化的古德哈特問題"。簡單來說,古德哈特定律是一條著名的社會科學(xué)經(jīng)驗法則:當一個衡量指標成為優(yōu)化目標時,它就不再是一個好的衡量指標了——因為系統(tǒng)會開始"針對指標"進行優(yōu)化,而不是針對指標背后真正想要衡量的東西。
SIA面對的是這個問題的一個更復(fù)雜的版本:操作手冊的更新和權(quán)重的訓(xùn)練,都在針對同一個固定的驗證器進行優(yōu)化。操作手冊會找到那些對當前模型來說最容易利用的框架,權(quán)重則在由當前操作手冊塑造的數(shù)據(jù)分布上進行訓(xùn)練,而這個操作手冊接下來又會改變。兩個優(yōu)化過程相互依賴、相互影響,它們最終收斂到的"穩(wěn)定點",從理論上說是兩個優(yōu)化者之間的納什均衡,而不一定是真正意義上的最優(yōu)解——這個穩(wěn)定點在訓(xùn)練驗證器上看起來很好,但在驗證器沒有覆蓋到的分布或任務(wù)變體上可能顯得脆弱。這是一個開放的研究問題,SIA目前還沒有提供解決方案。
八、下一步想做什么?——研究團隊的展望
研究團隊提出了兩個主要的后續(xù)研究方向。
第一個方向是讓"反饋智能體的決策本身"也變成可以學(xué)習(xí)的對象。目前,反饋智能體選擇"是修改操作手冊還是訓(xùn)練權(quán)重",依賴的是一個預(yù)先固化的大語言模型判斷,本質(zhì)上還是人工設(shè)計的啟發(fā)式規(guī)則。更理想的做法,是把SIA在一系列任務(wù)上運行的經(jīng)驗積累起來,把每一次"(觀察到的狀況,采取的行動,得到的結(jié)果)"三元組視為一個外層強化學(xué)習(xí)問題的訓(xùn)練數(shù)據(jù),讓決策策略本身也通過強化學(xué)習(xí)來改進。這樣就形成了一個真正遞歸的自我改進結(jié)構(gòu)——不僅系統(tǒng)在進步,驅(qū)動系統(tǒng)進步的機制本身也在進步。
第二個方向是讓兩種更新模式的切換更加細粒度。當前的SIA是以"輪次"為單位在操作手冊更新和權(quán)重訓(xùn)練之間粗粒度地切換。一個更精細的調(diào)度方式,應(yīng)該允許反饋智能體在操作手冊搜索過程中途就觸發(fā)一次權(quán)重更新,或者在權(quán)重訓(xùn)練剛完成后立刻重啟操作手冊探索,減少從"發(fā)現(xiàn)瓶頸"到"采取行動"之間的延遲,可能會解鎖一些粗粒度交替模式下錯過的改進路徑。
說到底,SIA這項工作的意義,與其說是"AI變得更強了",不如說是"AI學(xué)會了以更系統(tǒng)化的方式讓自己變得更強"。這兩者之間的區(qū)別,就像一個通過反復(fù)練習(xí)題目變得更厲害的學(xué)生,和一個能夠主動分析自己哪里不足、決定是要換教材還是去找真實項目練手的學(xué)生之間的區(qū)別。后者的潛力,顯然要開放得多。
目前,SIA在三個截然不同的領(lǐng)域都取得了超越此前最好結(jié)果的表現(xiàn),這至少證明了"同時調(diào)整外殼和內(nèi)功"這條路是走得通的。至于它能走多遠,以及如何在保證系統(tǒng)不"鉆空子"的前提下讓它走得更遠,可能會是接下來幾年AI自我改進研究領(lǐng)域最值得持續(xù)關(guān)注的問題之一。有興趣深入了解技術(shù)細節(jié)的讀者,可以通過arXiv編號arXiv:2605.27276查閱完整論文。
Q&A
Q1:SIA系統(tǒng)和普通AI大模型有什么本質(zhì)區(qū)別?
A:普通大模型的能力在訓(xùn)練完成后基本固定,使用時只能依靠外部提示來引導(dǎo)它。SIA是一個自動化循環(huán)系統(tǒng),它能在給定任務(wù)后,既自動修改自身的操作手冊(外部工具和流程),又能通過強化學(xué)習(xí)更新模型內(nèi)部參數(shù),兩者協(xié)同進行,整個過程不需要人類工程師介入。
Q2:SIA在中文法律罪名分類任務(wù)上的70.1%準確率是怎么實現(xiàn)的?
A:SIA首先通過反復(fù)修改操作手冊,將分類流程優(yōu)化到基于文本特征匹配和線性分類器的策略,準確率從13.5%提升到50%。隨后檢測到瓶頸后,切換到PPO強化學(xué)習(xí)訓(xùn)練,對模型區(qū)分191個罪名細微差別的能力進行針對性強化,最終達到70.1%,比此前最優(yōu)結(jié)果高出25.1個百分點。
Q3:SIA訓(xùn)練權(quán)重時用的強化學(xué)習(xí)算法為什么每個任務(wù)都不一樣?
A:因為不同任務(wù)的獎勵信號特征差異很大。法律分類任務(wù)獎勵信號密集且穩(wěn)定,適合用PPO保證訓(xùn)練穩(wěn)定性;CUDA優(yōu)化任務(wù)大多數(shù)生成代碼都無效,獎勵極度稀疏,適合用熵優(yōu)勢加權(quán)放大稀少成功樣本的學(xué)習(xí)信號;去噪任務(wù)可以快速并行評估大量方案,適合用GRPO降低計算成本。SIA的反饋智能體會根據(jù)觀察到的軌跡動態(tài)選擇最合適的算法。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.