近日,Google DeepMind發(fā)布最新研究成果,提出一種名為AlphaEvolve的方法,用大語言模型驅(qū)動(dòng)的進(jìn)化式搜索框架,自動(dòng)發(fā)現(xiàn)新的多智能體強(qiáng)化學(xué)習(xí)算法。這項(xiàng)工作已經(jīng)以論文形式發(fā)布,題為《Discovering Multiagent Learning Algorithms with Large Language Models》。
![]()
多智能體強(qiáng)化學(xué)習(xí)主要研究多個(gè)智能體在同一環(huán)境中博弈與協(xié)作的問題,廣泛應(yīng)用于博弈論、自動(dòng)對弈系統(tǒng)以及復(fù)雜策略優(yōu)化場景。長期以來,這一領(lǐng)域的重要算法框架,如反事實(shí)遺憾最小化(CFR)和策略響應(yīng)預(yù)言機(jī)(PSRO),雖然理論基礎(chǔ)扎實(shí),但具體變體的設(shè)計(jì)往往依賴研究者不斷試驗(yàn)、調(diào)參和經(jīng)驗(yàn)判斷。
Google DeepMind此次提出的AlphaEvolve,則嘗試改變這一傳統(tǒng)路徑。研究團(tuán)隊(duì)將大語言模型用于生成和修改算法代碼,通過自動(dòng)化演化過程,在大規(guī)模搜索空間中探索可能的算法結(jié)構(gòu)。系統(tǒng)不再僅僅優(yōu)化參數(shù),而是直接對算法邏輯本身進(jìn)行改寫和組合,從而產(chǎn)生新的訓(xùn)練規(guī)則和更新機(jī)制。
![]()
在論文中,研究團(tuán)隊(duì)報(bào)告了兩個(gè)主要成果。
其一是提出了一種名為VAD-CFR的新型遺憾最小化方法。該方法在傳統(tǒng)CFR框架基礎(chǔ)上,引入了與波動(dòng)性相關(guān)的折扣機(jī)制、強(qiáng)調(diào)一致性的樂觀更新方式,以及特定的策略累積調(diào)度方案。在多個(gè)測試環(huán)境中,VAD-CFR的表現(xiàn)優(yōu)于當(dāng)前常用的Discounted Predictive CFR+等基線算法。
其二是在PSRO框架下,演化出一種名為SHOR-PSRO的元求解器。該方法將樂觀遺憾匹配與溫度控制的平滑最優(yōu)響應(yīng)策略結(jié)合起來,并通過動(dòng)態(tài)調(diào)整混合系數(shù),實(shí)現(xiàn)從策略多樣性探索到均衡收斂的平穩(wěn)過渡。實(shí)驗(yàn)結(jié)果顯示,SHOR-PSRO在收斂速度和穩(wěn)定性方面優(yōu)于傳統(tǒng)靜態(tài)元求解器。
研究團(tuán)隊(duì)在論文中指出,這些新算法中包含一些“非直觀”的機(jī)制組合,也就是說,它們并非研究者憑借經(jīng)驗(yàn)自然會(huì)想到的結(jié)構(gòu),但在實(shí)證測試中表現(xiàn)良好。這意味著,AI系統(tǒng)不僅可以輔助調(diào)參,還可以參與到算法結(jié)構(gòu)設(shè)計(jì)本身。
![]()
這項(xiàng)工作的意義在于,算法設(shè)計(jì)這一長期以來被視為高度依賴人類創(chuàng)造力和理論直覺的領(lǐng)域,開始出現(xiàn)由AI系統(tǒng)自動(dòng)生成有效方案的案例。過去,多智能體強(qiáng)化學(xué)習(xí)算法往往需要多年迭代改進(jìn),而現(xiàn)在,大語言模型驅(qū)動(dòng)的演化系統(tǒng)能夠在較短時(shí)間內(nèi)探索大量可能路徑,并篩選出具有競爭力的方案。
從更廣的視角看,這種“用AI設(shè)計(jì)訓(xùn)練AI的算法”的模式,可能會(huì)在強(qiáng)化學(xué)習(xí)、博弈論優(yōu)化乃至更一般的機(jī)器學(xué)習(xí)框架中產(chǎn)生影響。如果類似方法在更多任務(wù)上被驗(yàn)證有效,未來算法創(chuàng)新的方式可能會(huì)逐步發(fā)生變化。
目前,這項(xiàng)研究仍處于學(xué)術(shù)驗(yàn)證階段,相關(guān)算法的實(shí)際應(yīng)用效果還有待更多場景測試。但可以確定的是,AI正在從“執(zhí)行既定算法”走向“參與算法創(chuàng)造”,這為人工智能研究帶來了新的方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.