![]()
導(dǎo)語(yǔ)
當(dāng)互聯(lián)網(wǎng)高質(zhì)量訓(xùn)練數(shù)據(jù)逐漸接近天花板,大模型下一步該如何持續(xù)成長(zhǎng)?一個(gè)出人意料的答案或許來(lái)自游戲。對(duì)于人類(lèi)兒童而言,學(xué)習(xí)并不完全依賴(lài)教材,許多能力恰恰是在與伙伴互動(dòng)、競(jìng)爭(zhēng)和協(xié)作的游戲過(guò)程中形成的。近年來(lái),一系列研究開(kāi)始探索類(lèi)似路徑:讓大模型通過(guò)博弈學(xué)習(xí)推理能力,通過(guò)游戲行為揭示決策機(jī)制,甚至進(jìn)一步參與設(shè)計(jì)新的游戲規(guī)則。從在規(guī)則中學(xué)習(xí),到在規(guī)則中決策,再到創(chuàng)造規(guī)則本身,游戲正逐漸從一種測(cè)試工具演變?yōu)槔斫夂退茉熘悄艿闹匾d體。或許,大模型未來(lái)所需要的,不只是更多文本,而是更多值得去“玩”的游戲。
關(guān)鍵詞:游戲、大模型、訓(xùn)練、可解釋性、規(guī)則
郭瑞東丨作者
趙思怡丨審校
當(dāng)大模型開(kāi)始“玩游戲”,推理能力變強(qiáng)了?
傳統(tǒng)的學(xué)習(xí),有結(jié)構(gòu)化的教材,明確的目標(biāo)和任務(wù)。但更多的時(shí)候,我們進(jìn)行的是非正式學(xué)習(xí),即在日常互動(dòng)中試錯(cuò)、反饋、模仿。最典型的例子是孩子在游戲中學(xué)會(huì)合作與一般環(huán)境下的推理。事實(shí)上,近年來(lái)已經(jīng)有不少研究開(kāi)始探索:如果讓大模型像兒童一樣,通過(guò)與環(huán)境和其他智能體持續(xù)互動(dòng),是否能夠獲得比單純閱讀文本更強(qiáng)的推理能力?
例如,2026年發(fā)表于ICLR的一項(xiàng)研究發(fā)現(xiàn),多智能體在多輪零和博弈中進(jìn)行強(qiáng)化學(xué)習(xí),能夠顯著提升模型的推理表現(xiàn)[2]。在這一方向上,于2026年1月發(fā)表于arXiv上的GIFT研究進(jìn)一步提出了一個(gè)更激進(jìn)的問(wèn)題:如果把游戲視為一種“非正式學(xué)習(xí)”(Informal Learning)環(huán)境,讓模型同時(shí)在多種類(lèi)型的游戲中成長(zhǎng),會(huì)發(fā)生什么?
![]()
論文題目:GIFT: Games as Informal Training for Generalizable LLMs 論文鏈接:https://arxiv.org/abs/2601.05633 發(fā)表時(shí)間:2026年1月9日 論文來(lái)源:arXiv
在于其精心選擇了三類(lèi)代表性游戲,然后讓不是模型交替以某一類(lèi)游戲的結(jié)果為目標(biāo)開(kāi)展訓(xùn)練,而是必須同時(shí)在數(shù)學(xué)推理、策略博弈、社交理解等多個(gè)子任務(wù)上表現(xiàn)良好,才能獲得最大獎(jiǎng)勵(lì)。通過(guò)這樣的“交替訓(xùn)練”,訓(xùn)練出的模型,能在和游戲無(wú)關(guān)的任務(wù)上表現(xiàn)得更好。
![]()
圖1:正式與非正式學(xué)習(xí)的對(duì)比
三個(gè)游戲分別是像囚徒困境這樣的單次博弈,井字棋這樣的多次博弈,以及“誰(shuí)是臥底”這樣需要社交互動(dòng)的游戲,分別對(duì)應(yīng)了抽象推理、序列決策、社交能力等會(huì)讓大模型變得價(jià)值的核心能力。
結(jié)果發(fā)現(xiàn),通過(guò)在訓(xùn)練過(guò)程中,讓模型先解一道數(shù)學(xué)題,再玩一輪矩陣博弈(如囚徒困境),最后參與一次“誰(shuí)是臥底”討論。只有全程表現(xiàn)均衡,才能獲得高回報(bào)。可以顯著提升模型在多項(xiàng)任務(wù)上的性能。
![]()
圖2:多游戲與正式學(xué)習(xí)的混合訓(xùn)練方案
上述方法被稱(chēng)為嵌套訓(xùn)練框架(Nested Training Framework),與之相對(duì)的,是傳統(tǒng)的混合訓(xùn)練(mixed training),即對(duì)于前述4類(lèi)任務(wù),分別進(jìn)行訓(xùn)練,訓(xùn)練完一項(xiàng)任務(wù)后再進(jìn)行下一任務(wù)的訓(xùn)練。
![]()
圖3:對(duì)比顯示正式學(xué)習(xí)與非正式學(xué)習(xí)的作用以及嵌套訓(xùn)練的有效性。
結(jié)果顯示,混合訓(xùn)練雖在早期階段憑借“任務(wù)競(jìng)爭(zhēng)”機(jī)制在領(lǐng)域內(nèi)任務(wù)(左側(cè)紫色曲線(xiàn),如矩陣博弈)上快速取得較高分?jǐn)?shù),但其通用能力(右側(cè)灰色曲線(xiàn),如MMLU評(píng)估的推理能力、Comon評(píng)估的創(chuàng)意寫(xiě)作,SocialIQA評(píng)估的社交能力等)的性能不升反降;說(shuō)明訓(xùn)練后的模型缺少領(lǐng)域外泛化能力(圖3上)。
相比之下,嵌套訓(xùn)練通過(guò)將多任務(wù)以“與邏輯”順序串聯(lián),強(qiáng)制模型在完整軌跡上均衡優(yōu)化,使領(lǐng)域內(nèi)任務(wù)與通用能力兩條曲線(xiàn)同步穩(wěn)步上升(圖3下),雖在單一任務(wù)的峰值表現(xiàn)上可能略遜于混合訓(xùn)練的“偏科沖刺”,但在綜合泛化指標(biāo)上實(shí)現(xiàn)更穩(wěn)健、可持續(xù)的增長(zhǎng)。
相比混合訓(xùn)練,嵌套訓(xùn)練在整個(gè)訓(xùn)練過(guò)程中保持了穩(wěn)定的梯度(圖4右)和更高的熵(圖4左),從而在所有能力上實(shí)現(xiàn)穩(wěn)定且持續(xù)的改進(jìn)。 圖3和圖4的結(jié)果表明,嵌套訓(xùn)練框架不僅具有更優(yōu)的優(yōu)化穩(wěn)定性,也能夠促進(jìn)模型形成更強(qiáng)的跨任務(wù)泛化能力。
![]()
圖4:混合學(xué)習(xí)與嵌套學(xué)習(xí)的動(dòng)力學(xué)特征
不過(guò),這里自然會(huì)引出一個(gè)新的問(wèn)題:如果游戲真的能夠塑造智能,那么游戲究竟改變了模型什么?
第一篇研究關(guān)注的是訓(xùn)練結(jié)果——模型是否學(xué)會(huì)了更通用的能力;而另一項(xiàng)最新研究則把視角轉(zhuǎn)向訓(xùn)練后的模型本身,試圖回答一個(gè)更加微觀(guān)的問(wèn)題:當(dāng)大模型進(jìn)入游戲情境時(shí),它究竟是如何思考和決策的?
令人意外的是,研究者發(fā)現(xiàn),大模型在游戲中不僅會(huì)表現(xiàn)出策略偏好,甚至?xí)宫F(xiàn)出類(lèi)似人類(lèi)的“性格傾向”。那么下面研究講述的讓ChatGPT玩飛行棋,則可展示模型在推理過(guò)程中,展現(xiàn)出類(lèi)似人的小性子。
一盤(pán)飛行棋,暴露了AI“性格”
在另一篇發(fā)表于2026年的研究中,研究者沒(méi)有繼續(xù)探討“如何利用游戲訓(xùn)練模型”,而是反過(guò)來(lái)利用游戲作為一面顯微鏡,觀(guān)察大模型在復(fù)雜決策中的行為特征。
他們選擇的實(shí)驗(yàn)環(huán)境,是幾乎所有人都熟悉的飛行棋(Ludo)。
飛行棋是一個(gè)多人棋類(lèi)游戲,其中既有合作也有競(jìng)爭(zhēng),玩家要把自家的一個(gè)個(gè)飛機(jī)移到機(jī)庫(kù)。而這項(xiàng)研究中,研究者設(shè)計(jì)了480個(gè)精心構(gòu)造的飛行棋局面(類(lèi)似《天龍八部》中的“珍瓏棋局”),系統(tǒng)測(cè)試了Qwen、DeepSeek、Claude、Llama、Gemma等6類(lèi)主流大模型的決策能力[3]。
![]()
論文題目:LUDOBENCH: Evaluating LLM Behavioural Decision-Making Through Spot-Based Board Game Scenarios in Ludo 論文鏈接:https://arxiv.org/abs/2604.05681 發(fā)表時(shí)間:2026年4月7日 論文來(lái)源:arXiv
研究發(fā)現(xiàn)所有模型與博弈論最優(yōu)策略的吻合度,只有40-46%,也就是說(shuō),大模型超過(guò)一半的決策,都是戰(zhàn)略上錯(cuò)誤的。
![]()
圖5:飛行棋棋盤(pán)
更有趣的是,研究者發(fā)現(xiàn)大模型玩飛行棋時(shí),會(huì)暴露出兩種截然不同的性格。Finishers(完成者)死磕已經(jīng)出場(chǎng)的飛機(jī),拼命把它們送到終點(diǎn),Builders(建設(shè)者)瘋狂發(fā)展讓飛機(jī)從機(jī)庫(kù)出發(fā),但從來(lái)不完成。
最離譜的是:當(dāng)告訴大模型“剛才對(duì)手把你的飛機(jī)打回機(jī)庫(kù)”,哪怕棋盤(pán)局面完全一樣,有些模型的決策會(huì)有33%的概率改變,即使新做出的決策不是博弈論上最優(yōu)的。不同模型報(bào)復(fù)的概率不同,這說(shuō)明AI的決策會(huì)被情緒化敘事強(qiáng)烈影響,而某些模型本身就天生好斗,不需要刺激就會(huì)報(bào)復(fù)。
![]()
圖6: 模型的預(yù)設(shè)人設(shè)與實(shí)際玩法的一致性
知道了AI在玩游戲時(shí)有報(bào)復(fù)心,那給AI不同的人設(shè),又會(huì)發(fā)生什么了,該研究通過(guò)提示詞,將AI玩游戲時(shí)的玩法分為4類(lèi),分別是:
aggressive(激進(jìn)型):優(yōu)先吃子
greedy(貪婪型):優(yōu)先完成
safe(保守型):優(yōu)先安全
unforgiving(睚眥必報(bào)型):優(yōu)先報(bào)復(fù)
結(jié)果大部分情況下,人設(shè)指令的效果都很弱,對(duì)齊分?jǐn)?shù)只有0.3-0.5(圖6),只有兩個(gè)組合效果顯著:Qwen-2.5-7B 在激進(jìn)型時(shí)93%概率符合;Qwen-Plus + greedy時(shí)83%概率符合。
更離譜的是,有時(shí)指令會(huì)產(chǎn)生相反效果:比如讓Claude-3.5-Haiku(保守一點(diǎn)),結(jié)果它在“吃子vs安全”的選擇中,吃子率從66%漲到88%。翻譯一下:你讓AI保守,它反而更激進(jìn)了。這說(shuō)明人設(shè)指令會(huì)和模型已有的戰(zhàn)略偏好產(chǎn)生不可預(yù)測(cè)的交互,而不是簡(jiǎn)單地覆蓋它。
上述研究,遠(yuǎn)不止告訴我們“AI會(huì)不會(huì)玩飛行棋”,而是通過(guò)游戲,揭示AI有“性格偏執(zhí)”,不同模型會(huì)發(fā)展出截然不同的戰(zhàn)略風(fēng)格,而且這種偏執(zhí)很難簡(jiǎn)單地通過(guò)提示詞糾正。而對(duì)游戲的描述,即敘事框架會(huì)影響AI決策。這些發(fā)現(xiàn),提升了模型的可解釋性。結(jié)合推理過(guò)程中的動(dòng)力學(xué),游戲中的大模型其展現(xiàn)的獨(dú)特行為,可能為了解大模型內(nèi)部的運(yùn)行機(jī)制提供獨(dú)特窗口。
而將這兩篇研究合在一起來(lái)看,那會(huì)發(fā)現(xiàn)一些更有趣的點(diǎn),飛行棋是一個(gè)比井字棋更復(fù)雜的多人多輪博弈,如果允許玩家之間通過(guò)自然語(yǔ)言交流,試圖用描述棋局走向來(lái)影響別的玩家,那就涉及了社交智能。那如果通過(guò)飛行棋讓大模型進(jìn)行強(qiáng)化學(xué)習(xí),是不是會(huì)像第一部分描述的那樣了?
對(duì)此筆者的猜測(cè)是不可行,原因首先是由于本文揭示的模型會(huì)存在不同的性格,其次是由于飛行棋這樣涉及運(yùn)氣(投骰子)以及對(duì)手非理性的游戲,讓強(qiáng)化學(xué)習(xí)算法很難分配激勵(lì),訓(xùn)練中的大模型難以知道是由于那些因素獲勝的,嵌套訓(xùn)練中的每個(gè)任務(wù)恰好因?yàn)樽銐蚝?jiǎn)單,才能讓每一次的輸贏成為清晰的信號(hào)。
AI能創(chuàng)造游戲規(guī)則嗎?
前兩項(xiàng)研究分別展示了游戲的兩種價(jià)值:一方面,游戲可以成為訓(xùn)練智能的環(huán)境;另一方面,游戲也可以成為觀(guān)察智能的窗口。但這兩類(lèi)工作有一個(gè)共同前提——游戲規(guī)則是人類(lèi)事先設(shè)計(jì)好的。
《有限與無(wú)限的游戲》一書(shū)中寫(xiě)道:有限的游戲在邊界內(nèi)玩,無(wú)限的游戲玩的就是邊界。如果再向前邁進(jìn)一步:讓大模型不僅參與游戲,而是參與“創(chuàng)造游戲”本身,會(huì)發(fā)生什么?這正是第三項(xiàng)研究關(guān)注的問(wèn)題。
![]()
論文題目:GAVEL: Generating Games Via Evolution and Language Models 論文鏈接:https://arxiv.org/abs/2407.09388 發(fā)表時(shí)間:2024年1月12日 論文來(lái)源:arXiv
這篇發(fā)表于2024年的研究讓大模型自動(dòng)生成新穎且可玩的棋盤(pán)游戲規(guī)則[4],研究者先將已有棋類(lèi)游戲的規(guī)則,通過(guò)高階關(guān)鍵詞(如step,slide,hop)對(duì)規(guī)則進(jìn)行編碼,之后隨機(jī)定位一些規(guī)則表達(dá)式作為“突變位點(diǎn)”,再由經(jīng)微調(diào)后的CodeLlama-13B模型生成新規(guī)則片段并重構(gòu)游戲代碼;圖右側(cè)為分層評(píng)估與檔案更新,新游戲依次通過(guò)編譯檢查、可玩性驗(yàn)證、隨機(jī)策略快篩與蒙特卡洛樹(shù)搜索深度評(píng)估四層過(guò)濾,計(jì)算六項(xiàng)指標(biāo)的調(diào)和適應(yīng)度,同時(shí)將其概念向量經(jīng)PCA降維至2維的適應(yīng)性景觀(guān)上。
![]()
圖7:大模型設(shè)計(jì)棋類(lèi)游戲的流程示例
這樣一來(lái),產(chǎn)生了很多規(guī)則融合的棋類(lèi)游戲,例如五子棋和圍棋的融合(五子勝/四子負(fù) + 圍吃機(jī)制融合),對(duì)此人類(lèi)專(zhuān)家評(píng)價(jià)"有潛力成為經(jīng)典",感興趣的玩家可以去下面的網(wǎng)頁(yè)試玩。
![]()
圖8:大模型生成游戲的試玩界面 https://ludii.games/details.php?keyword=YavaGo
上述案例說(shuō)明,當(dāng)大模型學(xué)會(huì)“理解游戲規(guī)則的語(yǔ)法與語(yǔ)義”,再與演化算法的多樣性搜索相結(jié)合,就能成為一位不知疲倦的"游戲設(shè)計(jì)學(xué)徒",無(wú)法確保它一定能獨(dú)立創(chuàng)造出傳世佳作,但能和人類(lèi)一起去玩無(wú)限游戲,為人類(lèi)游戲設(shè)計(jì)者提供可玩、有啟發(fā)性的規(guī)則原型,開(kāi)啟人機(jī)共創(chuàng)意的新范式。
現(xiàn)有的研究,僅聚焦規(guī)則產(chǎn)出,未來(lái)可研究大模型對(duì)游戲規(guī)則語(yǔ)義的深層建模,支持“為什么這條規(guī)則有趣”的可解釋分析。筆者設(shè)想可通過(guò)讓大模型設(shè)計(jì)出別的大模型愛(ài)玩的游戲,如此的設(shè)計(jì)層面自我博弈,從而為大模型創(chuàng)造出近乎無(wú)限的訓(xùn)練數(shù)據(jù)(大模型玩新設(shè)計(jì)出的游戲時(shí)的對(duì)弈數(shù)據(jù)),同時(shí)向別的大模型智能體解釋為何自身設(shè)計(jì)游戲好玩的過(guò)程,就是提升模型可解釋性,尤其是社交過(guò)程中可解釋性的過(guò)程。
從更宏觀(guān)的視角看,這三項(xiàng)研究恰好對(duì)應(yīng)了智能發(fā)展的三個(gè)層次:學(xué)習(xí)規(guī)則、運(yùn)用規(guī)則,以及創(chuàng)造規(guī)則。當(dāng)我們將“游戲”從固定規(guī)則的競(jìng)技場(chǎng),重構(gòu)為規(guī)則本身可演化的學(xué)習(xí)沙盒,本質(zhì)上是在回答一個(gè)更深刻的問(wèn)題:智能的本質(zhì),是掌握規(guī)則的能力,還是創(chuàng)造規(guī)則的能力?
而在探索智能本質(zhì)的征途中,讓大模型“玩”無(wú)限游戲,或許正是通往持續(xù)成長(zhǎng)的密鑰。
https://arxiv.org/html/2601.05633
https://openreview.net/forum?id=7Yayy5fNLg
https://arxiv.org/html/2604.05681v1
https://proceedings.neurips.cc/paper_files/paper/2024/file/c7b04e4e13bb77996d3ae2ff667231ac-Paper-Conference.pdf
「游戲×復(fù)雜科學(xué)」讀書(shū)會(huì)
從棋盤(pán)上的博弈,到屏幕中的虛擬世界;從概率賭局到人工智能對(duì)弈——游戲從來(lái)不只是娛樂(lè),它是人類(lèi)理解復(fù)雜性的實(shí)驗(yàn)場(chǎng)。
在簡(jiǎn)單規(guī)則的反復(fù)運(yùn)行中,秩序如何涌現(xiàn)?在多方互動(dòng)的策略競(jìng)爭(zhēng)中,合作如何誕生?在反饋回路與資源循環(huán)中,政治與經(jīng)濟(jì)如何生成?當(dāng)算法接管博弈,Agent開(kāi)始自主演化,我們是否正在見(jiàn)證“可計(jì)算社會(huì)”的雛形?
從康威生命游戲的規(guī)則宇宙,到 AlphaGo 對(duì)圍棋復(fù)雜度的突破;從 John Nash 的均衡理論,到 Norbert Wiener 的控制論反饋思想;從演化博弈到多主體建模,從系統(tǒng)動(dòng)力學(xué)到生成式AI——游戲與復(fù)雜科學(xué),正在交匯為一門(mén)新的認(rèn)知范式。
集智俱樂(lè)部聯(lián)合人工智能、AIGC、游戲設(shè)計(jì)、復(fù)雜系統(tǒng)等領(lǐng)域的學(xué)者/工程師共同發(fā)起,自2026年3月31日起,每周二晚19:30-21:30,邀請(qǐng)來(lái)自各領(lǐng)域的研究者與實(shí)踐者,共同探索:
· 游戲如何啟發(fā)科學(xué)?
· 科學(xué)如何重塑游戲?
· 而我們是否生活在一個(gè)巨型多主體演化系統(tǒng)之中?
![]()
詳情請(qǐng)見(jiàn):
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.