網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

arXiv：游戲如何塑造大模型智能

2026-06-06 14:33:16　來(lái)源: 集智俱樂(lè)部

北京舉報(bào)

分享至

導(dǎo)語(yǔ)

當(dāng)互聯(lián)網(wǎng)高質(zhì)量訓(xùn)練數(shù)據(jù)逐漸接近天花板，大模型下一步該如何持續(xù)成長(zhǎng)？一個(gè)出人意料的答案或許來(lái)自游戲。對(duì)于人類(lèi)兒童而言，學(xué)習(xí)并不完全依賴(lài)教材，許多能力恰恰是在與伙伴互動(dòng)、競(jìng)爭(zhēng)和協(xié)作的游戲過(guò)程中形成的。近年來(lái)，一系列研究開(kāi)始探索類(lèi)似路徑：讓大模型通過(guò)博弈學(xué)習(xí)推理能力，通過(guò)游戲行為揭示決策機(jī)制，甚至進(jìn)一步參與設(shè)計(jì)新的游戲規(guī)則。從在規(guī)則中學(xué)習(xí)，到在規(guī)則中決策，再到創(chuàng)造規(guī)則本身，游戲正逐漸從一種測(cè)試工具演變?yōu)槔斫夂退茉熘悄艿闹匾d體。或許，大模型未來(lái)所需要的，不只是更多文本，而是更多值得去“玩”的游戲。

關(guān)鍵詞：游戲、大模型、訓(xùn)練、可解釋性、規(guī)則

郭瑞東丨作者

趙思怡丨審校

當(dāng)大模型開(kāi)始“玩游戲”，推理能力變強(qiáng)了？

傳統(tǒng)的學(xué)習(xí)，有結(jié)構(gòu)化的教材，明確的目標(biāo)和任務(wù)。但更多的時(shí)候，我們進(jìn)行的是非正式學(xué)習(xí)，即在日常互動(dòng)中試錯(cuò)、反饋、模仿。最典型的例子是孩子在游戲中學(xué)會(huì)合作與一般環(huán)境下的推理。事實(shí)上，近年來(lái)已經(jīng)有不少研究開(kāi)始探索：如果讓大模型像兒童一樣，通過(guò)與環(huán)境和其他智能體持續(xù)互動(dòng)，是否能夠獲得比單純閱讀文本更強(qiáng)的推理能力？

例如，2026年發(fā)表于ICLR的一項(xiàng)研究發(fā)現(xiàn)，多智能體在多輪零和博弈中進(jìn)行強(qiáng)化學(xué)習(xí)，能夠顯著提升模型的推理表現(xiàn)[2]。在這一方向上，于2026年1月發(fā)表于arXiv上的GIFT研究進(jìn)一步提出了一個(gè)更激進(jìn)的問(wèn)題：如果把游戲視為一種“非正式學(xué)習(xí)”（Informal Learning）環(huán)境，讓模型同時(shí)在多種類(lèi)型的游戲中成長(zhǎng)，會(huì)發(fā)生什么？

論文題目：GIFT: Games as Informal Training for Generalizable LLMs 論文鏈接：https://arxiv.org/abs/2601.05633 發(fā)表時(shí)間：2026年1月9日論文來(lái)源：arXiv

在于其精心選擇了三類(lèi)代表性游戲，然后讓不是模型交替以某一類(lèi)游戲的結(jié)果為目標(biāo)開(kāi)展訓(xùn)練，而是必須同時(shí)在數(shù)學(xué)推理、策略博弈、社交理解等多個(gè)子任務(wù)上表現(xiàn)良好，才能獲得最大獎(jiǎng)勵(lì)。通過(guò)這樣的“交替訓(xùn)練”，訓(xùn)練出的模型，能在和游戲無(wú)關(guān)的任務(wù)上表現(xiàn)得更好。

圖1：正式與非正式學(xué)習(xí)的對(duì)比

三個(gè)游戲分別是像囚徒困境這樣的單次博弈，井字棋這樣的多次博弈，以及“誰(shuí)是臥底”這樣需要社交互動(dòng)的游戲，分別對(duì)應(yīng)了抽象推理、序列決策、社交能力等會(huì)讓大模型變得價(jià)值的核心能力。

結(jié)果發(fā)現(xiàn)，通過(guò)在訓(xùn)練過(guò)程中，讓模型先解一道數(shù)學(xué)題，再玩一輪矩陣博弈（如囚徒困境），最后參與一次“誰(shuí)是臥底”討論。只有全程表現(xiàn)均衡，才能獲得高回報(bào)。可以顯著提升模型在多項(xiàng)任務(wù)上的性能。

圖2：多游戲與正式學(xué)習(xí)的混合訓(xùn)練方案

上述方法被稱(chēng)為嵌套訓(xùn)練框架（Nested Training Framework），與之相對(duì)的，是傳統(tǒng)的混合訓(xùn)練（mixed training），即對(duì)于前述4類(lèi)任務(wù)，分別進(jìn)行訓(xùn)練，訓(xùn)練完一項(xiàng)任務(wù)后再進(jìn)行下一任務(wù)的訓(xùn)練。

圖3：對(duì)比顯示正式學(xué)習(xí)與非正式學(xué)習(xí)的作用以及嵌套訓(xùn)練的有效性。

結(jié)果顯示，混合訓(xùn)練雖在早期階段憑借“任務(wù)競(jìng)爭(zhēng)”機(jī)制在領(lǐng)域內(nèi)任務(wù)（左側(cè)紫色曲線(xiàn)，如矩陣博弈）上快速取得較高分?jǐn)?shù)，但其通用能力（右側(cè)灰色曲線(xiàn)，如MMLU評(píng)估的推理能力、Comon評(píng)估的創(chuàng)意寫(xiě)作，SocialIQA評(píng)估的社交能力等）的性能不升反降；說(shuō)明訓(xùn)練后的模型缺少領(lǐng)域外泛化能力（圖3上）。

相比之下，嵌套訓(xùn)練通過(guò)將多任務(wù)以“與邏輯”順序串聯(lián)，強(qiáng)制模型在完整軌跡上均衡優(yōu)化，使領(lǐng)域內(nèi)任務(wù)與通用能力兩條曲線(xiàn)同步穩(wěn)步上升（圖3下），雖在單一任務(wù)的峰值表現(xiàn)上可能略遜于混合訓(xùn)練的“偏科沖刺”，但在綜合泛化指標(biāo)上實(shí)現(xiàn)更穩(wěn)健、可持續(xù)的增長(zhǎng)。

相比混合訓(xùn)練，嵌套訓(xùn)練在整個(gè)訓(xùn)練過(guò)程中保持了穩(wěn)定的梯度（圖4右）和更高的熵（圖4左），從而在所有能力上實(shí)現(xiàn)穩(wěn)定且持續(xù)的改進(jìn)。圖3和圖4的結(jié)果表明，嵌套訓(xùn)練框架不僅具有更優(yōu)的優(yōu)化穩(wěn)定性，也能夠促進(jìn)模型形成更強(qiáng)的跨任務(wù)泛化能力。

圖4：混合學(xué)習(xí)與嵌套學(xué)習(xí)的動(dòng)力學(xué)特征

不過(guò)，這里自然會(huì)引出一個(gè)新的問(wèn)題：如果游戲真的能夠塑造智能，那么游戲究竟改變了模型什么？

第一篇研究關(guān)注的是訓(xùn)練結(jié)果——模型是否學(xué)會(huì)了更通用的能力；而另一項(xiàng)最新研究則把視角轉(zhuǎn)向訓(xùn)練后的模型本身，試圖回答一個(gè)更加微觀(guān)的問(wèn)題：當(dāng)大模型進(jìn)入游戲情境時(shí)，它究竟是如何思考和決策的？

令人意外的是，研究者發(fā)現(xiàn)，大模型在游戲中不僅會(huì)表現(xiàn)出策略偏好，甚至?xí)宫F(xiàn)出類(lèi)似人類(lèi)的“性格傾向”。那么下面研究講述的讓ChatGPT玩飛行棋，則可展示模型在推理過(guò)程中，展現(xiàn)出類(lèi)似人的小性子。

一盤(pán)飛行棋，暴露了AI“性格”

在另一篇發(fā)表于2026年的研究中，研究者沒(méi)有繼續(xù)探討“如何利用游戲訓(xùn)練模型”，而是反過(guò)來(lái)利用游戲作為一面顯微鏡，觀(guān)察大模型在復(fù)雜決策中的行為特征。

他們選擇的實(shí)驗(yàn)環(huán)境，是幾乎所有人都熟悉的飛行棋（Ludo）。

飛行棋是一個(gè)多人棋類(lèi)游戲，其中既有合作也有競(jìng)爭(zhēng)，玩家要把自家的一個(gè)個(gè)飛機(jī)移到機(jī)庫(kù)。而這項(xiàng)研究中，研究者設(shè)計(jì)了480個(gè)精心構(gòu)造的飛行棋局面（類(lèi)似《天龍八部》中的“珍瓏棋局”），系統(tǒng)測(cè)試了Qwen、DeepSeek、Claude、Llama、Gemma等6類(lèi)主流大模型的決策能力[3]。

論文題目：LUDOBENCH: Evaluating LLM Behavioural Decision-Making Through Spot-Based Board Game Scenarios in Ludo 論文鏈接：https://arxiv.org/abs/2604.05681 發(fā)表時(shí)間：2026年4月7日論文來(lái)源：arXiv

研究發(fā)現(xiàn)所有模型與博弈論最優(yōu)策略的吻合度，只有40-46%，也就是說(shuō)，大模型超過(guò)一半的決策，都是戰(zhàn)略上錯(cuò)誤的。

圖5：飛行棋棋盤(pán)

更有趣的是，研究者發(fā)現(xiàn)大模型玩飛行棋時(shí)，會(huì)暴露出兩種截然不同的性格。Finishers（完成者）死磕已經(jīng)出場(chǎng)的飛機(jī)，拼命把它們送到終點(diǎn)，Builders（建設(shè)者）瘋狂發(fā)展讓飛機(jī)從機(jī)庫(kù)出發(fā)，但從來(lái)不完成。

最離譜的是：當(dāng)告訴大模型“剛才對(duì)手把你的飛機(jī)打回機(jī)庫(kù)”，哪怕棋盤(pán)局面完全一樣，有些模型的決策會(huì)有33%的概率改變，即使新做出的決策不是博弈論上最優(yōu)的。不同模型報(bào)復(fù)的概率不同，這說(shuō)明AI的決策會(huì)被情緒化敘事強(qiáng)烈影響，而某些模型本身就天生好斗，不需要刺激就會(huì)報(bào)復(fù)。

圖6：模型的預(yù)設(shè)人設(shè)與實(shí)際玩法的一致性

知道了AI在玩游戲時(shí)有報(bào)復(fù)心，那給AI不同的人設(shè)，又會(huì)發(fā)生什么了，該研究通過(guò)提示詞，將AI玩游戲時(shí)的玩法分為4類(lèi)，分別是：

aggressive（激進(jìn)型）：優(yōu)先吃子
greedy（貪婪型）：優(yōu)先完成
safe（保守型）：優(yōu)先安全
unforgiving（睚眥必報(bào)型）：優(yōu)先報(bào)復(fù)

結(jié)果大部分情況下，人設(shè)指令的效果都很弱，對(duì)齊分?jǐn)?shù)只有0.3-0.5（圖6），只有兩個(gè)組合效果顯著：Qwen-2.5-7B 在激進(jìn)型時(shí)93%概率符合；Qwen-Plus + greedy時(shí)83%概率符合。

更離譜的是，有時(shí)指令會(huì)產(chǎn)生相反效果：比如讓Claude-3.5-Haiku（保守一點(diǎn)），結(jié)果它在“吃子vs安全”的選擇中，吃子率從66%漲到88%。翻譯一下：你讓AI保守，它反而更激進(jìn)了。這說(shuō)明人設(shè)指令會(huì)和模型已有的戰(zhàn)略偏好產(chǎn)生不可預(yù)測(cè)的交互，而不是簡(jiǎn)單地覆蓋它。

上述研究，遠(yuǎn)不止告訴我們“AI會(huì)不會(huì)玩飛行棋”，而是通過(guò)游戲，揭示AI有“性格偏執(zhí)”，不同模型會(huì)發(fā)展出截然不同的戰(zhàn)略風(fēng)格，而且這種偏執(zhí)很難簡(jiǎn)單地通過(guò)提示詞糾正。而對(duì)游戲的描述，即敘事框架會(huì)影響AI決策。這些發(fā)現(xiàn)，提升了模型的可解釋性。結(jié)合推理過(guò)程中的動(dòng)力學(xué)，游戲中的大模型其展現(xiàn)的獨(dú)特行為，可能為了解大模型內(nèi)部的運(yùn)行機(jī)制提供獨(dú)特窗口。

而將這兩篇研究合在一起來(lái)看，那會(huì)發(fā)現(xiàn)一些更有趣的點(diǎn)，飛行棋是一個(gè)比井字棋更復(fù)雜的多人多輪博弈，如果允許玩家之間通過(guò)自然語(yǔ)言交流，試圖用描述棋局走向來(lái)影響別的玩家，那就涉及了社交智能。那如果通過(guò)飛行棋讓大模型進(jìn)行強(qiáng)化學(xué)習(xí)，是不是會(huì)像第一部分描述的那樣了？

對(duì)此筆者的猜測(cè)是不可行，原因首先是由于本文揭示的模型會(huì)存在不同的性格，其次是由于飛行棋這樣涉及運(yùn)氣（投骰子）以及對(duì)手非理性的游戲，讓強(qiáng)化學(xué)習(xí)算法很難分配激勵(lì)，訓(xùn)練中的大模型難以知道是由于那些因素獲勝的，嵌套訓(xùn)練中的每個(gè)任務(wù)恰好因?yàn)樽銐蚝?jiǎn)單，才能讓每一次的輸贏成為清晰的信號(hào)。

AI能創(chuàng)造游戲規(guī)則嗎？

前兩項(xiàng)研究分別展示了游戲的兩種價(jià)值：一方面，游戲可以成為訓(xùn)練智能的環(huán)境；另一方面，游戲也可以成為觀(guān)察智能的窗口。但這兩類(lèi)工作有一個(gè)共同前提——游戲規(guī)則是人類(lèi)事先設(shè)計(jì)好的。

《有限與無(wú)限的游戲》一書(shū)中寫(xiě)道：有限的游戲在邊界內(nèi)玩，無(wú)限的游戲玩的就是邊界。如果再向前邁進(jìn)一步：讓大模型不僅參與游戲，而是參與“創(chuàng)造游戲”本身，會(huì)發(fā)生什么？這正是第三項(xiàng)研究關(guān)注的問(wèn)題。

論文題目：GAVEL: Generating Games Via Evolution and Language Models 論文鏈接：https://arxiv.org/abs/2407.09388 發(fā)表時(shí)間：2024年1月12日論文來(lái)源：arXiv

這篇發(fā)表于2024年的研究讓大模型自動(dòng)生成新穎且可玩的棋盤(pán)游戲規(guī)則[4]，研究者先將已有棋類(lèi)游戲的規(guī)則，通過(guò)高階關(guān)鍵詞(如step,slide,hop)對(duì)規(guī)則進(jìn)行編碼，之后隨機(jī)定位一些規(guī)則表達(dá)式作為“突變位點(diǎn)”，再由經(jīng)微調(diào)后的CodeLlama-13B模型生成新規(guī)則片段并重構(gòu)游戲代碼；圖右側(cè)為分層評(píng)估與檔案更新，新游戲依次通過(guò)編譯檢查、可玩性驗(yàn)證、隨機(jī)策略快篩與蒙特卡洛樹(shù)搜索深度評(píng)估四層過(guò)濾，計(jì)算六項(xiàng)指標(biāo)的調(diào)和適應(yīng)度，同時(shí)將其概念向量經(jīng)PCA降維至2維的適應(yīng)性景觀(guān)上。

圖7：大模型設(shè)計(jì)棋類(lèi)游戲的流程示例

這樣一來(lái)，產(chǎn)生了很多規(guī)則融合的棋類(lèi)游戲，例如五子棋和圍棋的融合（五子勝/四子負(fù) + 圍吃機(jī)制融合），對(duì)此人類(lèi)專(zhuān)家評(píng)價(jià)"有潛力成為經(jīng)典"，感興趣的玩家可以去下面的網(wǎng)頁(yè)試玩。

圖8：大模型生成游戲的試玩界面 https://ludii.games/details.php?keyword=YavaGo

上述案例說(shuō)明，當(dāng)大模型學(xué)會(huì)“理解游戲規(guī)則的語(yǔ)法與語(yǔ)義”，再與演化算法的多樣性搜索相結(jié)合，就能成為一位不知疲倦的"游戲設(shè)計(jì)學(xué)徒"，無(wú)法確保它一定能獨(dú)立創(chuàng)造出傳世佳作，但能和人類(lèi)一起去玩無(wú)限游戲，為人類(lèi)游戲設(shè)計(jì)者提供可玩、有啟發(fā)性的規(guī)則原型，開(kāi)啟人機(jī)共創(chuàng)意的新范式。

現(xiàn)有的研究，僅聚焦規(guī)則產(chǎn)出，未來(lái)可研究大模型對(duì)游戲規(guī)則語(yǔ)義的深層建模，支持“為什么這條規(guī)則有趣”的可解釋分析。筆者設(shè)想可通過(guò)讓大模型設(shè)計(jì)出別的大模型愛(ài)玩的游戲，如此的設(shè)計(jì)層面自我博弈，從而為大模型創(chuàng)造出近乎無(wú)限的訓(xùn)練數(shù)據(jù)（大模型玩新設(shè)計(jì)出的游戲時(shí)的對(duì)弈數(shù)據(jù)），同時(shí)向別的大模型智能體解釋為何自身設(shè)計(jì)游戲好玩的過(guò)程，就是提升模型可解釋性，尤其是社交過(guò)程中可解釋性的過(guò)程。

從更宏觀(guān)的視角看，這三項(xiàng)研究恰好對(duì)應(yīng)了智能發(fā)展的三個(gè)層次：學(xué)習(xí)規(guī)則、運(yùn)用規(guī)則，以及創(chuàng)造規(guī)則。當(dāng)我們將“游戲”從固定規(guī)則的競(jìng)技場(chǎng)，重構(gòu)為規(guī)則本身可演化的學(xué)習(xí)沙盒，本質(zhì)上是在回答一個(gè)更深刻的問(wèn)題：智能的本質(zhì)，是掌握規(guī)則的能力，還是創(chuàng)造規(guī)則的能力？

而在探索智能本質(zhì)的征途中，讓大模型“玩”無(wú)限游戲，或許正是通往持續(xù)成長(zhǎng)的密鑰。

https://arxiv.org/html/2601.05633
https://openreview.net/forum?id=7Yayy5fNLg
https://arxiv.org/html/2604.05681v1
https://proceedings.neurips.cc/paper_files/paper/2024/file/c7b04e4e13bb77996d3ae2ff667231ac-Paper-Conference.pdf

「游戲×復(fù)雜科學(xué)」讀書(shū)會(huì)

從棋盤(pán)上的博弈，到屏幕中的虛擬世界；從概率賭局到人工智能對(duì)弈——游戲從來(lái)不只是娛樂(lè)，它是人類(lèi)理解復(fù)雜性的實(shí)驗(yàn)場(chǎng)。

在簡(jiǎn)單規(guī)則的反復(fù)運(yùn)行中，秩序如何涌現(xiàn)？在多方互動(dòng)的策略競(jìng)爭(zhēng)中，合作如何誕生？在反饋回路與資源循環(huán)中，政治與經(jīng)濟(jì)如何生成？當(dāng)算法接管博弈，Agent開(kāi)始自主演化，我們是否正在見(jiàn)證“可計(jì)算社會(huì)”的雛形？

從康威生命游戲的規(guī)則宇宙，到 AlphaGo 對(duì)圍棋復(fù)雜度的突破；從 John Nash 的均衡理論，到 Norbert Wiener 的控制論反饋思想；從演化博弈到多主體建模，從系統(tǒng)動(dòng)力學(xué)到生成式AI——游戲與復(fù)雜科學(xué)，正在交匯為一門(mén)新的認(rèn)知范式。

集智俱樂(lè)部聯(lián)合人工智能、AIGC、游戲設(shè)計(jì)、復(fù)雜系統(tǒng)等領(lǐng)域的學(xué)者/工程師共同發(fā)起，自2026年3月31日起，每周二晚19:30-21:30，邀請(qǐng)來(lái)自各領(lǐng)域的研究者與實(shí)踐者，共同探索：

· 游戲如何啟發(fā)科學(xué)？

· 科學(xué)如何重塑游戲？

· 而我們是否生活在一個(gè)巨型多主體演化系統(tǒng)之中？

詳情請(qǐng)見(jiàn)：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.