![]()
這項由麻省理工學院、OpenAI和馬里蘭大學合作完成的研究發表于2026年的機器學習理論頂級會議COLT(Conference on Learning Theory),論文編號為arXiv:2606.06486,有興趣深入了解的讀者可以通過該編號查詢完整論文。
說到博弈游戲,你或許有過這樣的經歷:和一個老朋友玩棋盤游戲時,你發現他會"讀懂"你的套路——每次你走出一招,他都能精準地做出反應,好像他早就知道你要干什么一樣。這種"你來我往、彼此適應"的博弈感覺,恰恰是這篇研究的核心出發點。過去幾十年里,人工智能研究者們在教AI玩游戲時,一直有個隱藏的"bug":他們假設對手是個"木頭人",不會根據你的行為調整策略。這篇研究的價值,正是在于認真對待了那些"老油條"對手——那些會觀察你、記住你、并據此調整打法的真實對手。
一、從"囚徒困境"說起:為什么老規矩不管用了
經典的"囚徒困境"是博弈論里最有名的思想實驗。兩個人分別被關押,互不能溝通。如果兩人都選擇合作(不招供),各得一個好結果;如果一人背叛另一人,背叛者全身而退,合作者慘遭重罰;如果兩人都背叛,雙方都得到一個差的結果。按照傳統的博弈理論,理性的選擇是"背叛",因為無論對方怎么選,背叛對自己來說都更劃算。這個邏輯鐵板釘釘,以至于傳統AI在這個游戲中只會一路"背叛"到底。
但問題來了:如果這個游戲不是只玩一次,而是反復進行——也就是所謂的"重復囚徒困境"——情況就完全不同了。現實中有一種策略叫做"針鋒相對"(tit-for-tat):第一回合選擇合作,之后每一回合都模仿對方上一回合的選擇。如果兩個玩家都采用這種策略,他們就會一直合作,每人獲得0.6分的平均收益,遠比雙方都背叛時的0.2分要好。
然而,傳統的AI學習方法——也就是所謂的"外部遺憾最小化"(external regret minimization)——無法理解"針鋒相對"的價值。原因很簡單:這種傳統方法在評估自己的策略好壞時,總是拿"如果我一直背叛會怎樣"來做比較基準。當對手是"針鋒相對"玩家時,如果你從第一回合就一直背叛,你能獲得1.0分(第一回合騙了對方)加上之后每回合0.2分(對方隨后也一直背叛你)的收益。按這個邏輯,"針鋒相對"策略看起來比"一直背叛"差了整整0.4分乘以回合數——這就是所謂的"線性遺憾",意思是隨著游戲輪數增加,"損失"也成比例增大。
換句話說,傳統方法告訴AI:"你和對手反復玩了100回合,合作合作合作……,但你本可以在第一回合就背叛,然后獲得更多!你虧大了!"這個邏輯的致命漏洞在于:它沒有考慮到,你的背叛行為會改變對手的行為。對手不是"木頭人",他會因為你背叛了他而選擇背叛你,這個連鎖反應是傳統方法完全忽視的。
正因如此,研究團隊意識到需要一個全新的評估標準——一種能夠考慮到對手會"響應"你的行為的度量方式。
二、新度量標準:當所有人都是"活人"時,后悔感應該怎么算
研究團隊提出了一個新的指標,叫做"重復策略遺憾"(Repeated Policy Regret,簡稱RP-Regret)。理解這個概念的關鍵,是要明白它和傳統"遺憾感"的根本區別。
傳統的遺憾感是這樣算的:游戲結束后,你回頭看,把自己實際獲得的分數,和"如果我一直選某個固定動作會獲得多少分"做比較。注意,這里假設無論你選什么,對手的行為是不會變的——就好像對手是個錄像機,只會重播固定的動作序列。
新的RP-遺憾感則完全不同:它把所有玩家都當成"活人"。在反事實的比較中,如果你在某一時刻改變了策略,對手也會相應改變他的行為——因為對手是根據歷史記錄來決策的,你的改變會影響歷史記錄,進而影響對手的每一個后續行動。
回到"針鋒相對"的例子:用RP-遺憾感來衡量,當兩個人都在玩"針鋒相對"時,如果你想在某一時刻偷偷改變策略、選擇背叛,你需要考慮的不僅是"那一刻我能多得多少分",還要考慮"對手之后會怎么應對我的背叛"。研究團隊嚴格證明了:在"針鋒相對"互博的情形下,任何時刻背叛的短期收益,都會被對手隨后的反擊完全抵消。因此,"針鋒相對"策略的RP-遺憾感是次線性的(也就是隨時間增長,平均遺憾趨近于零),而傳統遺憾感卻是線性的。
這意味著,用RP-遺憾感衡量,"針鋒相對"是一個好策略;用傳統遺憾感衡量,它是個"虧本"策略。新指標更能捕捉合作行為的真實價值。
三、并非所有對手都能被馴服:最小化RP-遺憾的必要條件
當然,并不是在任何情況下,我們都能找到一種策略,讓RP-遺憾隨時間變小。研究團隊揭示了一系列"必要條件"——也就是說,如果這些條件不滿足,不管你多聰明,都注定無法控制住自己的遺憾感。
第一個必要條件是關于"比較基準"的變化速度。在計算遺憾感時,我們需要一個"假想的理想策略"(研究中稱為"比較策略")來作為參照。如果這個理想策略每一回合都劇烈變化——今天要你這樣做,明天要你那樣做,后天又換了一種截然不同的方式——那么任何真實的學習算法都跟不上這種節奏,遺憾感必然線性增長。這就像你的老板每天給你不同的目標,而且目標之間毫無關聯,你當然會一直感覺"自己做得不夠好"。因此,理想策略的變化必須是"次線性"的——也就是說,整體變化的總量不能隨時間成比例增長。
第二個必要條件是關于"記憶"的。研究團隊證明,如果對手或比較策略擁有"完美記憶"——也就是能夠精確記住并區分所有歷史記錄——那么也無法控制RP-遺憾。為什么?因為擁有完美記憶的對手可以構造極其復雜的"陷阱":他可以在游戲初期觀察你的行為模式,然后在某個關鍵時刻利用一個從未出現過的歷史場景來觸發一種你從未預料到的應對方式。這種完美記憶使得對手能夠傳遞任意信息,構造出任何你無法預測的行為。
這兩個條件一起描繪出了可控博弈的"安全區域":理想策略變化要慢,所有玩家的記憶要有"遺忘性"。
研究團隊進一步將"遺忘性記憶"的概念精確化,提出了"指數衰減記憶"(Exponential Decay Memory,EDM)這一核心概念。其含義是:對于一個玩家來說,如果兩段歷史僅僅在很久以前的部分有所不同,而最近的歷史是完全一樣的,那么這個玩家對兩段歷史的應對方式應該幾乎相同——并且,這種"幾乎相同"隨著近期歷史的加長而指數級地趨近于完全相同。換句話說,最近發生的事情對決策影響大,很久以前的事情影響微乎其微,就像人類的記憶一樣,總會逐漸淡忘遠古的細節,只保留最近發生的事件的清晰印象。
這個條件比簡單的"只記住最近M步"更微妙、也更合理。簡單的M步記憶限制有一個漏洞:聰明的玩家可以把信息"編碼"進自己的行動序列中,用最近的M步行動來"儲存"很久以前發生的信息。而指數衰減記憶條件則封堵了這個漏洞:它要求策略對于不同的歷史前綴必須"忘得差不多",不允許把古老信息藏在近期行動里傳遞下去。
四、三條路攻克"彎曲"的優化難題
即使明確了必要條件,最小化RP-遺憾在數學上仍然非常棘手。原因在于:在重復博弈中,當前的收益不僅取決于當前的策略,還取決于過去若干步的策略——不同時刻的策略相互"乘積",產生了所謂的"非凸性"。以烹飪做比喻:一道菜的最終口味,不是每種調料單獨作用之和,而是所有調料相互融合、化學反應后的整體效果。這種"整體效果"是非線性的,沒有簡單的公式能直接告訴你"加多少鹽最好"。
研究團隊開辟了三條應對路徑,每條路徑都有其獨特的優勢和適用場景。
第一條路依賴于一個"萬能優化神器"。研究團隊假設存在一種特殊的優化工具(技術上稱為"非凸優化神諭"),這個工具能夠在面對任意復雜的非凸目標函數時找到足夠好的解。有了這個神器,只要比較策略的變化是次線性的,且所有玩家都滿足指數衰減記憶條件,就能保證RP-遺憾是次線性的。當然,這個"神器"在實際中可能計算代價極高,但它至少證明了:在原則上,滿足必要條件的情形下,好的策略是存在的。
第二條路是對RP-遺憾做一個"局部線性化"近似,得到了一個叫做"局部重復策略遺憾"(LRP-Regret)的新概念。這條路的靈感來自博弈論中一個經典定理——"單步偏差原則":在重復博弈中,一個策略組合是子博弈完美納什均衡,當且僅當沒有任何玩家能通過在某一個時刻單獨改變策略而獲益。基于這個原則,與其考慮"如果我整體換一套策略會怎樣",不如只考慮"如果我在某一個時刻做出不同選擇會怎樣"。這種"只看一步偏差"的遺憾感定義,在數學上變成了線性函數,可以用標準的梯度下降算法來高效優化。算法每一步只需要計算一個梯度,然后沿著梯度方向更新策略,就像調整烤箱溫度時每次只旋轉一個刻度一樣,操作簡單可靠。
第三條路更加精妙,它將整個重復博弈"變形"成了另一種數學結構——馬爾可夫博弈(Markov Game)。具體來說,研究團隊發現,如果所有玩家都只記住最近M步的歷史,那么"現在歷史的最后M步"就是完整描述游戲當前狀態所需的全部信息,不需要知道更早發生了什么。在這種情形下,博弈可以被建模為一個有限狀態空間的馬爾可夫決策過程。而在馬爾可夫決策過程中,有一種叫做"占用度量"(occupancy measure)的技巧:不直接優化策略本身,而是優化"在各個狀態下各個行動被選擇的長期頻率"。這種頻率向量恰好滿足某些線性約束,使得原本彎曲的優化問題變成了一個線性規劃問題——就像把一個凹凸不平的地形"拍平",讓尋找最低點變得容易得多。
不過,第三條路有一個額外的挑戰:占用度量天然地同時包含了所有玩家的策略信息,但在真實的博弈場景中,AI只能控制自己的策略,對手的策略是外部給定的。研究團隊為此精心設計了一組約束條件,確保在優化過程中,從占用度量中"提取"出來的對手策略,與對手實際采用的策略足夠接近。由于博弈是在線進行的,AI在第t步時還不知道對手在第t步會怎么做,只能用第t-1步的對手策略來近似——研究團隊通過嚴格的數學分析證明,這種近似所引入的誤差不會無限積累,整體上仍然能保證RP-遺憾是次線性的,但需要一個額外條件:對手的策略變化也必須是次線性的。
五、學會"不后悔"的玩家,最終會走向何方?
這項研究最引人入勝的部分,或許是它揭示了"最小化遺憾"與"找到好的博弈均衡"之間的深刻聯系。
在博弈論中,最理想的均衡狀態叫做"子博弈完美納什均衡"(Subgame Perfect Nash Equilibrium,SPNE)。這個概念聽起來很嚇人,但核心意思其實很簡單:一種策略組合,使得在游戲的任意時刻、任意歷史情境下,都沒有任何玩家能通過單獨改變自己的策略來獲益。這是一種"無懈可擊"的穩定狀態。
研究團隊證明:如果所有玩家都能成功地將RP-遺憾最小化(也就是說,經過足夠多回合的博弈,平均遺憾趨近于零),那么他們正在玩的策略組合,正是無限重復博弈的一個近似子博弈完美納什均衡。換句話說,"學會不后悔"和"找到穩定的合作均衡"是同一件事的兩個面貌。
類似地,如果所有玩家最小化的是LRP-遺憾(局部線性化版本),最終會收斂到近似的子博弈完美均衡,且這個均衡對于玩家試圖偏離的范圍有一定限制。研究團隊還專門設計了一個算法(Algorithm 3),在所有玩家滿足探索性條件的前提下,能夠在T?次迭代內找到一個近似程度為O(1/T?^(2/7))的子博弈完美粗粒化相關均衡(SPCCE)。這個結果意味著,隨著迭代次數增加,找到的均衡質量會穩步提升。
這一系列理論聯系之所以重要,是因為子博弈完美均衡在重復博弈中往往對應著合作行為的出現。以囚徒困境為例,在無限重復的版本中,"針鋒相對"式的合作就是子博弈完美均衡之一——而在單次博弈中,背叛才是唯一的均衡。研究團隊的理論框架為"通過學習過程自然涌現合作行為"提供了堅實的理論支撐。
六、實驗室里的"獵鹿博弈":理論落地的直觀驗證
為了驗證理論的實際價值,研究團隊選擇了"獵鹿博弈"(Stag-Hunt)作為實驗場景。獵鹿博弈是一個有兩個均衡的經典游戲:兩個獵人可以選擇合作獵大鹿(雙方都選Stag,各得1.0分),或者各自獨立獵野兔(雙方都選Hare,各得0.5分)。第三種情形是一方獵鹿另一方獵兔:獵兔的人得0.8分,獵鹿但被放鴿子的人只得0.1分。
從單次博弈的角度看,"獵兔"是個更安全的選擇——無論對方怎么選,你都不會太虧。而"合力獵鹿"雖然能獲得更高收益,但需要雙方互相信任和配合,有一定風險。因此,傳統的AI學習方法往往會收斂到"獵兔-獵兔"這個較差的均衡。
研究團隊讓兩個AI玩家各自最小化LRP-遺憾,共進行100,000次迭代實驗,每次實驗隨機初始化策略。實驗結果顯示:隨著記憶長度M從1增加到3,玩家的平均收益從約0.55逐步攀升到接近0.7,越來越多的實驗收斂到了"合力獵鹿"的高收益均衡,而非"各自獵兔"的低收益均衡。這個結果直觀地驗證了理論預測:最小化RP-遺憾(或其線性化版本)能夠引導玩家找到更好的合作均衡,而傳統的學習方法做不到這一點。
七、這項研究開辟了哪些新邊界
歸根結底,這項研究做了一件重要的事:它在"AI學習"和"真實博弈"之間搭建了一座更堅固的橋梁。過去的AI學習理論大多假設"環境不受玩家影響",就像假設天氣不會因為你帶不帶傘而改變。但真實的多人博弈世界恰恰相反:你的每一個行動都會影響對手,對手的改變又會反過來影響你。
研究團隊提出的RP-遺憾框架,正是第一個系統性地將這種"雙向影響"納入學習目標的理論體系。它不僅告訴我們在什么條件下可以"不后悔"地學習,還提供了三種不同計算效率的算法來實現這一目標,并將"不后悔學習"的過程與博弈均衡的計算聯系起來。
當然,這項研究也留下了若干開放問題。比如,當對手的策略變化很快時(不滿足次線性變化條件),研究團隊第三條路中的算法就無法提供保證——這種情形在實際應用中并不少見。此外,研究目前聚焦于有限動作空間的矩陣博弈,將其推廣到更復雜的博弈結構(如連續動作空間、部分可觀測環境)仍需要進一步工作。
更有趣的一個未解問題是:什么樣的博弈結構能保證所有玩家最小化RP-遺憾后,一定收斂到高收益的合作均衡,而非某個低效的"壞均衡"?研究團隊在獵鹿博弈中觀察到了向好均衡收斂的趨勢,但給出嚴格的理論保證還需要更深入的分析。這些開放問題構成了未來研究的豐富土壤。
說到底,這項研究的核心貢獻,是幫我們認清了一個樸素但常被忽視的道理:在真正的博弈中,你的對手不是一臺固定程序的機器,而是一個會觀察、會學習、會反應的活生生的決策者。承認這一點,并將其納入學習算法的設計中,才能讓AI真正具備在復雜、動態、多主體環境中做出明智選擇的能力——這正是通往更智能、更具適應性的AI系統的必經之路。
對這一領域感興趣的讀者,可以通過arXiv編號2606.06486查閱這篇由麻省理工學院、OpenAI與馬里蘭大學合作完成、發表于COLT 2026的完整論文,深入了解其中的數學細節和完整的理論證明。
Q&A
Q1:重復策略遺憾(RP-Regret)和傳統外部遺憾有什么本質區別?
A:傳統外部遺憾在比較時假設對手的行為不受你影響,就像把對手當成錄像機。RP-遺憾則承認對手會根據你的歷史行為來調整策略,因此在計算"假設我選了另一種策略能得多少"時,對手的行為也會相應改變。這一區別使得"針鋒相對"這類合作策略在RP-遺憾下表現優異,而在傳統遺憾下卻顯得很差。
Q2:指數衰減記憶條件為什么比簡單的有限步記憶限制更嚴格?
A:簡單的M步記憶只限制玩家直接參考多少步歷史,但聰明的玩家可以把更早的信息"編碼"進近期的行動里傳遞下去。指數衰減記憶條件要求:兩段只在很久以前不同的歷史,必須導致幾乎相同的決策,且這種相似性隨著近期相同歷史的加長而指數級增強,從根本上封堵了信息通過行動序列遠距離傳遞的可能。
Q3:獵鹿博弈實驗中,LRP-遺憾最小化為什么能幫助玩家找到合作均衡?
A:LRP-遺憾評估的是"如果在某一時刻我改變策略,考慮到對手會隨之調整,我能獲益多少"。在獵鹿博弈中,如果對方趨向于合作,背叛帶來的短期收益會被對手隨后的報復完全抵消,因此LRP-遺憾最小化會引導玩家維持合作。傳統方法則看不到這種反饋機制,傾向于選擇更"保險"的獵兔策略,從而困在低效均衡中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.