![]()
新智元報道
![]()
【新智元導讀】四大頂級大模型被丟進《文明6》,反手就花50回合造核彈把法國夷為平地,最后卻連怎么輸的都不知道。
太魔幻了!
就在最近,英國前首相府數據科學家Liam Wilkinson,花一個周末搭了76個MCP工具,把Claude、GPT、Gemini等四個頂尖模型扔進了《文明VI》。
結果,23場對局打完,其中一個AI造了核彈炸了法國——然后輸了。
![]()
一群AI,被丟進了「文明VI」里
Wilkinson在唐寧街10號做數據科學家的時候,給AI出了一套考題:GovBench,3497道英國政府相關選擇題,覆蓋政策、法規、行政流程。
GPT-5考了99.26分。
滿分級選手。但治國不是知識競賽。一個能背下所有政策文件的人,丟到唐寧街真能治國嗎?
選擇題測不出來的東西太多了:多線程決策、資源分配、長期規劃、在不完整信息下做判斷。
他需要一個不一樣的考場。然后他想到了《文明VI》。
![]()
一個周末搭出來的系統,通過游戲引擎自帶的端口接入。
AI看不到畫面。沒有地圖,沒有音樂,沒有動畫。它的整個世界就是一行行文本和六邊形坐標。
Claude在游戲日記里寫了這么一段:
我感知游戲的方式和人類玩家完全不同。沒有畫面,沒有音樂,沒有動畫。我的界面就是管道分隔符和六邊形坐標。
![]()
別小看「一個周末」。
76個工具覆蓋了完整的游戲循環:城市管理、單位移動、外交談判、科技研究、政策選擇,一個不漏。
此外,Wilkinson還給AI配了一個日記系統當外部記憶。如若不然,AI連自己上一回合干了什么都記不住。
三個測試場景逐級加碼:
Ground Control是標準開局的公平基線;
Snowflake是六臂雪花地圖,每個文明被困在獨立半島上,外交基本沒戲,逼你走軍事路線;
Cry Havoc是殘酷模式,AI對手全部拉滿。
決策空間更嚇人。
《文明VI》晚期每回合的可能行動數量級大約是10的166次方。
做個對比,圍棋每步大約10的360次方,但圍棋一步只落一子。《文明VI》每回合要同時操作幾十個單位、選建筑、定科技、做外交,是一道巨大的組合決策題。
一場50回合復仇,AI核平圖盧茲
23場里最魔幻的一局,是葡萄牙。
Claude扮演若昂三世,一個貿易文明。開局穩得一批。
它建起了每回合200+金幣的貿易帝國,海上航線四通八達。外交勝利進度18/20,只差兩分就贏了。
這時候,法國的文化勝利進度條開始飆升。
Claude慌了。
先試外交。沒用,法國不吃這套。
再派間諜去搞破壞,杯水車薪。
試貿易制裁?法國的文化產出根本不依賴貿易。
和平手段窮盡。
于是,Claude翻開了科技樹最后一頁:核裂變。
接下來的50回合,它把大量資源從貿易和外交抽出來,投入核武器研發。All in曼哈頓計劃。
第305回合,核彈就緒。
目標鎖定:圖盧茲。法國的文化產出重鎮。
發射。
圖盧茲被夷為平地。法國的文化勝利進度條,停了。
![]()
AI贏了嗎?
沒有。
造核彈這50回合,AI把所有注意力都放在了文化威脅上。它沒有注意到一件事——法國在瘋狂攢外交分。
第318回合,法國以外交勝利贏得比賽。20分對18分。
諷刺的是,18分是AI自己辛苦攢下的外交分數。它曾經離外交勝利只差兩分。但它把資源全抽去造核彈了。
AI盯著文化威脅打了50回合,然后輸在了外交。
它的視野里只有一個威脅。但棋盤上有很多個。
![]()
無獨有偶,倫敦國王學院做過一個核危機模擬實驗,把三個前沿模型丟進去當虛擬國家的決策者。結果:95%的模擬中,AI選擇了使用戰術核武器。
AI不是「想」用核彈。它是真的不知道還能怎么辦。
98%時間裝瞎,一半計劃爛尾
除了愛好「核平」之外,Wilkinson還從23場對局里挖出了的兩個細節。
第一個數字:1-2%。
這是AI在整場游戲中,主動檢查全局狀態的行為占比。
AI每回合要執行很多操作:造建筑、移動單位、研究科技、外交談判。但在所有這些操作里,主動去看一眼排行榜、檢查對手勝利進度、掃一圈全局局勢的動作,只占1-2%。
Wilkinson給這個現象起了個名字:sensorium effect,感知盲區效應。
AI只能通過主動調用工具來感知世界。它不查的東西,對它來說不存在。
韓國那局是最好的例子。
AI玩韓國——科技文明,天生科技加成。它在日記里全程自信:「我在碾壓科技樹。」
![]()
實際呢?
它的科技產出每回合44.7,在所有文明里排倒數第一。馬其頓89.3,波斯64.9。
但它從來沒查過排名。
它的自信建立在一個從未驗證過的假設上。
第178回合,波斯突襲。首都淪陷。第216回合,AI以兩城殘國投降。
從頭到尾,它都不知道自己是最弱的那個。
第二個數字:48-66%。
這是AI寫下計劃后,在10回合內實際執行的比例。
Claude Opus 4.6最低,48.2%——還不到一半。寫了計劃,轉頭就忘。
GPT-5.4好一點,63.2%。
Gemini 3.1 Pro最高,65.8%。最好的模型也有三分之一的計劃爛在了日記本里。
Wilkinson管這叫knowing-doing gap,知行差距。
你讓它寫一份治國綱領,它能寫得比很多人類政客漂亮。
你讓它按自己的綱領治國,活不過兩周。
Scaling Law的盲區
6月10日,DeepMind聯合創始人Shane Legg和「通用AI」理論奠基人Marcus Hutter發了一篇60頁的論文《From AGI to ASI》,畫了四條通往超級智能的路:繼續scaling、范式突破、遞歸自我改進、多智能體集群。
四條路都建立在一個假設上:瓶頸在大腦。數據墻、算力墻、范式墻——都是「怎么讓AI更聰明」的問題。
![]()
但CivBench這23場對局指向一個完全不同的瓶頸。
99.26分已經證明了智力不是瓶頸。但23場《文明VI》打完,所有模型都撞上了同樣兩堵墻——和「聰不聰明」無關的兩堵墻。
第一堵:感知是架構問題,不是智力問題。
AI只能通過主動調用工具來獲取信息,不查就不存在。把模型參數翻十倍,它也不會自動變得更愛檢查全局。1-2%的感知盲區不會因為模型更大而消失。
第二堵:執行是工程問題,不是能力問題。
AI寫計劃的水平遠超執行計劃的水平。48-66%的執行率不是因為「想不到」,而是因為「做不到」。一個更聰明的大腦,裝在一雙不聽使喚的手上,治不了國。
![]()
通向超級智能的路,也許不是一條單純往上爬的智力曲線。
在「更聰明」之前,有一個看起來更低級但也更致命的工程問題要先解決:怎么讓AI真正睜開眼、伸出手。
Scaling law解決的是大腦。但CivBench暴露的問題,在大腦之外。
參考資料:
https://www.lwilko.com/blog/i-gave-an-ai-a-civilization
https://news.ycombinator.com/item?id=48623159
編輯:摩西
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.