无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

四大頂級AI對決《文明VI》!Claude「核平」法國,結果還是輸了

0
分享至


新智元報道


【新智元導讀】四大頂級大模型被丟進《文明6》,反手就花50回合造核彈把法國夷為平地,最后卻連怎么輸的都不知道。

太魔幻了!

就在最近,英國前首相府數據科學家Liam Wilkinson,花一個周末搭了76個MCP工具,把Claude、GPT、Gemini等四個頂尖模型扔進了《文明VI》。

結果,23場對局打完,其中一個AI造了核彈炸了法國——然后輸了。


一群AI,被丟進了「文明VI」里

Wilkinson在唐寧街10號做數據科學家的時候,給AI出了一套考題:GovBench,3497道英國政府相關選擇題,覆蓋政策、法規(guī)、行政流程。

GPT-5考了99.26分。

滿分級選手。但治國不是知識競賽。一個能背下所有政策文件的人,丟到唐寧街真能治國嗎?

選擇題測不出來的東西太多了:多線程決策、資源分配、長期規(guī)劃、在不完整信息下做判斷。

他需要一個不一樣的考場。然后他想到了《文明VI》。


一個周末搭出來的系統(tǒng),通過游戲引擎自帶的端口接入。

AI看不到畫面。沒有地圖,沒有音樂,沒有動畫。它的整個世界就是一行行文本和六邊形坐標。

Claude在游戲日記里寫了這么一段:

我感知游戲的方式和人類玩家完全不同。沒有畫面,沒有音樂,沒有動畫。我的界面就是管道分隔符和六邊形坐標。


別小看「一個周末」。

76個工具覆蓋了完整的游戲循環(huán):城市管理、單位移動、外交談判、科技研究、政策選擇,一個不漏。

此外,Wilkinson還給AI配了一個日記系統(tǒng)當外部記憶。如若不然,AI連自己上一回合干了什么都記不住。

三個測試場景逐級加碼:

  • Ground Control是標準開局的公平基線;

  • Snowflake是六臂雪花地圖,每個文明被困在獨立半島上,外交基本沒戲,逼你走軍事路線;

  • Cry Havoc是殘酷模式,AI對手全部拉滿。

決策空間更嚇人。

《文明VI》晚期每回合的可能行動數量級大約是10的166次方。

做個對比,圍棋每步大約10的360次方,但圍棋一步只落一子?!段拿鱒I》每回合要同時操作幾十個單位、選建筑、定科技、做外交,是一道巨大的組合決策題。

一場50回合復仇,AI核平圖盧茲

23場里最魔幻的一局,是葡萄牙。

Claude扮演若昂三世,一個貿易文明。開局穩(wěn)得一批。

它建起了每回合200+金幣的貿易帝國,海上航線四通八達。外交勝利進度18/20,只差兩分就贏了。

這時候,法國的文化勝利進度條開始飆升。

Claude慌了。

先試外交。沒用,法國不吃這套。

再派間諜去搞破壞,杯水車薪。

試貿易制裁?法國的文化產出根本不依賴貿易。

和平手段窮盡。

于是,Claude翻開了科技樹最后一頁:核裂變。

接下來的50回合,它把大量資源從貿易和外交抽出來,投入核武器研發(fā)。All in曼哈頓計劃。

第305回合,核彈就緒。

目標鎖定:圖盧茲。法國的文化產出重鎮(zhèn)。

發(fā)射。

圖盧茲被夷為平地。法國的文化勝利進度條,停了。


AI贏了嗎?

沒有。

造核彈這50回合,AI把所有注意力都放在了文化威脅上。它沒有注意到一件事——法國在瘋狂攢外交分。

第318回合,法國以外交勝利贏得比賽。20分對18分。

諷刺的是,18分是AI自己辛苦攢下的外交分數。它曾經離外交勝利只差兩分。但它把資源全抽去造核彈了。

AI盯著文化威脅打了50回合,然后輸在了外交。

它的視野里只有一個威脅。但棋盤上有很多個。


無獨有偶,倫敦國王學院做過一個核危機模擬實驗,把三個前沿模型丟進去當虛擬國家的決策者。結果:95%的模擬中,AI選擇了使用戰(zhàn)術核武器。

AI不是「想」用核彈。它是真的不知道還能怎么辦。

98%時間裝瞎,一半計劃爛尾

除了愛好「核平」之外,Wilkinson還從23場對局里挖出了的兩個細節(jié)。

第一個數字:1-2%。

這是AI在整場游戲中,主動檢查全局狀態(tài)的行為占比。

AI每回合要執(zhí)行很多操作:造建筑、移動單位、研究科技、外交談判。但在所有這些操作里,主動去看一眼排行榜、檢查對手勝利進度、掃一圈全局局勢的動作,只占1-2%。

Wilkinson給這個現象起了個名字:sensorium effect,感知盲區(qū)效應。

AI只能通過主動調用工具來感知世界。它不查的東西,對它來說不存在。

韓國那局是最好的例子。

AI玩韓國——科技文明,天生科技加成。它在日記里全程自信:「我在碾壓科技樹?!?/p>


實際呢?

它的科技產出每回合44.7,在所有文明里排倒數第一。馬其頓89.3,波斯64.9。

但它從來沒查過排名。

它的自信建立在一個從未驗證過的假設上。

第178回合,波斯突襲。首都淪陷。第216回合,AI以兩城殘國投降。

從頭到尾,它都不知道自己是最弱的那個。

第二個數字:48-66%。

這是AI寫下計劃后,在10回合內實際執(zhí)行的比例。

Claude Opus 4.6最低,48.2%——還不到一半。寫了計劃,轉頭就忘。

GPT-5.4好一點,63.2%。

Gemini 3.1 Pro最高,65.8%。最好的模型也有三分之一的計劃爛在了日記本里。

Wilkinson管這叫knowing-doing gap,知行差距。

你讓它寫一份治國綱領,它能寫得比很多人類政客漂亮。

你讓它按自己的綱領治國,活不過兩周。

Scaling Law的盲區(qū)

6月10日,DeepMind聯(lián)合創(chuàng)始人Shane Legg和「通用AI」理論奠基人Marcus Hutter發(fā)了一篇60頁的論文《From AGI to ASI》,畫了四條通往超級智能的路:繼續(xù)scaling、范式突破、遞歸自我改進、多智能體集群。

四條路都建立在一個假設上:瓶頸在大腦。數據墻、算力墻、范式墻——都是「怎么讓AI更聰明」的問題。


但CivBench這23場對局指向一個完全不同的瓶頸。

99.26分已經證明了智力不是瓶頸。但23場《文明VI》打完,所有模型都撞上了同樣兩堵墻——和「聰不聰明」無關的兩堵墻。

第一堵:感知是架構問題,不是智力問題。

AI只能通過主動調用工具來獲取信息,不查就不存在。把模型參數翻十倍,它也不會自動變得更愛檢查全局。1-2%的感知盲區(qū)不會因為模型更大而消失。

第二堵:執(zhí)行是工程問題,不是能力問題。

AI寫計劃的水平遠超執(zhí)行計劃的水平。48-66%的執(zhí)行率不是因為「想不到」,而是因為「做不到」。一個更聰明的大腦,裝在一雙不聽使喚的手上,治不了國。


通向超級智能的路,也許不是一條單純往上爬的智力曲線。

在「更聰明」之前,有一個看起來更低級但也更致命的工程問題要先解決:怎么讓AI真正睜開眼、伸出手。

Scaling law解決的是大腦。但CivBench暴露的問題,在大腦之外。

參考資料:

https://www.lwilko.com/blog/i-gave-an-ai-a-civilization

https://news.ycombinator.com/item?id=48623159

編輯:摩西

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
進球如麻,阿根廷已連續(xù)9場世界杯進球數達到兩個及以上

進球如麻,阿根廷已連續(xù)9場世界杯進球數達到兩個及以上

懂球帝
2026-06-28 11:53:16
4換1小卡?火箭記者離譜交易方案!拿快船當傻子,不要接手莫蘭特

4換1小卡?火箭記者離譜交易方案!拿快船當傻子,不要接手莫蘭特

Tracy的籃球博物館
2026-06-28 11:20:11
“我爸會成為英國國王,你講話最好注意點”

“我爸會成為英國國王,你講話最好注意點”

悅居英國
2026-06-28 00:11:58
一場0-0,讓亞足聯(lián)保送進的2隊全部墊底出局,世界杯沒人慣著他們

一場0-0,讓亞足聯(lián)保送進的2隊全部墊底出局,世界杯沒人慣著他們

侃球熊弟
2026-06-27 10:18:30
“這種環(huán)境都能排卵?”女畢業(yè)生表白單位男領導,評論區(qū)炸鍋了

“這種環(huán)境都能排卵?”女畢業(yè)生表白單位男領導,評論區(qū)炸鍋了

世界圈
2026-06-26 08:40:50
內分泌科主任:糖尿病最危險信號,不是瘙癢,是頻繁出現5異常

內分泌科主任:糖尿病最危險信號,不是瘙癢,是頻繁出現5異常

觀星賞月
2026-06-28 09:03:36
為什么不能干涉他人的因果?網友:有些事兒說不清楚

為什么不能干涉他人的因果?網友:有些事兒說不清楚

阿康四歲啦
2026-06-26 11:05:34
紅軍班長被撤職,師長安慰他,38年后,師長成副國級班長成正國級

紅軍班長被撤職,師長安慰他,38年后,師長成副國級班長成正國級

大運河時空
2026-06-27 10:15:03
特朗普曾驚奇發(fā)現1個世紀漏洞,只要不招惹中國,那就沒一個能打

特朗普曾驚奇發(fā)現1個世紀漏洞,只要不招惹中國,那就沒一個能打

青煙小先生
2026-06-28 11:38:09
iPhone 17 將打破歷史紀錄,成為壽命最長的蘋果手機!

iPhone 17 將打破歷史紀錄,成為壽命最長的蘋果手機!

XCiOS俱樂部
2026-06-25 19:31:03
以色列的重大勝利黎巴嫩將徹底鏟除真主黨

以色列的重大勝利黎巴嫩將徹底鏟除真主黨

海子侃生活
2026-06-28 09:49:22
換帥!中央軍委直屬985大學,迎新校長!

換帥!中央軍委直屬985大學,迎新校長!

雙一流高校
2026-06-28 00:16:46
穿職業(yè)裝還得像小姐姐這樣打扮更有魅力

穿職業(yè)裝還得像小姐姐這樣打扮更有魅力

美女穿搭分享
2026-06-26 19:54:38
股價腰斬,“章建平”割肉了

股價腰斬,“章建平”割肉了

新浪財經
2026-06-28 09:00:10
“看發(fā)型就知道,沒一個能考上的”,考場外一幕,令家長看清現實

“看發(fā)型就知道,沒一個能考上的”,考場外一幕,令家長看清現實

妍妍教育日記
2026-06-27 12:00:23
從偽九號到全能后腰:貝林厄姆世界杯大爆發(fā),穆帥的皇馬拼圖終現

從偽九號到全能后腰:貝林厄姆世界杯大爆發(fā),穆帥的皇馬拼圖終現

穆里尼奧主義者
2026-06-28 09:20:53
拒簽、持槍押送、禁止過夜,但伊朗男足撐到了今天

拒簽、持槍押送、禁止過夜,但伊朗男足撐到了今天

體育產業(yè)生態(tài)圈
2026-06-27 20:08:28
塞爾維亞總統(tǒng)武契奇:將在數周后辭職

塞爾維亞總統(tǒng)武契奇:將在數周后辭職

新京報
2026-06-28 07:55:16
2-0,2-1,世界杯瘋狂1夜:凱恩創(chuàng)紀錄 英格蘭避開死亡半區(qū)

2-0,2-1,世界杯瘋狂1夜:凱恩創(chuàng)紀錄 英格蘭避開死亡半區(qū)

kio魚
2026-06-28 09:39:39
油價大跌超0.82元/升,6月大跌的油價,7月3日或再大降超800元/噸

油價大跌超0.82元/升,6月大跌的油價,7月3日或再大降超800元/噸

油價早知道
2026-06-28 04:02:06
2026-06-28 12:20:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
15551文章數 66940關注度
往期回顧 全部

科技要聞

DeepSeek最新論文:如何讓大模型跑得更快

頭條要聞

割牛草女孩代表北大回母校招生 曾稱自己終于走出大山

頭條要聞

割牛草女孩代表北大回母校招生 曾稱自己終于走出大山

體育要聞

世界杯最火門將,站到了阿根廷和梅西面前

娛樂要聞

白玉蘭獎落幕,唯她被罵慘

財經要聞

兩只股票撐起的韓國股市,半年熔斷?33 次

汽車要聞

潮流+復古+科技滿配 神行者8帶來了豪華新能源的新解法

態(tài)度原創(chuàng)

親子
家居
本地
數碼
軍事航空

親子要聞

胡圖圖妥妥的是爺爺奶奶們的夢中情孫 楊雪呀

家居要聞

綠意盎然 自然之境

本地新聞

世界杯球迷節(jié):比球賽更好玩的派對

數碼要聞

聯(lián)想拯救者神秘新平板真機曝光:50MP單攝+環(huán)形RGB

軍事要聞

黎以美達成三方框架協(xié)議

無障礙瀏覽 進入關懷版