无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

四大頂級AI對決《文明VI》！Claude「核平」法國，結果還是輸了

2026-06-28 09:35:59　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】四大頂級大模型被丟進《文明6》，反手就花50回合造核彈把法國夷為平地，最后卻連怎么輸的都不知道。

太魔幻了！

就在最近，英國前首相府數據科學家Liam Wilkinson，花一個周末搭了76個MCP工具，把Claude、GPT、Gemini等四個頂尖模型扔進了《文明VI》。

結果，23場對局打完，其中一個AI造了核彈炸了法國——然后輸了。

一群AI，被丟進了「文明VI」里

Wilkinson在唐寧街10號做數據科學家的時候，給AI出了一套考題：GovBench，3497道英國政府相關選擇題，覆蓋政策、法規、行政流程。

GPT-5考了99.26分。

滿分級選手。但治國不是知識競賽。一個能背下所有政策文件的人，丟到唐寧街真能治國嗎？

選擇題測不出來的東西太多了：多線程決策、資源分配、長期規劃、在不完整信息下做判斷。

他需要一個不一樣的考場。然后他想到了《文明VI》。

一個周末搭出來的系統，通過游戲引擎自帶的端口接入。

AI看不到畫面。沒有地圖，沒有音樂，沒有動畫。它的整個世界就是一行行文本和六邊形坐標。

Claude在游戲日記里寫了這么一段：

我感知游戲的方式和人類玩家完全不同。沒有畫面，沒有音樂，沒有動畫。我的界面就是管道分隔符和六邊形坐標。

別小看「一個周末」。

76個工具覆蓋了完整的游戲循環：城市管理、單位移動、外交談判、科技研究、政策選擇，一個不漏。

此外，Wilkinson還給AI配了一個日記系統當外部記憶。如若不然，AI連自己上一回合干了什么都記不住。

三個測試場景逐級加碼：

Ground Control是標準開局的公平基線；
Snowflake是六臂雪花地圖，每個文明被困在獨立半島上，外交基本沒戲，逼你走軍事路線；
Cry Havoc是殘酷模式，AI對手全部拉滿。

決策空間更嚇人。

《文明VI》晚期每回合的可能行動數量級大約是10的166次方。

做個對比，圍棋每步大約10的360次方，但圍棋一步只落一子。《文明VI》每回合要同時操作幾十個單位、選建筑、定科技、做外交，是一道巨大的組合決策題。

一場50回合復仇，AI核平圖盧茲

23場里最魔幻的一局，是葡萄牙。

Claude扮演若昂三世，一個貿易文明。開局穩得一批。

它建起了每回合200+金幣的貿易帝國，海上航線四通八達。外交勝利進度18/20，只差兩分就贏了。

這時候，法國的文化勝利進度條開始飆升。

Claude慌了。

先試外交。沒用，法國不吃這套。

再派間諜去搞破壞，杯水車薪。

試貿易制裁？法國的文化產出根本不依賴貿易。

和平手段窮盡。

于是，Claude翻開了科技樹最后一頁：核裂變。

接下來的50回合，它把大量資源從貿易和外交抽出來，投入核武器研發。All in曼哈頓計劃。

第305回合，核彈就緒。

目標鎖定：圖盧茲。法國的文化產出重鎮。

發射。

圖盧茲被夷為平地。法國的文化勝利進度條，停了。

AI贏了嗎？

沒有。

造核彈這50回合，AI把所有注意力都放在了文化威脅上。它沒有注意到一件事——法國在瘋狂攢外交分。

第318回合，法國以外交勝利贏得比賽。20分對18分。

諷刺的是，18分是AI自己辛苦攢下的外交分數。它曾經離外交勝利只差兩分。但它把資源全抽去造核彈了。

AI盯著文化威脅打了50回合，然后輸在了外交。

它的視野里只有一個威脅。但棋盤上有很多個。

無獨有偶，倫敦國王學院做過一個核危機模擬實驗，把三個前沿模型丟進去當虛擬國家的決策者。結果：95%的模擬中，AI選擇了使用戰術核武器。

AI不是「想」用核彈。它是真的不知道還能怎么辦。

98%時間裝瞎，一半計劃爛尾

除了愛好「核平」之外，Wilkinson還從23場對局里挖出了的兩個細節。

第一個數字：1-2%。

這是AI在整場游戲中，主動檢查全局狀態的行為占比。

AI每回合要執行很多操作：造建筑、移動單位、研究科技、外交談判。但在所有這些操作里，主動去看一眼排行榜、檢查對手勝利進度、掃一圈全局局勢的動作，只占1-2%。

Wilkinson給這個現象起了個名字：sensorium effect，感知盲區效應。

AI只能通過主動調用工具來感知世界。它不查的東西，對它來說不存在。

韓國那局是最好的例子。

AI玩韓國——科技文明，天生科技加成。它在日記里全程自信：「我在碾壓科技樹。」

實際呢？

它的科技產出每回合44.7，在所有文明里排倒數第一。馬其頓89.3，波斯64.9。

但它從來沒查過排名。

它的自信建立在一個從未驗證過的假設上。

第178回合，波斯突襲。首都淪陷。第216回合，AI以兩城殘國投降。

從頭到尾，它都不知道自己是最弱的那個。

第二個數字：48-66%。

這是AI寫下計劃后，在10回合內實際執行的比例。

Claude Opus 4.6最低，48.2%——還不到一半。寫了計劃，轉頭就忘。

GPT-5.4好一點，63.2%。

Gemini 3.1 Pro最高，65.8%。最好的模型也有三分之一的計劃爛在了日記本里。

Wilkinson管這叫knowing-doing gap，知行差距。

你讓它寫一份治國綱領，它能寫得比很多人類政客漂亮。

你讓它按自己的綱領治國，活不過兩周。

Scaling Law的盲區

6月10日，DeepMind聯合創始人Shane Legg和「通用AI」理論奠基人Marcus Hutter發了一篇60頁的論文《From AGI to ASI》，畫了四條通往超級智能的路：繼續scaling、范式突破、遞歸自我改進、多智能體集群。

四條路都建立在一個假設上：瓶頸在大腦。數據墻、算力墻、范式墻——都是「怎么讓AI更聰明」的問題。

但CivBench這23場對局指向一個完全不同的瓶頸。

99.26分已經證明了智力不是瓶頸。但23場《文明VI》打完，所有模型都撞上了同樣兩堵墻——和「聰不聰明」無關的兩堵墻。

第一堵：感知是架構問題，不是智力問題。

AI只能通過主動調用工具來獲取信息，不查就不存在。把模型參數翻十倍，它也不會自動變得更愛檢查全局。1-2%的感知盲區不會因為模型更大而消失。

第二堵：執行是工程問題，不是能力問題。

AI寫計劃的水平遠超執行計劃的水平。48-66%的執行率不是因為「想不到」，而是因為「做不到」。一個更聰明的大腦，裝在一雙不聽使喚的手上，治不了國。

通向超級智能的路，也許不是一條單純往上爬的智力曲線。

在「更聰明」之前，有一個看起來更低級但也更致命的工程問題要先解決：怎么讓AI真正睜開眼、伸出手。

Scaling law解決的是大腦。但CivBench暴露的問題，在大腦之外。

參考資料：

https://www.lwilko.com/blog/i-gave-an-ai-a-civilization

https://news.ycombinator.com/item?id=48623159

編輯：摩西

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型戰爭下半場：誰還愿意一直租用 AI？

鈦媒體APP 2026-06-29 11:37:08
0 跟貼 0
騰訊新太子，悄悄干到行業第一

DT商業觀察 2026-06-29 12:18:37
0 跟貼 0

多收170萬！AI賬單黑箱曝光，Anthropic退錢不認賬

新智元 2026-06-29 11:42:00
0 跟貼 0

印度擰緊水龍頭，巴鐵百枚核彈傻了眼：這才是世上最狠的武器

環球軍武密語 2026-06-28 11:45:21
0 跟貼 0
如果美軍硬要插手臺海沖突，法國軍事報告推演結果曾讓人瞠目結舌

環球談軍武 2026-06-28 11:49:41
0 跟貼 0

寡頭逼普京按核按鈕，俄媒自己都怕了：中國翻臉比核彈更致命

孤單是寂寞的毒 2026-06-29 00:09:22
1 跟貼 1

西方突然醒悟，中國一直在單挑全世界，如今已經無人能阻

痛了還要扯著嘴角微笑 2026-06-28 04:32:50
0 跟貼 0
陸戰隊在韓國發起排級實彈攻擊

山木科普 2026-06-29 03:32:00
5 跟貼 5

張召忠警告：2100枚核彈待命，開戰無處可逃

皇朝冰酷 2026-06-29 02:45:32
0 跟貼 0
核彈發射需要多少段代碼？有多“復雜”？ # 軍事科普

裝備解析室 2026-06-29 10:43:49
0 跟貼 0
蘇聯解體分核彈，大鵝17500枚，大烏有多少

辛苦的小陳拉 2026-06-29 07:16:13
0 跟貼 0
斷交法國，非洲又現“天降猛男”？看到清一色中式裝備，這下懂了

張斌說 2026-06-28 17:29:33
3 跟貼 3
5枚核彈就能毀滅紐約！美花萬億追求核優勢，學者怒斥：毫無意義

帶你領略快樂真諦 2026-06-29 05:25:47
1 跟貼 1
莫斯科挨打，油庫炸成火球，俄羅斯為何死扛著不敢扔核彈

星空解密站 2026-06-28 12:22:41
1 跟貼 1
觀看核彈爆炸的安全距離是多少？ # 核爆

裝備解析室 2026-06-29 10:51:41
0 跟貼 0
法國“陣風”戰機倒飛狀態下收放起落架

裝甲鏟史官 2026-04-24 11:17:06
1223 跟貼 1223
核爆過程中出現的白色煙柱是啥？ # 軍事科普

裝備解析室 2026-06-29 10:38:10
0 跟貼 0
俄軍亞核彈襲紅利曼，烏軍硬扛消耗戰天平已傾斜

獨醉笑清風 2026-06-27 06:17:54
12 跟貼 12
法國奇葩沖鋒槍，槍托彈匣皆可折疊

裝甲鏟史官 2026-04-29 11:43:56
0 跟貼 0
韓國機槍裝彈

猴哥看世界 2026-06-28 09:31:42
1 跟貼 1
韓國排列八門高炮射擊 50 架靜態 FPV 無人機，仍未能全部擊落

深度Militaire 2026-06-29 10:24:21
0 跟貼 0
法國二戰遺跡，被炮彈打爛的德軍鋼制碉堡

裝甲鏟史官 2026-04-25 08:43:23
0 跟貼 0
韓國反無人機演練：8門高射炮齊射50架無人機

萌城少年強 2026-06-28 12:57:42
0 跟貼 0
老炮再戰新時代！韓國搬出8門古董火神炮，50架無人機幾乎全滅

北山戰史 2026-06-28 16:45:22
1 跟貼 1
烏克蘭分分鐘造核彈有技術、有材料、有人才、有決心不是虛張聲勢

世界探索發現 2026-06-29 02:10:03
0 跟貼 0
東風-17震撼亮相，日本右翼炸鍋，小泉急赴韓國拉盟友對抗中國

人生何嘗不是酒 2026-06-29 02:07:47
0 跟貼 0
烏克蘭水壩，被炸北約集體沉默，俄羅斯這回動真格了！

趣萌搞笑 2026-06-28 13:15:59
1 跟貼 1
泰國國王夫婦抵達法國，思蕊梵公主跪迎，現場紅毯鋪開禮兵列隊

九妹簡訊 2026-06-29 10:50:56
4 跟貼 4
翻臉之后的局面，任何國家都扛不住！

小糖發財 2026-06-28 13:15:55
0 跟貼 0
坦克炮能打無人機？法國開發反無人機霰彈

裝甲鏟史官 2026-05-24 11:16:41
0 跟貼 0
法國生態部長大發牢騷：那些要安裝空調的人讓我感到震驚！

臺海大林 2026-06-29 08:02:38
843 跟貼 843
美以不敢顛覆政權：伊朗幾天內就能造出核彈，到底真的假的？

開著車去流浪 2026-06-29 11:28:32
0 跟貼 0
韓國世界杯小組淘汰的深層內幕！

白話頻道 2026-06-29 02:24:06
50 跟貼 50
介文汲：環太軍演新變化，韓國首次出任海上指揮官！

老劉觀體育 2026-06-29 05:16:57
0 跟貼 0
越南，已經主動從中國的經濟巨艦上跳船了！

一飲山河 2026-06-26 13:00:49
0 跟貼 0
美日興師動眾舉行三場軍演，韓國突然通報，十余架中俄軍機現身

秋之潔 2026-06-28 03:14:50
0 跟貼 0
聯合軍演再生變數，剛掌指揮權，李在明要對中國動手

小雪有話說 2026-06-29 00:00:00
0 跟貼 0
天津老兩口在法國每天給兩個外孫做西餐，今天做肉片裹奶酪

帶娃翻車老父親 2026-06-28 04:43:35
0 跟貼 0
外網看韓國挖掘志愿軍遺骸畫面

巴巴米影視 2026-06-28 14:27:37
0 跟貼 0
布基納法索政府宣布與法國斷交

RT今日俄羅斯 2026-06-28 01:34:14
0 跟貼 0

張高澄道士：抑郁的人最需要的不是愛，不是陪伴，而是這兩樣東西

張高澄道士：抑郁的人最需要的不是愛，不是陪伴，而是這兩樣東西

心理觀察局

2026-06-27 06:59:04

美國大滿貫爆冷！世界冠軍被淘汰，王曼昱迎來大滿貫首秀國乒穩了

美國大滿貫爆冷！世界冠軍被淘汰，王曼昱迎來大滿貫首秀國乒穩了

寒律

2026-06-29 11:03:45

不容易，加拿大是14年哥斯達黎加后首個贏得世界杯淘汰賽的中北美球隊

不容易，加拿大是14年哥斯達黎加后首個贏得世界杯淘汰賽的中北美球隊

懂球帝

2026-06-29 05:13:08

洛塞爾索：只有我和家人知道我經歷了什么梅西3場6球難以置信

洛塞爾索：只有我和家人知道我經歷了什么梅西3場6球難以置信

云隱南山

2026-06-28 19:14:04

阿拉巴：2-3的時候已經在考慮收行李的事了，出線后如釋重負

阿拉巴：2-3的時候已經在考慮收行李的事了，出線后如釋重負

懂球帝

2026-06-29 03:26:09

向佐向佑再同框！兄弟倆一起參加線下活動，弟弟最新露臉有變化

向佐向佑再同框！兄弟倆一起參加線下活動，弟弟最新露臉有變化

喜歡歷史的阿繁

2026-06-28 21:23:50

1000公里電車長途下來，我終于敢說：高速跑電車，簡直就是活受罪

1000公里電車長途下來，我終于敢說：高速跑電車，簡直就是活受罪

網絡易不易

2026-06-08 11:51:35

民眾瘋搶空調，政府不準，熱死也不能買？徳媒怒斥中國正摧毀歐洲

民眾瘋搶空調，政府不準，熱死也不能買？徳媒怒斥中國正摧毀歐洲

嫹筆牂牂

2026-06-29 11:35:39

37批食品上黑榜，淘寶拼多多居首，兩千萬級網紅店鋪查出獸藥殘留

37批食品上黑榜，淘寶拼多多居首，兩千萬級網紅店鋪查出獸藥殘留

流史歲月

2026-06-27 19:00:03

思蕊梵公主訪法國第一天！穿波點裙致敬奶奶，還是泰王的貼心女兒

思蕊梵公主訪法國第一天！穿波點裙致敬奶奶，還是泰王的貼心女兒

八八尚語

2026-06-29 11:05:53

事情清楚了！大鬧飛機迫降日本東京機場的爭執原因曝光了

事情清楚了！大鬧飛機迫降日本東京機場的爭執原因曝光了

安安說

2026-06-28 11:33:07

劉濤去上海出差，想著好久沒見孫儷，發微信約晚飯。孫儷回得很快：見面可以，只能中午，四點前必須散

劉濤去上海出差，想著好久沒見孫儷，發微信約晚飯。孫儷回得很快：見面可以，只能中午，四點前必須散

LULU生活家

2026-06-28 09:20:29

熱鬧！3換3交易達成！勇士補強目標確定，兩隊報價追求倫納德

熱鬧！3換3交易達成！勇士補強目標確定，兩隊報價追求倫納德

體壇小李

2026-06-29 10:08:01

軌道被“曬傷”，德國萊比錫有軌電車停運；德國最高氣溫紀錄接連刷新，周末至少7人死于溺水

軌道被“曬傷”，德國萊比錫有軌電車停運；德國最高氣溫紀錄接連刷新，周末至少7人死于溺水

極目新聞

2026-06-28 21:06:51

流浪26年滿身污垢的沈巍，如今身價百萬還有小15歲女友，他憑的啥

流浪26年滿身污垢的沈巍，如今身價百萬還有小15歲女友，他憑的啥

從零到一研究所

2026-06-18 16:15:07

桑切斯：擊敗我們的不是葡萄牙，而是根本無法自圓其說的判罰

桑切斯：擊敗我們的不是葡萄牙，而是根本無法自圓其說的判罰

硯底沉香

2026-06-28 18:06:13

蘋果新機上架，6月28日，正式開賣

蘋果新機上架，6月28日，正式開賣

科技堡壘

2026-06-28 12:53:34

美媒：中國第30架量產殲-35下線，隱身能力比美國F-22戰斗機更強

美媒：中國第30架量產殲-35下線，隱身能力比美國F-22戰斗機更強

藍星雜談

2026-06-29 10:50:44

原來他們是兩口子，曾大紅大紫卻丁克一輩子，如今都住上海養老院

原來他們是兩口子，曾大紅大紫卻丁克一輩子，如今都住上海養老院

嘆為觀止易

2026-06-28 05:42:57

日本混血守門員堪稱世界級，但他忠于日本，美媒惋惜：美國沒搶到

日本混血守門員堪稱世界級，但他忠于日本，美媒惋惜：美國沒搶到

寒士之言本尊

2026-06-15 21:14:37

AI產業主平臺領航智能+時代

15557文章數 66943關注度

往期回顧全部

科技要聞

OpenAI推遲上市，那“Kimi們”呢？

頭條要聞

網約車司機與乘客相談甚歡還轉賬15000元結果被拉黑

頭條要聞

網約車司機與乘客相談甚歡還轉賬15000元結果被拉黑

體育要聞

兩周飛5萬公里！因凡蒂諾遭環保人士猛批

娛樂要聞

蕭薔宣布捐出參加“浪姐”所有收入

財經要聞

35歲職場人，又好找工作了？

汽車要聞

精致大氣尊界V800詮釋頂級體驗的新旗艦MPV

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

藝術

家居

公開課

軍事航空

旅游要聞

拙政園人人會去，但“拙政”二字的真正含義，多數游客并不知曉

藝術要聞

晚明"四大天王"手稿，看了方知書法妙！

家居要聞

綠意盎然自然之境

空間微調移形換境
自由流光回溯生活真意
雅奢之序五層別墅

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

軍事要聞

特朗普又發文威脅：伊朗將不復存在

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版