无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

四大頂級AI對決《文明VI》!Claude「核平」法國,結果還是輸了

0
分享至


新智元報道


【新智元導讀】四大頂級大模型被丟進《文明6》,反手就花50回合造核彈把法國夷為平地,最后卻連怎么輸的都不知道。

太魔幻了!

就在最近,英國前首相府數據科學家Liam Wilkinson,花一個周末搭了76個MCP工具,把Claude、GPT、Gemini等四個頂尖模型扔進了《文明VI》。

結果,23場對局打完,其中一個AI造了核彈炸了法國——然后輸了。


一群AI,被丟進了「文明VI」里

Wilkinson在唐寧街10號做數據科學家的時候,給AI出了一套考題:GovBench,3497道英國政府相關選擇題,覆蓋政策、法規、行政流程。

GPT-5考了99.26分。

滿分級選手。但治國不是知識競賽。一個能背下所有政策文件的人,丟到唐寧街真能治國嗎?

選擇題測不出來的東西太多了:多線程決策、資源分配、長期規劃、在不完整信息下做判斷。

他需要一個不一樣的考場。然后他想到了《文明VI》。


一個周末搭出來的系統,通過游戲引擎自帶的端口接入。

AI看不到畫面。沒有地圖,沒有音樂,沒有動畫。它的整個世界就是一行行文本和六邊形坐標。

Claude在游戲日記里寫了這么一段:

我感知游戲的方式和人類玩家完全不同。沒有畫面,沒有音樂,沒有動畫。我的界面就是管道分隔符和六邊形坐標。


別小看「一個周末」。

76個工具覆蓋了完整的游戲循環:城市管理、單位移動、外交談判、科技研究、政策選擇,一個不漏。

此外,Wilkinson還給AI配了一個日記系統當外部記憶。如若不然,AI連自己上一回合干了什么都記不住。

三個測試場景逐級加碼:

  • Ground Control是標準開局的公平基線;

  • Snowflake是六臂雪花地圖,每個文明被困在獨立半島上,外交基本沒戲,逼你走軍事路線;

  • Cry Havoc是殘酷模式,AI對手全部拉滿。

決策空間更嚇人。

《文明VI》晚期每回合的可能行動數量級大約是10的166次方。

做個對比,圍棋每步大約10的360次方,但圍棋一步只落一子。《文明VI》每回合要同時操作幾十個單位、選建筑、定科技、做外交,是一道巨大的組合決策題。

一場50回合復仇,AI核平圖盧茲

23場里最魔幻的一局,是葡萄牙。

Claude扮演若昂三世,一個貿易文明。開局穩得一批。

它建起了每回合200+金幣的貿易帝國,海上航線四通八達。外交勝利進度18/20,只差兩分就贏了。

這時候,法國的文化勝利進度條開始飆升。

Claude慌了。

先試外交。沒用,法國不吃這套。

再派間諜去搞破壞,杯水車薪。

試貿易制裁?法國的文化產出根本不依賴貿易。

和平手段窮盡。

于是,Claude翻開了科技樹最后一頁:核裂變。

接下來的50回合,它把大量資源從貿易和外交抽出來,投入核武器研發。All in曼哈頓計劃。

第305回合,核彈就緒。

目標鎖定:圖盧茲。法國的文化產出重鎮。

發射。

圖盧茲被夷為平地。法國的文化勝利進度條,停了。


AI贏了嗎?

沒有。

造核彈這50回合,AI把所有注意力都放在了文化威脅上。它沒有注意到一件事——法國在瘋狂攢外交分。

第318回合,法國以外交勝利贏得比賽。20分對18分。

諷刺的是,18分是AI自己辛苦攢下的外交分數。它曾經離外交勝利只差兩分。但它把資源全抽去造核彈了。

AI盯著文化威脅打了50回合,然后輸在了外交。

它的視野里只有一個威脅。但棋盤上有很多個。


無獨有偶,倫敦國王學院做過一個核危機模擬實驗,把三個前沿模型丟進去當虛擬國家的決策者。結果:95%的模擬中,AI選擇了使用戰術核武器。

AI不是「想」用核彈。它是真的不知道還能怎么辦。

98%時間裝瞎,一半計劃爛尾

除了愛好「核平」之外,Wilkinson還從23場對局里挖出了的兩個細節。

第一個數字:1-2%。

這是AI在整場游戲中,主動檢查全局狀態的行為占比。

AI每回合要執行很多操作:造建筑、移動單位、研究科技、外交談判。但在所有這些操作里,主動去看一眼排行榜、檢查對手勝利進度、掃一圈全局局勢的動作,只占1-2%。

Wilkinson給這個現象起了個名字:sensorium effect,感知盲區效應。

AI只能通過主動調用工具來感知世界。它不查的東西,對它來說不存在。

韓國那局是最好的例子。

AI玩韓國——科技文明,天生科技加成。它在日記里全程自信:「我在碾壓科技樹。」


實際呢?

它的科技產出每回合44.7,在所有文明里排倒數第一。馬其頓89.3,波斯64.9。

但它從來沒查過排名。

它的自信建立在一個從未驗證過的假設上。

第178回合,波斯突襲。首都淪陷。第216回合,AI以兩城殘國投降。

從頭到尾,它都不知道自己是最弱的那個。

第二個數字:48-66%。

這是AI寫下計劃后,在10回合內實際執行的比例。

Claude Opus 4.6最低,48.2%——還不到一半。寫了計劃,轉頭就忘。

GPT-5.4好一點,63.2%。

Gemini 3.1 Pro最高,65.8%。最好的模型也有三分之一的計劃爛在了日記本里。

Wilkinson管這叫knowing-doing gap,知行差距。

你讓它寫一份治國綱領,它能寫得比很多人類政客漂亮。

你讓它按自己的綱領治國,活不過兩周。

Scaling Law的盲區

6月10日,DeepMind聯合創始人Shane Legg和「通用AI」理論奠基人Marcus Hutter發了一篇60頁的論文《From AGI to ASI》,畫了四條通往超級智能的路:繼續scaling、范式突破、遞歸自我改進、多智能體集群。

四條路都建立在一個假設上:瓶頸在大腦。數據墻、算力墻、范式墻——都是「怎么讓AI更聰明」的問題。


但CivBench這23場對局指向一個完全不同的瓶頸。

99.26分已經證明了智力不是瓶頸。但23場《文明VI》打完,所有模型都撞上了同樣兩堵墻——和「聰不聰明」無關的兩堵墻。

第一堵:感知是架構問題,不是智力問題。

AI只能通過主動調用工具來獲取信息,不查就不存在。把模型參數翻十倍,它也不會自動變得更愛檢查全局。1-2%的感知盲區不會因為模型更大而消失。

第二堵:執行是工程問題,不是能力問題。

AI寫計劃的水平遠超執行計劃的水平。48-66%的執行率不是因為「想不到」,而是因為「做不到」。一個更聰明的大腦,裝在一雙不聽使喚的手上,治不了國。


通向超級智能的路,也許不是一條單純往上爬的智力曲線。

在「更聰明」之前,有一個看起來更低級但也更致命的工程問題要先解決:怎么讓AI真正睜開眼、伸出手。

Scaling law解決的是大腦。但CivBench暴露的問題,在大腦之外。

參考資料:

https://www.lwilko.com/blog/i-gave-an-ai-a-civilization

https://news.ycombinator.com/item?id=48623159

編輯:摩西

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張高澄道士:抑郁的人最需要的不是愛,不是陪伴,而是這兩樣東西

張高澄道士:抑郁的人最需要的不是愛,不是陪伴,而是這兩樣東西

心理觀察局
2026-06-27 06:59:04
美國大滿貫爆冷!世界冠軍被淘汰,王曼昱迎來大滿貫首秀國乒穩了

美國大滿貫爆冷!世界冠軍被淘汰,王曼昱迎來大滿貫首秀國乒穩了

寒律
2026-06-29 11:03:45
不容易,加拿大是14年哥斯達黎加后首個贏得世界杯淘汰賽的中北美球隊

不容易,加拿大是14年哥斯達黎加后首個贏得世界杯淘汰賽的中北美球隊

懂球帝
2026-06-29 05:13:08
洛塞爾索:只有我和家人知道我經歷了什么 梅西3場6球難以置信

洛塞爾索:只有我和家人知道我經歷了什么 梅西3場6球難以置信

云隱南山
2026-06-28 19:14:04
阿拉巴:2-3的時候已經在考慮收行李的事了,出線后如釋重負

阿拉巴:2-3的時候已經在考慮收行李的事了,出線后如釋重負

懂球帝
2026-06-29 03:26:09
向佐向佑再同框!兄弟倆一起參加線下活動,弟弟最新露臉有變化

向佐向佑再同框!兄弟倆一起參加線下活動,弟弟最新露臉有變化

喜歡歷史的阿繁
2026-06-28 21:23:50
1000公里電車長途下來,我終于敢說:高速跑電車,簡直就是活受罪

1000公里電車長途下來,我終于敢說:高速跑電車,簡直就是活受罪

網絡易不易
2026-06-08 11:51:35
民眾瘋搶空調,政府不準,熱死也不能買?徳媒怒斥中國正摧毀歐洲

民眾瘋搶空調,政府不準,熱死也不能買?徳媒怒斥中國正摧毀歐洲

嫹筆牂牂
2026-06-29 11:35:39
37批食品上黑榜,淘寶拼多多居首,兩千萬級網紅店鋪查出獸藥殘留

37批食品上黑榜,淘寶拼多多居首,兩千萬級網紅店鋪查出獸藥殘留

流史歲月
2026-06-27 19:00:03
思蕊梵公主訪法國第一天!穿波點裙致敬奶奶,還是泰王的貼心女兒

思蕊梵公主訪法國第一天!穿波點裙致敬奶奶,還是泰王的貼心女兒

八八尚語
2026-06-29 11:05:53
事情清楚了!大鬧飛機迫降日本東京機場的爭執原因曝光了

事情清楚了!大鬧飛機迫降日本東京機場的爭執原因曝光了

安安說
2026-06-28 11:33:07
劉濤去上海出差,想著好久沒見孫儷,發微信約晚飯。孫儷回得很快:見面可以,只能中午,四點前必須散

劉濤去上海出差,想著好久沒見孫儷,發微信約晚飯。孫儷回得很快:見面可以,只能中午,四點前必須散

LULU生活家
2026-06-28 09:20:29
熱鬧!3換3交易達成!勇士補強目標確定,兩隊報價追求倫納德

熱鬧!3換3交易達成!勇士補強目標確定,兩隊報價追求倫納德

體壇小李
2026-06-29 10:08:01
軌道被“曬傷”,德國萊比錫有軌電車停運;德國最高氣溫紀錄接連刷新,周末至少7人死于溺水

軌道被“曬傷”,德國萊比錫有軌電車停運;德國最高氣溫紀錄接連刷新,周末至少7人死于溺水

極目新聞
2026-06-28 21:06:51
流浪26年滿身污垢的沈巍,如今身價百萬還有小15歲女友,他憑的啥

流浪26年滿身污垢的沈巍,如今身價百萬還有小15歲女友,他憑的啥

從零到一研究所
2026-06-18 16:15:07
桑切斯:擊敗我們的不是葡萄牙,而是根本無法自圓其說的判罰

桑切斯:擊敗我們的不是葡萄牙,而是根本無法自圓其說的判罰

硯底沉香
2026-06-28 18:06:13
蘋果新機上架,6月28日,正式開賣

蘋果新機上架,6月28日,正式開賣

科技堡壘
2026-06-28 12:53:34
美媒:中國第30架量產殲-35下線,隱身能力比美國F-22戰斗機更強

美媒:中國第30架量產殲-35下線,隱身能力比美國F-22戰斗機更強

藍星雜談
2026-06-29 10:50:44
原來他們是兩口子,曾大紅大紫卻丁克一輩子,如今都住上海養老院

原來他們是兩口子,曾大紅大紫卻丁克一輩子,如今都住上海養老院

嘆為觀止易
2026-06-28 05:42:57
日本混血守門員堪稱世界級,但他忠于日本,美媒惋惜:美國沒搶到

日本混血守門員堪稱世界級,但他忠于日本,美媒惋惜:美國沒搶到

寒士之言本尊
2026-06-15 21:14:37
2026-06-29 12:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15557文章數 66943關注度
往期回顧 全部

科技要聞

OpenAI推遲上市,那“Kimi們”呢?

頭條要聞

網約車司機與乘客相談甚歡還轉賬15000元 結果被拉黑

頭條要聞

網約車司機與乘客相談甚歡還轉賬15000元 結果被拉黑

體育要聞

兩周飛5萬公里!因凡蒂諾遭環保人士猛批

娛樂要聞

蕭薔宣布捐出參加“浪姐”所有收入

財經要聞

35歲職場人,又好找工作了?

汽車要聞

精致大氣 尊界V800詮釋頂級體驗的新旗艦MPV

態度原創

旅游
藝術
家居
公開課
軍事航空

旅游要聞

拙政園人人會去,但“拙政”二字的真正含義,多數游客并不知曉

藝術要聞

晚明"四大天王"手稿,看了方知書法妙!

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普又發文威脅:伊朗將不復存在

無障礙瀏覽 進入關懷版