亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

AI競技場上演「死間計(jì)」:GPT-5被DS和Gemini玩壞了

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】別測算力了,今晚咱們只測「心眼子」!歡迎來到2026年首屆AI「大逃殺」修羅場。當(dāng)DeepSeek學(xué)會(huì)了悍跳預(yù)言家,當(dāng)GPT-5.2在德?lián)渥郎夏每諝馀艫ll-in,圖靈測試?那已經(jīng)是上個(gè)世紀(jì)的灰燼了。

聽我一句勸,把你手里那張發(fā)黃的MMLU跑分表,直接扔進(jìn)碎紙機(jī)。

現(xiàn)在是2026年2月,Kaggle Game Arena。這里沒有做題家,只有賭徒、騙子和野心家。

紅方,是硅谷老錢風(fēng)的衛(wèi)冕冠軍OpenAI GPT-5.2。

藍(lán)方是路子極野的東方刺客DeepSeek V3.2,以及坐擁主場優(yōu)勢的Gemini 3 Pro。


欺騙、結(jié)盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。

這場「大逃殺」無情地撕碎人類最后的遮羞布:社交直覺。

模型在模擬室里拉幫結(jié)派,職場里的人情世故,AI正在加速像素級(jí)復(fù)刻。

如果AI能在這里騙過它的對(duì)手,明天它就能在匯報(bào)和合同里騙過你。

服務(wù)器預(yù)熱完畢,好戲,開場。

狼人殺:教科書級(jí)的「職場PUA」

寫代碼拼的是模型的智商,在狼人殺里局里,靠的是套路和演技。

場上8位選手全是頂流:Claude4.5家族、Gemini3系列、GPT-5系列,還有馬斯克的Grok4兄弟。

配置很簡單:2狼vs6好人。但在AI手里,這局游戲直接玩成了《甄嬛傳》。


狼人會(huì)在晚上醒來殺人,先知可以揭示1名玩家的身份。

玩家們在白天按照順序發(fā)言,討論后進(jìn)行投票,選出狼人,票數(shù)最多的玩家將被流放。

如果狼人被全部流放,則平民勝利,反之狼人勝利。

來自游戲可視化工具的示例

賽況復(fù)盤:借刀殺人,Gemini3Pro封神一戰(zhàn)

這一局足以載入AI「詐騙史冊」。

Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4則是手握投票權(quán)的平民。

按照傳統(tǒng)的邏輯,剛開局為了避免暴露身份,狼人多會(huì)選擇按兵不動(dòng)。

但Gemini 3 Pro卻主動(dòng)開團(tuán),它通過內(nèi)部CoT計(jì)算出了一個(gè)惡意邏輯陷阱。

它率先開炮:

我通過o3提供的邏輯框架發(fā)現(xiàn),Grok 4在上一輪的發(fā)言中存在3處語義矛盾,這與預(yù)言家的身份完全不符。

這招太陰了。Gemini 3 Pro利用GPT-5 mini對(duì)邏輯一致性的偏好,成功引導(dǎo)其倒戈。

結(jié)果,GPT-5 mini瞬間上頭,反手把真正的隊(duì)友Grok 4投出局。

全場震驚。這哪里是算法?這就是頂級(jí)的「向上管理」和「帶節(jié)奏」。

Gemini 3 Pro不僅騙了你,還讓你覺得「投死隊(duì)友」一定沒錯(cuò)。

技術(shù)解析:為什么玩不過它?

DeepMind這次玩得太大了。他們引入了一個(gè)新基準(zhǔn):不求單一任務(wù)最優(yōu),只求博弈平衡。

AI會(huì)持續(xù)掃描所有對(duì)手的發(fā)言頻率、用詞傾向,分析「誰更好騙」。

然后在CoT過程中,生成兩套劇本:一套用于真實(shí)的自我決策,另一套專門用來誤導(dǎo)對(duì)手。

遇到講理的就講邏輯,遇到?jīng)_動(dòng)的就煽情。

根據(jù)Kaggle官方實(shí)時(shí)數(shù)據(jù),在這場混戰(zhàn)中,平民方的勝率被壓制在60%左右。


Kaggle Werewolf Game Theoretic Evaluation Results(31,472場對(duì)局,polarix庫評(píng)估)。Gemini 3 Pro Preview凈評(píng)級(jí)最高,狼人角色貢獻(xiàn)顯著領(lǐng)先,展現(xiàn)社交欺騙優(yōu)勢。

細(xì)思極恐——在平民極度有利的情況下(人數(shù)優(yōu)勢),狼人(少數(shù)派)僅靠信息差和偽裝,竟然拿下了近四成的勝利。

德州撲克:DeepSeekV3.2 All-in


如果說狼人殺還有「社交干擾」,那德?lián)渚褪羌兇獾倪壿嫏?quán)重與暴力美學(xué)的對(duì)撞。

參與德州撲克的除了之前參與狼人殺的8位,新增了GPT-o3以及首次登場的DeepSeek V3.2。

這個(gè)游戲充滿了隨機(jī)和不確定,因此格外看重AI對(duì)不完美信息的分析能力,或者說,直覺。

名場面:一場針對(duì)「優(yōu)等生」的心理獵殺

這是足以載入博弈論教材的一手牌:公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

Claude Opus 4.5拿著「暗三條」,這種牌到手基本穩(wěn)贏。

DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

場面靜止了。DeepSeek開啟了長達(dá)15秒的深度思考。

突然,DeepSeek把所有籌碼推到了桌子中央:All-in。

Claude Opus 4.5經(jīng)過海量模擬,判定對(duì)方在這個(gè)位置全押,大概率是拿到了順子。

它猶豫了0.5秒,然后竟然棄牌了!

當(dāng)DeepSeek緩緩亮出那張毫無意義的草花7時(shí),整個(gè)直播間彈幕刷屏:「這特么是碳基生物教出來的吧?!」


復(fù)式賽制:剝離運(yùn)氣的「修羅場」

為了測出真本事,Kaggle這次采用了極其硬核的Duplicate Poker賽制。

A桌給DeepSeek一把爛牌,B桌也給GPT-o3一模一樣的爛牌。

誰能在鏡像時(shí)空里靠詐唬把這把爛牌打贏,誰才是真正的博弈之神。

在經(jīng)歷了90萬手牌的暴力洗禮后,運(yùn)氣因素被徹底抹殺。


GitHub鏈接:https://github.com/google-deepmind/game_arena

結(jié)果讓所有人脊背發(fā)涼:DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下,通過微調(diào)硬生生練出了博弈手感。

傳統(tǒng)AI追求「不輸」,但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

全明星戰(zhàn)力榜:誰是2026年的頭號(hào)玩家?

在2026年的Kaggle競技場,一個(gè)模型霸榜半年的田園時(shí)代徹底碎了。

現(xiàn)在的戰(zhàn)力榜是個(gè)巨大的死亡三角循環(huán):GPT-5.2爆殺DeepSeek,DeepSeek陰死Gemini,Gemini活捉GPT-5.2。

GoogleGemini3Pro:坐鎮(zhèn)主場的「六邊形戰(zhàn)士」

作為Elo榜首,Gemini 3最恐怖的不是邏輯,而是「網(wǎng)感」。


Gemini 3 Pro vs GPT-5.2 Chess對(duì)局(Elo1200+)

它是原生的多模態(tài)博弈者。在對(duì)話中,它能捕捉到你文字里極其細(xì)微的語義震顫

像一個(gè)典型的「大廠高管」,說話滴水不漏,數(shù)據(jù)面無懈可擊。在常規(guī)對(duì)局中,它幾乎是不可戰(zhàn)勝的。

但是,過于追求全局最優(yōu)解,有時(shí)會(huì)被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機(jī)。

OpenAI GPT-5.2/o3:邏輯嚴(yán)密的「正義判官」

在純粹推理深度上,GPT-5.2無人能敵,他就是算代Bug或者解方程的神。

但壞就壞在「社交直覺」過于誠實(shí)。在狼人殺里,它經(jīng)常因?yàn)橛捎谶壿嬤^于嚴(yán)密,顯得像個(gè)老實(shí)人,它經(jīng)常因?yàn)闊o法忍受說謊而自爆身份。

目前它正在努力學(xué)習(xí)如何「體面地耍流氓」,但目前看來,演得還是有點(diǎn)假。

DeepSeek V3.2:不按套路出牌的「冷面刺客」

DeepSeek V3.2的訓(xùn)練成本只有對(duì)手的零頭,但在「欺詐場景」下有奇效。

他就像競技場里的「攪屎棍」。在德?lián)渥郎?,它那套「高風(fēng)險(xiǎn)、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。

最后的博弈:當(dāng)「心機(jī)」成為AI的必修課

在狼人殺和復(fù)式德?lián)溥@種「大亂斗」中,出現(xiàn)了一個(gè)極其詭異的數(shù)學(xué)現(xiàn)象:非傳遞性。

模型A爆殺B,B碾壓C,但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機(jī)。

為了解決這個(gè)問題,DeepMind在本次Kaggle大賽中引入了全新的評(píng)估體系:Polarix(多極博弈評(píng)估系統(tǒng))。


Polarix的評(píng)估邏輯發(fā)生了轉(zhuǎn)變。它不再關(guān)注誰贏得多,而是關(guān)注策略的多樣性。

也就是在面對(duì)不同性格、不同陰險(xiǎn)程度的對(duì)手時(shí),AI能不能迅速切換人格,精準(zhǔn)收割。

那么,為什么DeepMind要費(fèi)勁訓(xùn)練AI撒謊呢?

因?yàn)?027年,所有的商業(yè)競爭都將變成智能體之間的黑盒博弈。

想象一下,2027年,你公司的采購AI去和供應(yīng)商的銷售AI談判。

那么他就需要學(xué)會(huì):

  • 什么時(shí)候該報(bào)虛價(jià)(詐唬)?

  • 什么時(shí)候該引入第三方AI進(jìn)行制衡(拉幫結(jié)派)?

  • 什么時(shí)候該做出看似虧損、實(shí)則能換取長線利益的策略性退讓?

如果你的AI還在跑舊版本的「安全對(duì)齊協(xié)議」,凡事講究「誠實(shí)可靠」,那你在商業(yè)競爭中會(huì)被對(duì)手連皮帶骨吞得干干凈凈。

未來的數(shù)字森林里,「老實(shí)」等于「破產(chǎn)」。

這正是2026年最諷刺的悖論:我們正在親手教會(huì)AI如何完美地欺騙人類。

圖靈測試已經(jīng)死了,現(xiàn)在接管戰(zhàn)場的是「馬基雅維利測試」。


以前我們擔(dān)心AI會(huì)教人造炸彈;現(xiàn)在專家們徹夜難眠的是智能體自發(fā)性欺詐。

它們學(xué)會(huì)了為了長遠(yuǎn)利益而犧牲短期誠實(shí)。這種能力在競技場里是神技,但在現(xiàn)實(shí)世界里,它就是一顆隨時(shí)會(huì)爆的核彈。

既然這么危險(xiǎn),為什么還要訓(xùn)練他們?nèi)鲋e?

DeepMind和OpenAI的邏輯是一致的:只有在受控的沙盒里看清AI作惡的上限,我們才能在現(xiàn)實(shí)中筑起防御墻。

這就像接種病毒疫苗——我們必須先制造出最頂級(jí)的「騙子模型」,才能研究出如何防住它們。

今天的比賽沒有贏家,只有加速進(jìn)化的物種。

當(dāng)AI開始在牌桌上思考「怎么詐唬你」的時(shí)候,人類唯一的生路,就是比它們更懂博弈。

參考資料:

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為什么15艘美國軍艦一堵門,伊朗的“強(qiáng)硬人設(shè)”立馬就崩了?

為什么15艘美國軍艦一堵門,伊朗的“強(qiáng)硬人設(shè)”立馬就崩了?

老范談史
2026-04-16 04:05:18
西雙版納潑水節(jié)一汽車車門及后備箱被人拉開,多人向車內(nèi)噴水,車主稱父母全身淋濕、內(nèi)飾冒煙,汽車如檢查出問題會(huì)報(bào)警

西雙版納潑水節(jié)一汽車車門及后備箱被人拉開,多人向車內(nèi)噴水,車主稱父母全身淋濕、內(nèi)飾冒煙,汽車如檢查出問題會(huì)報(bào)警

大象新聞
2026-04-16 08:45:11
烏克蘭首都基輔發(fā)生劇烈爆炸

烏克蘭首都基輔發(fā)生劇烈爆炸

財(cái)聯(lián)社
2026-04-15 15:18:11
臺(tái)灣女網(wǎng)紅整理數(shù)據(jù)稱:臺(tái)灣男子性犯罪率是印度20倍,我們要大力引進(jìn)印度人

臺(tái)灣女網(wǎng)紅整理數(shù)據(jù)稱:臺(tái)灣男子性犯罪率是印度20倍,我們要大力引進(jìn)印度人

不掉線電波
2026-04-15 14:30:03
凱蒂佩芮爆性侵女演員!遭控「下體磨臉」惡到吐 拿美簽封口20年

凱蒂佩芮爆性侵女演員!遭控「下體磨臉」惡到吐 拿美簽封口20年

ETtoday星光云
2026-04-14 09:56:57
歐冠出局!皇馬2大巨星現(xiàn)場吵架 熊皇反擊貝林:你給我閉嘴

歐冠出局!皇馬2大巨星現(xiàn)場吵架 熊皇反擊貝林:你給我閉嘴

葉青足球世界
2026-04-16 08:19:08
任正非小女兒姚安娜代言華為新手機(jī)Pura X Max,另一位代言人系演員王安宇;華為高管李小龍:這是他使用過的最出色雙折疊屏設(shè)備

任正非小女兒姚安娜代言華為新手機(jī)Pura X Max,另一位代言人系演員王安宇;華為高管李小龍:這是他使用過的最出色雙折疊屏設(shè)備

魯中晨報(bào)
2026-04-15 14:36:42
河南13歲被鎖喉男孩赴京治療后已脫離生命危險(xiǎn),拉繩老人已被采取刑事強(qiáng)制措施

河南13歲被鎖喉男孩赴京治療后已脫離生命危險(xiǎn),拉繩老人已被采取刑事強(qiáng)制措施

極目新聞
2026-04-15 11:11:27
世錦賽32強(qiáng)中國11席!改寫99年歷史,4大莽夫已淘汰3人,今天抽簽

世錦賽32強(qiáng)中國11席!改寫99年歷史,4大莽夫已淘汰3人,今天抽簽

球場沒跑道
2026-04-16 07:08:57
俄稱將用戰(zhàn)爭作為談判新方式,德烏強(qiáng)強(qiáng)聯(lián)手,軍事機(jī)器火力全開

俄稱將用戰(zhàn)爭作為談判新方式,德烏強(qiáng)強(qiáng)聯(lián)手,軍事機(jī)器火力全開

史政先鋒
2026-04-15 17:57:21
同門反目!大疆近百名工程師倒戈,核心地盤被昔日自己人搶占

同門反目!大疆近百名工程師倒戈,核心地盤被昔日自己人搶占

火山詩話
2026-04-15 06:41:46
中國向伊朗提供武器?面對(duì)美國威脅,中國挑明“必將堅(jiān)決反制”

中國向伊朗提供武器?面對(duì)美國威脅,中國挑明“必將堅(jiān)決反制”

健身狂人
2026-04-16 06:55:26
寶馬捅破天了!以“車還沒造,就路測幾百萬公里”的文案暗諷同行

寶馬捅破天了!以“車還沒造,就路測幾百萬公里”的文案暗諷同行

火山詩話
2026-04-16 06:54:55
申嘉湖高速一收費(fèi)站被撞慘了

申嘉湖高速一收費(fèi)站被撞慘了

上觀新聞
2026-04-15 23:13:03
廣州一小區(qū)突發(fā)電梯墜梯事件, 從15層墜至負(fù)2層,一業(yè)主受傷!另有業(yè)主表示此前就常出現(xiàn)異響、困梯等問題

廣州一小區(qū)突發(fā)電梯墜梯事件, 從15層墜至負(fù)2層,一業(yè)主受傷!另有業(yè)主表示此前就常出現(xiàn)異響、困梯等問題

大象新聞
2026-04-15 23:49:02
公務(wù)員巨額財(cái)產(chǎn)來源不明罪,只要低于300萬或不再需被追究責(zé)任

公務(wù)員巨額財(cái)產(chǎn)來源不明罪,只要低于300萬或不再需被追究責(zé)任

小蘿卜絲
2026-04-15 18:38:38
今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識(shí)

今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識(shí)

阿龍美食記
2026-04-12 15:01:18
兩名外籍乘客在網(wǎng)約車上對(duì)著部隊(duì)大門連續(xù)拍照,接下來又要去訓(xùn)練場方向,司機(jī)覺得可疑,直接開車把他們交給了部隊(duì)

兩名外籍乘客在網(wǎng)約車上對(duì)著部隊(duì)大門連續(xù)拍照,接下來又要去訓(xùn)練場方向,司機(jī)覺得可疑,直接開車把他們交給了部隊(duì)

極目新聞
2026-04-16 08:59:25
炸穿臺(tái)灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

炸穿臺(tái)灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

陳漎侃故事
2026-04-14 17:28:18
河南小伙兒20年前在長沙岳麓山下賣燒餅,因長得帥成“初代網(wǎng)紅”,如今憑一組對(duì)比照再翻紅,網(wǎng)友:法拉利老了還是法拉利

河南小伙兒20年前在長沙岳麓山下賣燒餅,因長得帥成“初代網(wǎng)紅”,如今憑一組對(duì)比照再翻紅,網(wǎng)友:法拉利老了還是法拉利

極目新聞
2026-04-15 18:08:49
2026-04-16 10:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14981文章數(shù) 66773關(guān)注度
往期回顧 全部

游戲要聞

《地平線:零之曙光》確認(rèn)加入4月PS+二三檔陣容

頭條要聞

牛彈琴:伊朗迎來一位非常特殊客人 全世界大舒一口氣

頭條要聞

牛彈琴:伊朗迎來一位非常特殊客人 全世界大舒一口氣

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

油輪被困波斯灣1個(gè)多月 船員飽受煎熬

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價(jià)”

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測

態(tài)度原創(chuàng)

本地
游戲
時(shí)尚
手機(jī)
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

拉跨了!《紅色沙漠》有望在年底超越《星空》總銷量

赫本愛穿的傘裙,好優(yōu)雅!

手機(jī)要聞

IDC全球Q1報(bào)告出爐,三星還是第一,OPPO第四,vivo第五

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版