无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI預(yù)測(cè)世界杯小組賽:混元第一,千問DeepSeek打平

0
分享至


猜強(qiáng)隊(duì)穩(wěn),猜平局難。

AIX財(cái)經(jīng)(AIXcaijing)原創(chuàng)

作者 | 雷晶

編輯 | 金玙璠

今天,2026美加墨世界杯72場(chǎng)小組賽全部結(jié)束,世界杯的第一階段落幕。賽場(chǎng)之外,另一場(chǎng)比賽也同步交出了成績(jī)單。

聯(lián)想與咪咕聯(lián)合發(fā)起的世界杯預(yù)測(cè)人機(jī)大戰(zhàn)中,12家國產(chǎn)大模型與數(shù)萬名人類玩家同臺(tái)競(jìng)猜,目前的結(jié)果是:AI整體命中率約61.9%,人類玩家54.6%。

在明確分出勝負(fù)的比賽中,AI猜中的概率大,但遇到平局,AI預(yù)測(cè)20場(chǎng)中僅命中11次。AI的優(yōu)勢(shì)不在于超越常識(shí),而在于比人更穩(wěn)定地執(zhí)行,它們可以不受情緒干擾,也能兼顧更多的信息維度。

淘汰賽即將開始,留下來的32支球隊(duì)實(shí)力更接近,“送分題”沒了,對(duì)AI來說,真正的考試才剛剛開始。

更值得關(guān)注的問題是,大模型廠商為什么要集體涌入世界杯預(yù)測(cè)?它們到底是在展示技術(shù)能力,還是在借四年一度的流量做一場(chǎng)營銷?當(dāng)淘汰賽開始、“送分題”消失,這些模型還能保持及格線以上的水平嗎?

01.大模型組團(tuán)猜球,誰在認(rèn)真考試?

世界杯歷來是品牌的流量戰(zhàn)場(chǎng),今年多了一類新玩家。國產(chǎn)大模型廠商以猜球切入,借四年一度的流量窗口,讓用戶直接感受到AI的分析能力。

規(guī)模最大的是聯(lián)想和咪咕聯(lián)合發(fā)起的“人機(jī)大戰(zhàn)”,召集了DeepSeek、通義千問、Kimi、騰訊混元等12家國產(chǎn)大模型,與數(shù)萬名人類選手在同一規(guī)則下比命中率。

單獨(dú)下場(chǎng)的廠商也不少。千問上線了足球預(yù)測(cè)AI助手,覆蓋全部104場(chǎng)比賽,用戶與AI同臺(tái)競(jìng)猜,準(zhǔn)確率超過千問的人有機(jī)會(huì)抽取萬元大獎(jiǎng);還同步發(fā)起球場(chǎng)計(jì)劃,用戶競(jìng)猜積分達(dá)到一定數(shù)額后,千問將為鄉(xiāng)村學(xué)校捐建足球場(chǎng)。Kimi搭建了300個(gè)Agent,分別負(fù)責(zé)戰(zhàn)術(shù)分析、球員狀態(tài)追蹤、賽程計(jì)算、賠率監(jiān)測(cè)等方向,生成了一份224頁的預(yù)測(cè)報(bào)告。

只是活動(dòng)的側(cè)重點(diǎn)各不相同。聯(lián)想咪咕做的是能力橫評(píng),用12個(gè)模型同場(chǎng)競(jìng)技提升關(guān)注度;千問把預(yù)測(cè)嵌進(jìn)用戶互動(dòng)和公益,走C端獲客路線;Kimi側(cè)重展示Agent處理復(fù)雜任務(wù)的能力,預(yù)測(cè)只是載體。

三場(chǎng)活動(dòng)中,只有聯(lián)想咪咕的“人機(jī)大戰(zhàn)”設(shè)置了統(tǒng)一規(guī)則、統(tǒng)一評(píng)分標(biāo)準(zhǔn),讓12家模型與人類玩家在同一賽道競(jìng)爭(zhēng)。因此,我們以它的數(shù)據(jù)為參照,拆解一下這份成績(jī)單。

截至6月28日,72場(chǎng)小組賽全部結(jié)束,12家AI整體命中率為61.9%,人類玩家為54.6%,AI領(lǐng)先約7.3個(gè)百分點(diǎn)。


圖源 / AIX財(cái)經(jīng)根據(jù)咪咕官方預(yù)測(cè)數(shù)據(jù)統(tǒng)計(jì)計(jì)算

從排名看,騰訊混元和中移九天并列第一,命中率68.1%,超過三分之二;百度文心、千問、DeepSeek以63.9%打成平手;墊底的階躍星辰只有43.1%,甚至低于人類選手的平均水平。排名頭尾相差25個(gè)百分點(diǎn),差距并不小。

比起排名,更值得關(guān)注的是這些模型贏在哪里、栽在哪里?

AI擅長猜確定性高的比賽。在西班牙對(duì)戰(zhàn)沙特的比賽中,12家AI中11家猜對(duì)了輸贏;而在德國對(duì)戰(zhàn)庫拉索的比賽中,10家模型都給出了正確的判斷。這類比賽的共同特征是強(qiáng)弱分明,模型只要參考世界排名、陣容身價(jià)和歷史戰(zhàn)績(jī),就能做出正確判斷。越接近“背公式就能答對(duì)”的題,AI做得越好。

某美企AI出海負(fù)責(zé)人曾小健解釋,大模型預(yù)測(cè)本質(zhì)上是一臺(tái)“排序機(jī)器”,把球隊(duì)各項(xiàng)數(shù)據(jù)加權(quán)比較,實(shí)力差距越大,排序結(jié)果越穩(wěn)定。

讓AI“翻車”的是平局和冷門,在整個(gè)小組賽階段,平局是AI命中率最低的類型,僅命中11次。

最典型的例子是西班牙對(duì)陣佛得角的比賽。西班牙是奪冠熱門,世界排名、陣容身價(jià)、歷史戰(zhàn)績(jī)占優(yōu);佛得角則是首次躋身世界杯的非洲新軍。賽前,11家大模型都押注西班牙獲勝,但比賽結(jié)果是0-0平局。佛得角門將的多次關(guān)鍵撲救化解了西班牙的進(jìn)攻。一個(gè)球員的爆發(fā)、一次戰(zhàn)術(shù)的執(zhí)行,都有可能改變比賽走向,而這些恰恰是數(shù)據(jù)無法提前量化的。

為什么平局這么難猜?在世界杯歷史上,平局的比例大約在20%到25%之間,本身就是一個(gè)低概率事件。模型把更多概率分配給勝或負(fù),從統(tǒng)計(jì)角度來說并非錯(cuò)誤。

曾小健認(rèn)為,平局不是排序結(jié)果,而是概率分布中的一個(gè)特殊區(qū)間。大模型天然傾向于輸出一個(gè)明確的答案,即便雙方實(shí)力接近,它也會(huì)選一方做出傾向性判斷。換句話說,模型的機(jī)制決定了它必須選邊站。

大模型從業(yè)者Hongson則提到,很多時(shí)候平局的出現(xiàn)并非偶然,而是強(qiáng)隊(duì)進(jìn)攻受阻、弱隊(duì)成功壓縮空間,或者雙方都不愿在某個(gè)階段冒險(xiǎn)的結(jié)果。這些臨場(chǎng)策略選擇本身就很難提前預(yù)判。

也就是說,AI猜強(qiáng)弱分明的比賽比較準(zhǔn),預(yù)測(cè)平局和冷門賽事時(shí)表現(xiàn)較差。即便AI猜球的命中率超過50%,但不能把這個(gè)數(shù)字等同于AI很會(huì)預(yù)測(cè)。

廠商并非不清楚這一點(diǎn)。曾小健認(rèn)為,預(yù)測(cè)比賽容易傳播,也容易讓普通用戶感受到AI好像“會(huì)分析”。這比單純展示一個(gè)抽象榜單更有話題性。它的實(shí)際價(jià)值在于教育用戶:AI可以做信息整合、情景分析和概率表達(dá)。廠商們看中的不是猜球本身,而是世界杯提供了一個(gè)人人能看懂的場(chǎng)景,讓大模型的能力從抽象的參數(shù)變成了具體的表現(xiàn)。

不管包裝成什么樣,核心都是借世界杯的流量,讓AI走進(jìn)更多人的視野。

02.AI猜球,靠的是什么?

那猜對(duì)的模型,到底是怎么猜的?

曾小健認(rèn)為,AI猜球本質(zhì)上不是預(yù)測(cè),而是復(fù)述。它更接近把足球評(píng)論員常說的話重新組織了一遍。這也解釋了為什么12家模型的預(yù)測(cè)結(jié)果經(jīng)常高度一致,它們讀的是同一批公開信息,用的是相似的推理邏輯,得出同一個(gè)結(jié)論并不奇怪。

但在這層“復(fù)述”之下,也有不同的技術(shù)路徑。

最輕量的做法是純prompt工程,把球隊(duì)信息塞進(jìn)提示詞,門檻低、傳播快。但模型輸出看上去很像“專家”,經(jīng)不起統(tǒng)計(jì)檢驗(yàn)。

往上一層是RAG檢索增強(qiáng),解決了信息新鮮度的問題,但檢索到的信息可能比較片面,模型只會(huì)更有條理地得出一個(gè)片面的結(jié)論。

第三種是多智能體協(xié)作,像一個(gè)小型分析團(tuán)隊(duì)在協(xié)作,但多個(gè)Agent的意見匯總不等于預(yù)測(cè)精度提升,架構(gòu)復(fù)雜了,準(zhǔn)確率未必跟著提高。

第四種是先用統(tǒng)計(jì)工具算概率,再讓大模型“翻譯”。用Elo評(píng)分、泊松進(jìn)球模型、蒙特卡洛模擬等方式跑出一組概率分布,大模型負(fù)責(zé)解釋和呈現(xiàn)。曾小健認(rèn)為這是最合理的方式,足球預(yù)測(cè)首先是數(shù)學(xué)問題,其次才是語言表達(dá)問題。但這條路門檻也最高,需要獨(dú)立搭建概率模型,大多數(shù)廠商不會(huì)為一次營銷活動(dòng)做這么重的投入。


圖源 / FIFA世界杯官方微博

Hongson自己搭建的FLUX·10就是走的就是這條路。他把球隊(duì)實(shí)力、攻防狀態(tài)、陣容等十個(gè)維度轉(zhuǎn)化為可計(jì)算的變量,先跑出勝平負(fù)概率和預(yù)期進(jìn)球,再用大模型將結(jié)果轉(zhuǎn)化為普通人看得懂的分析。截至小組賽第三輪前,預(yù)測(cè)了64場(chǎng)比賽,命中率約為60.9%。

這四種路徑的門檻和準(zhǔn)確性逐級(jí)遞增,但市場(chǎng)上大多數(shù)廠商仍在前兩層。歸根結(jié)底,不管用哪條路徑,模型的目標(biāo)都是一致的:把已有信息整合成一個(gè)看上去合理的判斷。路徑的差異決定了信息的質(zhì)量,但沒有一條路能夠讓模型真正預(yù)見賽場(chǎng)上尚未發(fā)生的事情。

它們還面臨共同的短板。一是預(yù)測(cè)不夠動(dòng)態(tài),首發(fā)陣容公布、核心球員缺陣、賠率異動(dòng),都在實(shí)時(shí)改變概率。但大多數(shù)模型做完一次預(yù)測(cè)就交卷了,沒有隨著新信息持續(xù)更新的機(jī)制。

二是缺少概率校準(zhǔn),模型只是在生產(chǎn)看起來合理的數(shù)字,而非真正可靠的概率。沒有校準(zhǔn)和回測(cè)的預(yù)測(cè),更像內(nèi)容產(chǎn)品,不像科學(xué)模型。

對(duì)大多數(shù)廠商來說,優(yōu)化預(yù)測(cè)靠的還是數(shù)據(jù)工程,喂更多信息、寫更好的prompt、接更全的數(shù)據(jù)源,而不是模型層面的突破。

這也揭示了當(dāng)前大模型在預(yù)測(cè)類任務(wù)上的一個(gè)局限,它們擅長整合已有信息、生成看起來合理的判斷,但缺乏應(yīng)對(duì)未知變量的能力。這也意味著,大模型可以是優(yōu)秀的事后軍師,但還不是合格的預(yù)言家。

03.淘汰賽開始,AI的“送分題”沒了

小組賽結(jié)束,對(duì)AI來說,“考試環(huán)境”發(fā)生了變化。

這屆世界杯是參賽球隊(duì)數(shù)量最多的一屆,48支球隊(duì)中不少實(shí)力較弱的隊(duì)伍是首次登上世界杯舞臺(tái)。

這意味著72場(chǎng)小組賽中,相當(dāng)一部分是強(qiáng)弱分明的對(duì)局,區(qū)分度高,AI做排序題相對(duì)簡(jiǎn)單。但淘汰賽留下來的32支球隊(duì)經(jīng)過小組賽篩選,實(shí)力差距被大幅壓縮,猜球變得更難。


圖源 / AIX財(cái)經(jīng)根據(jù)咪咕官方預(yù)測(cè)數(shù)據(jù)統(tǒng)計(jì)計(jì)算

賽制也不一樣了。小組賽輸一場(chǎng)還有回旋余地,淘汰賽單場(chǎng)定生死。加時(shí)賽、點(diǎn)球大戰(zhàn)在歷史數(shù)據(jù)中樣本極少,模型缺乏足夠的“經(jīng)驗(yàn)”。Hongson提到,要想猜球更準(zhǔn),模型需要主動(dòng)調(diào)整策略,小組賽更重視強(qiáng)弱差和進(jìn)球上限,淘汰賽則提高低比分、平局和小差勝的權(quán)重,因?yàn)閺?qiáng)隊(duì)進(jìn)入淘汰賽也會(huì)變得謹(jǐn)慎,不會(huì)像小組賽那樣放開打。但大多數(shù)模型沒有這種主動(dòng)調(diào)整的機(jī)制。

那AI預(yù)測(cè)比賽結(jié)果的能力邊界在哪?

Hongson認(rèn)為天花板不在于算出唯一正確比分,而在于把概率、風(fēng)險(xiǎn)和可能的路徑講清楚。AI可以告訴你一場(chǎng)比賽更可能是低比分還是開放局,哪些變量會(huì)讓比賽偏離預(yù)期,但它不能把足球變成確定性問題。

換句話說,AI面對(duì)的不是缺數(shù)據(jù)的問題,而是一個(gè)難以解決的不確定性問題。但這并不意味著預(yù)測(cè)本身沒有意義。

Hongson表示,世界杯預(yù)測(cè)真正有價(jià)值的地方在于它提供了一個(gè)高不確定性決策的實(shí)驗(yàn)場(chǎng),把結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化信息、歷史經(jīng)驗(yàn)等放進(jìn)同一個(gè)閉環(huán)里,看模型能否輸出有意義的判斷。這套方法論可以遷移到商業(yè)選品、營銷投放、輿情判斷等領(lǐng)域,關(guān)鍵不是照搬比分模型,而是把影響結(jié)果的變量結(jié)構(gòu)化,用概率表達(dá)判斷,每次結(jié)果出來后再進(jìn)行復(fù)盤校準(zhǔn)。

曾小健則認(rèn)為,AI在這些場(chǎng)景中最合適的角色是決策輔助系統(tǒng),更快整理信息、識(shí)別關(guān)鍵變量、生成情景分析、評(píng)估不同結(jié)果的風(fēng)險(xiǎn),而不是最終拍板者。將這套預(yù)測(cè)方法遷移到其他決策場(chǎng)景也一樣,AI可以縮小選項(xiàng)范圍、量化風(fēng)險(xiǎn),但把AI的輸出直接當(dāng)結(jié)論用,就可能放大模型本身的偏差和盲區(qū)。

某種程度上,世界杯是國產(chǎn)大模型的一次公開的大測(cè)試。世界杯天然有流量,廠商做預(yù)測(cè)有營銷成分很正常。營銷是出發(fā)點(diǎn),但結(jié)果是透明的。預(yù)測(cè)本身仍然是一個(gè)有價(jià)值的測(cè)試場(chǎng)景,它考驗(yàn)的不是參數(shù)大小和榜單排名,而是面對(duì)真實(shí)世界的不確定性時(shí),模型能不能表達(dá)得更誠實(shí)、清楚、可驗(yàn)證。

*題圖由AI生成。應(yīng)受訪者要求,文中Hongson為化名。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
二手平臺(tái)出售超高價(jià)玩具人偶,標(biāo)有身高體重性格等,平臺(tái):不涉及兒童販賣

二手平臺(tái)出售超高價(jià)玩具人偶,標(biāo)有身高體重性格等,平臺(tái):不涉及兒童販賣

西游日記
2026-07-01 22:30:59
打下臺(tái)灣到底有多難?

打下臺(tái)灣到底有多難?

野書文
2026-07-02 07:02:04
蘇州一醫(yī)院現(xiàn)低矮“丁義珍式”窗口,院方回應(yīng)

蘇州一醫(yī)院現(xiàn)低矮“丁義珍式”窗口,院方回應(yīng)

界面新聞
2026-07-02 18:46:01
A股:今天午后加速跳水到4046,種種跡象表明,A股牛市已經(jīng)開始熄火?

A股:今天午后加速跳水到4046,種種跡象表明,A股牛市已經(jīng)開始熄火?

趨勢(shì)清風(fēng)俠
2026-07-02 14:06:53
山東泰山這樣做,和窮瘋了有什么區(qū)別

山東泰山這樣做,和窮瘋了有什么區(qū)別

清書先生
2026-07-02 11:23:32
突發(fā)!以色列宣布:打死伊斯梅爾·馬斯里

突發(fā)!以色列宣布:打死伊斯梅爾·馬斯里

每日經(jīng)濟(jì)新聞
2026-06-30 11:36:05
“一個(gè)月600塊你要餓死他?”大學(xué)男生吃飯被偷拍,看的人心疼!

“一個(gè)月600塊你要餓死他?”大學(xué)男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
浙江省紀(jì)委省監(jiān)委:沈午衛(wèi),主動(dòng)投案!

浙江省紀(jì)委省監(jiān)委:沈午衛(wèi),主動(dòng)投案!

都市快報(bào)橙柿互動(dòng)
2026-07-02 19:25:37
從2026年7月1日起,全國將強(qiáng)制執(zhí)行退休返聘及超齡員工,好事呀!

從2026年7月1日起,全國將強(qiáng)制執(zhí)行退休返聘及超齡員工,好事呀!

福建睿平
2026-07-02 07:47:57
德布勞內(nèi):我和多庫同時(shí)被換下確實(shí)驚訝,最終證明教練是對(duì)的

德布勞內(nèi):我和多庫同時(shí)被換下確實(shí)驚訝,最終證明教練是對(duì)的

懂球帝
2026-07-02 11:48:10
安倍晉三“不務(wù)正業(yè)”的水彩畫,張張封神!

安倍晉三“不務(wù)正業(yè)”的水彩畫,張張封神!

國際藝術(shù)大觀
2026-07-01 20:40:08
當(dāng)今社會(huì)內(nèi)卷成什么樣了?網(wǎng)友說:5年刑期以下的生意都沒利潤了

當(dāng)今社會(huì)內(nèi)卷成什么樣了?網(wǎng)友說:5年刑期以下的生意都沒利潤了

燈錦年
2026-07-02 18:05:22
澤連斯基緊急回國!

澤連斯基緊急回國!

每日經(jīng)濟(jì)新聞
2026-07-02 17:59:23
哈國緊急聯(lián)手美歐,亮出稀土底牌,以為中方?jīng)]辦法?西方高興早了

哈國緊急聯(lián)手美歐,亮出稀土底牌,以為中方?jīng)]辦法?西方高興早了

策前論
2026-07-02 14:53:42
四處樹敵可不是“蠢貨”能做到的

四處樹敵可不是“蠢貨”能做到的

律法刑道
2026-07-02 09:04:40
湖南省人民政府參事李大劍接受紀(jì)律審查和監(jiān)察調(diào)查

湖南省人民政府參事李大劍接受紀(jì)律審查和監(jiān)察調(diào)查

環(huán)球網(wǎng)資訊
2026-07-02 18:20:08
網(wǎng)曝浙江某工廠聘請(qǐng)很多印度勞工,食堂吃飯照曝光,網(wǎng)友:快舉報(bào)

網(wǎng)曝浙江某工廠聘請(qǐng)很多印度勞工,食堂吃飯照曝光,網(wǎng)友:快舉報(bào)

小徐講八卦
2026-07-02 11:43:38
賺著中國人錢,毒害中國人身體,日企在華收割萬億,至今仍在售賣

賺著中國人錢,毒害中國人身體,日企在華收割萬億,至今仍在售賣

云舟史策
2026-07-02 07:09:53
她預(yù)言了自己的死亡!!

她預(yù)言了自己的死亡!!

梳子姐
2026-07-01 20:01:45
京東方A大逆襲!493億天量創(chuàng)歷史記錄,95萬股民迎來股價(jià)18年新高,安徽合肥又贏了

京東方A大逆襲!493億天量創(chuàng)歷史記錄,95萬股民迎來股價(jià)18年新高,安徽合肥又贏了

金融界
2026-07-02 16:01:29
2026-07-02 19:55:00
AIX財(cái)經(jīng) incentive-icons
AIX財(cái)經(jīng)
AI新時(shí)代,財(cái)經(jīng)新觀察。
73文章數(shù) 23223關(guān)注度
往期回顧 全部

科技要聞

馬斯克不承認(rèn),但SpaceX就該造AI手機(jī)

頭條要聞

患罕見病被背進(jìn)考場(chǎng)男生考出643分 想報(bào)考中醫(yī)藥專業(yè)

頭條要聞

患罕見病被背進(jìn)考場(chǎng)男生考出643分 想報(bào)考中醫(yī)藥專業(yè)

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財(cái)經(jīng)要聞

千億茶市場(chǎng)無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
數(shù)碼
健康
教育

藝術(shù)要聞

元代高僧寫的一卷行書,仙氣飄飄勝趙孟頫!

房產(chǎn)要聞

稀缺預(yù)警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

數(shù)碼要聞

珂芝推出Z1 mini無線辦公輕音鼠標(biāo),79元

這4類消化病患者 吃粘食管住嘴

教育要聞

CD?C=57,求:C+D=?

無障礙瀏覽 進(jìn)入關(guān)懷版