網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI預(yù)測(cè)世界杯小組賽：混元第一，千問DeepSeek打平

2026-06-28 15:19:51　來源: AIX財(cái)經(jīng)

北京舉報(bào)

分享至

猜強(qiáng)隊(duì)穩(wěn)，猜平局難。

AIX財(cái)經(jīng)（AIXcaijing）原創(chuàng)

作者 | 雷晶

編輯 | 金玙璠

今天，2026美加墨世界杯72場(chǎng)小組賽全部結(jié)束，世界杯的第一階段落幕。賽場(chǎng)之外，另一場(chǎng)比賽也同步交出了成績(jī)單。

聯(lián)想與咪咕聯(lián)合發(fā)起的世界杯預(yù)測(cè)人機(jī)大戰(zhàn)中，12家國產(chǎn)大模型與數(shù)萬名人類玩家同臺(tái)競(jìng)猜，目前的結(jié)果是：AI整體命中率約61.9%，人類玩家54.6%。

在明確分出勝負(fù)的比賽中，AI猜中的概率大，但遇到平局，AI預(yù)測(cè)20場(chǎng)中僅命中11次。AI的優(yōu)勢(shì)不在于超越常識(shí)，而在于比人更穩(wěn)定地執(zhí)行，它們可以不受情緒干擾，也能兼顧更多的信息維度。

淘汰賽即將開始，留下來的32支球隊(duì)實(shí)力更接近，“送分題”沒了，對(duì)AI來說，真正的考試才剛剛開始。

更值得關(guān)注的問題是，大模型廠商為什么要集體涌入世界杯預(yù)測(cè)？它們到底是在展示技術(shù)能力，還是在借四年一度的流量做一場(chǎng)營銷？當(dāng)淘汰賽開始、“送分題”消失，這些模型還能保持及格線以上的水平嗎？

01.大模型組團(tuán)猜球，誰在認(rèn)真考試？

世界杯歷來是品牌的流量戰(zhàn)場(chǎng)，今年多了一類新玩家。國產(chǎn)大模型廠商以猜球切入，借四年一度的流量窗口，讓用戶直接感受到AI的分析能力。

規(guī)模最大的是聯(lián)想和咪咕聯(lián)合發(fā)起的“人機(jī)大戰(zhàn)”，召集了DeepSeek、通義千問、Kimi、騰訊混元等12家國產(chǎn)大模型，與數(shù)萬名人類選手在同一規(guī)則下比命中率。

單獨(dú)下場(chǎng)的廠商也不少。千問上線了足球預(yù)測(cè)AI助手，覆蓋全部104場(chǎng)比賽，用戶與AI同臺(tái)競(jìng)猜，準(zhǔn)確率超過千問的人有機(jī)會(huì)抽取萬元大獎(jiǎng)；還同步發(fā)起球場(chǎng)計(jì)劃，用戶競(jìng)猜積分達(dá)到一定數(shù)額后，千問將為鄉(xiāng)村學(xué)校捐建足球場(chǎng)。Kimi搭建了300個(gè)Agent，分別負(fù)責(zé)戰(zhàn)術(shù)分析、球員狀態(tài)追蹤、賽程計(jì)算、賠率監(jiān)測(cè)等方向，生成了一份224頁的預(yù)測(cè)報(bào)告。

只是活動(dòng)的側(cè)重點(diǎn)各不相同。聯(lián)想咪咕做的是能力橫評(píng)，用12個(gè)模型同場(chǎng)競(jìng)技提升關(guān)注度；千問把預(yù)測(cè)嵌進(jìn)用戶互動(dòng)和公益，走C端獲客路線；Kimi側(cè)重展示Agent處理復(fù)雜任務(wù)的能力，預(yù)測(cè)只是載體。

三場(chǎng)活動(dòng)中，只有聯(lián)想咪咕的“人機(jī)大戰(zhàn)”設(shè)置了統(tǒng)一規(guī)則、統(tǒng)一評(píng)分標(biāo)準(zhǔn)，讓12家模型與人類玩家在同一賽道競(jìng)爭(zhēng)。因此，我們以它的數(shù)據(jù)為參照，拆解一下這份成績(jī)單。

截至6月28日，72場(chǎng)小組賽全部結(jié)束，12家AI整體命中率為61.9%，人類玩家為54.6%，AI領(lǐng)先約7.3個(gè)百分點(diǎn)。

圖源 / AIX財(cái)經(jīng)根據(jù)咪咕官方預(yù)測(cè)數(shù)據(jù)統(tǒng)計(jì)計(jì)算

從排名看，騰訊混元和中移九天并列第一，命中率68.1%，超過三分之二；百度文心、千問、DeepSeek以63.9%打成平手；墊底的階躍星辰只有43.1%，甚至低于人類選手的平均水平。排名頭尾相差25個(gè)百分點(diǎn)，差距并不小。

比起排名，更值得關(guān)注的是這些模型贏在哪里、栽在哪里？

AI擅長猜確定性高的比賽。在西班牙對(duì)戰(zhàn)沙特的比賽中，12家AI中11家猜對(duì)了輸贏；而在德國對(duì)戰(zhàn)庫拉索的比賽中，10家模型都給出了正確的判斷。這類比賽的共同特征是強(qiáng)弱分明，模型只要參考世界排名、陣容身價(jià)和歷史戰(zhàn)績(jī)，就能做出正確判斷。越接近“背公式就能答對(duì)”的題，AI做得越好。

某美企AI出海負(fù)責(zé)人曾小健解釋，大模型預(yù)測(cè)本質(zhì)上是一臺(tái)“排序機(jī)器”，把球隊(duì)各項(xiàng)數(shù)據(jù)加權(quán)比較，實(shí)力差距越大，排序結(jié)果越穩(wěn)定。

讓AI“翻車”的是平局和冷門，在整個(gè)小組賽階段，平局是AI命中率最低的類型，僅命中11次。

最典型的例子是西班牙對(duì)陣佛得角的比賽。西班牙是奪冠熱門，世界排名、陣容身價(jià)、歷史戰(zhàn)績(jī)占優(yōu)；佛得角則是首次躋身世界杯的非洲新軍。賽前，11家大模型都押注西班牙獲勝，但比賽結(jié)果是0-0平局。佛得角門將的多次關(guān)鍵撲救化解了西班牙的進(jìn)攻。一個(gè)球員的爆發(fā)、一次戰(zhàn)術(shù)的執(zhí)行，都有可能改變比賽走向，而這些恰恰是數(shù)據(jù)無法提前量化的。

為什么平局這么難猜？在世界杯歷史上，平局的比例大約在20%到25%之間，本身就是一個(gè)低概率事件。模型把更多概率分配給勝或負(fù)，從統(tǒng)計(jì)角度來說并非錯(cuò)誤。

曾小健認(rèn)為，平局不是排序結(jié)果，而是概率分布中的一個(gè)特殊區(qū)間。大模型天然傾向于輸出一個(gè)明確的答案，即便雙方實(shí)力接近，它也會(huì)選一方做出傾向性判斷。換句話說，模型的機(jī)制決定了它必須選邊站。

大模型從業(yè)者Hongson則提到，很多時(shí)候平局的出現(xiàn)并非偶然，而是強(qiáng)隊(duì)進(jìn)攻受阻、弱隊(duì)成功壓縮空間，或者雙方都不愿在某個(gè)階段冒險(xiǎn)的結(jié)果。這些臨場(chǎng)策略選擇本身就很難提前預(yù)判。

也就是說，AI猜強(qiáng)弱分明的比賽比較準(zhǔn)，預(yù)測(cè)平局和冷門賽事時(shí)表現(xiàn)較差。即便AI猜球的命中率超過50%，但不能把這個(gè)數(shù)字等同于AI很會(huì)預(yù)測(cè)。

廠商并非不清楚這一點(diǎn)。曾小健認(rèn)為，預(yù)測(cè)比賽容易傳播，也容易讓普通用戶感受到AI好像“會(huì)分析”。這比單純展示一個(gè)抽象榜單更有話題性。它的實(shí)際價(jià)值在于教育用戶：AI可以做信息整合、情景分析和概率表達(dá)。廠商們看中的不是猜球本身，而是世界杯提供了一個(gè)人人能看懂的場(chǎng)景，讓大模型的能力從抽象的參數(shù)變成了具體的表現(xiàn)。

不管包裝成什么樣，核心都是借世界杯的流量，讓AI走進(jìn)更多人的視野。

02.AI猜球，靠的是什么？

那猜對(duì)的模型，到底是怎么猜的？

曾小健認(rèn)為，AI猜球本質(zhì)上不是預(yù)測(cè)，而是復(fù)述。它更接近把足球評(píng)論員常說的話重新組織了一遍。這也解釋了為什么12家模型的預(yù)測(cè)結(jié)果經(jīng)常高度一致，它們讀的是同一批公開信息，用的是相似的推理邏輯，得出同一個(gè)結(jié)論并不奇怪。

但在這層“復(fù)述”之下，也有不同的技術(shù)路徑。

最輕量的做法是純prompt工程，把球隊(duì)信息塞進(jìn)提示詞，門檻低、傳播快。但模型輸出看上去很像“專家”，經(jīng)不起統(tǒng)計(jì)檢驗(yàn)。

往上一層是RAG檢索增強(qiáng)，解決了信息新鮮度的問題，但檢索到的信息可能比較片面，模型只會(huì)更有條理地得出一個(gè)片面的結(jié)論。

第三種是多智能體協(xié)作，像一個(gè)小型分析團(tuán)隊(duì)在協(xié)作，但多個(gè)Agent的意見匯總不等于預(yù)測(cè)精度提升，架構(gòu)復(fù)雜了，準(zhǔn)確率未必跟著提高。

第四種是先用統(tǒng)計(jì)工具算概率，再讓大模型“翻譯”。用Elo評(píng)分、泊松進(jìn)球模型、蒙特卡洛模擬等方式跑出一組概率分布，大模型負(fù)責(zé)解釋和呈現(xiàn)。曾小健認(rèn)為這是最合理的方式，足球預(yù)測(cè)首先是數(shù)學(xué)問題，其次才是語言表達(dá)問題。但這條路門檻也最高，需要獨(dú)立搭建概率模型，大多數(shù)廠商不會(huì)為一次營銷活動(dòng)做這么重的投入。

圖源 / FIFA世界杯官方微博

Hongson自己搭建的FLUX·10就是走的就是這條路。他把球隊(duì)實(shí)力、攻防狀態(tài)、陣容等十個(gè)維度轉(zhuǎn)化為可計(jì)算的變量，先跑出勝平負(fù)概率和預(yù)期進(jìn)球，再用大模型將結(jié)果轉(zhuǎn)化為普通人看得懂的分析。截至小組賽第三輪前，預(yù)測(cè)了64場(chǎng)比賽，命中率約為60.9%。

這四種路徑的門檻和準(zhǔn)確性逐級(jí)遞增，但市場(chǎng)上大多數(shù)廠商仍在前兩層。歸根結(jié)底，不管用哪條路徑，模型的目標(biāo)都是一致的：把已有信息整合成一個(gè)看上去合理的判斷。路徑的差異決定了信息的質(zhì)量，但沒有一條路能夠讓模型真正預(yù)見賽場(chǎng)上尚未發(fā)生的事情。

它們還面臨共同的短板。一是預(yù)測(cè)不夠動(dòng)態(tài)，首發(fā)陣容公布、核心球員缺陣、賠率異動(dòng)，都在實(shí)時(shí)改變概率。但大多數(shù)模型做完一次預(yù)測(cè)就交卷了，沒有隨著新信息持續(xù)更新的機(jī)制。

二是缺少概率校準(zhǔn)，模型只是在生產(chǎn)看起來合理的數(shù)字，而非真正可靠的概率。沒有校準(zhǔn)和回測(cè)的預(yù)測(cè)，更像內(nèi)容產(chǎn)品，不像科學(xué)模型。

對(duì)大多數(shù)廠商來說，優(yōu)化預(yù)測(cè)靠的還是數(shù)據(jù)工程，喂更多信息、寫更好的prompt、接更全的數(shù)據(jù)源，而不是模型層面的突破。

這也揭示了當(dāng)前大模型在預(yù)測(cè)類任務(wù)上的一個(gè)局限，它們擅長整合已有信息、生成看起來合理的判斷，但缺乏應(yīng)對(duì)未知變量的能力。這也意味著，大模型可以是優(yōu)秀的事后軍師，但還不是合格的預(yù)言家。

03.淘汰賽開始，AI的“送分題”沒了

小組賽結(jié)束，對(duì)AI來說，“考試環(huán)境”發(fā)生了變化。

這屆世界杯是參賽球隊(duì)數(shù)量最多的一屆，48支球隊(duì)中不少實(shí)力較弱的隊(duì)伍是首次登上世界杯舞臺(tái)。

這意味著72場(chǎng)小組賽中，相當(dāng)一部分是強(qiáng)弱分明的對(duì)局，區(qū)分度高，AI做排序題相對(duì)簡(jiǎn)單。但淘汰賽留下來的32支球隊(duì)經(jīng)過小組賽篩選，實(shí)力差距被大幅壓縮，猜球變得更難。

圖源 / AIX財(cái)經(jīng)根據(jù)咪咕官方預(yù)測(cè)數(shù)據(jù)統(tǒng)計(jì)計(jì)算

賽制也不一樣了。小組賽輸一場(chǎng)還有回旋余地，淘汰賽單場(chǎng)定生死。加時(shí)賽、點(diǎn)球大戰(zhàn)在歷史數(shù)據(jù)中樣本極少，模型缺乏足夠的“經(jīng)驗(yàn)”。Hongson提到，要想猜球更準(zhǔn)，模型需要主動(dòng)調(diào)整策略，小組賽更重視強(qiáng)弱差和進(jìn)球上限，淘汰賽則提高低比分、平局和小差勝的權(quán)重，因?yàn)閺?qiáng)隊(duì)進(jìn)入淘汰賽也會(huì)變得謹(jǐn)慎，不會(huì)像小組賽那樣放開打。但大多數(shù)模型沒有這種主動(dòng)調(diào)整的機(jī)制。

那AI預(yù)測(cè)比賽結(jié)果的能力邊界在哪？

Hongson認(rèn)為天花板不在于算出唯一正確比分，而在于把概率、風(fēng)險(xiǎn)和可能的路徑講清楚。AI可以告訴你一場(chǎng)比賽更可能是低比分還是開放局，哪些變量會(huì)讓比賽偏離預(yù)期，但它不能把足球變成確定性問題。

換句話說，AI面對(duì)的不是缺數(shù)據(jù)的問題，而是一個(gè)難以解決的不確定性問題。但這并不意味著預(yù)測(cè)本身沒有意義。

Hongson表示，世界杯預(yù)測(cè)真正有價(jià)值的地方在于它提供了一個(gè)高不確定性決策的實(shí)驗(yàn)場(chǎng)，把結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化信息、歷史經(jīng)驗(yàn)等放進(jìn)同一個(gè)閉環(huán)里，看模型能否輸出有意義的判斷。這套方法論可以遷移到商業(yè)選品、營銷投放、輿情判斷等領(lǐng)域，關(guān)鍵不是照搬比分模型，而是把影響結(jié)果的變量結(jié)構(gòu)化，用概率表達(dá)判斷，每次結(jié)果出來后再進(jìn)行復(fù)盤校準(zhǔn)。

曾小健則認(rèn)為，AI在這些場(chǎng)景中最合適的角色是決策輔助系統(tǒng)，更快整理信息、識(shí)別關(guān)鍵變量、生成情景分析、評(píng)估不同結(jié)果的風(fēng)險(xiǎn)，而不是最終拍板者。將這套預(yù)測(cè)方法遷移到其他決策場(chǎng)景也一樣，AI可以縮小選項(xiàng)范圍、量化風(fēng)險(xiǎn)，但把AI的輸出直接當(dāng)結(jié)論用，就可能放大模型本身的偏差和盲區(qū)。

某種程度上，世界杯是國產(chǎn)大模型的一次公開的大測(cè)試。世界杯天然有流量，廠商做預(yù)測(cè)有營銷成分很正常。營銷是出發(fā)點(diǎn)，但結(jié)果是透明的。預(yù)測(cè)本身仍然是一個(gè)有價(jià)值的測(cè)試場(chǎng)景，它考驗(yàn)的不是參數(shù)大小和榜單排名，而是面對(duì)真實(shí)世界的不確定性時(shí)，模型能不能表達(dá)得更誠實(shí)、清楚、可驗(yàn)證。

*題圖由AI生成。應(yīng)受訪者要求，文中Hongson為化名。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.