![]()
猜強(qiáng)隊(duì)穩(wěn),猜平局難。
AIX財(cái)經(jīng)(AIXcaijing)原創(chuàng)
作者 | 雷晶
編輯 | 金玙璠
今天,2026美加墨世界杯72場(chǎng)小組賽全部結(jié)束,世界杯的第一階段落幕。賽場(chǎng)之外,另一場(chǎng)比賽也同步交出了成績(jī)單。
聯(lián)想與咪咕聯(lián)合發(fā)起的世界杯預(yù)測(cè)人機(jī)大戰(zhàn)中,12家國產(chǎn)大模型與數(shù)萬名人類玩家同臺(tái)競(jìng)猜,目前的結(jié)果是:AI整體命中率約61.9%,人類玩家54.6%。
在明確分出勝負(fù)的比賽中,AI猜中的概率大,但遇到平局,AI預(yù)測(cè)20場(chǎng)中僅命中11次。AI的優(yōu)勢(shì)不在于超越常識(shí),而在于比人更穩(wěn)定地執(zhí)行,它們可以不受情緒干擾,也能兼顧更多的信息維度。
淘汰賽即將開始,留下來的32支球隊(duì)實(shí)力更接近,“送分題”沒了,對(duì)AI來說,真正的考試才剛剛開始。
更值得關(guān)注的問題是,大模型廠商為什么要集體涌入世界杯預(yù)測(cè)?它們到底是在展示技術(shù)能力,還是在借四年一度的流量做一場(chǎng)營銷?當(dāng)淘汰賽開始、“送分題”消失,這些模型還能保持及格線以上的水平嗎?
01.大模型組團(tuán)猜球,誰在認(rèn)真考試?
世界杯歷來是品牌的流量戰(zhàn)場(chǎng),今年多了一類新玩家。國產(chǎn)大模型廠商以猜球切入,借四年一度的流量窗口,讓用戶直接感受到AI的分析能力。
規(guī)模最大的是聯(lián)想和咪咕聯(lián)合發(fā)起的“人機(jī)大戰(zhàn)”,召集了DeepSeek、通義千問、Kimi、騰訊混元等12家國產(chǎn)大模型,與數(shù)萬名人類選手在同一規(guī)則下比命中率。
單獨(dú)下場(chǎng)的廠商也不少。千問上線了足球預(yù)測(cè)AI助手,覆蓋全部104場(chǎng)比賽,用戶與AI同臺(tái)競(jìng)猜,準(zhǔn)確率超過千問的人有機(jī)會(huì)抽取萬元大獎(jiǎng);還同步發(fā)起球場(chǎng)計(jì)劃,用戶競(jìng)猜積分達(dá)到一定數(shù)額后,千問將為鄉(xiāng)村學(xué)校捐建足球場(chǎng)。Kimi搭建了300個(gè)Agent,分別負(fù)責(zé)戰(zhàn)術(shù)分析、球員狀態(tài)追蹤、賽程計(jì)算、賠率監(jiān)測(cè)等方向,生成了一份224頁的預(yù)測(cè)報(bào)告。
只是活動(dòng)的側(cè)重點(diǎn)各不相同。聯(lián)想咪咕做的是能力橫評(píng),用12個(gè)模型同場(chǎng)競(jìng)技提升關(guān)注度;千問把預(yù)測(cè)嵌進(jìn)用戶互動(dòng)和公益,走C端獲客路線;Kimi側(cè)重展示Agent處理復(fù)雜任務(wù)的能力,預(yù)測(cè)只是載體。
三場(chǎng)活動(dòng)中,只有聯(lián)想咪咕的“人機(jī)大戰(zhàn)”設(shè)置了統(tǒng)一規(guī)則、統(tǒng)一評(píng)分標(biāo)準(zhǔn),讓12家模型與人類玩家在同一賽道競(jìng)爭(zhēng)。因此,我們以它的數(shù)據(jù)為參照,拆解一下這份成績(jī)單。
截至6月28日,72場(chǎng)小組賽全部結(jié)束,12家AI整體命中率為61.9%,人類玩家為54.6%,AI領(lǐng)先約7.3個(gè)百分點(diǎn)。
![]()
圖源 / AIX財(cái)經(jīng)根據(jù)咪咕官方預(yù)測(cè)數(shù)據(jù)統(tǒng)計(jì)計(jì)算
從排名看,騰訊混元和中移九天并列第一,命中率68.1%,超過三分之二;百度文心、千問、DeepSeek以63.9%打成平手;墊底的階躍星辰只有43.1%,甚至低于人類選手的平均水平。排名頭尾相差25個(gè)百分點(diǎn),差距并不小。
比起排名,更值得關(guān)注的是這些模型贏在哪里、栽在哪里?
AI擅長猜確定性高的比賽。在西班牙對(duì)戰(zhàn)沙特的比賽中,12家AI中11家猜對(duì)了輸贏;而在德國對(duì)戰(zhàn)庫拉索的比賽中,10家模型都給出了正確的判斷。這類比賽的共同特征是強(qiáng)弱分明,模型只要參考世界排名、陣容身價(jià)和歷史戰(zhàn)績(jī),就能做出正確判斷。越接近“背公式就能答對(duì)”的題,AI做得越好。
某美企AI出海負(fù)責(zé)人曾小健解釋,大模型預(yù)測(cè)本質(zhì)上是一臺(tái)“排序機(jī)器”,把球隊(duì)各項(xiàng)數(shù)據(jù)加權(quán)比較,實(shí)力差距越大,排序結(jié)果越穩(wěn)定。
讓AI“翻車”的是平局和冷門,在整個(gè)小組賽階段,平局是AI命中率最低的類型,僅命中11次。
最典型的例子是西班牙對(duì)陣佛得角的比賽。西班牙是奪冠熱門,世界排名、陣容身價(jià)、歷史戰(zhàn)績(jī)占優(yōu);佛得角則是首次躋身世界杯的非洲新軍。賽前,11家大模型都押注西班牙獲勝,但比賽結(jié)果是0-0平局。佛得角門將的多次關(guān)鍵撲救化解了西班牙的進(jìn)攻。一個(gè)球員的爆發(fā)、一次戰(zhàn)術(shù)的執(zhí)行,都有可能改變比賽走向,而這些恰恰是數(shù)據(jù)無法提前量化的。
為什么平局這么難猜?在世界杯歷史上,平局的比例大約在20%到25%之間,本身就是一個(gè)低概率事件。模型把更多概率分配給勝或負(fù),從統(tǒng)計(jì)角度來說并非錯(cuò)誤。
曾小健認(rèn)為,平局不是排序結(jié)果,而是概率分布中的一個(gè)特殊區(qū)間。大模型天然傾向于輸出一個(gè)明確的答案,即便雙方實(shí)力接近,它也會(huì)選一方做出傾向性判斷。換句話說,模型的機(jī)制決定了它必須選邊站。
大模型從業(yè)者Hongson則提到,很多時(shí)候平局的出現(xiàn)并非偶然,而是強(qiáng)隊(duì)進(jìn)攻受阻、弱隊(duì)成功壓縮空間,或者雙方都不愿在某個(gè)階段冒險(xiǎn)的結(jié)果。這些臨場(chǎng)策略選擇本身就很難提前預(yù)判。
也就是說,AI猜強(qiáng)弱分明的比賽比較準(zhǔn),預(yù)測(cè)平局和冷門賽事時(shí)表現(xiàn)較差。即便AI猜球的命中率超過50%,但不能把這個(gè)數(shù)字等同于AI很會(huì)預(yù)測(cè)。
廠商并非不清楚這一點(diǎn)。曾小健認(rèn)為,預(yù)測(cè)比賽容易傳播,也容易讓普通用戶感受到AI好像“會(huì)分析”。這比單純展示一個(gè)抽象榜單更有話題性。它的實(shí)際價(jià)值在于教育用戶:AI可以做信息整合、情景分析和概率表達(dá)。廠商們看中的不是猜球本身,而是世界杯提供了一個(gè)人人能看懂的場(chǎng)景,讓大模型的能力從抽象的參數(shù)變成了具體的表現(xiàn)。
不管包裝成什么樣,核心都是借世界杯的流量,讓AI走進(jìn)更多人的視野。
02.AI猜球,靠的是什么?
那猜對(duì)的模型,到底是怎么猜的?
曾小健認(rèn)為,AI猜球本質(zhì)上不是預(yù)測(cè),而是復(fù)述。它更接近把足球評(píng)論員常說的話重新組織了一遍。這也解釋了為什么12家模型的預(yù)測(cè)結(jié)果經(jīng)常高度一致,它們讀的是同一批公開信息,用的是相似的推理邏輯,得出同一個(gè)結(jié)論并不奇怪。
但在這層“復(fù)述”之下,也有不同的技術(shù)路徑。
最輕量的做法是純prompt工程,把球隊(duì)信息塞進(jìn)提示詞,門檻低、傳播快。但模型輸出看上去很像“專家”,經(jīng)不起統(tǒng)計(jì)檢驗(yàn)。
往上一層是RAG檢索增強(qiáng),解決了信息新鮮度的問題,但檢索到的信息可能比較片面,模型只會(huì)更有條理地得出一個(gè)片面的結(jié)論。
第三種是多智能體協(xié)作,像一個(gè)小型分析團(tuán)隊(duì)在協(xié)作,但多個(gè)Agent的意見匯總不等于預(yù)測(cè)精度提升,架構(gòu)復(fù)雜了,準(zhǔn)確率未必跟著提高。
第四種是先用統(tǒng)計(jì)工具算概率,再讓大模型“翻譯”。用Elo評(píng)分、泊松進(jìn)球模型、蒙特卡洛模擬等方式跑出一組概率分布,大模型負(fù)責(zé)解釋和呈現(xiàn)。曾小健認(rèn)為這是最合理的方式,足球預(yù)測(cè)首先是數(shù)學(xué)問題,其次才是語言表達(dá)問題。但這條路門檻也最高,需要獨(dú)立搭建概率模型,大多數(shù)廠商不會(huì)為一次營銷活動(dòng)做這么重的投入。
![]()
圖源 / FIFA世界杯官方微博
Hongson自己搭建的FLUX·10就是走的就是這條路。他把球隊(duì)實(shí)力、攻防狀態(tài)、陣容等十個(gè)維度轉(zhuǎn)化為可計(jì)算的變量,先跑出勝平負(fù)概率和預(yù)期進(jìn)球,再用大模型將結(jié)果轉(zhuǎn)化為普通人看得懂的分析。截至小組賽第三輪前,預(yù)測(cè)了64場(chǎng)比賽,命中率約為60.9%。
這四種路徑的門檻和準(zhǔn)確性逐級(jí)遞增,但市場(chǎng)上大多數(shù)廠商仍在前兩層。歸根結(jié)底,不管用哪條路徑,模型的目標(biāo)都是一致的:把已有信息整合成一個(gè)看上去合理的判斷。路徑的差異決定了信息的質(zhì)量,但沒有一條路能夠讓模型真正預(yù)見賽場(chǎng)上尚未發(fā)生的事情。
它們還面臨共同的短板。一是預(yù)測(cè)不夠動(dòng)態(tài),首發(fā)陣容公布、核心球員缺陣、賠率異動(dòng),都在實(shí)時(shí)改變概率。但大多數(shù)模型做完一次預(yù)測(cè)就交卷了,沒有隨著新信息持續(xù)更新的機(jī)制。
二是缺少概率校準(zhǔn),模型只是在生產(chǎn)看起來合理的數(shù)字,而非真正可靠的概率。沒有校準(zhǔn)和回測(cè)的預(yù)測(cè),更像內(nèi)容產(chǎn)品,不像科學(xué)模型。
對(duì)大多數(shù)廠商來說,優(yōu)化預(yù)測(cè)靠的還是數(shù)據(jù)工程,喂更多信息、寫更好的prompt、接更全的數(shù)據(jù)源,而不是模型層面的突破。
這也揭示了當(dāng)前大模型在預(yù)測(cè)類任務(wù)上的一個(gè)局限,它們擅長整合已有信息、生成看起來合理的判斷,但缺乏應(yīng)對(duì)未知變量的能力。這也意味著,大模型可以是優(yōu)秀的事后軍師,但還不是合格的預(yù)言家。
03.淘汰賽開始,AI的“送分題”沒了
小組賽結(jié)束,對(duì)AI來說,“考試環(huán)境”發(fā)生了變化。
這屆世界杯是參賽球隊(duì)數(shù)量最多的一屆,48支球隊(duì)中不少實(shí)力較弱的隊(duì)伍是首次登上世界杯舞臺(tái)。
這意味著72場(chǎng)小組賽中,相當(dāng)一部分是強(qiáng)弱分明的對(duì)局,區(qū)分度高,AI做排序題相對(duì)簡(jiǎn)單。但淘汰賽留下來的32支球隊(duì)經(jīng)過小組賽篩選,實(shí)力差距被大幅壓縮,猜球變得更難。
![]()
圖源 / AIX財(cái)經(jīng)根據(jù)咪咕官方預(yù)測(cè)數(shù)據(jù)統(tǒng)計(jì)計(jì)算
賽制也不一樣了。小組賽輸一場(chǎng)還有回旋余地,淘汰賽單場(chǎng)定生死。加時(shí)賽、點(diǎn)球大戰(zhàn)在歷史數(shù)據(jù)中樣本極少,模型缺乏足夠的“經(jīng)驗(yàn)”。Hongson提到,要想猜球更準(zhǔn),模型需要主動(dòng)調(diào)整策略,小組賽更重視強(qiáng)弱差和進(jìn)球上限,淘汰賽則提高低比分、平局和小差勝的權(quán)重,因?yàn)閺?qiáng)隊(duì)進(jìn)入淘汰賽也會(huì)變得謹(jǐn)慎,不會(huì)像小組賽那樣放開打。但大多數(shù)模型沒有這種主動(dòng)調(diào)整的機(jī)制。
那AI預(yù)測(cè)比賽結(jié)果的能力邊界在哪?
Hongson認(rèn)為天花板不在于算出唯一正確比分,而在于把概率、風(fēng)險(xiǎn)和可能的路徑講清楚。AI可以告訴你一場(chǎng)比賽更可能是低比分還是開放局,哪些變量會(huì)讓比賽偏離預(yù)期,但它不能把足球變成確定性問題。
換句話說,AI面對(duì)的不是缺數(shù)據(jù)的問題,而是一個(gè)難以解決的不確定性問題。但這并不意味著預(yù)測(cè)本身沒有意義。
Hongson表示,世界杯預(yù)測(cè)真正有價(jià)值的地方在于它提供了一個(gè)高不確定性決策的實(shí)驗(yàn)場(chǎng),把結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化信息、歷史經(jīng)驗(yàn)等放進(jìn)同一個(gè)閉環(huán)里,看模型能否輸出有意義的判斷。這套方法論可以遷移到商業(yè)選品、營銷投放、輿情判斷等領(lǐng)域,關(guān)鍵不是照搬比分模型,而是把影響結(jié)果的變量結(jié)構(gòu)化,用概率表達(dá)判斷,每次結(jié)果出來后再進(jìn)行復(fù)盤校準(zhǔn)。
曾小健則認(rèn)為,AI在這些場(chǎng)景中最合適的角色是決策輔助系統(tǒng),更快整理信息、識(shí)別關(guān)鍵變量、生成情景分析、評(píng)估不同結(jié)果的風(fēng)險(xiǎn),而不是最終拍板者。將這套預(yù)測(cè)方法遷移到其他決策場(chǎng)景也一樣,AI可以縮小選項(xiàng)范圍、量化風(fēng)險(xiǎn),但把AI的輸出直接當(dāng)結(jié)論用,就可能放大模型本身的偏差和盲區(qū)。
某種程度上,世界杯是國產(chǎn)大模型的一次公開的大測(cè)試。世界杯天然有流量,廠商做預(yù)測(cè)有營銷成分很正常。營銷是出發(fā)點(diǎn),但結(jié)果是透明的。預(yù)測(cè)本身仍然是一個(gè)有價(jià)值的測(cè)試場(chǎng)景,它考驗(yàn)的不是參數(shù)大小和榜單排名,而是面對(duì)真實(shí)世界的不確定性時(shí),模型能不能表達(dá)得更誠實(shí)、清楚、可驗(yàn)證。
*題圖由AI生成。應(yīng)受訪者要求,文中Hongson為化名。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.