來源:新浪科技
德國隊最后一個點球飛出球門范圍時,那張賽前預測表忽然變得刺眼。
![]()
在表格里,12個中國AI模型沒有給巴拉圭留下太多空間。DeepSeek、通義千問、智譜、訊飛星火都寫下德國3:0;騰訊混元、Kimi、MiniMax、商湯小浣熊給出德國3:1;聯想天禧AI預測2:1,百度文心、中移九天、階躍星辰認為德國會2:0過關。
這是一張很容易讓人安心的表。強隊、球星、體系、歷史、賠率、公開資料,都站在德國一邊。賽前看,它像一份穩定的共識;賽后看,它更像一份集體失效的診斷書。
120分鐘后,比分停在1:1。巴拉圭門將吉爾兩度撲出點球,塔赫將球踢飛,卡納萊罰進最后一腳。點球大戰4:3,四屆世界杯冠軍德國,被巴拉圭拖進了最殘酷、也最不講道理的淘汰方式。
足球世界當然不缺冷門。人類專家會錯,超級計算機會錯,AI也會錯。真正值得停下來看的,不是AI錯了,而是它們錯得如此一致。
這場比賽讓一個原本帶著娛樂色彩的預測活動,突然有了更嚴肅的意味:當12個看似不同的AI面對同一個復雜現實,它們為什么同時選擇了那個最順滑、最合理、也最錯誤的答案?
最合理的答案,未必最接近現實
大模型在這類比賽里最容易相信的,不是勝利本身,而是關于勝利的敘事。
德國是一支特別適合被AI解釋的球隊。它有歷史,有球星,有成熟的戰術語言,有納格爾斯曼,有穆西亞拉和維爾茨,也有海量可被檢索、引用和重組的公開資料。讓模型說明德國為什么會贏,它幾乎可以立刻寫出一篇結構完整的分析,而且其中很多理由都是真的。
問題在于,真實理由并不自動通向真實結果。
巴拉圭不需要證明自己比德國更強。它只需要把比賽變慢,把空間壓小,把德國拖進焦躁,把90分鐘拖成120分鐘,再把120分鐘拖進點球。這樣的路徑不漂亮,也不穩定,更不適合寫成一篇賽前分析。但它恰恰是足球里最常見的冷門方式:一次神撲、一次VAR、一個失誤、幾個遲疑的腳步,就足以讓最完整的邏輯斷裂。
![]()
AI并不是完全看不見風險。它的問題是,常常把風險放在正確的位置,卻給了錯誤的重量。
這也是足球對AI最有價值的地方。足球不是一道封閉題。它有數據,但數據遠遠不夠;它有規律,但規律隨時會被一個人、一個瞬間、一陣情緒打斷。NBA一場比賽兩隊合計得分可以超過200分,樣本密度足夠高;足球一場比賽可能只有一兩個進球,一個越位、一張黃牌、一次點球罰失,就能改變所有模型的勝負判斷。
所以,12個AI一起押錯德國,不說明AI預測沒有意義。恰恰相反,它讓這件事第一次變得嚴肅起來。因為現實世界檢驗AI的方式,從來不是問它能不能永遠正確,而是當它錯了之后,能不能看清自己為什么錯。
世界杯正在變成AI的公共考場
過去幾年,大模型的競爭主要發生在三個地方:發布會、排行榜和聊天框。
發布會展示最好看的能力,排行榜給出最整齊的分數,聊天框提供最直觀的體感。但這些場景都有一個共同問題:普通人很難獨立判斷。一個模型寫出的代碼是否優雅,只有程序員看得懂;一段推理是否扎實,往往需要專業知識;榜單分數看起來精確,卻離大眾經驗很遠。
世界杯不一樣。
它有賽程,有結果,有全球觀眾,也有連續樣本。預測必須寫在賽前,答案會在賽后揭曉。德國贏沒贏,巴拉圭晉沒晉級,不需要任何專業解釋。每個人都能看懂,也沒有誰能在比賽結束后偷偷改掉自己的比分。
這就是世界杯對AI既殘酷又珍貴的地方:它把AI從一個被觀看的產品,變成了一個要對現實負責的判斷者。
從硅谷到歐洲,從媒體實驗到學術項目,這屆世界杯之前,圍繞AI預測能力的全球實驗已經展開。Tom‘s Guide讓ChatGPT、Gemini和Perplexity預測冠軍,三個模型不約而同選擇了西班牙;AldoMedia讓八個模型完成完整賽程預測,其中七個選擇法國奪冠;荷蘭Bureau Onder把五個模型的104場預測做成實時榜單;德國慕尼黑大學、科隆大學和帕德博恩大學聯合發起LLM SoccerArena,把主流大模型放到每日更新的排行榜上,逐場比對預測與實際結果。
金融機構也在參與這場實驗。高盛用分析近兩萬場歷史比賽的模型給出冠軍概率分布,而不是簡單寫下一個比分。這個差異很重要:概率承認不確定性,比分制造確定感。一個模型說德國有65%的晉級概率,和另一個模型說德國3:0取勝,給讀者的心理暗示完全不同。
大模型真正需要學習的,可能不是如何把語氣說得更篤定,而是如何把不確定性表達得更誠實。
中國樣本的價值:把12大AI放到同一張答題卡上
聯想集團與咪咕發起的“世界杯預測人機大戰”,正好提供了一個中國語境里的樣本。
它把12個國產AI放進同一張預測表里:聯想天禧AI、DeepSeek、千問、百度文心、騰訊混元、Kimi、智譜、MiniMax、階躍星辰、訊飛星火、商湯小浣熊、中移九天。它們面對同一場比賽、同一套賽果、同一批觀眾。預測不是私下生成,也不是賽后復盤,而是賽前公開留下痕跡。
這件事的意義不在于哪一家模型猜中了幾場,而在于它制造了一個過去中文互聯網很少見的場景:多個國產大模型在一個大眾可理解的任務里,同時接受檢驗。
過去一年,中國大模型行業足夠熱鬧。DeepSeek代表推理和開源沖擊,通義千問代表云廠商與生態能力,Kimi代表長文本、Agent和知識工作場景,文心、混元、智譜、MiniMax、階躍、訊飛星火、商湯小浣熊也各自在不同賽道尋找位置。但這些差異對普通用戶來說并不總是清晰。
世界杯給了一個罕見機會。用戶不需要理解參數規模,也不需要閱讀技術白皮書,只要看賽前預測和賽后結果,就能形成某種直覺判斷。
德國這場比賽尤其有意思。12家模型的判斷并非隨機分布,而是高度收斂。它們幾乎都相信德國會在90分鐘內解決問題,只是在2:0、2:1、3:0和3:1之間做細微擺動。這說明,在足球預測這種任務里,數據源、提示詞和輸出格式可能比模型個性更強勢。
這不是抹殺模型差異,而是提醒行業:當訓練材料高度重疊、公開信息高度趨同、任務又要求輸出一個確定比分時,多個模型看似獨立,最后可能只是從同一批資料里走向同一個答案。
Kimi此前提出用“Agent集群”調度多個子Agent,從戰術、球員、傷病、賽程、賠率、天氣、輿情、心理等維度并行研究。這種方法論值得重視,也比單次問答更接近真實任務。但德國對巴拉圭的結果提出了一個尖銳問題:多Agent不天然帶來多樣性。若數據源相似、目標函數相似、推理偏好相似,并行可能只是更快收斂,不一定更接近真實。
“更多”不自動等于“更好”。這是這場比賽給大模型行業留下的第一條注腳。
AI不只在猜比分,它已經進入世界杯后臺
如果只把這屆世界杯里的AI理解為“模型猜比分”,那仍然太淺。
預測只是冰山露出水面的那一角。在水面之下,AI已經深入到賽事的技術基礎設施中,正在重構從球場到客廳的整條鏈路。
本屆世界杯的官方比賽用球阿迪達斯Trionda內置運動傳感器,以每秒500次的頻率記錄球的運動軌跡。這些數據與球場內的追蹤攝像頭系統同步,幫助系統精確鎖定傳球瞬間和球員位置。
半自動越位技術也在升級。參賽球員賽前接受3D數字掃描,AI生成的高精度數字化身能夠還原球員肢體尺寸。當VAR做出判罰時,系統可以生成更直觀的3D回放。德國對巴拉圭一戰中,塔赫的頭球被VAR取消,就讓這種技術路徑進入了普通觀眾的視野。
在戰術分析層,聯想作為FIFA官方技術合作伙伴,為48支參賽球隊提供Football AI Pro。這個建立在FIFA Football Language模型之上的生成式AI助手,可以分析超過2000種足球指標和數億個FIFA數據點,讓教練和分析師用自然語言查詢對手戰術、模擬陣型變化、觀看3D戰術重建。
這也是聯想在本屆世界杯中最值得被看見的一條雙線:后臺,它進入賽事運行、轉播、戰術分析和場館運營;前臺,它又通過“世界杯預測人機大戰”,把AI能力變成普通球迷能看見、能討論、能轉發、能評判的內容。
后臺決定賽事如何被技術支撐,前臺決定公眾如何理解AI。二者交織在一起,比只做基礎設施更冒險,也更有傳播價值。
因為后臺技術通常安靜,前臺預測則必須承受輸贏。一個系統如果只在幕后工作,它可以被描述為穩定、可靠、高效;一旦站到賽前預測表上,它就必須面對最樸素的追問:你說德國會贏,為什么最后是巴拉圭晉級?
真正值得警惕的,是“聰明系統一起站錯方向”
德國出局之后,最容易的是嘲笑AI翻車。
它消耗情緒,不生產理解。更有價值的問題是:為什么所有模型會同時偏向那個看起來最合理的方向?為什么冷門路徑明明存在,卻沒有被賦予足夠權重?
在足球里,這種錯誤的代價不高。它最多是一張預測榜單的尷尬,是一次社交媒體上的調侃,是模型團隊賽后復盤時必須面對的案例。
但如果把這個模式遷移到足球之外,問題就嚴肅得多。
金融市場、公共政策、商業決策、醫療建議、輿情判斷,很多現實場景都不是封閉題。它們也有主流敘事,也有強勢數據,也有看似最合理的答案。AI如果在世界杯里會順著共識走,在其他場景里也可能這樣做。它會給出結構完整、證據充分、語氣自信的判斷,但真正的風險,可能藏在那個被低估的小概率路徑里。
“所有看起來聰明的系統同時站錯方向”,在足球里叫冷門,在金融市場里叫系統性風險。
這就是世界杯預測的意義。它不是一個小題大做的娛樂項目,而是一個低風險、高可見度的模擬場。它讓我們在不造成嚴重后果的情況下,看見AI如何處理復雜現實,也看見模型共識可能如何遮蔽風險。
世界杯最迷人的地方,是它不斷讓看似確定的東西失效。
強隊會倒下,冷門會發生,點球會重寫120分鐘的敘事。AI進入世界杯,并不會讓足球變得可計算。它只是讓我們多了一種觀察足球、也觀察AI自身的方式。
德國已經出局。12個AI的共同誤判不應該被輕輕放過,也不應該被簡單嘲笑。
接下來的問題是:誰會更早識別冷門?誰會在淘汰賽里更重視點球路徑?誰會把概率說清楚,而不是把比分說滿?誰的賽后復盤能解釋錯誤,而不是為錯誤尋找借口?
如果這些模型能在之后的比賽里展現出不同的判斷,學會給邊緣路徑更高權重,學會用概率而不是口氣表達信心,那么這場人機大戰就不只是一次流量活動,而會成為一次罕見的公共評測。
現實世界檢驗AI的方式,從來不是要求它永遠正確。更重要的問題是:當它錯了之后,能不能說明自己為什么錯;當所有模型一起錯了之后,行業能不能看見那個被共識遮蔽的盲區。
世界杯不會因為AI而變得可計算。恰恰相反,它提醒我們:越是強大的系統,越需要在現實的草皮上摔一跤。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.