无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Kimi公開預測104場世界杯:AI不是萬能,AI公司也別裝

0
分享至


一個肯說“我可能錯”的AI,會不會更可信?

定焦One(dingjiaoone)原創

作者 | 陳頤

編輯 | 方展博

2026年世界杯還沒揭幕,幾家AI公司先在場外較上了勁。

這屆世界杯擴軍到48支隊、104場比賽,是史上規模最大的一屆,也順理成章成了各家大模型秀肌肉的舞臺。

6月8日,Kimi正式下場,玩法跟別人不太一樣。

它沒有只發條預測、截張圖就了事,而是用Agent集群調度300個子Agent,對104場比賽逐場做賽前預測、賽后復盤。在冠軍的預測上,Kimi并沒有否認西班牙、法國仍是熱門候選,但提出德國隊“可能被市場低估”,有可能“爆冷”奪冠。它甚至還公開喊話其他大模型,一起來預測、同場檢驗。


Kimi小組賽預測圖

更加另類的是,預測文章里的第一句話就是:“我們的預測很可能是錯的”。它認為,AI不該被包裝成永遠正確的系統,應當更透明地講清自己的能力邊界。

辦這場活動,當然有商業上的考量,拉新、導流,給剛上線的Kimi Work攢一波聲量。但Kimi這套又是公開預測、又是邀人挑錯的操作,更像是在向“包裝萬能”的AI行業潛規則發起挑戰,它想讓更多人看清,今天的AI到底能做什么、又做不到什么。

這恰恰是很多人忽略的一點。如今我們已經習慣讓AI查資料、寫方案,甚至替我們拿主意,可真要依賴AI做判斷,光有答案還不夠,還得知道這個答案有幾分靠譜。

于是問題來了:我們嘴上都說想要AI說實話,可它真說出“我沒把握”時,我們究竟會更信它,還是掉頭去找那個順著你說、給你信心的AI?

誠實,對一家AI公司來說,到底是加分項,還是勸退項?Kimi想用104場世界杯球賽,把這個問題擺上臺面。

01.Kimi為什么敢押德國隊?

先說說用戶能怎么參與這場活動。

從6月9日起,登錄Kimi,選一支自己支持的主隊,這支隊每贏一場,參與的人就可以瓜分一個總額1萬億的Token獎池;德國隊要是贏球,所有用戶還有機會參與瓜分額外10億Token池。這些Token能直接用于剛上線不久的Kimi Work。這是一個面向知識工作者的本地Agent,能幫用戶建站、做PPT、查金融和法律資料等等。

活動一宣布,已經有球迷開始暢想今年夏天的生活:白天把一部分工作丟給Kimi Work;深夜凌晨熬夜看球,再讓它陪著算哪支球隊贏面更大。工作、看球兩不誤。


Kimi Work

福利之外,Kimi這次最讓人意外的,是它押注德國隊可能“爆冷”奪冠,認為它是被市場低估得最明顯的強隊之一。

按Kimi報告,西班牙、法國、阿根廷都處在熱門區間,但德國的特殊之處在于:按博彩市場的賠率倒推,它的奪冠概率約為7.4%;但Kimi模型校準后給到11.3%,兩者相差3.9個百分點。

Kimi為什么認為德國被低估?它的判斷來自幾條分析鏈路的交叉驗證。

最直接的線索,是市場共識和球隊基礎實力指標之間存在錯位。按轉會市場的陣容身價算,德國排世界第四;但按市場隱含概率看,德國只排第七。拿巴西做個對照就清楚了:它的陣容身價比德國低(世界第六),市場給出奪冠排序卻是世界第四。

按照這個邏輯,市場對巴西偏寬容,對德國偏苛刻。報告把原因歸結為“近因偏差”:人對最近發生的壞事,總是記得格外清楚。德國連續兩屆世界杯小組出局,球迷和莊家都有“心理陰影”了,導致市場可能沒有充分考慮一些新變量。比如,教練納格爾斯曼接手后,高位逼搶的打法回來了;穆西亞拉和維爾茨這條年輕軸線,也解決了“控球多威脅少”的老毛病。

Kimi在報告里也承認,德國這3.6個百分點的正向偏差,可能是市場低估,也可能是模型高估,真正答案要等比賽驗證。

Kimi的活動宣布以后,有人叫好,評論區有人說:“敢預測就是一種勇氣,無論最后結果是否正確”。也有人等著看笑話,留言說:“德國隊奪冠我把球吃了”。更多人則在邊上等著數它猜中了幾場。猜砸了就是“AI果然不懂球”,偶爾押中,又會被說成“蒙的”。

但用“德國是否奪冠”來評價Kimi的預測能力,并不準確。它押的不是“德國一定能奪冠”,而是“市場低估了德國隊”,這是兩事。Kimi的判斷是否成立,不能只看德國有沒有捧杯,還要看它在淘汰賽走到哪里、面對強隊的表現如何,以及賽后復盤中,模型給出的11.3%是否比市場隱含的7.4%更接近真實表現。

Kimi的這種做法,在AI圈里并不常見。平時AI展示能力,要么是在發布會上放段demo,演示永遠一氣呵成,要么從案例庫里挑幾個成功的擺出來,個個無懈可擊。這些事后都能修飾、能篩選,外人根本無從證偽,它沒拿出來的那些失敗,我們永遠看不到。

而Kimi選了世界杯這個誰也無法作弊的場子,104場預測結果,對了錯了都擺在明面上,想賴也賴不掉。它甘愿冒著“當眾出丑”的風險,到底圖什么?

02.AI為什么集體“裝神”,又為什么有人開始“認慫”

要回答這個問題,得先看清楚整個行業的默認玩法。

AI預測賽事,最安全的做法是隨大流。足球充滿偶然,跟著主流押西班牙、法國是最穩的,猜中是意料之中,押錯也是大家一起錯,沒有哪家會被單獨苛責。

可正是這套“隨大流”的做法,多年來已經把AI預測做成了一門娛樂性大于實用性的營銷生意

回看歷史就知道:2018年俄羅斯世界杯,主流AI集體看走眼,微軟、百度、多家投行與學術AI普遍把西班牙、德國、巴西,列為奪冠前三熱門,結果冠軍是法國。

2022年卡塔爾世界杯,幾家機構的AI看好阿根廷奪冠并押中,但也有押錯的,比如半島電視臺AI看好法國,且全場次命中率都不算高:半島電視臺58.7%,538(FiveThirtyEight)為57.1%,比亂猜強些,但離“神準”差得遠。

戰績如此一般,為什么各家還搶著預測?這背后有多層原因。

最表層,預測不需要擔責,賽前拋出預測賺波關注,猜錯了也沒什么代價。

其次是用戶在用腳投票我們嘴上說想要誠實的AI,可真到用的時候,多半會下意識選那個“聽起來更自信”的AI。

而最深層,藏在模型被訓練出來的方式里。如今的大模型,是靠人類一條一條打分調教出來的。人對“肯定、完整、好聽”的回答打高分,對“我不知道”打低分;連給模型測分的榜單,也大多是答錯扣分、空著零分。這樣反復訓練下來,模型就被喂出了一種本能:寧可編一個像模像樣的答案,也不愿承認“我沒把握”。甚至有研究發現,AI比人更愛順著用戶、附和一句“你說得對”,它被調教出的首要目標是讓你滿意,而不是對你誠實。

放到公司層面,這就成了一個典型的“囚徒困境”:單看每一家,把話說滿、多拉用戶是理性選擇;可當所有人都這么做,整個行業的可信度就被一點點透支了。從ChatGPT剛火時“AI無所不能”的論調,到后來幻覺頻出、翻車不斷,公眾的信任度一路下滑。過去五年,全球公眾對AI的信任度從61%降到53%;凱捷研究院今年初調研了15個行業、約1500名高管,超過七成擔心AI的安全性、可解釋性與可靠性尚未得到充分驗證。

面對這個困境,Kimi換了一套衡量預測好壞的標準它給出的不只是預測結果,還給每場比賽標了高、中、低三檔置信度,并且交代得很清楚:高置信度那批,它歷史上能對85%到90%;中等的掉到55%到65%;低置信度的,準確率不高。


它這么做,是想把用戶的注意力從“它單次有沒有命中”,轉向“它報出來的置信度和實際正確率是否匹配”。這在統計學里叫“校準”(calibration)。

拿天氣預報來類比,更容易理解。預報說今天70%下雨,結果沒下,你能說它預報錯誤嗎?不能,單獨一天說明不了什么,概率描述的是長期頻率。真正的檢驗方法是,把它說過“70%下雨”的所有日子匯總,如果實際降雨占比接近70%,概率校準就是良好的。

AI也是同樣的道理。模型一味輸出絕對化結論,屬于置信度失準、高估了自身能力。它每“猜中”一次,都是在給“AI可信度”埋雷,因為長期會誤導用戶全盤信任,一旦模型失誤,無論是實際影響還是口碑信譽,都會付出更大的代價。

明白了概率校準的邏輯,再來看Kimi的做法就更容易理解。它沒有回避自身短板,還在報告里公開展示了過往賽事的預測成績:2018、2022兩屆世界杯,論單場勝負的命中率,它的模型不但沒贏過博彩市場,還略低一點(2018年是58.4%對60.1%,2022年差距更大);幾場最著名的冷門,沙特贏阿根廷、日本接連贏德國和西班牙,它都沒押中。需要說明的是,這是全部場次的命中率,和前面高置信度那批85%以上的準確率,并不是一個口徑。

Kimi甚至承認:受模型誤差所限,它報出的西班牙基準概率16.5%也不精確,按歷史回測中的平均誤差來粗略理解,真實概率甚至可能在6.5%-26.5%這樣更寬泛的區間。報告里還有句提醒:任何號稱能給出比這更精確數字的模型,要么是過度自信,要么是在藏著掖著自己的不確定性。別家比的是精確,Kimi卻反過來提醒你“要警惕”。

不僅如此,Kimi還試圖推動整個行業改變現狀,公開邀請其他大模型下場預測。行業陷入“囚徒困境”,根源在于各家互不參照??梢谴蠹叶荚谕慌荣愔型焦_預測結果,高下自然一目了然。104場下來,誰更靠譜、誰夸大其詞,用戶自有判斷。長此以往,“誠實”不再是劣勢,反而會成為行業的基本準則。

當然,這暫時只是Kimi的一廂情愿,有沒有同行響應還不確定。但Kimi傳遞出的態度很明確:AI不是萬能的,AI公司也沒必要裝成萬能。坦然講清自身能力的邊界,才是AI企業應有的擔當。

03.拿萬億Token,考一場作不了弊的試

話說回來,第一個把“AI可能會錯”擺上臺面,需要勇氣,也得承擔風險。對于Kimi來說,主動自曝短板、公開不確定性,會不會把用戶“嚇跑”?如果104場賽事預測的整體準確率不高,會不會被扣上“AI不懂球”的帽子?明知存在用戶認知和輿論的風險,Kimi還是這么做了,背后大概有兩點考量。

一方面,是技術上有底。


kimi展示的Agent集群過程

不同于傳統大模型只是輸出結論、模糊推理過程的預測,Kimi這300個Agent各管一個維度:有的看球隊基礎實力,用Elo評分(一種按歷史戰績動態計算的實力分)和FIFA(國際足聯)排名打底;有的算進攻和防守質量,靠xG(預期進球)這類指標;有的專門研究戰術之間怎么相互克制;有的盯賽程、天氣、長途奔波這些場外因素;還有的緊盯賠率變化,從市場和模型的偏差里找線索。

每個Agent都會給出判斷、佐證數據、置信程度,還會附上“反方意見”,最后由模型融合校驗,生成最終預測概率。關鍵在于,它摒棄了“少數服從多數”的投票邏輯,反而將模型內部的分歧本身當作重要的決策信息,最大化還原賽事預測的不確定性。

就拿德國這個重點案例來說,模型專門派了五個Agent從不同角度研判,其中一個的任務就是“唱反調”,專門推演德國的翻車風險:比如,回歸的門將諾伊爾已經40歲高齡、德國隊的高壓逼搶戰術在高溫環境下可能拖垮體能。

與此同時,Kimi不只挑球迷愛聽的說。對眼下被市場熱捧的英格蘭隊,它判斷“被高估了”;對所有模型一致看好的熱門球隊,它也特意提醒,熱門共識也不等于確定性結論。

為了做到坦誠,Kimi甚至把“自己可能猜錯的原因”做了歸類,包括數據滯后、假設失效、臨場意外等,同時明確了賽后復盤迭代的標準化流程。

種種細節看下來,這場賽事預測,并非隨意輸出的娛樂性推演,而是一次準備充分、邏輯完整的專業建模實踐。

另一重考量,是它對用戶需求變化的一次押注。

AI正越來越多地替人做決定:幫你看體檢報告、審核合同、判斷錢往哪兒投。這些場景容錯率極低,錯一次的代價可能是真金白銀,甚至是健康。

這時候,一味順著你說、主打“讓你滿意”的AI,恰恰需要警惕,因為它一旦出錯,你可能連提前防備的機會都沒有。反過來,敢說“不確定”、“不知道”的AI,至少給你留出了自己判斷和兜底的余地。

AI用得越深入,“誠實”就越是剛需。

這也和它一直以來的定位保持一致,比起陪聊娛樂,Kimi更多被用在寫代碼、做研究、處理復雜任務上。越是這種較真的場景,用戶越需要一個肯交底的工具。不靠“裝神”,AI照樣有價值。


Kimi網站首頁截圖

除此之外,本次活動里還有一個有意思的設計:每進一球,Kimi就向中國足球捐10億Token,用來支持基層、校園和青訓的教練用上AI工具,預計覆蓋一萬多人。

這一筆捐贈,其實和它看好的德國隊遙相呼應。德國主帥納格爾斯曼今年38歲,靠數據和建模重新武裝這支老牌強隊。這種數據能力,過去是職業頂級球隊才用起的奢侈品。Kimi想做的,是把數據能力輸送到中國校園和基層的球場中去。

這些Token能不能真幫上中國足球,是另一回事。但它給出了一個行業方向:AI的終極價值,不是制造精準預測的噱頭,而是過去屬于少數人的數據和技術,讓更多人用得起。

04.結語

足球是世界上最難預測的運動,沒有之一。一張紅牌、一次VAR改判、門將一個神撲、一場突如其來的暴雨,都可能改寫比分。

正因為算不準,世界杯才成了檢驗“誠實”最好的考場。在這里,AI可以假裝胸有成竹,然后被打臉;也可以從一開始就坦承自己有幾分把握、可能錯在哪兒,再把每一步推理展示出來。Kimi選了后一種。

德國隊到底是否被低估,7月自有分曉;可“AI該不該更誠實”這個問題,沒那么容易有答案。Kimi至少先邁出一步,用一種能被驗證、甚至可能被打臉的方式,告訴更多人:AI并非萬能。這個問題的答案,其實不在AI,而在我們。我們最終會使用怎樣的AI,取決于今天的我們更愿意為哪一種買單。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
謝娜被罵到關評論,1380元的KTV水平演唱會,這是圓夢還是割韭菜

謝娜被罵到關評論,1380元的KTV水平演唱會,這是圓夢還是割韭菜

林雁飛
2026-06-11 16:07:08
張藝謀出席《主角》慶功宴,陳婷穿搭格格不入,孫浩發型成亮點

張藝謀出席《主角》慶功宴,陳婷穿搭格格不入,孫浩發型成亮點

觀察鑒娛
2026-06-09 10:37:50
侵略者不再能用馬里烏波爾港了!俄煉油業被炸得要整大活:期待!

侵略者不再能用馬里烏波爾港了!俄煉油業被炸得要整大活:期待!

鷹眼Defence
2026-06-11 16:55:39
國內避孕套市場5年縮水25%,消費需求從雙人協作轉向單人滿足

國內避孕套市場5年縮水25%,消費需求從雙人協作轉向單人滿足

大廠編外實習生
2026-06-08 19:39:40
釣魚島爆發激烈對峙,日艦艇囂張挑釁查船,中國海警當即警告回擊

釣魚島爆發激烈對峙,日艦艇囂張挑釁查船,中國海警當即警告回擊

共工之錨
2026-06-10 14:39:09
失利之痛難以釋懷!馬刺全隊復盤大崩盤,吉諾比利發聲:不敢相信

失利之痛難以釋懷!馬刺全隊復盤大崩盤,吉諾比利發聲:不敢相信

夜白侃球
2026-06-11 13:48:35
東京池袋街頭突發搶劫!中國籍女子遭襲擊,800萬日元現金被搶

東京池袋街頭突發搶劫!中國籍女子遭襲擊,800萬日元現金被搶

日本窗
2026-06-11 16:25:55
體檢報告中,若3個指標都正常,基本可以排除很多疾病

體檢報告中,若3個指標都正常,基本可以排除很多疾病

芹姐說生活
2026-05-08 19:06:29
AI臉引發全民生理性厭惡,AI美顏正在慢慢毀掉我們的審美

AI臉引發全民生理性厭惡,AI美顏正在慢慢毀掉我們的審美

西樓知趣雜談
2026-06-04 12:14:18
楊小紅主任:血糖高,出現這些癥狀千萬別拖延,怎么防控總結好了

楊小紅主任:血糖高,出現這些癥狀千萬別拖延,怎么防控總結好了

蠟筆小小子
2026-06-10 14:48:35
紀委反腐四大致命手段:通話記錄、微信記錄、電子數據及大數據

紀委反腐四大致命手段:通話記錄、微信記錄、電子數據及大數據

職場資深秘書
2026-06-11 15:45:13
剛說8到10天簽協議,轉頭就開炸,特朗普這出戲讓誰傻了眼

剛說8到10天簽協議,轉頭就開炸,特朗普這出戲讓誰傻了眼

顧史
2026-06-10 09:53:24
土倫杯落幕:國足青年軍贏未來 遺憾出局難掩希望之光

土倫杯落幕:國足青年軍贏未來 遺憾出局難掩希望之光

環球體壇啄木鳥
2026-06-11 19:51:18
8500萬打水漂的前車之鑒,淺談國際米蘭的轉會博弈與財務健康

8500萬打水漂的前車之鑒,淺談國際米蘭的轉會博弈與財務健康

狗哥是一名內拉
2026-06-11 22:37:02
越打越好!究竟是誰教會了伊朗打仗?有三種可能

越打越好!究竟是誰教會了伊朗打仗?有三種可能

清歡百味
2026-06-11 03:52:38
6月這6種魚,全是純野生的,人工養不出來,肉嫩刺少,懂行的在搶

6月這6種魚,全是純野生的,人工養不出來,肉嫩刺少,懂行的在搶

阿龍美食記
2026-06-09 15:26:48
我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

談古論今歷史有道
2026-06-10 09:30:09
曼城這1.2億,砸得我有點看不懂了

曼城這1.2億,砸得我有點看不懂了

帶你逛體壇
2026-06-11 09:08:14
日媒:日本護衛艦訂單太多,造船工人不足,或引進外國工人造軍艦

日媒:日本護衛艦訂單太多,造船工人不足,或引進外國工人造軍艦

藍星雜談
2026-06-10 17:18:58
女排新生代全員撞臉!王奧芊神似趙蕊蕊,17歲郭中楠比肩袁心玥

女排新生代全員撞臉!王奧芊神似趙蕊蕊,17歲郭中楠比肩袁心玥

金毛愛女排
2026-06-11 00:00:09
2026-06-12 05:43:01
定焦One incentive-icons
定焦One
深度影響創新。
1085文章數 1113關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

傳祺向往M8 PHEV L/E8 PHEV上市 限時落地價16.84萬起

態度原創

時尚
游戲
本地
藝術
健康

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

R星最新動態震撼來襲!玩家氣笑了:不如取消《GTA6》

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

藝術要聞

華國鋒的“華氏顏體”為何被公認為書法珍品?

為什么不建議晚上吃粽子?

無障礙瀏覽 進入關懷版