網易首頁 > 網易號 > 正文 申請入駐

一個預測未來的模型,它賺到錢了

0
分享至

RESEARCH

UniPat AI 做了一件事:讓 AI 去預測還沒發生的事,比如下個月哪家公司市值最高、某國會不會對另一個國家加關稅、某個政客會不會在社交媒體上發超過 100 條帖子

他們搭了一套系統叫 ECHO,里面有一個專門訓練過的預測模型 EchoZ-1.0。這個模型會自己去網上搜信息、讀新聞、查數據,然后給出一個概率判斷,憑借超出行業的準確率,在交易市場上賺到了錢


比如「NVIDIA 在 3 月 31 日仍然是全球市值最高的公司」,EchoZ 給出的概率是 98%。它還會附上判斷依據:市值領先第二名 7000 億美元,期權市場沒有定價大幅回調,監管風險已經解除


EchoZ 的預測報告樣例,概率分布、證據鏈、判斷依據全部結構化輸出

在他們自建的排行榜上,EchoZ 以 1034.2 的 Elo 分排第一,排在 Gemini-3.1-Pro、Claude-Opus-4.6、GPT-5.2 前面,也排在人類交易者的共識結果前面


General AI Prediction Leaderboard,11 個模型的 Elo 排名,EchoZ 排第一

周末的時候,和他們團隊的人又聊了聊...為什么說又呢,因為是老朋友了。這次 ECHO 是同一套方法論在預測領域的第二次驗證

UniPat 背后,有多個頂級資本的加持,目前還不給說hhhh。在我看來,這家公司在下一個時代能賺迎上不少機會,不止是金融領域

這套東西的方法,目前已經開放出來了,就在官網上

本篇內容,不涉及任何的投資建議,是對他們官方模型信息的一個再次解讀

訓練預測模型,最大的困難在哪

反饋來自未來

現在訓模型,無論 SFT 還是 RL,都需要反饋信號。模型做一道題,你告訴它對不對,它根據反饋去調整

但預測題的答案發生在未來。今天讓模型預測一個月后的事,反饋要等一個月才能拿到。預測一年后的事,就要等一年

這在工程上幾乎不可訓練

之前有些團隊的做法叫 Train-on-Past(基于過去訓練):找已經有答案的歷史預測題,把當時的互聯網環境緩存下來,讓模型假裝回到過去做預測。聽起來合理,但有兩個死穴

第一個,互聯網狀態不可能完美緩存。網頁每天都在更新,有些頁面過了就永遠拿不到了。你緩存的是一個月前的快照,但模型在推理時調用搜索引擎,搜到的結果已經包含了這一個月里新增的信息。答案就藏在這些新信息里,防不住

第二個,真實世界有大量隨機性。模型推理得很好但碰上小概率事件,答案錯了,會被懲罰。模型瞎猜但運氣好蒙對了,會被獎勵。用最終結果做反饋信號,訓出來的模型會學到幸存者偏差

這兩個問題在技術上被稱為 Deficiency I(工程悖論)和 Deficiency II(結果導向偏差)。第一個是環境層面的,第二個是信號層面的,兩個方向上都堵死了

面向未來訓練:評價過程,不等答案

UniPat 的解法叫 Train-on-Future(面向未來訓練)

TRAIN-ON-PAST 緩存歷史環境 快照不完整 → 模型預測 假裝回到過去 → 對比答案 信號有噪聲 ? 答案泄露,環境不可恢復 ? 隨機性導致幸存者偏差 ? TRAIN-ON-FUTURE 動態合成新題 關于未來的真實問題 → 模型預測 搜索+推理+輸出 → 評價過程 Rubrics 打分 ? 零數據泄露 ? 信號穩定,可即時訓練

訓練預測模型的兩條路:基于過去 vs 面向未來

思路很直接:既然拿不到答案,那就不用答案來訓練。讓模型去預測真正還沒發生的事,然后評價它的「預測行為」好不好

什么叫預測行為?就是模型在搜索信息、組織推理、輸出概率的整個過程中,表現出來的一系列具體動作

比如:有沒有去查一手數據源(法院文件、官方公報),還是只看了新聞標題?有沒有識別出矛盾的信息并嘗試驗證?有沒有用歷史基線來錨定概率,還是拍腦袋給了個數字?

這些動作可以被評價,不需要等答案揭曉

一個推理過程好的模型,長期來看預測準確率一定高

評價一個分析師也是這個邏輯。不只看他這次押對了沒有,更看他的分析框架、信息源、邏輯鏈條。好的分析師偶爾也會錯,但長期勝率高

具體的訓練流程分三步。第一步,動態問題合成:一個自動化的 Pipeline 持續從宏觀經濟指標和前沿動態中生成新的預測題,所有題目都關于未來,從源頭消除數據泄露。第二步,Rubrics Search(下一節細說):用數據驅動搜索出評分標準,對模型的預測過程打分,作為訓練的 Reward 信號。第三步,Map-Reduce Agent 架構:在推理階段,把一個大問題拆成多個子任務,派出多個 Agent 并行搜索和推理(Map),再由一個聚合節點解決跨源沖突、對齊因果鏈、輸出最終的概率判斷(Reduce)。這個循環可以跑多輪,直到信息覆蓋和推理深度都到了平臺期

EchoZ-1.0 基于 ReAct 框架,每一步都是「思考→行動→觀察」的三元組。可調用的工具包括網絡搜索、學術文獻檢索、網頁抓取和代碼執行,單次推理最多跑 100 輪工具調用

誰來定義「好的推理」

這件事 UniPat 也沒有交給人來拍腦袋

不同領域的「好推理」差異很大。政治預測需要區分政客的口頭威脅和正式行政執行,需要去查一手的法院文件和軍方報告。體育預測需要的完全是另一套東西。讓人來寫一套通用的評分標準,寫不出來

UniPat 的做法是用數據驅動來搜索評分標準,他們叫 Rubrics Search

流程大概是:先準備一組候選評分維度(比如「信息源可靠性」「概率校準嚴謹性」「矛盾信息處理」),每個維度有 5/3/1 三檔評分。然后用這些維度去給模型的預測過程打分,排出名次。再看這個名次和真實的 Elo 排名(基于最終結果算出來的)吻合度有多高

吻合度越高,說明這套評分標準越接近「好推理」的真實特征

搜索的優化目標是最大化 Spearman 相關系數 ρ(Rubric 打分排名 vs Elo 排名)。按領域分別搜索,每輪由 LLM 根據上一輪的反饋生成新的候選 Rubric,在留出的驗證集上評估,保留最優的進入下一輪


Rubric Search 的效果,政治領域 ρ=0.873,Esports 提升最大(+0.91)

政治領域搜出來的最優評分標準有 20 個維度,體育領域也有 20 個,但內容完全不同

舉幾個政治領域的維度:「缺席信號識別」,模型是否會主動把「什么都沒發生」當作重要的預測信號(法院沒有新的立案、軍方沒有新的公報,這本身就是信息);「言行分離判斷」,模型能否區分一個政客在社交媒體上的聲明和實際的行政、法律、軍事執行;「報告時滯感知」,模型是否考慮到官方數據通常有 24-48 小時的發布延遲,不把「今天沒報告」等同于「今天沒發生」

這些維度全部是數據搜出來的,人拍腦袋想不到這個粒度。搜出來之后拿去訓練模型,訓練信號比「答案對不對」穩定得多,因為評價的是過程,不受單次結果隨機性的影響

怎么公平地比較預測能力

ECHO 的排行榜解決了預測評測的一個老問題:時間不對稱

同一道題,不同時間去預測,難度完全不一樣。一個月后的大選結果,今天預測和選舉前兩天預測,可用的信息量差了一個量級。之前的預測排行榜沒法控制這個變量,各家模型提交預測的時間不一樣,沒法直接比

ECHO 的做法叫 Multi-Point Aligned Elo。核心是:只在兩個模型「同一天預測同一道題」的那些點上做比較。每一次比較算一場 Battle,用 Brier Score 差值映射成連續的勝負標簽(保留了概率校準的精度差異)。長周期的預測比短周期的權重更高,因為信息更少、難度更大。最終用 Bradley-Terry 模型做極大似然估計,L-BFGS-B 求解,收斂到全局最優


ECHO 的三階段評測架構:數據采集 → 預測調度 → Battle 構建 + Elo 評分

題目來源有三個:Polymarket 上的預測市場合約、Agent 從實時熱點中自動合成的新題、以及領域專家基于日常工作中真實不確定性出的題


覆蓋 7 個領域,政治治理占比最大(34.5%),經濟金融第二(19.8%)

第三類題目來源最有意思。一個做東南亞旅游業的專家,關心的預測題可能是某條航線的客流量變化。這種長尾需求只有行業里的人提得出來

為了控制每道題在生命周期內的預測采樣密度,他們還設計了一個兩階段調度算法:第一階段用對數壓縮來分配總預測次數(10 天的題大約 4 次,90 天的題大約 7 次,避免長周期題的成本線性爆炸);第二階段用優先級評分來決定每天預測哪些題,久未被采樣的題和即將到期的題優先級更高

驗證實驗做了四組

第一組,穩健性。模擬各家模型因為 API 故障或服務器中斷缺交預測的情況,隨機丟掉 10% 到 70% 的預測數據,看排名會不會亂。結果是 Elo 排名的波動始終比 Brier Score 平均分排名小 1.4 到 1.8 倍


丟掉 70% 的數據,Elo 排名波動仍然只有 Brier Score 的一半多

第二組,可靠性。從排行榜里隨機去掉 1 到 6 個模型,重新算排名,看剩下的模型排序會不會變。去掉 1 個模型時,Kendall's τ 是 0.994(幾乎完全一致)。去掉 6 個,τ 降到 0.978,排序依然非常穩定


Leave-K-Out 實驗,去掉 6 個模型后排序幾乎不變

第三組,收斂速度。模擬一個新模型剛加入排行榜的情況,看它的排名多久能穩定下來。Elo 在第 5.4 天就收斂到和 20 天后一致的排名,Brier Score 要到第 14.5 天,Elo 快了 2.7 倍


Elo 5.4 天收斂,Brier Score 要 14.5 天

第四組,參數敏感性。Elo 框架里有一個參數 σ,控制 Brier Score 差值映射成勝負概率的敏感度。把 σ 從 0.01 掃到 0.50,EchoZ 在所有設定下都穩定排第一。GPT-5.2 波動最大,從 #2 到 #9


σ 從 0.01 到 0.50,EchoZ 始終第一

賺錢了嗎

EchoZ 對人類市場共識的勝率:政治領域 63.2%,長期預測(7 天以上)59.3%,市場不確定區間 57.9%

50% 政治與治理 63.2 % 長期 · 7天+ 59.3 % 不確定區間 57.9 % EchoZ vs 人類市場共識,三個維度都在 57% 以上

60% 多看起來不算高。但了解過交易的人知道,在一個靠判斷分勝負的市場里,統計意義上的 60% 勝率意味著什么。超過 50% 就有正期望,60% 已經是很顯著的優勢了

然后,團隊在一些靠判斷能賺錢的交易市場上,賺了不少錢,你知道我在說什么

后面的事

團隊說后續可能會把預測能力做成商業化 API,面向企業和開發者開放。目前還在第一階段,學術發布和品牌建設

Train-on-Future 這個訓練范式如果經得起更長時間的驗證,應用場景遠不止金融。供應鏈、天氣、政策風險、行業趨勢,任何需要對未來做判斷的地方,理論上都可以用同一套方法。但未來具體是什么,其實也都說不準,感興趣的可以在他們網站上看

ECHO 官網:echo.unipat.ai

Blog:unipat.ai/blog/Echo

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
緊急叫停!醫生:服用二甲雙胍的人,身體出現6種癥狀必須停藥

緊急叫停!醫生:服用二甲雙胍的人,身體出現6種癥狀必須停藥

荊醫生科普
2026-04-21 15:09:02
NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

懂球帝
2026-04-21 14:26:06
外交部:敦促美方恪守國際法原則和國際關系基本準則,立即停止以任何方式插手香港事務和中國內政

外交部:敦促美方恪守國際法原則和國際關系基本準則,立即停止以任何方式插手香港事務和中國內政

環球網資訊
2026-04-21 15:51:17
記者:加納喬為女友付7000歐做隆胸手術,因移民限制兩人不住一塊

記者:加納喬為女友付7000歐做隆胸手術,因移民限制兩人不住一塊

懂球帝
2026-04-21 14:47:06
爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

丫頭舫
2026-04-20 23:11:09
對標優衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產上癮

對標優衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產上癮

青眼財經
2026-04-20 14:48:46
國務院任免國家工作人員

國務院任免國家工作人員

新華社
2026-04-21 11:35:19
近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

燈錦年
2026-04-21 13:28:31
賠了夫人又折兵!霍汶希本想力挺張敬軒,結果連累容祖兒謝霆鋒

賠了夫人又折兵!霍汶希本想力挺張敬軒,結果連累容祖兒謝霆鋒

攬星河的筆記
2026-04-21 16:13:50
許光漢穿皮衣現身「新身份曝光」 再次聯手殷振豪…狂玩諧音梗!

許光漢穿皮衣現身「新身份曝光」 再次聯手殷振豪…狂玩諧音梗!

ETtoday星光云
2026-04-21 17:32:05
伊媒稱伊朗已為戰事重新爆發做好準備

伊媒稱伊朗已為戰事重新爆發做好準備

新華社
2026-04-21 20:08:10
69年陳云下放江西,時任省委書記拒不見面,陳云:此人膽子很大

69年陳云下放江西,時任省委書記拒不見面,陳云:此人膽子很大

鑒史錄
2026-04-20 22:03:41
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
《八千里路云和月》大結局前瞻:田家泰犧牲,孟萬福、玉嬌成特工

《八千里路云和月》大結局前瞻:田家泰犧牲,孟萬福、玉嬌成特工

阿纂看事
2026-04-21 17:42:36
14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

天天熱點見聞
2026-04-21 05:15:28
李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

王楔曉
2026-04-21 04:42:47
美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

泠泠說史
2026-04-21 21:59:17
聯合國秘書長發言人在記者會上用中文問好 并表示希望聯合國的多語種服務越來越好

聯合國秘書長發言人在記者會上用中文問好 并表示希望聯合國的多語種服務越來越好

每日經濟新聞
2026-04-21 14:32:56
不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

小俎娛樂
2026-04-21 03:08:17
狂勝35分!一場恥辱的勝利!和文班亞馬相比,你確實不太配拿MVP

狂勝35分!一場恥辱的勝利!和文班亞馬相比,你確實不太配拿MVP

籃球掃地僧
2026-04-21 09:47:36
2026-04-21 23:35:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
396文章數 50關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

數碼
游戲
手機
家居
軍事航空

數碼要聞

OPPO發布影像雙旗艦:專業口袋哈蘇OPPO Find X9 Ultra領銜

《洛奇英雄傳:反抗命運》試玩體驗:無愧于“洛奇英雄傳”之名

手機要聞

一加Ace 6至尊版新配色公布,游戲體驗持續升級

家居要聞

詩意光影 窺見自然之境

軍事要聞

特朗普公開對伊開戰真正原因

無障礙瀏覽 進入關懷版