網易首頁 > 網易號 > 正文 申請入駐

10小時測完DeepSeek-V4!北大團隊終結工程師噩夢?深扒大模型評測的“千億生意”

0
分享至


DeepSeek-V4發布僅僅10小時后,一份全量自動化評測報告就出爐了。

操刀的是北京大學DCAI團隊。

他們剛剛開源了一個面向大模型評測的新框架——One-Eval。

很多人可能會問:10個小時,很快嗎?

在真實的AI工程界,這一效率提升堪稱行業范式級突破。


過去,當老板扔來一個需求:“幫我測測這個新模型在代碼、數學和長文本上的能力?!惫こ處熗媾R繁重且低效的人工操作流程。


你要自己去海量開源資源中篩選適配評測基準集(Benchmark)。

你要自己寫下載腳本、耗費精力做字段適配、調試各類復雜配置參數。

跑完之后還沒完,你還得在繁雜運行日志中排查解析異常問題。

簡單來說:真正用來讓模型跑分的時間,還不如搭測試管道花的時間多。


10小時通關的背后,其實隱匿著一個長期被大眾忽視,卻估值高達數百億美元的專業產業鏈。

真實的商業世界里,評測絕不僅僅是一份吃瓜群眾愛看的跑分排行榜。

它是一門關于標準定義、數據壁壘與行業需求的頂級生意。

算力時代的評測痛點:傳統評測行業積弊已久

為什么要拼了命地評測大模型?

因為千億參數的模型訓練太燒錢了。

對于底層模型廠商來說,評測分數是企業融資、獲取算力資源的重要依據。

對于B端企業客戶來說,分數就是決定要不要把核心業務(比如金融風控、醫療診斷)交給這個AI來處理的重要決策依據。

這催生了OpenCompass等一批優秀的傳統評測框架。但隨著模型越來越復雜,傳統評測的靜態模式弊端被徹底暴露了。


太難用。傳統評測就像靜態流水線,你需要逐項手動配置各類參數。一旦遇到模型輸出的格式不那么規矩,程序就會直接中斷,造成測評結果誤判。

太黑盒。跑完只丟給你一個單一的量化分數。至于提示詞是怎么拼的?評分規則、模型打分依據均無透明可查記錄。一旦出了Bug,排查起來難度極大、無從溯源。


最致命的一點是:行業榜單公信力持續下滑。

模型在訓練時“偷看”了考卷,這叫數據污染。

當所有的AI在基礎測試里都能考出95分的高分時,榜單就失去了公信力。為了對抗這種污染,行業內甚至被迫引入檢測模型對特定數據的置信度等手段,來甄別數據污染行為。


降維突圍:北大One-Eval到底做對了什么?

當傳統框架還停留在高度人工依賴的老舊模式時,北大團隊開源的One-Eval,直接推出了 “智能體化” 的全新解法。

它完成了一次徹底的交互降維:不再是“寫配置跑腳本”,而是自然語言驅動。

你只需要在對話框里敲一句大白話:“我想測試我的模型在金融、法律、醫療領域的表現,并看看幻覺情況如何?!?/p>


接下來,One-Eval的底層調度引擎會像專業調度引擎一樣,自主開展工作。

它會自動識別你的意圖,并匹配工具:指令跟隨用IFEval,醫療用MedQA,法律用LegalBench,金融用FinanceQA。

選好之后,結構解析、參數配置、底層數據拉取,全部由系統后臺靜默完成。

一行配置都不用寫。


更有意思的是,它打破了黑盒。

One-Eval引入了基于全局狀態(Global State)的數據總線架構。評測的完整生命周期都被記錄下來,一旦報錯,斷點清晰可見,全鏈路可追溯。


同時,它又展現出了嚴謹合理的系統設計思路——保留了“人工在環”(Human-in-the-Loop)。

在系統給出評測方案時,它會主動停下來,把上下文展示給你,等待人工審核確認后,再繼續執行。


在復雜的主觀評判場景下,這種人機協同遠比盲目的全自動更讓人安心。

當然,作為一款新生的開源工具,它也有當前的能力邊界與適配局限。

根據其文檔與架構特征,目前One-Eval內置的基準主要覆蓋純文本能力。

如果你需要測試非常復雜的真實軟件工程能力(比如需要獨立Docker沙盒環境的代碼執行測試),目前依然是它的能力盲區。

行業深層收益:評測賽道的商業邏輯

如果說One-Eval是鋪設鐵路的修路大軍,那么在鐵路上建立行業服務壁壘、提供專業商業化服務,則是深諳行業商業化與資本運作邏輯。

這絕不僅是一個“賣軟件授權”的單純工具授權生意。


這門生意的買單方,是被 AI 升級需求倒逼的 B 端企業。

一邊是持續融資布局的大模型研發企業,一邊是急于把AI接入業務的《財富》500強企業。


在這個千億規模的賽道里,頭部公司的盈利邏輯被極其精密地設計為三個層層聯動的盈利體系:

第一重:收取基礎的企業服務費用

對于企業內部日常的自動化評測需求,商業平臺切入了合規剛需。提供企業級的審計日志、權限管理等服務,按API調用量或席位收取合理的商業化服務費用。這構成了他們極其穩定的現金流底座。


第二重:壟斷定義權,提供私有化專業評測認證服務

既然開源考卷被污染了,高分沒人信了,商業公司順勢就接管了重新定義行業評測標準體系。

比如行業巨頭Scale AI,他們推出了全新的SEAL排行榜。

這個榜單不玩靜態代碼謎題,直接引入真實人類專家進行盲測比對,從機制上規避數據泄露與刻意刷榜行為。

邏輯瞬間質變:基礎模型公司如果想向投資人證明自己比競品強,就必須花重金購買這種不可篡改的私有評測認證。

這就如同在開展商業化落地與資本市場估值前,你必須采購專業機構的權威評測認證。


第三重:“診斷+賣藥”的數據引擎終極閉環

這是這門生意最核心的護城河,也是最具核心壁壘的商業閉環。

首先,評測系統通過大規模并發,精準定位模型在細分場景的能力短板與邏輯缺陷。

緊接著,它輸出專業評測診斷報告向客戶輸出針對性改進指導。

最后,平臺順理成章地亮出底牌:若要針對性優化模型能力?買我們獨家的高質量人工微調數據集吧。

你不僅要為它指出你的弱點付費,還要采購對應的專業微調數據集。


正是依托這套系統,Scale AI在2024年實現約 8.7 億美元可觀營收,毛利率穩定在50%左右。

資本給予了較高市場估值:Meta在2025年出資143億美元,拿下了Scale AI 49%的股份,直接將其估值推向了290億美元的巔峰。


大模型開發商融來的巨額資金中,有相當大一部分,就這樣以購買數據和評測服務的形式,悄無聲息地流進了這些“賣水人”的口袋。


大模型時代的淘金熱遠未結束。

無論是北大團隊試圖用自然語言交互打破繁文縟節的開源破局,還是商業巨擘用數據服務閉環構建商業壁壘的資本布局。

都在印證商業發展中一個恒久不變的規律:

在巨頭林立、競爭激烈的新興技術賽道中,掌握最終定價權的,往往不是技術迭代最快、投入最高的企業。

而是牢牢扼住底層度量衡、負責制定游戲規則的那個“裁判”。(本文首發鈦媒體App,作者| AGI-Signal,編輯|林深)

聲明:

本文分析基于開源庫(如OpenDCAI/One-Eval)、公開財務數據及行業報告梳理。投資與創業存在極大不確定性,需留意大模型技術快速迭代及估值波動帶來的行業不確定性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿里員工:公積金賬戶余額717092.97元

阿里員工:公積金賬戶余額717092.97元

螞蟻大喇叭
2026-04-27 18:23:09
個人收款被查了!2026年個人收款高于這個數,要小心!

個人收款被查了!2026年個人收款高于這個數,要小心!

新浪財經
2026-04-21 22:04:32
格羅西競選聯合國秘書長,中俄手握否決權,舊賬未清豈能點頭

格羅西競選聯合國秘書長,中俄手握否決權,舊賬未清豈能點頭

秘密即將揭曉
2026-04-28 01:39:27
皇馬換帥重磅!克洛普鎖定首筆引援, 780 萬撿漏世界級新星

皇馬換帥重磅!克洛普鎖定首筆引援, 780 萬撿漏世界級新星

奶蓋熊本熊
2026-04-28 05:43:33
中國會不會出現第二個毛澤東?答案一不會,但會出現新的杰出領袖

中國會不會出現第二個毛澤東?答案一不會,但會出現新的杰出領袖

南宗歷史
2026-04-27 23:20:25
千里科技AI戰略發布:L4智駕、原生智駕基座模型,翻開行業新篇章

千里科技AI戰略發布:L4智駕、原生智駕基座模型,翻開行業新篇章

科技每日推送
2026-04-23 18:44:48
上海地鐵互毆:知情人曝老太惡心事,臭毛病不能慣,女孩恐丟工作

上海地鐵互毆:知情人曝老太惡心事,臭毛病不能慣,女孩恐丟工作

小鋭有話說
2026-04-27 16:32:15
歷史唯一,坎塞洛有望成為集齊歐洲四大頂級聯賽冠軍第一人

歷史唯一,坎塞洛有望成為集齊歐洲四大頂級聯賽冠軍第一人

懂球帝
2026-04-27 22:00:51
07年,華國鋒最后一次去毛主席紀念堂,喊了一句話,在場之人落淚

07年,華國鋒最后一次去毛主席紀念堂,喊了一句話,在場之人落淚

蔣南強讀歷史
2026-04-28 08:10:06
一尿路感染就吃左氧氟沙星?醫生說實話:這藥用好了治病,用不好傷身,是雙刃劍

一尿路感染就吃左氧氟沙星?醫生說實話:這藥用好了治病,用不好傷身,是雙刃劍

今日養生之道
2026-04-28 00:34:57
從武大碩士到商場導購:誣告學弟性騷擾的楊景媛,終于付出了代價

從武大碩士到商場導購:誣告學弟性騷擾的楊景媛,終于付出了代價

地理三體說
2026-04-25 22:06:06
日本3月失業率為2.7%,前值2.6%

日本3月失業率為2.7%,前值2.6%

每日經濟新聞
2026-04-28 07:35:16
顏寧正面回應“只會利用電鏡發論文灌水”

顏寧正面回應“只會利用電鏡發論文灌水”

化學人生
2026-04-27 20:16:52
馬克龍宣布退圈后,小麗姐竟被喊“滾”?這次她終于崩潰坦白:愛麗舍宮9年,太黑暗!

馬克龍宣布退圈后,小麗姐竟被喊“滾”?這次她終于崩潰坦白:愛麗舍宮9年,太黑暗!

新歐洲
2026-04-27 19:48:33
臺灣人真的很可憐

臺灣人真的很可憐

覆言國際
2026-04-27 18:49:55
山西農婦慘死田間,鄰居不吃不喝躲藏6天,被抓后笑談行兇過程

山西農婦慘死田間,鄰居不吃不喝躲藏6天,被抓后笑談行兇過程

莫地方
2026-04-28 01:10:03
成都一泳池遭投火鍋底料等,8人被拘

成都一泳池遭投火鍋底料等,8人被拘

環球網資訊
2026-04-28 10:54:24
山西澤州發生重大刑事案件,33歲嫌犯潛逃,警方發布協查通報

山西澤州發生重大刑事案件,33歲嫌犯潛逃,警方發布協查通報

極目新聞
2026-04-27 17:56:03
葉新萍被查這事,看得我直冒冷汗

葉新萍被查這事,看得我直冒冷汗

仰望星空的一粒沙子
2026-04-28 10:31:46
泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

大象新聞
2026-04-26 13:01:02
2026-04-28 12:12:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
132856文章數 862119關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

美軍事資產被指"損失慘重" 修復費用可能高達50億美元

頭條要聞

美軍事資產被指"損失慘重" 修復費用可能高達50億美元

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

楊冪險遭蒸汽眼罩毀容!傷照曝光…

財經要聞

俞敏洪再遭重擊

汽車要聞

上汽大眾“攻山頭” ID.ERA 9X劍指細分前三

態度原創

藝術
數碼
本地
公開課
軍事航空

藝術要聞

靜·觀--第二屆全國靜物油畫作品展 作品選刊

數碼要聞

首款華為MatePad Pro Max平板曝光,將于5月面向全球發布

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外長折返伊斯蘭堡內情披露

無障礙瀏覽 進入關懷版