網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

10小時測完DeepSeek-V4！北大團隊終結工程師噩夢？深扒大模型評測的“千億生意”

2026-04-28 09:43:16　來源: 鈦媒體APP

北京舉報

0

分享至

DeepSeek-V4發布僅僅10小時后，一份全量自動化評測報告就出爐了。

操刀的是北京大學DCAI團隊。

他們剛剛開源了一個面向大模型評測的新框架——One-Eval。

很多人可能會問：10個小時，很快嗎？

在真實的AI工程界，這一效率提升堪稱行業范式級突破。

過去，當老板扔來一個需求：“幫我測測這個新模型在代碼、數學和長文本上的能力?！惫こ處熗媾R繁重且低效的人工操作流程。

你要自己去海量開源資源中篩選適配評測基準集（Benchmark）。

你要自己寫下載腳本、耗費精力做字段適配、調試各類復雜配置參數。

跑完之后還沒完，你還得在繁雜運行日志中排查解析異常問題。

簡單來說：真正用來讓模型跑分的時間，還不如搭測試管道花的時間多。

10小時通關的背后，其實隱匿著一個長期被大眾忽視，卻估值高達數百億美元的專業產業鏈。

真實的商業世界里，評測絕不僅僅是一份吃瓜群眾愛看的跑分排行榜。

它是一門關于標準定義、數據壁壘與行業需求的頂級生意。

算力時代的評測痛點：傳統評測行業積弊已久

為什么要拼了命地評測大模型？

因為千億參數的模型訓練太燒錢了。

對于底層模型廠商來說，評測分數是企業融資、獲取算力資源的重要依據。

對于B端企業客戶來說，分數就是決定要不要把核心業務（比如金融風控、醫療診斷）交給這個AI來處理的重要決策依據。

這催生了OpenCompass等一批優秀的傳統評測框架。但隨著模型越來越復雜，傳統評測的靜態模式弊端被徹底暴露了。

太難用。傳統評測就像靜態流水線，你需要逐項手動配置各類參數。一旦遇到模型輸出的格式不那么規矩，程序就會直接中斷，造成測評結果誤判。

太黑盒。跑完只丟給你一個單一的量化分數。至于提示詞是怎么拼的？評分規則、模型打分依據均無透明可查記錄。一旦出了Bug，排查起來難度極大、無從溯源。

最致命的一點是：行業榜單公信力持續下滑。

模型在訓練時“偷看”了考卷，這叫數據污染。

當所有的AI在基礎測試里都能考出95分的高分時，榜單就失去了公信力。為了對抗這種污染，行業內甚至被迫引入檢測模型對特定數據的置信度等手段，來甄別數據污染行為。

降維突圍：北大One-Eval到底做對了什么？

當傳統框架還停留在高度人工依賴的老舊模式時，北大團隊開源的One-Eval，直接推出了 “智能體化” 的全新解法。

它完成了一次徹底的交互降維：不再是“寫配置跑腳本”，而是自然語言驅動。

你只需要在對話框里敲一句大白話：“我想測試我的模型在金融、法律、醫療領域的表現，并看看幻覺情況如何?！?/p>

接下來，One-Eval的底層調度引擎會像專業調度引擎一樣，自主開展工作。

它會自動識別你的意圖，并匹配工具：指令跟隨用IFEval，醫療用MedQA，法律用LegalBench，金融用FinanceQA。

選好之后，結構解析、參數配置、底層數據拉取，全部由系統后臺靜默完成。

一行配置都不用寫。

更有意思的是，它打破了黑盒。

One-Eval引入了基于全局狀態（Global State）的數據總線架構。評測的完整生命周期都被記錄下來，一旦報錯，斷點清晰可見，全鏈路可追溯。

同時，它又展現出了嚴謹合理的系統設計思路——保留了“人工在環”（Human-in-the-Loop）。

在系統給出評測方案時，它會主動停下來，把上下文展示給你，等待人工審核確認后，再繼續執行。

在復雜的主觀評判場景下，這種人機協同遠比盲目的全自動更讓人安心。

當然，作為一款新生的開源工具，它也有當前的能力邊界與適配局限。

根據其文檔與架構特征，目前One-Eval內置的基準主要覆蓋純文本能力。

如果你需要測試非常復雜的真實軟件工程能力（比如需要獨立Docker沙盒環境的代碼執行測試），目前依然是它的能力盲區。

行業深層收益：評測賽道的商業邏輯

如果說One-Eval是鋪設鐵路的修路大軍，那么在鐵路上建立行業服務壁壘、提供專業商業化服務，則是深諳行業商業化與資本運作邏輯。

這絕不僅是一個“賣軟件授權”的單純工具授權生意。

這門生意的買單方，是被 AI 升級需求倒逼的 B 端企業。

一邊是持續融資布局的大模型研發企業，一邊是急于把AI接入業務的《財富》500強企業。

在這個千億規模的賽道里，頭部公司的盈利邏輯被極其精密地設計為三個層層聯動的盈利體系：

第一重：收取基礎的企業服務費用

對于企業內部日常的自動化評測需求，商業平臺切入了合規剛需。提供企業級的審計日志、權限管理等服務，按API調用量或席位收取合理的商業化服務費用。這構成了他們極其穩定的現金流底座。

第二重：壟斷定義權，提供私有化專業評測認證服務

既然開源考卷被污染了，高分沒人信了，商業公司順勢就接管了重新定義行業評測標準體系。

比如行業巨頭Scale AI，他們推出了全新的SEAL排行榜。

這個榜單不玩靜態代碼謎題，直接引入真實人類專家進行盲測比對，從機制上規避數據泄露與刻意刷榜行為。

邏輯瞬間質變：基礎模型公司如果想向投資人證明自己比競品強，就必須花重金購買這種不可篡改的私有評測認證。

這就如同在開展商業化落地與資本市場估值前，你必須采購專業機構的權威評測認證。

第三重：“診斷+賣藥”的數據引擎終極閉環

這是這門生意最核心的護城河，也是最具核心壁壘的商業閉環。

首先，評測系統通過大規模并發，精準定位模型在細分場景的能力短板與邏輯缺陷。

緊接著，它輸出專業評測診斷報告向客戶輸出針對性改進指導。

最后，平臺順理成章地亮出底牌：若要針對性優化模型能力？買我們獨家的高質量人工微調數據集吧。

你不僅要為它指出你的弱點付費，還要采購對應的專業微調數據集。

正是依托這套系統，Scale AI在2024年實現約 8.7 億美元可觀營收，毛利率穩定在50%左右。

資本給予了較高市場估值：Meta在2025年出資143億美元，拿下了Scale AI 49%的股份，直接將其估值推向了290億美元的巔峰。

大模型開發商融來的巨額資金中，有相當大一部分，就這樣以購買數據和評測服務的形式，悄無聲息地流進了這些“賣水人”的口袋。

大模型時代的淘金熱遠未結束。

無論是北大團隊試圖用自然語言交互打破繁文縟節的開源破局，還是商業巨擘用數據服務閉環構建商業壁壘的資本布局。

都在印證商業發展中一個恒久不變的規律：

在巨頭林立、競爭激烈的新興技術賽道中，掌握最終定價權的，往往不是技術迭代最快、投入最高的企業。

而是牢牢扼住底層度量衡、負責制定游戲規則的那個“裁判”。（本文首發鈦媒體App，作者｜ AGI-Signal，編輯｜林深）

聲明：

本文分析基于開源庫（如OpenDCAI/One-Eval）、公開財務數據及行業報告梳理。投資與創業存在極大不確定性，需留意大模型技術快速迭代及估值波動帶來的行業不確定性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

李飛飛引爆的3D新技術，為什么這家深圳公司兩年前就“玩膩”了？

量子位 2026-04-27 17:27:09
2 跟貼 2
模型大戰后，AI競爭的下半場在哪里？| Talk to The World @斯坦福

鈦媒體APP 2026-04-28 10:45:06
0 跟貼 0

AI最瘋狂的一周，該知道的8大共識都在這了

智東西 2026-04-26 21:57:35
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
一套模型通吃全球：卓馭重新定義智駕擴張效率邊界

經濟觀察報 2026-04-28 11:18:50
0 跟貼 0

從倉庫到工廠，具身智能產業應用的“GPT時刻”還有多遠？

鈦媒體APP 2026-04-27 11:12:17
0 跟貼 0

為什么威爾·史密斯吃面是AI視頻的行業標準？

beebee 2026-04-28 11:14:40
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

突發！百度職級體系巨變，3天后正式生效

鈦媒體APP 2026-04-28 11:58:28
0 跟貼 0
意大利逮捕中國高級工程師，準備送往美國！孟晚舟案翻版再現！

娛界新視野 2026-04-27 08:42:20
37 跟貼 37
硅谷華裔工程師親歷中國兩周：三大差異顯核心差距

雨月海星 2026-04-27 20:04:56
19 跟貼 19
DeepSeek V4大模型催化，半導體設備ETF國泰（159516）漲超1%

每日經濟新聞 2026-04-28 10:56:13
0 跟貼 0
伊朗怒甩談判方案，每一條都戳在美國“心窩”，美國想躲躲不掉 03

谷火平 2026-04-27 15:38:22
0 跟貼 0
【炸裂】印度千噸“鋼鐵巨獸”過橋驚魂！10天趕工橋扛住了，鋼絲繩卻崩了，網友：三哥這操作太離譜

太極本草 2026-04-27 20:14:16
0 跟貼 0
超越DeepSeek-V4！羅福莉交出小米最強開源模型，首日適配5家國產芯片

智東西 2026-04-28 08:39:35
0 跟貼 0
同一個詞，工程師和設計師吵了半小時

全棧遛狗員 2026-04-28 01:21:25
0 跟貼 0
歲工程師突然癡呆、打老婆、找不到家門，查遍醫院沒結果。最

夜里看海 2026-04-28 01:08:28
0 跟貼 0
比亞迪第1600萬輛車下線，工程師站C位，高端MPV騰勢D9進入第二代

光電科技君 2026-04-26 14:55:23
9 跟貼 9
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
1925 跟貼 1925
一大批高校，將搬遷！

吉刻新聞 2026-04-27 16:08:43
873 跟貼 873
電氣工程師經常出差的原因

順子順子 2026-04-24 20:38:11
0 跟貼 0
車展現場：外國工程師趴地量底盤，合資降價十萬無人問津

深海的秘密 2026-04-27 03:12:02
0 跟貼 0
國家航天局召開商業航天高質量發展會議：前瞻布局太空算力、太空制造等新業態；國產開源大模型密集迭代升級，國產開源大模型下載量破100億次——《投資早參》

每日經濟新聞 2026-04-28 09:37:27
0 跟貼 0
1960年代精巧繪圖工具套裝，工程師的心頭好物

裝甲鏟史官 2026-03-12 10:35:44
0 跟貼 0
工程師租8張H100復現mHC架構，數據反超原論文

量子位 2026-01-30 03:29:45
0 跟貼 0
銀城拍案｜手握金線，跨越底線——一名工程師的“一念之差”

同安檢察 2026-04-28 11:52:41
0 跟貼 0
【熱門崗位】這里有崗在招！快遞分揀員、汽車工藝工程師等，速戳！

隨州網 2026-04-28 11:52:07
0 跟貼 0
深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構

盧菁老師 2026-04-27 02:14:19
0 跟貼 0
俄方宣布擴大禁止入境俄羅斯的歐方人員名單

新華社 2026-04-27 20:52:40
1130 跟貼 1130
賽力斯問界：以硬核實力迎戰

汽車商業評論 2026-04-28 11:41:42
0 跟貼 0
女子飯店包間為狗狗過生日，未打擾其他顧客

華聲在線 2026-04-27 19:08:23
270 跟貼 270
問界魔方技術平臺發布高端 SUV 矩陣亮相并啟動新車交付

E車匯 2026-04-28 11:56:49
0 跟貼 0
給汽車裝上大腦：火山引擎的時機、策略和卡位

晚點LatePost 2026-04-26 23:13:33
0 跟貼 0
湖州南潯古鎮有艘“核動力觀光船”？景區回應：售票牌翻譯錯誤，會進行整改

上游新聞 2026-04-27 13:01:24
346 跟貼 346
廚師往炒菜鍋里吐口水洗掃把，辯稱是“油濺到嘴里本能吐了一下”

南陽日報 2026-04-27 19:30:22
90 跟貼 90
工信部直屬中國信通院正式啟動DeepSeek V4國產化適配測試工作

每日經濟新聞 2026-04-28 02:41:34
0 跟貼 0
PS5Pro迎重磅突破!成功實現路徑光追數毛社:里程碑!

游民星空 2026-04-28 11:06:19
0 跟貼 0
“龍蝦”駕到，車圈“紅”了

中國企業家雜志 2026-04-28 11:30:19
0 跟貼 0
目標總泡湯？這套執行系統專治半途而廢

時光慢郵啊 2026-04-28 01:18:21
0 跟貼 0
寧夏啟動全民數字素養與技能提升行動

人民資訊 2026-04-28 11:59:11
0 跟貼 0

阿里員工：公積金賬戶余額717092.97元

阿里員工：公積金賬戶余額717092.97元

螞蟻大喇叭

2026-04-27 18:23:09

個人收款被查了！2026年個人收款高于這個數，要小心！

個人收款被查了！2026年個人收款高于這個數，要小心！

新浪財經

2026-04-21 22:04:32

格羅西競選聯合國秘書長，中俄手握否決權，舊賬未清豈能點頭

格羅西競選聯合國秘書長，中俄手握否決權，舊賬未清豈能點頭

秘密即將揭曉

2026-04-28 01:39:27

皇馬換帥重磅！克洛普鎖定首筆引援， 780 萬撿漏世界級新星

皇馬換帥重磅！克洛普鎖定首筆引援， 780 萬撿漏世界級新星

奶蓋熊本熊

2026-04-28 05:43:33

中國會不會出現第二個毛澤東？答案一不會，但會出現新的杰出領袖

中國會不會出現第二個毛澤東？答案一不會，但會出現新的杰出領袖

南宗歷史

2026-04-27 23:20:25

千里科技AI戰略發布：L4智駕、原生智駕基座模型，翻開行業新篇章

千里科技AI戰略發布：L4智駕、原生智駕基座模型，翻開行業新篇章

科技每日推送

2026-04-23 18:44:48

上海地鐵互毆：知情人曝老太惡心事，臭毛病不能慣，女孩恐丟工作

上海地鐵互毆：知情人曝老太惡心事，臭毛病不能慣，女孩恐丟工作

小鋭有話說

2026-04-27 16:32:15

歷史唯一，坎塞洛有望成為集齊歐洲四大頂級聯賽冠軍第一人

歷史唯一，坎塞洛有望成為集齊歐洲四大頂級聯賽冠軍第一人

懂球帝

2026-04-27 22:00:51

07年，華國鋒最后一次去毛主席紀念堂，喊了一句話，在場之人落淚

07年，華國鋒最后一次去毛主席紀念堂，喊了一句話，在場之人落淚

蔣南強讀歷史

2026-04-28 08:10:06

一尿路感染就吃左氧氟沙星？醫生說實話：這藥用好了治病，用不好傷身，是雙刃劍

一尿路感染就吃左氧氟沙星？醫生說實話：這藥用好了治病，用不好傷身，是雙刃劍

今日養生之道

2026-04-28 00:34:57

從武大碩士到商場導購：誣告學弟性騷擾的楊景媛，終于付出了代價

從武大碩士到商場導購：誣告學弟性騷擾的楊景媛，終于付出了代價

地理三體說

2026-04-25 22:06:06

日本3月失業率為2.7%，前值2.6%

日本3月失業率為2.7%，前值2.6%

每日經濟新聞

2026-04-28 07:35:16

顏寧正面回應“只會利用電鏡發論文灌水”

顏寧正面回應“只會利用電鏡發論文灌水”

化學人生

2026-04-27 20:16:52

馬克龍宣布退圈后，小麗姐竟被喊“滾”？這次她終于崩潰坦白：愛麗舍宮9年，太黑暗！

馬克龍宣布退圈后，小麗姐竟被喊“滾”？這次她終于崩潰坦白：愛麗舍宮9年，太黑暗！

新歐洲

2026-04-27 19:48:33

臺灣人真的很可憐

覆言國際

2026-04-27 18:49:55

山西農婦慘死田間，鄰居不吃不喝躲藏6天，被抓后笑談行兇過程

山西農婦慘死田間，鄰居不吃不喝躲藏6天，被抓后笑談行兇過程

莫地方

2026-04-28 01:10:03

成都一泳池遭投火鍋底料等，8人被拘

成都一泳池遭投火鍋底料等，8人被拘

環球網資訊

2026-04-28 10:54:24

山西澤州發生重大刑事案件，33歲嫌犯潛逃，警方發布協查通報

山西澤州發生重大刑事案件，33歲嫌犯潛逃，警方發布協查通報

極目新聞

2026-04-27 17:56:03

葉新萍被查這事，看得我直冒冷汗

葉新萍被查這事，看得我直冒冷汗

仰望星空的一粒沙子

2026-04-28 10:31:46

泡泡瑪特推出Labubu冰箱，售價5999元，上千人預約

泡泡瑪特推出Labubu冰箱，售價5999元，上千人預約

大象新聞

2026-04-26 13:01:02

獨立財經科技媒體

132856文章數 862119關注度

往期回顧全部

科技要聞

10億周活目標落空！傳OpenAI爆發內部分歧

頭條要聞

美軍事資產被指"損失慘重" 修復費用可能高達50億美元

頭條要聞

美軍事資產被指"損失慘重" 修復費用可能高達50億美元

體育要聞

人類馬拉松"破二"新紀元，一場跑鞋軍備競賽

娛樂要聞

楊冪險遭蒸汽眼罩毀容！傷照曝光…

財經要聞

俞敏洪再遭重擊

汽車要聞

上汽大眾“攻山頭” ID.ERA 9X劍指細分前三

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

數碼

本地

公開課

軍事航空

藝術要聞

靜·觀--第二屆全國靜物油畫作品展作品選刊

數碼要聞

首款華為MatePad Pro Max平板曝光，將于5月面向全球發布

本地新聞

用青花瓷的方式，打開西溪濕地

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

軍事要聞

伊朗外長折返伊斯蘭堡內情披露

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版