網易首頁 > 網易號 > 正文申請入駐

國內首次！面壁開源千萬級SFT與最大中文數據，MiniCPM5-1B底座公開

2026-05-29 18:44:58　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】5月25日至29日，面壁智能與OpenBMB聯合舉辦「端側大模型開源周」，每天解鎖一個端側大模型的殺手锏。端側大模型的頂峰，不只在冰山一角，而在整座冰山。今天是開源周的第五彈：UltraData系列數據集上新。

5月29日，面壁智能聯合清華大學、 OpenBMB開源社區聯合發布并開源兩大最新數據集：Ultra-FineWeb-L3與UltraData-SFT-2605。

其中，Ultra-FineWeb-L3包含高質量中文+英文網頁合成數據，總量突破600B Tokens，中文占據200B+Tokens ，是目前開源規模最大的中文預訓練合成數據集；UltraData-SFT-2605是國內首次開源的千萬級、同時包含深思考與非思考標注的SFT數據集。

MiniCPM5-1B的訓練過程，是UltraData分級治理體系的一次完整實踐，此次上新的兩大數據集Ultra-FineWeb-L3 與UltraData-SFT-2605均已在MiniCPM5-1B的訓練流程中得到完全驗證，覆蓋從預訓練退火到后訓練SFT的全鏈路。

這兩大數據集均基于面壁智能獨創的UltraData數據分級治理體系構建，為大模型產業提供了自主可控、高質量可復現的數據基礎設施。目前已全面上線UltraData網站與HuggingFace等，面向全球開發者免費開放。

UltraData數據分級治理

從「堆規模」到「精煉數據」

大模型訓練數據如同原油，未經提煉無法直接驅動引擎。在模型架構趨同、高質量公開數據資源逐漸逼近枯竭的背景下，單純依賴數據規模擴張已難以為繼。不同訓練階段對數據的質量、數量及分布存在顯著差異，需要有針對性的數據策略。

今年2月，面壁智能聯合清華大學、OpenBMB提出的L0-L4五級數據分級治理體系，正是為了解決這一問題。

從原始數據（L0）經基礎過濾（L1）、模型精篩（L2）、合成與增強（L3），到最終可用于編排的數據（L4），每一級對應明確的處理標準與應用場景，避免「一刀切」的粗放加工。

在英文網頁、中文網頁、數學、代碼四個領域的系統性實驗中，模型性能隨數據質量從L1向L3逐級提升而持續增強，分級訓練相比混合訓練平均性能提升1.49個百分點。

沒有系統的數據治理，就沒有可復現的AGI進化。此次L3數據集的開源，正是這套方法論從理論走向實踐、從數學垂直領域向通用網頁與后訓練SFT全面延伸的關鍵一步。

Ultra?FineWeb?L3

讓網頁文本從「可讀」到「好學」

Ultra?FineWeb?L3是將L3精煉技術系統化應用于通用網頁數據的合成數據集，規模超600B Tokens，其中英文400B+Tokens，中文200B+ Tokens。

同時也是當前全球最大規模的中文預訓練合成數據，一舉解決了長期以來中文高質量預訓練數據稀缺、分布不均的行業痛點。

以L2精篩高質量網頁數據Ultra-FineWeb為種子，Ultra-FineWeb-L3使用多種模型進行問答對生成與多風格改寫，將海量網頁文本升級為結構化、高信息密度、更適合模型學習的預訓練數據。

其核心目標不是增加數據量，而是提升單位數據的可學習性。

在同等訓練量下，Ultra-FineWeb-L3在ARC-E、HellaSwag、OpenbookQA等英文任務以及CMMLU等中文任務上均顯著超越FineWeb-edu、FinePhrase等其他高質量數據集，且訓練后期的領先優勢持續擴大。

作為MiniCPM5-1B退火階段的核心訓練數據，它為模型在訓練后期實現「最后一公里」能力躍升提供了高密度燃料。

如果說此前發布的UltraData-Math是UltraData分級治理體系在數學領域的一次最佳實踐，那么Ultra-FineWeb-L3則是這一方法論向通用網頁領域的進一步延伸。

它的意義不只是提供一份更大規模的網頁合成數據，更是把「可讀」的網頁文本，進一步轉化為「好學」的訓練數據。

UltraData-SFT-2605

千萬級深思考與非思考SFT全量開源

如果說預訓練決定了模型的知識廣度，SFT 階段則決定了模型能否精準遵循指令、能否一步步推演出復雜問題的答案。

UltraData?SFT?2605是國內首個開源的千萬級規模、同時包含深思考與非思考完整標注的全量SFT數據集，覆蓋數學、代碼、知識、指令遵循等多個領域。

該數據集在每個領域、每個難度層級中同時構建兩類數據：

非思考數據：對應快速響應場景下的直接回答能力
深思考數據：對應復雜任務場景下的推理、規劃與驗證能力，包含完整思維鏈標注

通過這種雙能力并行設計，模型可以在不同使用場景下獲得針對性的訓練信號。

全流程質量治理透明化是UltraData-SFT-2605的另一大亮點。

即使同屬于L3數據，不同樣本在問題價值、回答質量、推理清晰度和評測污染風險上仍然存在差異，因此L3內部同樣需要明確的質量篩選標準。

為此，UltraData-SFT-2605在構建過程中引入了完整的數據治理流程：從 Query構造與篩選，到Answer質量控制，再到Benchmark去污與訓練驗證，盡可能確保進入最終訓練的數據干凈且真正有效。

開發者可以追溯每條數據的處理過程，理解其被保留、增強與驗證的依據，為1B級端側大模型具備強推理能力提供了可復現的數據基礎。

基于此，開發者無需從零開始構建復雜的推理標注體系，即可快速訓練出具備深度思考能力的端側大模型。

不止于規模

更是可復用的數據治理方法論

大模型的發展正邁入新階段，數據科學必須從粗放式的規模擴張，邁向精細化的數據治理與利用。UltraData數據分級治理體系提供的正是這一轉型的系統性方案。

此前，UltraData已積累了豐富的數據治理與開源基礎。其開放社區網站系統整理了UltraChat、UltraFeedback等高質量數據集的前期工作，并開源了實驗過程中的2.4T Tokens數據與4項數據治理工具。

其中，UltraData-Math以290B+ Tokens的總規模構建了從L1網頁語料到 L3 推理鏈的分級數學數據體系，L3數學合成數據達88B Tokens，是目前開源社區規模最大的數學預訓練數據，并以霸榜之姿登頂Hugging Face Trending第一。

Ultra-FineWeb連續兩周登頂Hugging Face Trending第一，累計下載量超50萬次。

此次開源的Ultra-FineWeb-L3與UltraData-SFT-2605，正是這套分級治理方法論從數學垂直領域向通用網頁和后訓練SFT階段全面延伸的標志性成果。

開源不是終點

是共建長期數據生態的起點

高質量數據正在成為端側智能落地的關鍵變量。

對于端側廠商而言，UltraData的開源意味著無需重復投入巨額成本進行網頁合成與SFT數據清洗，直接使用即可復現MiniCPM5-1B級別能力。

高質量L3數據使1B模型在數學、代碼、推理等任務上逼近更大模型，加速端側智能在手機、PC、汽車等場景的落地。高質量數據意味著更少的訓練token即可達到同等效果，間接節省算力與內存——這正是端側大模型從技術驗證走向規模化落地的關鍵一環。

面壁智能始終秉持「開源」理念，為社區開發者提供從數據獲取到模型訓練的全鏈路支持，深入探索如何高效量化數據價值、精準適配模型各階段的訓練需求，進一步構建「數據<->模型協同演進」，形成模型反哺數據治理、高質量數據進一步優化模型的良性閉環。

此次UltraData系列數據集的上新與開源，正是一個持續迭代的新起點。

未來，UltraData將陸續開放更多預訓練L1/L2/L3數據、更強通用SFT數據、Agent?SFT數據以及RL數據，相關的治理算法與模型也會持續開源，構建從「一次性發布」到「持續迭代」的數據生態，讓高性能AI更快、更自然地來到每個人身邊。

?UltraData 網站

https://ultradata.openbmb.cn

? Hugging Face 地址

https://huggingface.co/collections/openbmb/ultradata

? Ultra-FineWeb-L3

https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3

? UltraData-SFT-2605

https://huggingface.co/datasets/openbmb/UltraData-SFT-2605

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DiffusionOPD：復旦聯合通義萬相提出擴散模型在線策略蒸餾新范式

機器之心Pro 2026-05-29 16:23:04
1 跟貼 1
全球首次單機降服萬億巨模DeepSeek-V4！RL后訓練框架Orbit開源！

機器之心Pro 2026-05-28 11:48:03
2 跟貼 2

消耗1830億token，Meta用AI把數學教材翻譯成了一個超大Lean庫

機器之心Pro 2026-05-29 13:43:30
3 跟貼 3

狗子：不好觸發底層代碼了

娛圈小宇宙 2026-05-29 20:29:47
16 跟貼 16
X平臺瘋傳！這個國產開源模型，把信息圖生成整明白了 ? 附實測

智東西 2026-05-29 21:57:26
0 跟貼 0

多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0

從Token無上限到全員Agent：MiniMax的AI Native組織進化實踐

量子位 2026-05-31 11:48:15
0 跟貼 0
不用一個字，MIT團隊讓細胞自動機教會了大模型推理

DeepTech深科技 2026-03-23 18:28:08
1 跟貼 1

FlashAR：僅用0.05%數據，讓預訓練好的自回歸圖像模型飛起來

機器之心Pro 2026-05-24 17:52:21
0 跟貼 0
當胡彥斌1個月寫出APP，AI時代已經撲面而來

華爾街見聞官方 2026-05-31 11:15:12
10 跟貼 10
活久見，時代少年團給大模型上了一課

機器之心Pro 2026-05-09 12:48:20
0 跟貼 0
藏在《星際航行者》代碼里的秘密：第六次重啟，神秘條件觸發

字節漫游指南 2026-05-31 03:38:30
0 跟貼 0
把對象當代碼測，感情遲早崩

晚風也遺憾 2026-05-31 00:47:37
0 跟貼 0
AI自己寫代碼，訓出1B端側「小鋼炮」-1

機器之心Pro 2026-05-26 14:32:09
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
20美元內兩個被忽視的必備工具

報錯免疫體 2026-05-31 01:06:09
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
422 跟貼 422
院長等3人學術造假南開大學通報

界面新聞 2026-05-30 19:49:22
5840 跟貼 5840
耿同學抖音賬號，已被永久限流！中南大學湘雅醫學院回應論文造假：已要求課題組提交原始數據

TOP大學來了 2026-05-30 19:02:11
2893 跟貼 2893
豹2主戰坦克，經歷不斷迭代進化，依舊是陸地之王 #軍事科普

戰爭黑匣子 2026-05-28 21:40:47
1 跟貼 1
媒體：香會變調美國在臺海問題上收聲

環球網資訊 2026-05-30 20:40:20
48 跟貼 48
"香會"現場！他們排隊與中方代表打招呼

看看新聞Knews 2026-05-31 01:05:40
85 跟貼 85
10.68萬喜提L4同源算法，埃安N60駕駛輔助碾壓同級！

車市紅點 2026-05-28 17:43:38
1 跟貼 1
人類感知系統架構圖佛學與神經科學的驚人撞車

湯湯是小生活家 2026-05-30 06:02:03
0 跟貼 0
熱聞|阿森納夢碎十二碼！巴黎圣日耳曼蟬聯歐冠冠軍

齊魯壹點 2026-05-31 06:48:50
100 跟貼 100
人民直擊｜三問張家口風電項目1.9億“天價”補償后續

人民資訊 2026-05-31 09:15:09
828 跟貼 828
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1852 跟貼 1852
6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
221 跟貼 221
鄭麗文揭秘：真心難換真心，換策略捅破窗戶紙

一寸時光a 2026-05-30 01:51:30
3 跟貼 3
AI原生時代，讓世界適應Agent而非教AI做人 | 港大黃超@AIGC2026

量子位 2026-05-31 11:56:06
0 跟貼 0
今晚，上海男籃迎來最嚴峻考驗！

新民晚報 2026-05-31 11:02:21
5 跟貼 5
梁實第30次參加高考：我覺得有把握

極目新聞 2026-05-30 16:28:58
1739 跟貼 1739
國泰航班降落滑行時有幼童哭鬧，男乘客高聲怒斥！航司回應

南方都市報 2026-05-30 20:52:09
606 跟貼 606
復旦鐵三角：開辟最優物理AI路徑！時空一體世界動作模型問世

新智元 2026-05-31 13:08:37
1 跟貼 1
中超上半程收官戰，泰山隊輸得不難看

齊魯壹點 2026-05-30 23:33:13
127 跟貼 127
環塔對于猛士，不只是比賽，更是M817 Ultimate的技術迭代加速器

30秒懂車 2026-05-28 14:42:12
0 跟貼 0
韓軍要向美方收回戰時指揮權駐韓美軍司令表達擔憂

上觀新聞 2026-05-30 18:34:24
512 跟貼 512
世界上最快的模型車超過300公里的時速

淺夢看世界 2026-05-30 00:16:47
3 跟貼 3
比亞迪自研芯片太牛！玄機架構助力智駕，如何實現兜底承諾？

懶大王教剪輯 2026-05-30 04:35:08
1 跟貼 1

新智元

AI產業主平臺領航智能+時代

15349文章數 66894關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

游戲

家居

旅游

房產

手機 / 數碼

房產 / 家居

國內首次！面壁開源千萬級SFT與最大中文數據，MiniCPM5-1B底座公開

戴爾諾基亞又回來了！AI重估老牌科技公司

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

阿森納用最悲壯的方式，成就了巴黎王朝

賈玲最新動作！侯明昊給虞書欣抬轎！

醫學首席轉崗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

球星亞馬爾預熱Beats Studio Pro 2耳機：全新設計，粉色配色

91歲楊老頭棄坑《生化危機7》!直言:不嚇自己只想快樂

云棲 舒展如流云

廠房老宅變身文旅熱土，古村落何以孕育“新風景”

紅動五月！全國搶入核心資產，廣州盯緊凱旋新世界！

900V+3.2秒破百領克10+&領克10上市16.99萬元起

云棲舒展如流云