无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

國內首次!面壁開源千萬級SFT與最大中文數據,MiniCPM5-1B底座公開

0
分享至


新智元報道


【新智元導讀】5月25日至29日,面壁智能與OpenBMB聯合舉辦「端側大模型開源周」,每天解鎖一個端側大模型的殺手锏。端側大模型的頂峰,不只在冰山一角,而在整座冰山。今天是開源周的第五彈:UltraData系列數據集上新。

5月29日,面壁智能聯合清華大學、 OpenBMB開源社區聯合發布并開源兩大最新數據集:Ultra-FineWeb-L3與UltraData-SFT-2605。

其中,Ultra-FineWeb-L3包含高質量中文+英文網頁合成數據,總量突破600B Tokens,中文占據200B+Tokens ,是目前開源規模最大的中文預訓練合成數據集UltraData-SFT-2605是國內首次開源的千萬級、同時包含深思考與非思考標注的SFT數據集。

MiniCPM5-1B的訓練過程,是UltraData分級治理體系的一次完整實踐,此次上新的兩大數據集Ultra-FineWeb-L3 與UltraData-SFT-2605均已在MiniCPM5-1B的訓練流程中得到完全驗證,覆蓋從預訓練退火到后訓練SFT的全鏈路。

這兩大數據集均基于面壁智能獨創的UltraData數據分級治理體系構建,為大模型產業提供了自主可控、高質量可復現的數據基礎設施。目前已全面上線UltraData網站與HuggingFace等,面向全球開發者免費開放。

UltraData數據分級治理

從「堆規模」到「精煉數據」

大模型訓練數據如同原油,未經提煉無法直接驅動引擎。在模型架構趨同、高質量公開數據資源逐漸逼近枯竭的背景下,單純依賴數據規模擴張已難以為繼。不同訓練階段對數據的質量、數量及分布存在顯著差異,需要有針對性的數據策略。

今年2月,面壁智能聯合清華大學、OpenBMB提出的L0-L4五級數據分級治理體系,正是為了解決這一問題。

從原始數據(L0)經基礎過濾(L1)、模型精篩(L2)、合成與增強(L3),到最終可用于編排的數據(L4),每一級對應明確的處理標準與應用場景,避免「一刀切」的粗放加工。

在英文網頁、中文網頁、數學、代碼四個領域的系統性實驗中,模型性能隨數據質量從L1向L3逐級提升而持續增強,分級訓練相比混合訓練平均性能提升1.49個百分點。


沒有系統的數據治理,就沒有可復現的AGI進化。此次L3數據集的開源,正是這套方法論從理論走向實踐、從數學垂直領域向通用網頁與后訓練SFT全面延伸的關鍵一步。

Ultra?FineWeb?L3

讓網頁文本從「可讀」到「好學」

Ultra?FineWeb?L3是將L3精煉技術系統化應用于通用網頁數據的合成數據集,規模超600B Tokens,其中英文400B+Tokens,中文200B+ Tokens。

同時也是當前全球最大規模的中文預訓練合成數據,一舉解決了長期以來中文高質量預訓練數據稀缺、分布不均的行業痛點。

以L2精篩高質量網頁數據Ultra-FineWeb為種子,Ultra-FineWeb-L3使用多種模型進行問答對生成與多風格改寫,將海量網頁文本升級為結構化、高信息密度、更適合模型學習的預訓練數據。

其核心目標不是增加數據量,而是提升單位數據的可學習性。

在同等訓練量下,Ultra-FineWeb-L3在ARC-E、HellaSwag、OpenbookQA等英文任務以及CMMLU等中文任務上均顯著超越FineWeb-edu、FinePhrase等其他高質量數據集,且訓練后期的領先優勢持續擴大。

作為MiniCPM5-1B退火階段的核心訓練數據,它為模型在訓練后期實現「最后一公里」能力躍升提供了高密度燃料。


如果說此前發布的UltraData-Math是UltraData分級治理體系在數學領域的一次最佳實踐,那么Ultra-FineWeb-L3則是這一方法論向通用網頁領域的進一步延伸。

它的意義不只是提供一份更大規模的網頁合成數據,更是把「可讀」的網頁文本,進一步轉化為「好學」的訓練數據。

UltraData-SFT-2605

千萬級深思考與非思考SFT全量開源

如果說預訓練決定了模型的知識廣度,SFT 階段則決定了模型能否精準遵循指令、能否一步步推演出復雜問題的答案。

UltraData?SFT?2605國內首個開源的千萬級規模、同時包含深思考與非思考完整標注的全量SFT數據集覆蓋數學、代碼、知識、指令遵循等多個領域。

該數據集在每個領域、每個難度層級中同時構建兩類數據:


  • 非思考數據:對應快速響應場景下的直接回答能力

  • 深思考數據:對應復雜任務場景下的推理、規劃與驗證能力,包含完整思維鏈標注


通過這種雙能力并行設計,模型可以在不同使用場景下獲得針對性的訓練信號。

全流程質量治理透明化是UltraData-SFT-2605的另一大亮點。

即使同屬于L3數據,不同樣本在問題價值、回答質量、推理清晰度和評測污染風險上仍然存在差異,因此L3內部同樣需要明確的質量篩選標準。

為此,UltraData-SFT-2605在構建過程中引入了完整的數據治理流程:從 Query構造與篩選,到Answer質量控制,再到Benchmark去污與訓練驗證,盡可能確保進入最終訓練的數據干凈且真正有效。


開發者可以追溯每條數據的處理過程,理解其被保留、增強與驗證的依據,為1B級端側大模型具備強推理能力提供了可復現的數據基礎。

基于此,開發者無需從零開始構建復雜的推理標注體系,即可快速訓練出具備深度思考能力的端側大模型。

不止于規模

更是可復用的數據治理方法論

大模型的發展正邁入新階段,數據科學必須從粗放式的規模擴張,邁向精細化的數據治理與利用。UltraData數據分級治理體系提供的正是這一轉型的系統性方案。


此前,UltraData已積累了豐富的數據治理與開源基礎。其開放社區網站系統整理了UltraChat、UltraFeedback等高質量數據集的前期工作,并開源了實驗過程中的2.4T Tokens數據與4項數據治理工具。

其中,UltraData-Math以290B+ Tokens的總規模構建了從L1網頁語料到 L3 推理鏈的分級數學數據體系,L3數學合成數據達88B Tokens,是目前開源社區規模最大的數學預訓練數據,并以霸榜之姿登頂Hugging Face Trending第一。

Ultra-FineWeb連續兩周登頂Hugging Face Trending第一,累計下載量超50萬次。

此次開源的Ultra-FineWeb-L3與UltraData-SFT-2605,正是這套分級治理方法論從數學垂直領域向通用網頁和后訓練SFT階段全面延伸的標志性成果。

開源不是終點

是共建長期數據生態的起點

高質量數據正在成為端側智能落地的關鍵變量。

對于端側廠商而言,UltraData的開源意味著無需重復投入巨額成本進行網頁合成與SFT數據清洗,直接使用即可復現MiniCPM5-1B級別能力。

高質量L3數據使1B模型在數學、代碼、推理等任務上逼近更大模型,加速端側智能在手機、PC、汽車等場景的落地。高質量數據意味著更少的訓練token即可達到同等效果,間接節省算力與內存——這正是端側大模型從技術驗證走向規模化落地的關鍵一環。

面壁智能始終秉持「開源」理念,為社區開發者提供從數據獲取到模型訓練的全鏈路支持,深入探索如何高效量化數據價值、精準適配模型各階段的訓練需求,進一步構建「數據<->模型協同演進」,形成模型反哺數據治理、高質量數據進一步優化模型的良性閉環

此次UltraData系列數據集的上新與開源,正是一個持續迭代的新起點。

未來,UltraData將陸續開放更多預訓練L1/L2/L3數據、更強通用SFT數據、Agent?SFT數據以及RL數據,相關的治理算法與模型也會持續開源,構建從「一次性發布」到「持續迭代」的數據生態,讓高性能AI更快、更自然地來到每個人身邊。

?UltraData 網站

https://ultradata.openbmb.cn

? Hugging Face 地址

https://huggingface.co/collections/openbmb/ultradata

? Ultra-FineWeb-L3

https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3

? UltraData-SFT-2605

https://huggingface.co/datasets/openbmb/UltraData-SFT-2605

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

領悟看世界
2026-05-25 01:15:23
重磅!利物浦官宣47歲斯洛特下課:投入5億僅排第5 創2大恥辱紀錄

重磅!利物浦官宣47歲斯洛特下課:投入5億僅排第5 創2大恥辱紀錄

風過鄉
2026-05-30 19:33:04
一汽官宣:獨立新能源汽車品牌,正式發布!

一汽官宣:獨立新能源汽車品牌,正式發布!

新浪財經
2026-05-31 00:54:41
鐵了心要滅掉中國?一股可怕力量來了!

鐵了心要滅掉中國?一股可怕力量來了!

回京歷史夢
2026-05-29 18:33:48
南開大學通報論文數據存疑問題情況

南開大學通報論文數據存疑問題情況

新京報
2026-05-30 19:57:05
從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

汪星人喲
2026-05-30 22:02:12
103-111!雷霆搶七惜敗,最大罪人揪出,葬送好局,無可爭議

103-111!雷霆搶七惜敗,最大罪人揪出,葬送好局,無可爭議

體育見習官
2026-05-31 14:01:23
美警告未落,俄導彈砸基輔F-16基地,普京決戰已至

美警告未落,俄導彈砸基輔F-16基地,普京決戰已至

真的好愛你
2026-05-30 19:05:21
綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

國際阿嘗
2026-05-29 16:34:35
梭哈字母哥!開拓者豪賭籌碼曝光:楊瀚森等4人+3首輪 歸還互換權

梭哈字母哥!開拓者豪賭籌碼曝光:楊瀚森等4人+3首輪 歸還互換權

林子說事
2026-05-31 12:17:41
老師膠槍燙幼兒“社會性死亡”!正臉被扒無遮擋,過往曝光是慣犯

老師膠槍燙幼兒“社會性死亡”!正臉被扒無遮擋,過往曝光是慣犯

流云隨風去遠方
2026-05-30 23:58:53
劉洵逝去,“為這個沒名沒姓的年頭干一杯”

劉洵逝去,“為這個沒名沒姓的年頭干一杯”

張佳瑋寫字的地方
2026-05-30 15:54:37
一針見血!詹俊犀利點評戳破阿森納致命短板,大巴黎盡顯冠軍底蘊

一針見血!詹俊犀利點評戳破阿森納致命短板,大巴黎盡顯冠軍底蘊

田先生籃球
2026-05-31 10:39:20
日媒:日本想當東亞“老二”?中方給出了答案,從根兒上就不可能

日媒:日本想當東亞“老二”?中方給出了答案,從根兒上就不可能

春日筆記
2026-05-31 13:38:43
馬斯克22歲“女兒”內衣出鏡,聲稱和父親劃清界限,卻次次捆綁

馬斯克22歲“女兒”內衣出鏡,聲稱和父親劃清界限,卻次次捆綁

譯言
2026-05-31 06:24:46
98歲老僧一句話,點醒了我:你為何不再覺得活著

98歲老僧一句話,點醒了我:你為何不再覺得活著

有態度網友ytd2993
2026-05-28 00:48:53
1958年蕭華上將回鄉,失散23年終見親妹,相見時哽咽說出一句話

1958年蕭華上將回鄉,失散23年終見親妹,相見時哽咽說出一句話

磊子講史
2026-03-06 10:35:20
我供小叔子考上北大,他畢業后只匯款不回家,我去北京一看愣住了

我供小叔子考上北大,他畢業后只匯款不回家,我去北京一看愣住了

千秋文化
2026-05-18 20:02:10
我臟?!誤會一場!文班是被媒體冤枉的!!

我臟?!誤會一場!文班是被媒體冤枉的!!

柚子說球
2026-05-31 12:29:46
99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

千秋文化
2025-09-05 11:30:00
2026-05-31 14:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

數碼
游戲
家居
旅游
房產

數碼要聞

球星亞馬爾預熱Beats Studio Pro 2耳機:全新設計,粉色配色

91歲楊老頭棄坑《生化危機7》!直言:不嚇自己只想快樂

家居要聞

云棲 舒展如流云

旅游要聞

廠房老宅變身文旅熱土,古村落何以孕育“新風景”

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

無障礙瀏覽 進入關懷版