无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,國產AI自己造了AI,全球首例!

0
分享至

金磊 發自 凹非寺
量子位 | 公眾號 QbitAI

造AI這件事,現在的主角變成了AI。

因為就在剛剛,一個國產AI先自己寫出了一套大模型預訓練框架,然后再用這套預訓練框架,訓練出了一個新的小尺寸模型!



這就是面壁智能搞出來的big news。

這套由AI寫出來的預訓練框架叫做ForgeTrain,它是全球首個完全由AI編寫的生產級大模型預訓練框架,性能甚至超越了英偉達的Megatron

并且ForgeTrain在華為昇騰上預訓練MiniCPM5-1B,相比昇騰的框架也有10%的加速。

圍繞它,面壁智能還提出了一套新的軟件編程范式,叫Forge Engineering

更直白一點說,就是當AI寫代碼的成本越來越低,未來軟件不一定非要做成一套通用大框架,也可以針對不同模型、不同硬件、不同任務,現場鍛造一套專用代碼。

而被ForgeTrain訓練出來的新模型,就是MiniCPM5-1B

至于三者的關系,我們用一張圖來解釋:



雖然過去行業里關于“AI制造AI”的聲音不斷,但總歸來說,都還停留在特定的環節,比如寫一段函數、改一個腳本、調一組參數等等。

不過這一次,中國大模型公司第一次把“AI制造AI”從概念,推進到了可展示、可評測、可復現的工程樣本。

AI造出來的AI,能干啥?

既然MiniCPM5-1B是ForgeTrain訓練出來的模型,最直接的問題來了:

AI造出來的AI,到底能干什么?

先看一個最直觀的場景——桌寵。

這個1B參數規模的小模型,它可以常駐在電腦桌面上,變成一個隨時響應的AI小伙伴。你可以跟它聊天,讓它根據上下文接話,也可以給它設置不同的人格。



視頻地址:
https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w

(本項目基于clawd-on-desk項目二次開發:
https://github.com/OpenBMB/MiniCPM-Desk-Pet)

這個桌寵的重點在于,它不是一定要跑在云端的大模型服務,1B規模意味著它足夠小,部署門檻也足夠低。

按照面壁智能官方的說法,MiniCPM5-1B在FP16精度下權重體積約2GB,適合GPU、高端筆電和服務器;INT4/Q4精度約0.5GB,可以面向手機、平板、車機等設備。

MiniCPM5-1B想證明的,是1B模型也可以更能打。

在綜合知識、數學推理、代碼推理、工具調用等方向上,MiniCPM5-1B都拿出了面向同尺寸端側模型的對比結果。

公開評測中,MiniCPM5-1B/think平均分為42.57;在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜單等項目上,也給出了對應成績。



尤其值得一提的是,MiniCPM5-1B再次刷新了小模型的智能密度上限。

僅以1B參數規模,它就在國際知名榜單AA-Index上超越了所有2B參數以下模型。相比3個月前發布的Qwen3.5-2B,MiniCPM5-1B不僅效果更優,參數量還減少了一半。

這背后其實指向一個越來越清晰的趨勢:模型能力提升,不再只靠把參數規模越堆越大。更小的模型,也正在承載更高的智能密度。按照這一趨勢觀察,大模型的智能密度正在以約每3.5個月翻一番的速度持續提升。



這也讓MiniCPM5-1B的價值更明確了,它不只是一個小尺寸模型,而是一個在參數規模、部署成本和實際能力之間重新找平衡點的端側模型。

除此之外,它還可以自定義人格



視頻地址:
https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w

雖然這聽起來像聊天產品里的基礎功能,但在端側模型上意義更大,因為端側模型離用戶更近,更容易成為本地設備上的輕量級智能入口。

它可以記住用戶偏好的交互方式,也可以根據不同場景切換風格。

如果大模型要從云端走向每個人的設備,模型必須足夠小、足夠便宜、足夠好用,還要有完整工具鏈。

這也是它強調開發者友好的原因。

MiniCPM5-1B提供了模型、推理、微調相關工具鏈。推理側支持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等;微調側支持LLaMA-Factory、ms-swift等工具。

對開發者來說,這比單純給一個模型權重更重要。

因為模型能不能被用起來,往往不只取決于模型本身,也取決于部署、推理、量化、微調、接入工作流是不是順手。

還超過了英偉達Megatron

如果說MiniCPM5-1B是AI制造AI的產品,那么ForgeTrain就是AI制造AI的工廠。而這個工廠,本身也是AI造出來的。

面壁智能把AI制造AI分成了L1到L5五個階段:

  • L1:AI 只給建議,人類執行所有操作(代表:Github Copilot)
  • L2:AI 輔助研發,完成具體環節(代表:Cursor,Claude Code)
  • L3:AI 端到端產出下一代模型(代表:ForgeTrain)
  • L4:AI 遞歸自改進,改造訓練管線和自身
  • L5:AI 自主設定研究議程,開放式探索

ForgeTrain對應的正是L3-L4這個階段。它還沒有到AI自己發明下一代Transformer的程度,但它已經進入了大模型研發最核心的基礎設施層——預訓練框架。

在此之前,全世界很多大模型預訓練框架,都是人類程序員一行一行寫出來的。英偉達的Megatron、Meta的 Fairseq、谷歌的TensorFlow,無一不是如此。

但面壁智能提出了一個完全不同的思路,Forge Engineering

過去的軟件工程強調通用框架,一個框架要兼容各種模型、各種硬件、各種訓練任務。好處是代碼可以復用,代價是很難把每個具體場景都壓榨到極致。就像一件均碼的衣服,誰都能穿,但誰都穿不合身。

Forge Engineering的思路則激進得多:既然AI寫代碼越來越快,代碼生產成本越來越低,那我們為什么還要追求通用?我們完全可以給不同的模型、不同的硬件、不同的任務,分別寫專用的代碼。

這就像從工業化的批量生產,回到了高級定制。AI就是那個不知疲倦的頂級工匠,可以為每一個需求量身打造最適合的代碼。

但AI自己寫預訓練框架,難點不只在寫代碼。更難的是:它怎么知道自己寫對了?怎么知道速度夠不夠快?怎么知道顯存、并行、通信、穩定性有沒有問題?

這就需要Harness

咱們可以把Harness理解成一個考場,AI被放進這個考場里,一輪輪生成代碼、運行測試、拿到反饋、繼續修改。這個過程完全自動,不需要人類干預。

面壁智能采用了三階段構建方法論:

  1. 從現有預訓練框架采集關鍵數據,形成評測標準和Harness
  2. 從評測Harness構建二進制一致的預訓練框架版本
  3. 解除二進制一致的限制,迭代優化到超越參考實現

最終的結果是,ForgeTrain不僅在功能上完全對齊了英偉達Megatron,而且在相同的硬件條件下,訓練速度還要快10%。

這意味著,同樣的算力,用ForgeTrain可以節省10%的訓練時間和成本。

這是一件值得被重視的事情

看到這里,你可能覺得這是一場很酷的技術秀。但透過現象看本質,面壁智能的這次發布,正在揭示大模型行業正在發生的一場劇變。

首先,大模型的競爭,正在從堆資源走向極致提效率。

過去幾年,所有大模型廠商都在拼大力出奇跡,拼參數、拼語料、拼算力、拼十萬卡集群。但這條Scaling Law的路,它是有盡頭的。

當堆料走到天花板,接下來的勝負手是什么?是效率。

在同樣的算力預算下,誰能產出更多的研發迭代?誰的單代研發周期更短?面壁智能的AI制造AI給出了答案:

用AI去替代人類研發管線中的重復勞動,把人類數周的代碼開發壓縮到幾十分鐘。這是唯一能對抗資源瓶頸,實現大模型能力繼續指數級攀升的解法。

其次,AI研究員的角色,正在發生不可逆轉的改變。

在ForgeTrain這樣的系統里,人類的角色正在發生遷移。從Human in the loop(在循環中執行具體代碼)變成了Human on the loop(在循環外進行監督和設計)。

未來的AI科學家,不再需要親自去寫那無窮無盡的CUDA算子和底層通信邏輯。他們將變成研發系統的設計者和守界者。他們只需要定義目標、搭建Harness,剩下的臟活累活,全交給不知疲倦的AI去完成。

最后,對于國產大模型和國產芯片而言,這是彎道超車的絕佳契機。

過去,我們評價國產大模型,眼睛總是盯著參數大小、榜單跑分、長文本能力。但真正決定一家公司、一個生態長期核心競爭力的,其實是底層系統——生產模型的能力。

誰能更快地訓練出模型,誰能以更低的成本試錯,誰就能在殘酷的百模大戰中活到最后。

更深遠的戰略意義在于國產算力生態。眾所周知,華為昇騰等國產芯片在硬件算力上正在瘋狂追趕,但最大的短板在于軟件生態。英偉達有數以百萬計的開發者花了十五年時間踩坑、優化,這是國產芯片靠人力很難在短時間內抹平的差距。

但ForgeTrain提供了一種破局的可能。

如果人不夠,那就用AI來湊!通過AI自動生成適配各種新模型、新硬件的專屬預訓練框架,國產芯片將有機會借由AI的生產力,極大縮短追趕國際頂尖生態的時間差。

當AI學會了造AI,齒輪就已經開始加速轉動。一個新的紀元,正在我們眼前展開。

MiniCPM5-1B 現已全面開源:

Hugging Face鏈接:
https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B

GitHub鏈接:
https://github.com/OpenBMB/MiniCPM

ModelScope鏈接:
https://modelscope.cn/models/OpenBMB/MiniCPM5-1B

AtomGit:
https://ai.gitcode.com/OpenBMB/MiniCPM5-1B

魔樂社區:
https://modelers.cn/models/OpenBMB/MiniCPM5-1B

ForgeTrain開源鏈接:
https://github.com/OpenBMB/ForgeTrain(5.26晚后上線)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“扶弟魔”升級版!妻子因丈夫拒每月拿2000元幫弟還車貸,離婚了

“扶弟魔”升級版!妻子因丈夫拒每月拿2000元幫弟還車貸,離婚了

火山詩話
2026-05-26 07:27:35
美軍稱在霍爾木茲海峽擊沉兩艘伊朗布雷船

美軍稱在霍爾木茲海峽擊沉兩艘伊朗布雷船

新京報
2026-05-26 09:51:05
一聲驚雷!廣州老破小的春天真的來了!

一聲驚雷!廣州老破小的春天真的來了!

新浪財經
2026-05-26 15:25:45
一口氣連放8集!尼古拉斯·凱奇《暗影蜘蛛俠》正式播出

一口氣連放8集!尼古拉斯·凱奇《暗影蜘蛛俠》正式播出

3DM游戲
2026-05-26 10:00:22
香港第一風水師陳朗,因助人改命受天譴,李嘉誠花費千萬為他續命

香港第一風水師陳朗,因助人改命受天譴,李嘉誠花費千萬為他續命

郁郁乎文
2024-07-07 22:25:36
布倫森動情痛哭!1.88米次輪秀創8紀錄 美媒:降薪1.13億成經典

布倫森動情痛哭!1.88米次輪秀創8紀錄 美媒:降薪1.13億成經典

顏小白的籃球夢
2026-05-26 17:20:34
iPhone 20原型機曝光:無邊框+四微曲屏,外觀史詩級革新,屏占比達到蘋果最高水平

iPhone 20原型機曝光:無邊框+四微曲屏,外觀史詩級革新,屏占比達到蘋果最高水平

魯中晨報
2026-05-25 17:30:37
比雷霆還慘!一年選中2個分區決賽MVP,結果都送人了,史上最坑GM

比雷霆還慘!一年選中2個分區決賽MVP,結果都送人了,史上最坑GM

你的籃球頻道
2026-05-26 13:33:25
在外打工半年,回家掀開老婆衣服,看清她肚子后我砸了杯子

在外打工半年,回家掀開老婆衣服,看清她肚子后我砸了杯子

木子言故事
2026-05-21 11:31:57
王光慈曾對馬英九下跪磕頭 李德維:的確是很震驚

王光慈曾對馬英九下跪磕頭 李德維:的確是很震驚

金牛傳聲
2026-05-26 11:26:52
為隊友發聲!米切爾:很多人都是唯冠軍論,卻忽略了哈登的偉大

為隊友發聲!米切爾:很多人都是唯冠軍論,卻忽略了哈登的偉大

懂球帝
2026-05-26 15:01:09
中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

美食格物
2026-05-13 14:03:12
官宣:C羅出任追覓全球代言人

官宣:C羅出任追覓全球代言人

快科技
2026-05-25 19:25:12
“粉木耳”配圖女性剪影,盒馬就產品標簽設計道歉,已全部下架并內部復盤改進流程

“粉木耳”配圖女性剪影,盒馬就產品標簽設計道歉,已全部下架并內部復盤改進流程

界面新聞
2026-05-26 10:53:59
為什么老顧客突然就不來了?網友:消費299元,不肯送我一個餅

為什么老顧客突然就不來了?網友:消費299元,不肯送我一個餅

據說說娛樂
2026-05-26 10:46:59
中國反超,日本再降一位

中國反超,日本再降一位

觀察者網
2026-05-26 14:29:40
住院新規來了!白天治療、晚上回家,陪護不再全家熬(政策解讀)

住院新規來了!白天治療、晚上回家,陪護不再全家熬(政策解讀)

李博世財經
2026-05-26 10:01:57
美國副總統萬斯或放棄2028年的美國總統競選,接近特朗普的消息人士:“萬斯在白宮中毫無存在感,魯比奧比他更有魔力”

美國副總統萬斯或放棄2028年的美國總統競選,接近特朗普的消息人士:“萬斯在白宮中毫無存在感,魯比奧比他更有魔力”

極目新聞
2026-05-26 13:06:23
不扒不知道!沈月身份不簡單,還給內娛上了一堂“危機公關”課

不扒不知道!沈月身份不簡單,還給內娛上了一堂“危機公關”課

科學發掘
2026-05-26 14:43:40
西決天王山大戰傷情報告出爐,雷霆醞釀大交易

西決天王山大戰傷情報告出爐,雷霆醞釀大交易

世界體育圈
2026-05-26 09:26:38
2026-05-26 17:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12689文章數 176470關注度
往期回顧 全部

科技要聞

中國AI要向外卷,而不只是做第二個OpenAI

頭條要聞

25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

頭條要聞

25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

體育要聞

上賽季差點降入英甲,下賽季要踢英超了

娛樂要聞

臺媒貼臉!S媽被問大S嗑藥當場沉默

財經要聞

中國鋁行業爆單 下一個“煤炭”大周期?

汽車要聞

涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

態度原創

時尚
教育
家居
親子
公開課

全網刷屏,華語樂壇“嫡長女”終于來了!

教育要聞

新高考專業學校到底哪個更重要

家居要聞

生與命相依 舊公寓改造

親子要聞

汪汪隊萊德梳理交通 #汪汪隊#大型挖掘機挖土玩具

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版