亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

行業(yè)觀察|mHC:大模型訓(xùn)練的“定海神針”——流形約束超連接技術(shù)全解析

0
分享至


2026年初,DeepSeek 團(tuán)隊再次向 AI 業(yè)界投下重磅炸彈,發(fā)布了名為mHC(Manifold-Constrained Hyper-Connections,流形約束超連接)的新型架構(gòu)技術(shù)。這一創(chuàng)新由 DeepSeek 創(chuàng)始人梁文鋒親自署名,標(biāo)志著深度學(xué)習(xí)底層架構(gòu)從“暴力堆疊”向“精密設(shè)計”的又一次躍遷。

如果說 DeepSeek 此前著名的MLA(多頭潛在注意力)是管推理效率的“省錢利器”,那么mHC就是管訓(xùn)練穩(wěn)定性的“定海神針”。兩者互補(bǔ),共同構(gòu)成了下一代超級大模型的雙支柱架構(gòu)

一、 原理大白話:給信息流裝上“穩(wěn)壓器”

為了理解 mHC 的精妙,我們可以用“給城市供水”來打個比方:

  1. 傳統(tǒng)殘差連接(Residual Connection):一根細(xì)水管
    為了讓信號在極深的模型里不走丟,模型通常會接一根細(xì)細(xì)的“直通水管”。它雖穩(wěn),但由于水管太細(xì)(信息通道寬度受限),供水量有限,限制了模型的表達(dá)上限。

  2. 傳統(tǒng)“超連接”(Hyper-Connections, HC):多根大粗管
    為了變強(qiáng),有人想多加幾根粗管子,讓信息多路并發(fā)。結(jié)果發(fā)現(xiàn),水流變得極其狂暴,信號增益峰值甚至能飆升到 3000 倍。這種“信號大爆炸”會瞬間沖垮模型,導(dǎo)致訓(xùn)練直接崩潰。

  3. mHC:帶“高精穩(wěn)壓器”的超大供水網(wǎng)絡(luò)
    mHC 保留了多路連接的超強(qiáng)輸送能力,但在每一路連接上都安裝了高精度的“節(jié)流閥”和“穩(wěn)壓器”。

  • 黑科技武器: 引入數(shù)學(xué)中的“流形約束”和“雙隨機(jī)矩陣”(通過 Sinkhorn-Knopp 算法實(shí)現(xiàn))。

  • 效果: 它將信號增益嚴(yán)格控制在 1.6 倍 左右。水流既充沛又平穩(wěn),保證了模型在變大、變深時依然能“氣定神閑”地工作。

二、 核心優(yōu)勢:低功耗、高收益

mHC 并非實(shí)驗室里的花瓶,其在實(shí)際大規(guī)模測試中展現(xiàn)出了驚人的效費(fèi)比:

維度

傳統(tǒng)架構(gòu) (Baseline)

mHC 架構(gòu)

提升/變動

推理任務(wù)準(zhǔn)確率

基準(zhǔn)水平

顯著增強(qiáng)

提升約 7%

訓(xùn)練開銷 (27B 模型)

100%

106.7%

僅增加 6.7%

訓(xùn)練穩(wěn)定性

極易出現(xiàn)梯度爆炸/消失

極其穩(wěn)定

質(zhì)的飛躍

信號增益峰值

約 3000 倍 (HC)

約 1.6 倍

完美受控

核心洞察: 在 AI 領(lǐng)域,通常 1% 的準(zhǔn)確率提升往往需要翻倍的算力投入。mHC 僅用不到 7% 的額外開銷就換取了 7% 的準(zhǔn)確率飛躍,這在邊際效應(yīng)遞減的今天近乎于“煉金術(shù)”。
三、 技術(shù)深度對比:mHC vs MLA

為了避免混淆,我們需要理清 DeepSeek 的這兩項“神技”:

特性

MLA (Multi-Head Latent Attention)

mHC (Manifold-Constrained Hyper-Connections)

解決目標(biāo)

推理效率 & 顯存占用

訓(xùn)練穩(wěn)定性 & 擴(kuò)展性天花板

核心手段

壓縮 KV Cache(鍵值緩存)

數(shù)學(xué)約束殘差連接空間

應(yīng)用階段

推理(生成文字時更省顯存、更快)

訓(xùn)練(模型變大時不容易跑崩)

主要意義

降低了長文本處理的成本

掃清了通往 V4、V5 規(guī)模的障礙

四、 產(chǎn)業(yè)意義與深遠(yuǎn)影響

mHC 的出現(xiàn),不僅僅是一個算法的改進(jìn),更是對整個 AI 工業(yè)界的一次重塑:

  1. 訓(xùn)練規(guī)模化的新天花板
    大模型并非想做多大就能做多大,規(guī)模越大,數(shù)學(xué)上的不穩(wěn)定性就越致命。mHC 為 DeepSeek-V4 等后續(xù)百萬億參數(shù)級模型的研發(fā)鋪平了道路,解決了“模型越大越難練”的痛點(diǎn)。

  2. 國產(chǎn)芯片的深度適配
    mHC 團(tuán)隊在研發(fā)過程中,針對底層算子進(jìn)行了極致優(yōu)化(如內(nèi)核融合、智能重計算)。這使得該架構(gòu)能更高效地跑在國產(chǎn) AI 算力(如中昊芯英 TPU 集群等)上,減少了對特定高端顯卡的硬性依賴。

  3. 算力民主化的推動者
    當(dāng)同樣的算力能跑出更強(qiáng)的效果時,追求極致性能的成本門檻降低了。這讓更多資源有限的研究機(jī)構(gòu)或企業(yè),能夠訓(xùn)練出足以媲美頂級巨頭的中等規(guī)模高性能模型。

五、 總結(jié)

mHC 是 AI 底層架構(gòu)從“經(jīng)驗主義”向“數(shù)學(xué)嚴(yán)謹(jǐn)性”的一次重要進(jìn)化。

它通過精妙的流形約束,成功馴服了狂暴的超連接,實(shí)現(xiàn)了訓(xùn)練穩(wěn)定性和模型能力的雙贏。隨著 DeepSeek 逐步將該架構(gòu)推向生產(chǎn)環(huán)境,我們有理由相信,未來的大模型將不再只是計算資源的堆砌,而是結(jié)構(gòu)之美與工程之巔的完美融合。


*本文依據(jù)網(wǎng)絡(luò)搜集數(shù)據(jù)整理,由AI工具輔助完成

All rights reserved. Copyright ? 2025


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
歐洲擬定戰(zhàn)后霍爾木茲海峽通航計劃:繞開美國并與伊朗協(xié)調(diào)

歐洲擬定戰(zhàn)后霍爾木茲海峽通航計劃:繞開美國并與伊朗協(xié)調(diào)

澎湃新聞
2026-04-15 19:50:26
著名畫家、上海市文聯(lián)原主席施大畏去世,享年76歲

著名畫家、上海市文聯(lián)原主席施大畏去世,享年76歲

上觀新聞
2026-04-16 13:04:50
咸陽檢察長陳平:死刑前喊冤,被槍斃后家屬不能收尸,直接火化

咸陽檢察長陳平:死刑前喊冤,被槍斃后家屬不能收尸,直接火化

婉婉碎碎念
2024-10-18 16:54:45
浙大8萬、南開10萬!工科都漲價了,普通家庭的孩子真讀不起了?

浙大8萬、南開10萬!工科都漲價了,普通家庭的孩子真讀不起了?

優(yōu)墨出品
2026-04-14 18:58:40
俯臥撐需要天天做嗎?權(quán)威研究一次講明白

俯臥撐需要天天做嗎?權(quán)威研究一次講明白

健身狂人
2026-04-16 16:22:53
坐后座不系安全帶,北京一市民曬出罰單!

坐后座不系安全帶,北京一市民曬出罰單!

家住東西城
2026-04-16 19:32:29
95歲葉選平追悼會現(xiàn)場:身覆黨旗安睡,送別者擠滿會場,中央派人專程慰問

95歲葉選平追悼會現(xiàn)場:身覆黨旗安睡,送別者擠滿會場,中央派人專程慰問

文史明鑒
2026-03-26 21:54:14
他給延安送13萬兩黃金,手握幾十萬大軍,建國后卻成了勞資處處長

他給延安送13萬兩黃金,手握幾十萬大軍,建國后卻成了勞資處處長

青史煙雨
2026-04-16 20:00:37
央視官宣:意甲直播版權(quán)正式回歸,至此五大聯(lián)賽轉(zhuǎn)播權(quán)已集齊

央視官宣:意甲直播版權(quán)正式回歸,至此五大聯(lián)賽轉(zhuǎn)播權(quán)已集齊

懂球帝
2026-04-16 21:15:11
被遺忘被怠慢的丁俊暉!世錦賽前外媒鮮有報道,僅存評價盡顯奚落

被遺忘被怠慢的丁俊暉!世錦賽前外媒鮮有報道,僅存評價盡顯奚落

楊華評論
2026-04-17 03:25:36
“芯片又不是濃縮鈾,賣給中國怎么了?”

“芯片又不是濃縮鈾,賣給中國怎么了?”

觀察者網(wǎng)
2026-04-16 12:07:05
特朗普迎來最黑暗一天,美海軍遭遇歷史性恥辱,沙特對美信任崩塌

特朗普迎來最黑暗一天,美海軍遭遇歷史性恥辱,沙特對美信任崩塌

夢史
2026-04-12 09:21:00
打假了!梅根亮相澳大利亞,莉莉貝特公主膚色質(zhì)疑愈演愈烈

打假了!梅根亮相澳大利亞,莉莉貝特公主膚色質(zhì)疑愈演愈烈

悠悠說世界
2026-04-16 09:06:58
震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

火山詩話
2026-04-14 06:27:39
特朗普招招致命,封鎖海峽、輿論圍堵,不把中國拖下水誓不罷休

特朗普招招致命,封鎖海峽、輿論圍堵,不把中國拖下水誓不罷休

讓生活充滿溫暖
2026-04-17 02:42:24
王曼昱在大賽奪冠之后,教練就會更換,已經(jīng)成為了定律

王曼昱在大賽奪冠之后,教練就會更換,已經(jīng)成為了定律

子水體娛
2026-04-17 00:06:06
炸裂!王曼昱空降上海!5萬薪酬引爆爭議,馬琳力挺藏多大局?

炸裂!王曼昱空降上海!5萬薪酬引爆爭議,馬琳力挺藏多大局?

好乒乓
2026-04-16 12:15:25
火箭組籃下禁飛區(qū)!3年2110萬,收獲“新海王”,3中鋒配置太豪華

火箭組籃下禁飛區(qū)!3年2110萬,收獲“新海王”,3中鋒配置太豪華

熊哥愛籃球
2026-04-16 12:18:33
明明是聯(lián)盟前五球星,卻被爛攤子拖垮!或許該走了,你不虧欠什么

明明是聯(lián)盟前五球星,卻被爛攤子拖垮!或許該走了,你不虧欠什么

老梁體育漫談
2026-04-17 00:54:18
歐冠出局!皇馬2大巨星現(xiàn)場吵架 熊皇反擊貝林:你給我閉嘴

歐冠出局!皇馬2大巨星現(xiàn)場吵架 熊皇反擊貝林:你給我閉嘴

葉青足球世界
2026-04-16 08:19:08
2026-04-17 05:23:00
創(chuàng)新文化促進(jìn)會
創(chuàng)新文化促進(jìn)會
組織開展中關(guān)村創(chuàng)新文化研究
564文章數(shù) 38關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

本地
手機(jī)
時尚
游戲
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機(jī)要聞

OPPO Find X10:8000mAh超大電池+雙2億影像,中屏機(jī)皇實(shí)錘!

爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

《荒野大鏢客3》最全新情報!前傳還是新故事?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版