亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek與字節(jié)跳動(dòng)踏進(jìn)同一條河

0
分享至

本文系基于公開(kāi)資料撰寫(xiě),僅作為信息交流之用,不構(gòu)成任何投資建議


新年前夕,DeepSeek發(fā)表了一篇聚焦神經(jīng)網(wǎng)絡(luò)架構(gòu)創(chuàng)新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構(gòu),直指大規(guī)模模型訓(xùn)練中的穩(wěn)定性難題。

這一工作為硬件受限的中國(guó) AI 企業(yè)開(kāi)辟了一條兼顧性能與效率的路徑,也與字節(jié)跳動(dòng)早前在殘差流優(yōu)化上的探索形成關(guān)鍵呼應(yīng),二者均瞄準(zhǔn)殘差連接這一模型基礎(chǔ)架構(gòu)進(jìn)行改造。

DeepSeek的研究,恰恰是對(duì)字節(jié)跳動(dòng)“超連接”技術(shù)短板的系統(tǒng)性補(bǔ)位。這一成果不僅為大模型底層架構(gòu)的工業(yè)化落地提供了新方案,再度印證了硬件約束可轉(zhuǎn)化為創(chuàng)新動(dòng)力的產(chǎn)業(yè)演進(jìn)邏輯。

自2016年ResNet 提出以來(lái),殘差連接已成為深度學(xué)習(xí)的骨架式設(shè)計(jì)。其通過(guò)“捷徑連接”繞過(guò)層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來(lái)越深的模型結(jié)構(gòu)。

長(zhǎng)期以來(lái),業(yè)界創(chuàng)新多集中于注意力機(jī)制、MoE(混合專(zhuān)家)等模塊,殘差流本身處于一種“靜默的穩(wěn)定”中,直至2024 年字節(jié)跳動(dòng)以超連接(HyperConnection)技術(shù)打破這一局面。

字節(jié)跳動(dòng)的超連接通過(guò)拓寬殘差流寬度、構(gòu)建多路并行信號(hào)流,并讓模型學(xué)習(xí)流間的交互模式,顯著提升了模型表達(dá)能力。然而,該技術(shù)在規(guī)?;?xùn)練中暴露出致命短板:信號(hào)發(fā)散。

DeepSeek的測(cè)試顯示,在270億參數(shù)模型的訓(xùn)練中,約12000步后梯度范數(shù)劇烈波動(dòng),訓(xùn)練崩潰;更嚴(yán)重的是,信號(hào)強(qiáng)度在第60層膨脹至輸入值的3000倍。問(wèn)題的核心在于,超連接為追求表達(dá)力,放棄了殘差連接原有的恒等映射約束——小規(guī)模下尚可調(diào)參掩蓋,但在大規(guī)模訓(xùn)練中,這一缺陷被急劇放大。

mHC的核心創(chuàng)新,是將可學(xué)習(xí)的變換矩陣約束在雙重隨機(jī)矩陣(doubly stochastic matrix)構(gòu)成的流形上。這相當(dāng)于為信號(hào)傳播設(shè)立“剛性預(yù)算”:矩陣每行、每列元素之和均為1且非負(fù),確保輸出信號(hào)強(qiáng)度嚴(yán)格介于輸入信號(hào)的最大最小值之間,從而杜絕信號(hào)爆炸。

更關(guān)鍵的是,雙重隨機(jī)矩陣具有組合不變性——多層疊加后仍保持穩(wěn)定。實(shí)驗(yàn)表明,在超連接出現(xiàn)3000倍信號(hào)放大的同一場(chǎng)景中,mHC的信號(hào)放大峰值僅為1..6倍。為控制計(jì)算開(kāi)銷(xiāo),DeepSeek 采用Sinkhorn-Knopp 迭代進(jìn)行投影,僅需20輪迭代即可收斂,額外訓(xùn)練成本被壓制在6.7%。

硬件約束倒逼的不只是算法創(chuàng)新,更是全鏈路的系統(tǒng)級(jí)優(yōu)化。超連接拓寬殘差流后,每層數(shù)據(jù)讀寫(xiě)量倍增,在A800/A100的有限互聯(lián)帶寬下,芯片極易陷入“等待數(shù)據(jù)遠(yuǎn)多于計(jì)算”的效率陷阱。DeepSeek通過(guò)三項(xiàng)關(guān)鍵技術(shù)破局:

1.算子融合:將內(nèi)存訪問(wèn)模式相近的操作合并為單一GPU內(nèi)核,減少數(shù)據(jù)搬運(yùn);

2.反向傳播重計(jì)算:不存儲(chǔ)中間激活值,改為實(shí)時(shí)重算,以計(jì)算換內(nèi)存;

3.流水線并行優(yōu)化:重疊跨GPU通信與本地計(jì)算,用計(jì)算掩蓋通信延遲。

這些優(yōu)化將原本隨層數(shù)線性增長(zhǎng)的內(nèi)存開(kāi)銷(xiāo),轉(zhuǎn)化為可由模塊大小控制的有界開(kāi)銷(xiāo)。配合基于 TileLang 編寫(xiě)的混合精度內(nèi)核(bfloat16 為主,float32 保關(guān)鍵精度),實(shí)現(xiàn)了全參數(shù)規(guī)模下的穩(wěn)定性能提升。測(cè)試中,30億至270 億參數(shù)模型搭載mHC后均表現(xiàn)優(yōu)異,270億模型在BIG-Bench Hard復(fù)雜推理任務(wù)上提升 2..1%,在 DROP閱讀理解任務(wù)上提升2.3%

此前,V3架構(gòu)論文對(duì)應(yīng)V3模型,R1推理論文對(duì)應(yīng)R1模型;本次mHC論文在 2026 年春節(jié)前三周發(fā)布,外界普遍預(yù)期下一代旗艦?zāi)P停≧2)即將亮相。

這種“論文先行”的策略,既通過(guò)同行評(píng)議建立技術(shù)公信力,又在復(fù)雜地緣環(huán)境中為原創(chuàng)性留下時(shí)間戳,更向全球傳遞一個(gè)明確信息:中國(guó) AI 企業(yè)的核心競(jìng)爭(zhēng)力,并非依賴尖端算力芯片。

DeepSeek選擇通過(guò)arXiv、Hugging Face等開(kāi)放平臺(tái)而非傳統(tǒng)期刊發(fā)布成果,雖犧牲部分學(xué)術(shù)聲望,卻換來(lái)了技術(shù)傳播的速度與可達(dá)性。這種開(kāi)放模式加速了知識(shí)擴(kuò)散,也對(duì)同行構(gòu)成直接競(jìng)爭(zhēng)壓力:當(dāng) mHC 的性能增益可量化、實(shí)現(xiàn)可復(fù)現(xiàn)時(shí),西方實(shí)驗(yàn)室要么跟進(jìn)類(lèi)似技術(shù),要么必須論證自身路徑的優(yōu)越性。

此前R1 型已觸發(fā)推理模型研發(fā)熱潮,mHC架構(gòu)很可能推動(dòng)殘差流優(yōu)化進(jìn)入新一輪迭代。更重要的是,這一模式向技術(shù)管制者傳遞了清晰信號(hào):硬件限制并未扼殺創(chuàng)新,反而迫使中國(guó) AI 企業(yè)走向“從數(shù)學(xué)根源解決問(wèn)題”的最本質(zhì)路徑。

字節(jié)跳動(dòng)與 DeepSeek,先后踏入同一條“突破傳統(tǒng)殘差流”的創(chuàng)新之河。前者率先探路,卻止步于規(guī)模化瓶頸;后者在硬件約束的倒逼下,憑借數(shù)學(xué)約束與系統(tǒng)級(jí)優(yōu)化,架起了一座可通航的技術(shù)之橋

距離2026年春節(jié)僅剩六周,R2模型的發(fā)布將檢驗(yàn)mHC架構(gòu)的工業(yè)化成色。無(wú)論最終基準(zhǔn)測(cè)試結(jié)果如何,這條“在約束中創(chuàng)新”的路徑已具備里程碑意義——它清晰證明,AI 競(jìng)賽不只有“燒錢(qián)堆算力”這一條賽道。硬件限制從不是創(chuàng)新的絆腳石,而是催生真正核心突破的催化劑。

轉(zhuǎn)載開(kāi)白 | 商務(wù)合作 | 內(nèi)容交流
請(qǐng)?zhí)砑游⑿牛簀induan008
添加微信請(qǐng)備注姓名公司與來(lái)意

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
臭氣熏天,記者現(xiàn)場(chǎng)“yue”個(gè)不停!網(wǎng)友:很久沒(méi)看到這么有“活人感”的報(bào)道,隔著屏幕都能感受到

臭氣熏天,記者現(xiàn)場(chǎng)“yue”個(gè)不停!網(wǎng)友:很久沒(méi)看到這么有“活人感”的報(bào)道,隔著屏幕都能感受到

深圳晚報(bào)
2026-04-15 14:53:52
你見(jiàn)過(guò)最蠢的婚禮司儀說(shuō)過(guò)啥話?網(wǎng)友:為啥牛鬼神蛇都能找到工作

你見(jiàn)過(guò)最蠢的婚禮司儀說(shuō)過(guò)啥話?網(wǎng)友:為啥牛鬼神蛇都能找到工作

帶你感受人間冷暖
2026-04-14 00:05:11
世界杯抽簽分組出爐,中國(guó)隊(duì)迎戰(zhàn)奧運(yùn)冠軍

世界杯抽簽分組出爐,中國(guó)隊(duì)迎戰(zhàn)奧運(yùn)冠軍

刺猬籃球
2026-04-16 12:16:02
中資船突破霍爾木茲,卻遭美軍攔截折返,該派我們的軍艦去護(hù)航?

中資船突破霍爾木茲,卻遭美軍攔截折返,該派我們的軍艦去護(hù)航?

閆樹(shù)軍論評(píng)
2026-04-16 14:48:04
無(wú)數(shù)身價(jià)過(guò)億的大佬,都在想方設(shè)法把國(guó)內(nèi)的錢(qián)偷偷轉(zhuǎn)移到海外

無(wú)數(shù)身價(jià)過(guò)億的大佬,都在想方設(shè)法把國(guó)內(nèi)的錢(qián)偷偷轉(zhuǎn)移到海外

流蘇晚晴
2026-04-14 19:58:25
莊神絕命3分登全美熱搜!美媒高呼關(guān)鍵戰(zhàn)第2巨 僅500萬(wàn)卻存大心臟

莊神絕命3分登全美熱搜!美媒高呼關(guān)鍵戰(zhàn)第2巨 僅500萬(wàn)卻存大心臟

顏小白的籃球夢(mèng)
2026-04-16 10:59:13
復(fù)活節(jié)的鮮血與教皇的沉默:為何對(duì)川普憤怒,卻對(duì)屠殺失聲?

復(fù)活節(jié)的鮮血與教皇的沉默:為何對(duì)川普憤怒,卻對(duì)屠殺失聲?

斌聞天下
2026-04-16 07:25:03
為何金庸武俠小說(shuō)依舊風(fēng)靡,古龍卻已無(wú)人問(wèn)津?其實(shí)原因很簡(jiǎn)單

為何金庸武俠小說(shuō)依舊風(fēng)靡,古龍卻已無(wú)人問(wèn)津?其實(shí)原因很簡(jiǎn)單

長(zhǎng)風(fēng)文史
2026-04-13 20:41:32
最新確認(rèn):38人遇難的阿客機(jī)墜毀系遭俄羅斯誤擊

最新確認(rèn):38人遇難的阿客機(jī)墜毀系遭俄羅斯誤擊

第一財(cái)經(jīng)資訊
2026-04-16 14:12:24
公開(kāi)認(rèn)罪后,人民日?qǐng)?bào)對(duì)許家印稱(chēng)呼變了,11字之差釋放信號(hào)不一般

公開(kāi)認(rèn)罪后,人民日?qǐng)?bào)對(duì)許家印稱(chēng)呼變了,11字之差釋放信號(hào)不一般

談史論天地
2026-04-16 07:55:41
法國(guó)通過(guò)文物歸還法案,有多少流失文物能被追回

法國(guó)通過(guò)文物歸還法案,有多少流失文物能被追回

澎湃新聞
2026-04-16 15:55:17
突破封鎖失敗,伊朗10艘船被攔截,美軍已剝奪革命衛(wèi)隊(duì)海峽控制權(quán)

突破封鎖失敗,伊朗10艘船被攔截,美軍已剝奪革命衛(wèi)隊(duì)海峽控制權(quán)

虎哥閑聊
2026-04-16 09:33:57
特朗普已做好開(kāi)戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只有1個(gè)

特朗普已做好開(kāi)戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只有1個(gè)

史行途
2026-04-12 12:15:00
善惡有報(bào),許家印認(rèn)罪僅1天,子女近況被扒,原來(lái)大兒子早有布局

善惡有報(bào),許家印認(rèn)罪僅1天,子女近況被扒,原來(lái)大兒子早有布局

八斗小先生
2026-04-15 17:47:57
土耳其警告:特拉維夫?qū)⒗麃嗩I(lǐng)土的興趣并未消失

土耳其警告:特拉維夫?qū)⒗麃嗩I(lǐng)土的興趣并未消失

參考消息
2026-04-15 16:40:03
工信部紅頭文件:事關(guān)摩托車(chē)!解禁摩,取消13年強(qiáng)制報(bào)廢也搞快點(diǎn)

工信部紅頭文件:事關(guān)摩托車(chē)!解禁摩,取消13年強(qiáng)制報(bào)廢也搞快點(diǎn)

電動(dòng)車(chē)的那些事兒
2026-04-15 07:39:05
鄭麗文訪陸回臺(tái),沒(méi)收到馬英九祝福,反而是一記重拳,連戰(zhàn)再出手

鄭麗文訪陸回臺(tái),沒(méi)收到馬英九祝福,反而是一記重拳,連戰(zhàn)再出手

哄動(dòng)一時(shí)啊
2026-04-16 09:43:36
吃相越來(lái)越難看,都開(kāi)始硬搶了!

吃相越來(lái)越難看,都開(kāi)始硬搶了!

胖胖說(shuō)他不胖
2026-04-15 09:00:18
278天高墻分離,尹錫悅夫婦法庭重逢 律師:金建希崩潰“不記得怎么回的看守所”

278天高墻分離,尹錫悅夫婦法庭重逢 律師:金建希崩潰“不記得怎么回的看守所”

紅星新聞
2026-04-16 12:07:08
不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國(guó)“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國(guó)“不可靠”

影孖看世界
2026-04-15 22:29:46
2026-04-16 18:15:00
錦緞研究院 incentive-icons
錦緞研究院
專(zhuān)注上市公司價(jià)值發(fā)現(xiàn)與傳播
2498文章數(shù) 10826關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

頭條要聞

東北男子投訴公交提前發(fā)車(chē)丟工作 單位被施壓將其解雇

頭條要聞

東北男子投訴公交提前發(fā)車(chē)丟工作 單位被施壓將其解雇

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

一季度GDP,5.0%!

汽車(chē)要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

家居
教育
親子
旅游
游戲

家居要聞

智能舒適 簡(jiǎn)約風(fēng)尚

教育要聞

“交叉深造”“反向深造”時(shí)代,來(lái)了?

親子要聞

夫妻有一方是薄基底膜腎病,孩子會(huì)出現(xiàn)Alport綜合征嗎?

旅游要聞

青山染雪白鵑梅開(kāi) 又見(jiàn)秦嶺春日花海

Steam喜加一!恐怖游戲《NineHells》免費(fèi)領(lǐng)取

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版