網易首頁 > 網易號 > 正文 申請入駐

難怪黃仁勛GTC請了楊植麟,讀完Kimi新論文我懂了

0
分享至


這是蒼何的第 511 篇原創!

Token,正在成為 AI 時代的水和電。

誰能用更少的算力壓出更多的 token 效率,誰就能在這場軍備競賽里活得更久。

這也是為什么今年英偉達 GTC 大會的焦點,開始從"誰的卡更多"轉向"誰用得更聰明"。


圖片來自中國藍新聞

這就不得不提剛在GTC上演講的楊植麟了,因為他演講的一個重要主題就是 Token 效率。

這可能也是老黃請他的原因。

楊植麟這次演講的主題是《How We Scaled Kimi K2.5》,首次完整披露了 Kimi 下一代模型的技術路線圖。他把 Kimi 的進化邏輯概括為三個維度:

  • Token 效率:用 MuonClip 優化器替代用了 11 年的 Adam,token 效率翻倍

  • 長上下文:Kimi Linear 架構在 128K-1M 上下文范圍內,解碼速度提升 5-6 倍

  • 智能體集群:引入 Orchestrator 編排器,讓多個 Agent 并行協作


但真正讓我注意到的,是他在演講里提到的第三項底層創新:「Attention Residuals」。


因為就在 GTC 前兩天,我看到 Kimi 剛發了這篇論文。而馬斯克轉發后直接說了句:「Impressive work from Kimi」。


Karpathy 看完也半開玩笑地說:我們是不是沒把「Attention is All You Need」這句話理解透。


一篇改殘差連接的論文,怎么就讓這幫人集體激動了?我去讀了下。


論文我也下載下來了,私信回復暗號即可獲。篈ttention_Residuals

主角我居然還挺熟——殘差連接。

簡單說下殘差連接是什么。

2015 年 ResNet 提出了一個極其簡單的操作:每一層的輸出 = 上一層傳下來的東西 + 這一層自己算出來的東西。就是一個加法。

這個加法讓深層網絡成為可能,也讓后來的 Transformer 站穩了腳跟。從 2015 年到現在,幾乎所有大模型都在用它,權重恒定為 1,所有層一視同仁


問題在哪?

打個比方:一個學生上了 40 節課,期末復習的時候把所有筆記等量堆在一起看——不管哪門課跟考試相關,每門課都占同樣的復習時間。

結果就是:

  • 早期學到的重要內容,傳到深層已經被稀釋得差不多了

  • 后面的層想產生影響,得"喊"得比前面所有層加起來還大聲

  • 研究甚至發現,很多大模型里相當一部分層可以直接刪掉,性能幾乎不受影響


用了十年沒人動,不是因為它完美,是因為"夠用"讓人失去了追問的動力。

DeepSeek 去年底發了篇論文(mHC),核心思路是:既然固定權重太死板,那就讓權重變成可學習的,讓模型自己決定怎么混合各層的信號。

DeepSeek 在殘差連接基礎上改進的 mHC(流形約束超連接) 架構,解決了 Hyper-Connections 的訓練不穩定問題,同時保持表達能力,并在 3B/9B/27B 規模模型上驗證了效果。


這個方向是對的,但有一個局限:權重訓練完就固定了,不管輸入是什么,每一層拿到的混合方式都一樣。

Kimi 團隊這篇論文問了一個更往下的問題:就算權重可以學,每一層拿到的依然是"混合過的狀態"。它沒有辦法說"我要單獨看第 3 層的輸出"。

信息一旦被攪進累積狀態,就找不回來了。

Kimi 的解法,來自一個很漂亮的類比。

把 Attention 旋轉 90 度

Transformer 處理文本的時候,用注意力機制讓每個詞可以"回頭看"前面所有的詞,根據內容動態決定關注哪里。這是橫向的——在序列維度上。

Kimi 團隊在思考:那層與層之間,為什么不能做同樣的事?

把注意力機制"旋轉 90 度"——從序列維度轉向深度維度。

改完之后,每一層擁有一個可學習的查詢向量(query),用它對所有前序層的輸出做 attention。哪些層對當前計算更重要,權重就更高;不相關的層,權重自動降低。


回到復習的比喻:現在這個學生有了一套智能系統:做每道題之前,系統根據題目內容自動從 40 節課的筆記里挑出最相關的幾份重點看。


最關鍵的一點:這個權重是動態的。同一個模型,處理不同的輸入,每一層對前序層的關注程度完全不同——實時決定,而非訓練完就固定。

Ilya 說過,LSTM 旋轉 90 度就是 ResNet。現在 Kimi 證明,Attention 也可以旋轉 90 度。


效果:等效白賺 25% 算力

工程上,Kimi 把模型分成約 8 個 block,塊內用傳統殘差,塊間做 attention。推理延遲增加不到 2%,幾乎免費。

在自家 48B 參數模型(Kimi Linear,3B 激活參數)上驗證:

  • GPQA-Diamond(科學推理):+7.5 分

  • Math(數學):+3.6 分

  • HumanEval(代碼):+3.1 分

同等算力下性能更好;反過來說,達到同等性能需要的訓練預算減少約 20%。相當于不加機器、不加數據,只改信息流結構,白賺 25% 的算力效果。


這幾年大模型的競爭,表面上是參數量、數據量、卡的數量在比拼。

但 GTC 的風向已經變了.

黃仁勛自己也清楚,光靠堆算力的時代正在見頂。

他需要在臺上展示的,是"聰明地用算力"的人。

楊植麟帶來的三項底層創新: MuonClip、Kimi Linear、Attention Residuals。

恰好都在回答同一個問題:

怎么用更少的資源做出更好的模型。

Adam 用了 11 年,Attention 用了 8 年,殘差連接用了 10 年。

這些東西不是不能動,是大部分人默認了"不需要動"。

當所有人都在想怎么買更多的卡,有人在想怎么讓每張卡的每個 token 都更值錢。

這才是黃仁勛真正想讓世界看到的。

過去兩年,從 DeepSeek 到 Kimi,中國大模型團隊動手的位置越來越深。

從訓練方法論到核心網絡架構,再到最底層的信號傳遞結構。

大力出奇跡的故事講了太久了。接下來的競爭,屬于那些敢拆「地基」的人。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子啃老10年,自盡后老母親收拾房間發現銀行卡,查看余額后崩潰

女子啃老10年,自盡后老母親收拾房間發現銀行卡,查看余額后崩潰

白云故事
2025-03-17 07:55:10
今夜,集體暴跌!

今夜,集體暴跌!

中國基金報
2026-04-29 00:16:33
曼聯周一夜場:一場球少賺百萬的賬怎么算

曼聯周一夜場:一場球少賺百萬的賬怎么算

賽場速報局
2026-04-29 01:17:44
從1-0到1-3!一場恥辱的失利!奪冠大熱露餡,聯盟門面也該換人了

從1-0到1-3!一場恥辱的失利!奪冠大熱露餡,聯盟門面也該換人了

籃球掃地僧
2026-04-28 06:30:55
46號令落地執行:在職正常、退休嚴查到底,這6類人一個跑不了

46號令落地執行:在職正常、退休嚴查到底,這6類人一個跑不了

復轉這些年
2026-04-28 12:09:01
“四人幫”頭目王洪文,失寵之后去了哪里?有一件事他萬萬不該做

“四人幫”頭目王洪文,失寵之后去了哪里?有一件事他萬萬不該做

瑩瑩的歷史說
2026-04-29 00:25:15
奇聞:境外組織大力資助“躺平網紅”,開展“躺平洗腦”?

奇聞:境外組織大力資助“躺平網紅”,開展“躺平洗腦”?

紅色少女主播
2026-04-28 22:23:04
曝楊子新女友已秘密產子,年齡相差28歲,女友有孕時,疑似與黃圣依還沒離婚

曝楊子新女友已秘密產子,年齡相差28歲,女友有孕時,疑似與黃圣依還沒離婚

小椰的奶奶
2026-04-29 00:25:09
蘋果唯一的缺點也沒了

蘋果唯一的缺點也沒了

星球商業評論
2026-04-28 22:04:34
洋洋總開播,回應筱梅狀態!她有自己節奏,人在北京,過兩天開播

洋洋總開播,回應筱梅狀態!她有自己節奏,人在北京,過兩天開播

離離言幾許
2026-04-28 21:58:57
中國"絕不談判"!光刻機封鎖,全球誰急?一臺光刻機能有多貴?

中國"絕不談判"!光刻機封鎖,全球誰急?一臺光刻機能有多貴?

潮鹿逐夢
2026-04-28 14:47:26
“你畫的紅線,走不通”——伊朗內部那封被自己人捅出來的密信

“你畫的紅線,走不通”——伊朗內部那封被自己人捅出來的密信

民間胡扯老哥
2026-04-28 06:54:22
“盡快撤離”!廣州緊急提醒:今晚雨更大

“盡快撤離”!廣州緊急提醒:今晚雨更大

南方都市報
2026-04-28 18:24:45
央視愛情劇首播口碑出爐!看完2集后,我想說:爛不是沒有原因

央視愛情劇首播口碑出爐!看完2集后,我想說:爛不是沒有原因

落雪聽梅a
2026-04-29 00:59:47
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
中共中央政治局會議明確“努力穩定房地產市場”,業內:城市更新已成為新的增長動力

中共中央政治局會議明確“努力穩定房地產市場”,業內:城市更新已成為新的增長動力

每日經濟新聞
2026-04-28 19:36:18
金價急跌!業內人士分析——

金價急跌!業內人士分析——

BRTV新聞
2026-04-28 15:21:59
多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真假

多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真假

今日養生之道
2026-04-21 00:21:19
何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點半吃瓜
2026-03-10 07:00:13
北美6.6億,全球破14億,中國票房3300萬,觀眾給好萊塢又上一課

北美6.6億,全球破14億,中國票房3300萬,觀眾給好萊塢又上一課

臨云史策
2026-04-27 13:40:12
2026-04-29 01:32:49
蒼何
蒼何
前大廠工程師,努力分享AI干貨知識
95文章數 153關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

媒體:臺海軍退役少校登烏魯木齊艦 給出的結論很直接

頭條要聞

媒體:臺海軍退役少校登烏魯木齊艦 給出的結論很直接

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

中央政治局會議定調,八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

數碼
本地
親子
家居
公開課

數碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預約

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

有一點點近視,到底要不要戴眼鏡?

家居要聞

江景風格 流動的秩序

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版