網易首頁 > 網易號 > 正文 申請入駐

深度|馬斯克點贊、Karpathy銳評、推理之父驚呼,Kimi 新架構直接炸出半個硅谷AI 圈

0
分享至


圖片來源:AI生成

很少有一篇純底層的技術報告,能在發布瞬間直接“炸出”硅谷半個 AI 圈。

昨晚,Kimi 團隊發布了重磅技術報告《Attention Residuals》。這項研究試圖用一種動態的、依賴輸入的注意力機制,徹底取代大模型中沿用了十年的標準殘差遞歸。

簡單來說,它讓模型不再只是機械地堆疊層數,而是學會了在深度維度上進行“內容感知”的選擇。這一大膽的挑戰讓一眾硅谷頂流大佬紛紛開啟點贊模式。

OpenAI 聯合創始人 Andrej Karpathy 這么評價:“看來我們還沒把‘Attention is All You Need’這句話按字面意思理解透?!?/p>


一向不會輕易對具體技術論文做這種公開表態的馬斯克,也在評論區留下一句:“Impressive work from Kimi.”


甚至有AI從業者公開評價,上一次中國實驗室發布這樣的成果,是DeepSeek讓英偉達一天蒸發6000億美金。


論文鏈接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

這項研究集結了月之暗面數十名研究員的智慧。對項目貢獻最突出的三位研究員分別是陳光宇、Yu Zhang(Kimi-Linear 一作)以及 Jianlin Su。

更有意思的是,論文的一作陳光宇是一名年僅 18 歲、加入團隊僅 5 個月的準高三學生。


深度的陷阱

在深度學習的世界里,殘差連接自 2015 年誕生以來,一直被視為神經網絡邁向深層的默認配置。它像一條梯度高速公路,讓梯度能夠繞過復雜的變換直接傳導,從而解決了深層網絡難以訓練的難題 。

但在大語言模型步入數百層的今天,這種被奉為圭臬的標準結構正悄然陷入一種“深度的陷阱” 。

目前的殘差結構本質上是固定權重的線性累加,這意味著每一層輸出都以完全相同的分量強行擠進主干路徑 。這種“一視同仁”的堆疊方式,缺乏一種靈活的選擇機制。它無法根據當前的輸入內容決定哪些層的信息更關鍵,就像在讀一本厚書時每一頁的權重都完全一樣,讀到最后你可能已經忘了開頭最重要的伏筆 。

Kimi 團隊指出,這種信息流動的僵化不僅限制了模型的有效深度,還導致了一個嚴重的問題:信息稀釋 。

在現代 LLM 普遍采用的 PreNorm 范式下,殘差連接導致隱藏狀態的范數會隨著深度呈線性增長 。想象一下,當你把上百層網絡的輸出簡單地疊加在一起,主干路徑會變得越來越“臃腫”,每一層對最終結果的影響力被逐層攤薄 。早期層辛苦提取的基礎特征被掩沒在后續層的海量輸出中,甚至導致深度增加后的收益遞減 。

這種不受控的增長還強迫深層網絡必須學習產生越來越大的輸出,才能在已經巨大的殘差流中獲得一點點“發言權”,這不僅增加了訓練的不穩定性,也造成了參數的極大浪費 。實證研究發現,在這種結構下,模型中相當比例的層甚至可以被直接修剪掉而不影響性能,這說明目前的殘差機制并沒有讓每一層都發揮出應有的潛力 。


圖 b 中,藍色曲線代表的基準模型顯示,隨著 Transformer 塊索引的增加,輸出范數幾乎呈現指數級的飛躍增長 。這意味著越往后的層,由于之前的累加量已經巨大,為了能夠產生影響,它被迫輸出極其巨大的數值 。 圖 c 揭示了固定權重累加帶來的另一個弊端 - 梯度分布極度不均 。在基準模型中,梯度主要集中在最開始的幾層,深層的梯度非常微弱且分布不穩 。這種失衡意味著靠近輸入的層在被過度訓練,而深層則在“劃水” 。

由于殘差連接將所有先前的層信息壓縮進一個單一的狀態,模型無法實現對早期信息的選擇性檢索 。這種不可逆的信息流失,使得模型在處理需要長程依賴或多步推理的復雜任務時,往往力不從心 。

Kimi 團隊的這一洞察,不僅是對現狀的批判,更是為后續 AttnRes 的登場鋪平了道路。我們需要的不是更厚的堆疊,而是更聰明的選擇 。

AttnRes 的降維打擊

為了打破這種僵局,Kimi 團隊提出了 Attention Residuals(簡稱 AttnRes)。

這場變革的靈感源于序列建模與網絡深度之間的形式對偶性。既然 Transformer 能夠通過注意力機制取代循環神經網絡(RNN)在序列維度上的僵化遞歸,那么在深度維度上,我們也理應可以用注意力來取代固定的殘差累加。

AttnRes 的核心邏輯在于將每一層原本被動的線性接收轉變為主動的內容感知檢索,通過將深度軸轉化為一個可供檢索的特征空間,讓模型能夠像查閱字典一樣,根據當前的輸入內容精確調取之前的關鍵表征 。


在具體實現上,Kimi 團隊引入了一個極其輕量的“導航大腦”——層專屬偽查詢向量 。每一層不再是盲目接收前序總和,而是帶著這個學習到的向量去掃描之前所有層的輸出 。通過計算相似度,模型會生成一套 Softmax 注意力權重 。為了防止某些幅度異常的層主導整個注意力分布,架構中還加入了 RMSNorm 歸一化 。

為了將概念推向工業級應用,團隊研發了分塊注意力殘差(Block AttnRes) 。全量注意力雖好,但其平方級的開銷在大規模訓練中極其昂貴 。通過將數百層網絡劃分為若干個塊,模型在塊內維持低成本的基礎累加,僅在塊間進行精細的注意力聚合 。這一改進直接將顯存復雜度降至塊數量級別 。實測發現,僅需約 8 個塊就能找回全量版絕大部分的性能增益,實現了性能與效率的完美平衡 。

在工程落地層面,這套架構配合了精妙的兩階段計算策略 。由于查詢向量是層特定的且獨立于實時輸入,模型可以在進入每個塊時,批量計算出該塊內所有層對歷史塊的關注權重 。這種設計將零散的讀取整合為高效的批處理,極大地攤薄了內存訪問成本 。最終,這種從底層互聯方式上的徹底重構,讓端到端的推理延遲開銷控制在2% 以內,幾乎做到了“性能暴增,成本微增” 。


圖中的 block_attn_res 函數展示了如何利用一個學習到的權重矩陣并行地處理歷史表征,而 forward 部分則展示了模型如何維護一個“塊歷史記錄”,在保證邏輯嚴密的同時,將顯存占用維持在極低水平 。
Kimi 的實戰成果

任何理論的優雅最終都要在算力的火海中接受毒打。Kimi 團隊在包含 480 億參數(30 億激活參數)的 Kimi Linear 架構上,利用 1.4 萬億 Token 的實測結果證明,AttnRes 絕非實驗室里的花拳繡腿 。

最令技術圈振奮的是它對Scaling Law的重塑 。實驗數據顯示,在同等損失水平下,AttnRes 展示出了極高的“算力杠桿”:它僅需基準模型約 80% 的算力即可達到同樣的效果 ,意味著它自帶 1.25 倍的算力優勢。這一提升在不同的模型規模下均保持一致,打破了傳統架構在極深尺度下的效率天花板 。


這種“深度進化”最終轉化為了一份驚艷的下游任務成績單。在衡量知識深度的GPQA-Diamond任務上,新架構直接拉升了7.5 分;而在數學競賽級的Minerva Math和代碼生成的HumanEval任務中,也分別實現了3.6 分3.1 分的顯著飛躍。即便是通用理解領域的 MMLU (+1.1) 或中文能力測試 C-Eval (+2.9),也展現出全面打平或超越基準模型的統治力 。


除了分數,AttnRes 還從底層治愈了模型的“健康”問題 。它通過限制每一層的輸出幅度增長,并讓梯度分布更加均勻,確保了從第一層到最后一層都在同步進化,而不是在深度的稀釋中“劃水” 。


深色的對角線代表模型依然尊重層級的局部流動,而散落在背景中的亮點,則證明模型學會了跨越數十層去“翻閱”之前的知識 。特別是第一層嵌入信息在后續每一層中都有留存,證明了 AttnRes 能夠讓最初的靈感穿透重重阻礙,直達決策層 。
深度學習 2.0 的序幕

AttnRes 的出現,或許標志著大模型架構演進正在經歷一次“回溯式”的爆發。隨著計算硬件對內存帶寬瓶頸的進一步突破,這種深度維度的“全量檢索”將徹底重構我們對 Scaling Law 的傳統認知。

自 2015 年 ResNet 問世以來,殘差連接就被當作神經網絡的“默認配置”,整整十年幾乎無人質疑。而 Kimi 團隊卻選擇回到地基,去撬動那個十年未變的底層范式。

這是一個明確的行業信號:大模型的架構競爭已經從表層的模塊優化,正式深入到了最底層的“毛細血管”。這種底層范式的松動,其意義遠比單純的跑分提升更為深遠。

正如前 OpenAI 核心研究員、被譽為“推理模型之父”的 Jerry Tworek 在看到這項研究后所給出的評價:“一切都需要被重新思考,深度學習 2.0 要來了。

當殘差連接不再是死板的加法,大模型的靈魂才真正從深度的束縛中解脫出來。在這場通往 AGI 的長跑中,單純地堆疊規模已成過去式,如何更聰明地“調度深度”,或許才是決定誰能率先觸達終點的勝負手。

加入ZF討論群,請先添加小助手微信

我們相信認知能夠跨越階層,

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

我們正在招募新一期的實習生

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿德巴約:維金斯是最佳隊友,他總是笑瞇瞇的,也很務實

阿德巴約:維金斯是最佳隊友,他總是笑瞇瞇的,也很務實

懂球帝
2026-05-09 08:16:59
重慶直轄內幕:四川當初硬塞“兩大包袱”,中央為何死活不肯收?

重慶直轄內幕:四川當初硬塞“兩大包袱”,中央為何死活不肯收?

朗威談星座
2026-05-09 02:03:29
吳宜澤好友實錘:別造神了!所謂寒門勵志是誤會,經濟壓力大≠窮

吳宜澤好友實錘:別造神了!所謂寒門勵志是誤會,經濟壓力大≠窮

一盅情懷
2026-05-08 09:07:04
郵輪暴發漢坦病毒疫情!張文宏緊急發聲:這一點比新冠更可怕

郵輪暴發漢坦病毒疫情!張文宏緊急發聲:這一點比新冠更可怕

娛樂圈的筆娛君
2026-05-09 00:46:51
“年薪40萬,不能坐9小時的硬座嗎?”:永遠不要替別人做決定

“年薪40萬,不能坐9小時的硬座嗎?”:永遠不要替別人做決定

精讀君
2026-05-08 09:00:18
出貨量暴跌35%,小米手機9年來首次跌出前五

出貨量暴跌35%,小米手機9年來首次跌出前五

ZAKER新聞
2026-05-08 16:26:28
“機車女神”痞幼拿下張雪!評論區淪陷了!

“機車女神”痞幼拿下張雪!評論區淪陷了!

4A廣告文案
2026-05-07 09:13:48
掘金老板:約基奇是唯一非賣品 很喜歡戈登但有些事不得不評估

掘金老板:約基奇是唯一非賣品 很喜歡戈登但有些事不得不評估

羅說NBA
2026-05-09 06:17:30
湖人vs雷霆G3傷病報告:東契奇杰倫繼續傷停 范德彪出戰成疑

湖人vs雷霆G3傷病報告:東契奇杰倫繼續傷停 范德彪出戰成疑

醉臥浮生
2026-05-09 08:18:36
人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

三農老歷
2026-05-08 19:20:12
江蘇省體育局發布退役運動員安置情況:錢天一、何冰嬌均自主擇業

江蘇省體育局發布退役運動員安置情況:錢天一、何冰嬌均自主擇業

懂球帝
2026-05-08 09:54:18
深圳官方通報:28歲女子墜亡,多人涉謊報被建議處理

深圳官方通報:28歲女子墜亡,多人涉謊報被建議處理

南方都市報
2026-05-07 19:26:11
劉楚恬:2歲出道年入百萬,因長相甜美被禁止整容,如今長什么樣

劉楚恬:2歲出道年入百萬,因長相甜美被禁止整容,如今長什么樣

蹲坑看世界
2026-05-07 15:09:16
心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

德魯克博雅管理
2026-04-28 17:04:30
為什么要“較真”一頂頭盔?

為什么要“較真”一頂頭盔?

新華社
2026-05-08 17:43:42
美國政府突然公開UFO檔案,看完有點無語

美國政府突然公開UFO檔案,看完有點無語

萬物皆可科普2啊
2026-05-09 03:36:41
開車1600公里找“僅退款”買家 對話當事商家:沒想到過程會這么艱難,拒絕協商只要一個公道

開車1600公里找“僅退款”買家 對話當事商家:沒想到過程會這么艱難,拒絕協商只要一個公道

紅星新聞
2026-05-08 23:09:21
工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

細說職場
2026-05-06 13:45:18
央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

軍武速遞
2026-05-08 19:20:06
月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

李將平老師
2026-05-08 09:42:27
2026-05-09 08:36:49
ZFinance
ZFinance
Z世代的一站式AI、科技和財經資訊
177文章數 16關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

白宮:特朗普計劃5月14日至15日訪問中國

汽車要聞

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

教育
家居
游戲
旅游
軍事航空

教育要聞

你收到過最爛的禮物是什么?

家居要聞

流動的尺度 打破家的形式主義

《生化危機9》為何不做極致恐怖 卡普空道出了原因

旅游要聞

藏北高原“海洋藍” 壯美奇觀引客來

軍事要聞

伊朗:最高領袖穆杰塔巴全面掌控局勢

無障礙瀏覽 進入關懷版