亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克也來站臺,中國團隊對AI底層架構(gòu)動手術(shù)

0
分享至

作者 | 封華

編輯 | 魏曉

來自中國的Kimi,再一次引發(fā)了硅谷AI圈的注意。

3月16日,月之暗面Kimi發(fā)布了一項技術(shù)報告《Attention Residuals》(注意力殘差),重新設(shè)計了深度學習中核心的殘差連接結(jié)構(gòu)。

報告發(fā)布后,引來了一眾企業(yè)家和AI大佬的圍觀。連續(xù)三天登上Twitter全球熱搜榜,主貼閱讀量超過 460萬,堪比一次模型重要版本發(fā)布。

OpenAI的“推理模型之父”、前OpenAI研究副總裁Jerry Tworek表示:“深度學習2.0要來了”。

馬斯克稱贊道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。隨后,Kimi進行了回應:“你的火箭造得也不錯!”

中外AI,在這一刻產(chǎn)生了惺惺相惜之感。


馬斯克在業(yè)內(nèi)一向“口無遮攔”,曾嘲諷Anthropic大規(guī)模竊取訓練數(shù)據(jù),也曾批評OpenAI成為“逐利公司”。只有真心認可,他才會不吝點贊。

這次馬斯克對Kimi大加贊賞,正是震驚于AI技術(shù)的突破。

Kimi提出的注意力殘差,旨在突破大模型架構(gòu)中的瓶頸,改寫大模型訓練效率與成本曲線。

技術(shù)突破“炸場”的同時,月之暗面創(chuàng)始人楊植麟還成為英偉達年度大會GTC 2026,唯一受邀演講的中國大模型公司創(chuàng)始人。

在演講中,楊植麟沒有去講Kimi的用戶數(shù),或是其他商業(yè)數(shù)據(jù),而是解讀了一個核心問題:當算力基建的規(guī)模化(Scaling)已成為行業(yè)共識,我們到底該Scale什么?

當全球AI競爭進入深水區(qū),Kimi的估值已狂飆至1200億元。從這次的技術(shù)突破,和楊植麟干貨滿滿的演講中,能看到Kimi對追求智能上限的執(zhí)著。

新技術(shù)改變了什么?

Kimi這次的突破,不是“調(diào)參數(shù)”,而是“動地基”。

當前大多數(shù)大規(guī)模深度學習模型都在使用“殘差連接”的結(jié)構(gòu),以保證能訓練幾十層乃至上百層而不崩潰。

這個設(shè)計來自何愷明在2015年參與的ResNet論文,十年來不曾被動搖根基。

其簡單邏輯是:每一層的輸出=當前層的結(jié)果+前面數(shù)層的累加。每一層網(wǎng)絡(luò)在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。

這樣做的好處是,這樣一路累加下去,每一層都能“記住”前面所有層的信息。

但這個機制并不是完美的,在大模型PreNorm主流范式下,殘差連接中所有層的

貢獻都是等權(quán)累加。

這樣將信息進行“無差別疊加”,沒有任何有效機制,去判斷哪一層的信息更重要,哪一層的信息可以忽略。隨著層數(shù)的增加,早期層信息的重要性就會被稀釋。并且,后面的層想要產(chǎn)生影響,就必須輸出模長更大的激活值,這反過來又加劇了訓練的不穩(wěn)定性。

就像咱們普通用戶在使用AI時,提示詞要盡量精準、簡練,如果事無巨細地進行長篇大論,反而增加了AI理解信息的難度。

AI訓練也是如此,重要信息被稀釋,并且計算效率較為低下,這是一種浪費和負擔。

Kimi團隊的最新技術(shù)報告提出一種全新方案——既然不想要“無差別累加”,那就讓網(wǎng)絡(luò)自己決定該提取什么信息。也就是,允許模型在每一層選擇性地關(guān)注此前各層的輸出,而不是簡單地進行求和。

這一創(chuàng)新不僅優(yōu)化了計算效率,還顯著提升了大模型的訓練效果。報告顯示,經(jīng)過改進的48B模型訓練效率提升了1.25倍。


Kimi的研究表明,當把動態(tài)、與輸入相關(guān)的注意力機制引入進來之后,模型不再是簡單地“全盤接收”信息,而是具備了“結(jié)構(gòu)性判斷能力”,能夠更有選擇地抓住關(guān)鍵內(nèi)容。

結(jié)果也很直接——改寫了大模型訓練效率與成本曲線。

Kimi團隊這次對慣性的大膽反思,瞄準的是那座最不起眼卻最承重的“地基”。這并非一次局部優(yōu)化,而是有機會成為未來大模型架構(gòu)里的“標配組件”。隨著驗證逐步展開,世界上其他AI團隊大概率會跟進類似思路,去探索新的架構(gòu)路徑。

楊植麟此次在英偉達GTC 2026現(xiàn)場的演講,更將Kimi團隊的技術(shù)實力與獨特思考,第一次完整展示給硅谷核心技術(shù)圈。

對“祖?zhèn)骷夹g(shù)”動刀

重構(gòu)前沿范式

北京時間3月18日凌晨,楊植麟站在英偉達年度大會GTC 2026的現(xiàn)場,發(fā)表了主題為《How We Scaled Kimi K2.5》的演講,首次完整披露了Kimi的技術(shù)路線圖。

按照他講述的Kimi K2.5的進化邏輯,只有在“Token效率、長上下文、智能體集群”三個維度同時找到規(guī)模效應,才能實現(xiàn)遠超現(xiàn)狀的智能水平。

如果說三維邏輯是戰(zhàn)略,那么對三大底層技術(shù)的重構(gòu)就是戰(zhàn)術(shù)。

楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標準,本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為大模型 Scaling 的瓶頸。

這也是本次演講的真正“硬核”所在,楊植麟直接勾勒出了下一代大模型的思考路徑:

要真正實現(xiàn)智能上限的突破,不是來自于對舊架構(gòu)的修修補補,而是對優(yōu)化器、注意力機制、殘差連接等底層基石的重構(gòu)。


其一,優(yōu)化器革命:從Adam到MuonClip。

在超大規(guī)模訓練中,Adam優(yōu)化器在提升Token效率上的瓶頸日益凸顯,尋找更具 Token 效率的替代方案已成趨勢。

Kimi團隊在實驗中驗證了Muon優(yōu)化器的潛力,但在擴展到萬億參數(shù)時遇到了“Logits爆炸”的難題。

對此,他們開出了自己的藥方:MuonClip。通過結(jié)合Newton-Schulz迭代并結(jié)合QK-Clip機制,他們不僅解決了穩(wěn)定性問題,更實現(xiàn)了2倍于傳統(tǒng)AdamW的計算效率。

這一突破意義重大,在算力約束、成本高企的當下,誰能用更少的計算量榨取更多的智能,誰就掌握了通往AGI的速通卡。

其二,Kimi Linear:全注意力機制“終結(jié)者”。

楊植麟展示了基于KDA架構(gòu)的Kimi Linear,一種混合線性注意力架構(gòu)。它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過優(yōu)化遞歸存儲管理,在128K甚至1M的超長上下文中,將解碼速度提升了5到6倍。

這不僅是速度的提升,更是對注意力機制本質(zhì)的思考:“按需分配”的注意力,才是不同場景下的務(wù)實選擇。

其三:殘差連接:從固定加法到注意力殘差

繼論文受到各方AI大佬圍觀之后,楊植麟再次在演講中介紹了這一技術(shù)突破。

針對已有十年歷史的殘差連接,Kimi引入Attention Residuals方案,將傳統(tǒng)的固定加法累加,替換為對前序?qū)虞敵龅腟oftmax注意力。

這一改動,通過選擇性聚合信息,讓每一層都能獲得前面所有層中更有價值的信息,而不是淹沒在求和“噪聲”中。

之后,楊植麟提出了一項預判。他認為,未來的智能形態(tài)將從單智能體向動態(tài)生成的集群進化。Kimi K2.5引入的Orchestrator機制,能夠?qū)碗s的長任務(wù)拆解給數(shù)十個子Agent并行處理,實現(xiàn)自協(xié)調(diào)的群體執(zhí)行。

上述框架,并非零散的技術(shù)點疊加,而是一套從底層基石到上層應用的完整技術(shù)閉環(huán),每一個環(huán)節(jié)都直指行業(yè)沿用近十年的技術(shù)標準的核心瓶頸。

跳出“中國版ChatGPT”框架

Kimi K2.5是全球用戶量最大的AI編程平臺Cursor唯一接入的開源模型,也是唯一的中國模型。也是全球最大的獨立AI搜索服務(wù)商Perplexity唯一接入的中國模型,開源的K2.5在跟OpenAI、Anthropic和Google的頂尖閉源模型同場競技。

一同起飛的,是Kimi商業(yè)化的躍遷:20天收入即超2025年全年。

K2.5發(fā)布后,Kimi通過其性能90%、價格七分之一的性價比優(yōu)勢,在海外斬獲高速的收入增長,海外收入在總營收中占比已超過國內(nèi),海外API開放平臺日均訪問量翻10-20倍。

Kimi Claw于今年1月上線后,1月個人訂閱支付訂單環(huán)比暴增8280%,2月再漲123.8%。

業(yè)內(nèi)認可之外,資本的追捧也極具說服力。

最近三個月,估值漲了4倍,融資超過10億美元,超過大模型同行IPO募資額。

最備受期待的,是Kimi“身份”的轉(zhuǎn)變——其已跳出“中國版ChatGPT”的狹窄框架,直接參與到了全球AI技術(shù)的底層創(chuàng)新。

楊植麟談到了 AI 研究范式的轉(zhuǎn)變,從中我們得以一窺,為什么Kimi能不斷地從“古老”技術(shù)中挖掘出新的突破?

他提到,十年前的研究往往更看重新想法的發(fā)表,但受限于算力資源,很難通過不同規(guī)模的實驗來驗證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進行嚴謹?shù)囊?guī)?;瘜嶒?,從而得出更自信、更可靠的結(jié)論。

楊植麟傳遞出的信息清晰而堅定:Kimi不想只做一個更好的模型,而是要做那個定義下一代模型架構(gòu)的引領(lǐng)者:審視那些被沿用近十年的“舊技術(shù)”,嚴謹驗證,大膽重構(gòu),找到突破智能上限的下一個項關(guān)鍵技術(shù)。

Lanmeih/今日話題

你平時用Kimi嗎,感覺怎么樣?

咱們評論區(qū)聊聊~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
重慶亮點茶樓:一個色情帝國的崛起與崩塌

重慶亮點茶樓:一個色情帝國的崛起與崩塌

干史人
2026-04-09 22:33:24
油價“首降”來了,新周期汽柴油統(tǒng)計下跌1070元/噸,4月21日調(diào)價

油價“首降”來了,新周期汽柴油統(tǒng)計下跌1070元/噸,4月21日調(diào)價

豬友巴巴
2026-04-15 16:50:54
重磅發(fā)布:2026軟科中國大學排名

重磅發(fā)布:2026軟科中國大學排名

軟科
2026-04-15 15:12:20
徹底沒油了!本賽季結(jié)束,這7名球星大概率退役,5人還是全明星

徹底沒油了!本賽季結(jié)束,這7名球星大概率退役,5人還是全明星

籃球掃地僧
2026-04-15 20:27:26
2年和領(lǐng)導開房410次!從臨時工“睡”成處長,南航女經(jīng)理升遷之路

2年和領(lǐng)導開房410次!從臨時工“睡”成處長,南航女經(jīng)理升遷之路

就一點
2026-03-28 17:42:50
英媒:趙心童是打破克魯斯堡魔咒最佳人選,很快就能世界排名第一

英媒:趙心童是打破克魯斯堡魔咒最佳人選,很快就能世界排名第一

楊華評論
2026-04-16 01:20:06
70歲郭達近況:住西安老小區(qū),白發(fā)蒼蒼老態(tài)盡顯,妻子身份不一般

70歲郭達近況:住西安老小區(qū),白發(fā)蒼蒼老態(tài)盡顯,妻子身份不一般

小椰的奶奶
2026-04-16 00:32:28
朝鮮人來中國,看什么都好:我們隨手扔的,他們拼命帶回家

朝鮮人來中國,看什么都好:我們隨手扔的,他們拼命帶回家

百姓識天下
2026-04-15 08:40:07
16分鐘法官猥褻后續(xù):更多受害者爆料,紀委已介入,這下麻煩大了

16分鐘法官猥褻后續(xù):更多受害者爆料,紀委已介入,這下麻煩大了

天天熱點見聞
2026-04-16 06:40:54
隨著皇馬4-6,阿森納1-0,歐冠四強全部出爐:3大豪門在列

隨著皇馬4-6,阿森納1-0,歐冠四強全部出爐:3大豪門在列

側(cè)身凌空斬
2026-04-16 05:13:17
6:4!歐冠四強出爐,皇馬出局,半決賽:拜仁vs巴黎,馬競vs槍手

6:4!歐冠四強出爐,皇馬出局,半決賽:拜仁vs巴黎,馬競vs槍手

呀古銅
2026-04-16 05:20:13
全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

陳述影視
2026-04-04 17:53:34
“銷量爆發(fā)式增長”!義烏,又爆單了!

“銷量爆發(fā)式增長”!義烏,又爆單了!

環(huán)球網(wǎng)資訊
2026-04-14 22:03:34
Lululemon中國深夜回應,年內(nèi)股價重挫超20%!

Lululemon中國深夜回應,年內(nèi)股價重挫超20%!

21世紀經(jīng)濟報道
2026-04-15 08:21:04
梧州醫(yī)學高等專科學校副校長邱鐵鋼病逝,年僅43歲

梧州醫(yī)學高等專科學校副校長邱鐵鋼病逝,年僅43歲

澎湃新聞
2026-04-15 09:32:27
鄭麗文再度拜會王金平,與馬英九高下立判,蕭旭岑盼“還清白”!

鄭麗文再度拜會王金平,與馬英九高下立判,蕭旭岑盼“還清白”!

至死不渝的愛情
2026-04-16 01:45:19
高崗不出事,可以授予元帥嗎?肯定可以,而且排名會比較靠前

高崗不出事,可以授予元帥嗎?肯定可以,而且排名會比較靠前

歷來縱橫
2026-04-14 20:43:24
臺灣網(wǎng)友怕上海福建人在臺打黑工,網(wǎng)友回懟:令人發(fā)笑!

臺灣網(wǎng)友怕上海福建人在臺打黑工,網(wǎng)友回懟:令人發(fā)笑!

虔青
2026-04-14 21:03:30
湖北農(nóng)民被蛇群“追殺”5年,死后墳墓變成蛇墳,他當年做了啥?

湖北農(nóng)民被蛇群“追殺”5年,死后墳墓變成蛇墳,他當年做了啥?

神奇故事
2026-04-12 23:54:08
鄭麗文:絕不放棄武力保臺,洪秀柱怒懟:兩岸和平,豈能不統(tǒng)一?

鄭麗文:絕不放棄武力保臺,洪秀柱怒懟:兩岸和平,豈能不統(tǒng)一?

安夢入天下
2026-04-12 17:01:16
2026-04-16 07:24:49
藍媒匯財經(jīng)plus incentive-icons
藍媒匯財經(jīng)plus
聚焦財經(jīng)熱點解讀行業(yè)動態(tài)
702文章數(shù) 259關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美國發(fā)布新一輪涉伊朗制裁措施

頭條要聞

美國發(fā)布新一輪涉伊朗制裁措施

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

數(shù)碼
健康
家居
時尚
軍事航空

數(shù)碼要聞

消息稱蘋果iPad Air明年將用上OLED屏幕,但仍有個遺憾

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

簡而不減 暖居之道

赫本愛穿的傘裙,好優(yōu)雅!

軍事要聞

萬斯:對當前美伊局勢進展“感到樂觀”

無障礙瀏覽 進入關(guān)懷版