无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM近期重大架構(gòu)進(jìn)化一覽:從Gemma 4到DeepSeek V4

0
分享至



機(jī)器之心編輯部

過(guò)去一段時(shí)間,很多人對(duì)大模型都有一個(gè)明顯感受:token 總是不夠用

畢竟用戶想大模型更「聰明」更連貫,上下文窗口只會(huì)越來(lái)越大。

而在模型背后,長(zhǎng)上下文是相當(dāng)「奢侈」的。用戶 token 消耗翻倍,其實(shí)是模型更大的 KV cache 和更高的 attention 計(jì)算成本。

尤其是在推理模型和 Agent 逐漸成為主流后,長(zhǎng)上下文已經(jīng)從一個(gè)「宣傳亮點(diǎn)」,逐漸轉(zhuǎn)變?yōu)榇竽P图軜?gòu)設(shè)計(jì)需要正面解決的問(wèn)題。

Sebastian 精準(zhǔn)地捕捉到,最近幾個(gè)月發(fā)布的一批 LLM,正好體現(xiàn)了這個(gè)趨勢(shì)。

從 Google 的 Gemma 4,到 Poolside 的 Laguna XS.2、Zyphra 的 ZAYA1-8B,再到 DeepSeek V4,這些模型在 Transformer 內(nèi)部做了各種「省錢(qián)設(shè)計(jì)」,試圖圍繞長(zhǎng)上下文推理降低計(jì)算和存儲(chǔ)成本

Sebastian 為此發(fā)布了技術(shù)博客,以下為博客鏈接與全文翻譯。



近期 LLM 一覽。

  • 博客標(biāo)題:LLM 架構(gòu)的最新發(fā)展:KV 共享、mHC 與壓縮注意力
  • 博客鏈接:https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures

Gemma 4:

通過(guò)跨層復(fù)用 KV Tensor 縮小 KV Cache

時(shí)間回到四月初,Google 發(fā)布了全新的開(kāi)源權(quán)重模型系列 Gemma 4。整個(gè)系列大致可以分為三類(lèi):

  • 面向移動(dòng)端與小型本地(嵌入式)設(shè)備(即 IoT)的 Gemma 4 E2B 與 E4B;
  • 面向高效本地推理、采用混合專(zhuān)家架構(gòu)(MoE)的 Gemma 4 26B;
  • 以及采用 Dense 架構(gòu)、追求更高模型質(zhì)量與更便捷后訓(xùn)練流程的 Gemma 4 31B(因?yàn)?MoE 模型通常更難進(jìn)行后訓(xùn)練和調(diào)優(yōu))。



Gemma 4 架構(gòu)示意圖

Gemma 4 E2B 與 E4B 的第一個(gè)小型架構(gòu)改動(dòng),是采用了「共享 KV Cache」機(jī)制:后續(xù)層會(huì)復(fù)用前面層已經(jīng)計(jì)算出的 Key-Value 狀態(tài),從而降低長(zhǎng)上下文場(chǎng)景下的顯存占用與計(jì)算成本。

這種方法并不是 Gemma 4 首創(chuàng)。例如 NeurIPS 2024 的論文《Reducing Transformer Key-Value Cache Size with Cross-Layer Attention》已經(jīng)提出類(lèi)似思路。但 Gemma 4 是第一次將其大規(guī)模應(yīng)用于主流開(kāi)源架構(gòu)中。

為什么 KV Cache 如此重要?

正如我最近幾個(gè)月不斷提到的,當(dāng)前 LLM 架構(gòu)設(shè)計(jì)中的一個(gè)核心主題,就是「縮小 KV Cache」。而縮小 KV Cache 的根本目的,是降低模型運(yùn)行所需的顯存占用,從而支持更長(zhǎng)的上下文窗口。這一點(diǎn)在推理模型和 Agent 時(shí)代尤其重要。

舉一個(gè)經(jīng)典的例子(Gemma 4 目前依然在使用):Grouped Query Attention(GQA)本身就已經(jīng)通過(guò)讓多個(gè) Query Head 共享同一組 Key-Value(KV)Head,來(lái)減少 KV Cache 的大小,如下圖所示。



Gemma 4 的跨層 KV 共享機(jī)制

如前所述,Gemma 4 使用了 GQA。不過(guò),除了 GQA 中不同 Query Head 之間的 KV 共享之外,Gemma 4 還進(jìn)一步在不同 Transformer Layer 之間共享 KV Projection,而不是像傳統(tǒng)做法那樣,在每一層 Attention 模塊中分別計(jì)算自己的 KV

這種 KV 共享機(jī)制也被稱(chēng)為 Cross-Layer Attention,其結(jié)構(gòu)如下圖所示。



正如架構(gòu)示意圖中所提到的,Gemma 4 E2B 采用了普通 GQA 與 Sliding Window Attention 按照 4:1 的方式組合使用。(更準(zhǔn)確地說(shuō),Gemma 4 E2B 實(shí)際使用的是 MQA,也就是 GQA 中只有一個(gè) KV Head 的特殊情況。)

在 GQA(或 MQA)機(jī)制下,KV 共享的方式如下:后續(xù)層不再單獨(dú)計(jì)算自己的 Key 和 Value Projection,而是直接復(fù)用最近一個(gè)、同類(lèi)型且未共享層所生成的 KV Tensor。

換句話說(shuō):Sliding Window Attention 層會(huì)復(fù)用前面某個(gè) Sliding Window 層的 KV, Full Attention 層則會(huì)復(fù)用前面某個(gè) Full Attention 層的 KV。

當(dāng)然,每一層仍然會(huì)計(jì)算自己的 Query Projection,因此不同層依然可以形成各自不同的 Attention Pattern;但代價(jià)最高、最占顯存的 KV Cache,則會(huì)被多個(gè)層共同復(fù)用。例如:

  • Gemma 4 E2B 一共有 35 層 Transformer Layer,但只有前 15 層會(huì)真正計(jì)算自己的 KV Projection;后面的 20 層則直接復(fù)用之前同類(lèi)型層的 KV Tensor。
  • 類(lèi)似地,Gemma 4 E4B 共 42 層,其中 24 層負(fù)責(zé)計(jì)算 KV,最后 18 層采用共享機(jī)制。

這種設(shè)計(jì)到底能節(jié)省多少資源?

由于大約有一半的 KV 在不同層之間被共享,因此 KV Cache 的整體大小也大致減少了一半。對(duì)于最小的 E2B 模型來(lái)說(shuō),在 128K 長(zhǎng)上下文、bfloat16 精度下,可以節(jié)省約2.7GB顯存;而 E4B 在同樣條件下,則大約能夠節(jié)省6GB



Gemma 4 E2B 類(lèi)似配置中,GQA 與跨層 KV 共享帶來(lái)的 KV Cache 顯存節(jié)省效果

當(dāng)然,KV Sharing 的缺點(diǎn)在于,它本質(zhì)上是一種對(duì)完整 Attention 計(jì)算的「近似」。更準(zhǔn)確地說(shuō),它會(huì)削弱模型容量。

不過(guò),根據(jù) Cross-Layer Attention 論文中的實(shí)驗(yàn)結(jié)果,在被測(cè)試的小規(guī)模模型上,這種影響可以非常有限。

Gemma 4 E2B / E4B:

Per-Layer Embeddings(PLE)與「有效參數(shù)量」

Gemma 4 的 E2B 與 E4B 版本還引入了第二種以效率為導(dǎo)向的設(shè)計(jì):Per-Layer Embeddings(PLE,逐層嵌入)。這一機(jī)制與前面提到的 KV Sharing 是相互獨(dú)立的。

KV Sharing 的目標(biāo)是縮小 KV Cache,而 PLE 關(guān)注的則是參數(shù)效率(parameter efficiency):它讓小尺寸的 Gemma 4 模型能夠攜帶更多 token-specific information(與 token 相關(guān)的特征信息),但又不會(huì)讓整個(gè) Transformer 主干像同參數(shù)量 Dense 模型那樣昂貴。

例如,Gemma 4 E2B 與 E4B 中的「E」,代表的就是「effective」(有效參數(shù)量) 。具體來(lái)說(shuō):

  • Gemma 4 E2B 標(biāo)注為 2.3B effective parameters,但如果把 embedding 參數(shù)也算進(jìn)去,總參數(shù)量實(shí)際上達(dá)到 5.1B;
  • Gemma 4 E4B 的 effective parameters 為 4.5B,而包含 embedding 后則約為 8B。

換句話說(shuō),在這些 「E」系列模型中,真正負(fù)責(zé)主要計(jì)算的 Transformer Stack,其計(jì)算規(guī)模更接近前面的較小數(shù)字;而后面的總參數(shù)量,則包含了額外的 embedding table。

從概念上來(lái)看,PLE 的結(jié)構(gòu)大致如下:



帶有 PLE residual path 的簡(jiǎn)化版 Gemma 4 Block。普通 Transformer Block 會(huì)先完成 Attention 與 Feed-Forward 的 residual update;隨后,生成的 hidden state 會(huì)作為 gating 信號(hào),控制 layer-specific 的 PLE vector,并在 Block 末尾額外加入一次 projected PLE residual update。

PLE Vector 本身是在 Transformer Block 外部提前構(gòu)建的。簡(jiǎn)單來(lái)說(shuō),它有兩個(gè)輸入來(lái)源:token ID 經(jīng)過(guò) per-layer embedding lookup; 普通 token embedding 再通過(guò)一個(gè) linear projection,映射到同一個(gè) PLE 空間。

隨后,這兩部分結(jié)果會(huì)被相加、縮放,并 reshape 成一個(gè) tensor,其中每一層都對(duì)應(yīng)一個(gè)獨(dú)立 slice,而每個(gè) Transformer Block 只會(huì)接收屬于自己的那一份。



簡(jiǎn)化版 PLE(Per-Layer Embeddings)構(gòu)建流程

這里有一個(gè)很重要的細(xì)節(jié):PLE 并不是給每個(gè) Transformer Block 單獨(dú)復(fù)制一整套 embedding layer。相反,per-layer embedding lookup 只會(huì)計(jì)算一次,然后再給每一層分發(fā)一個(gè)較小的 token-specific embedding slice。

因此,對(duì)于每個(gè)輸入 token,Gemma 4 會(huì)提前準(zhǔn)備一個(gè) packed PLE tensor,其中包含每一層 decoder 對(duì)應(yīng)的一小段 embedding vector。

真正進(jìn)入 Transformer Block 后,Attention 與 Feed-Forward 分支仍然按正常方式運(yùn)行。在完成 Feed-Forward residual update 后,當(dāng)前 hidden state(圖中記作 z)會(huì)用于 gate layer-specific PLE vector。被 gate 后的 PLE vector 會(huì)重新投影回 model hidden size、做 normalization,并作為額外 residual update 加回模型中。

一個(gè)比較直觀的理解方式是 Transformer Block 的主體結(jié)構(gòu)并沒(méi)有改變,Gemma 4 只是額外在 Feed-Forward 分支后面,插入了一小段「層特定 token 向量」。這樣做能夠通過(guò) embedding 參數(shù)與小規(guī)模 projection,提升模型的表達(dá)能力,同時(shí)避免把整個(gè) Transformer Stack 都擴(kuò)展到更大的參數(shù)規(guī)模。

為什么要用 PLE?

一種更直接的方法,其實(shí)是簡(jiǎn)單縮小 Dense 模型,比如減少層數(shù)、縮小 hidden state 或縮小 Feed-Forward Network。

這樣當(dāng)然能降低顯存與延遲,但也會(huì)直接削弱模型真正負(fù)責(zé)計(jì)算的核心部分。

而 PLE 的思路則是:讓昂貴的 Transformer Block 保持在較小的 「effective size」,同時(shí)把額外容量存儲(chǔ)在 per-layer embedding table 中。由于 embedding 本質(zhì)上主要是 lookup-style parameter,它們遠(yuǎn)比增加 Attention 或 FFN 權(quán)重更便宜,也更容易緩存。

當(dāng)然,目前我們還只能相信 Google 的實(shí)驗(yàn)結(jié)果,認(rèn)為這確實(shí)是一個(gè)有效的設(shè)計(jì)。作者也提到,未來(lái)如果能看到更多對(duì)比實(shí)驗(yàn),例如:PLE 版 Gemma 4 E2B vs 普通 2.3B Dense 模型 vs 普通 5.1B Dense 模型 。

這樣的對(duì)比會(huì)非常有意思。

此外,從理論上講,PLE 并不只適用于小模型。更大的模型同樣可以加入 per-layer embedding slice。但由于大模型本身已經(jīng)具有足夠容量,因此這些額外 embedding 的收益可能不再明顯。而且在大模型中,我們通常已經(jīng)通過(guò) MoE 等結(jié)構(gòu),在不顯著增加計(jì)算量的前提下提升模型容量。

Laguna XS.2:

Layer-wise Attention Budgeting

Laguna 是歐洲公司 Poolside 推出的首個(gè) open-weight 模型,Poolside 主要專(zhuān)注于面向代碼場(chǎng)景的 LLM 訓(xùn)練。

不同 Layer 使用不同 Attention Budget。

下圖中的 Laguna XS.2 架構(gòu)乍一看其實(shí)相當(dāng)標(biāo)準(zhǔn)。不過(guò),有一個(gè)我沒(méi)有畫(huà)進(jìn)去(或者說(shuō)沒(méi)法硬塞進(jìn)圖里)的細(xì)節(jié),是一個(gè)可以稱(chēng)為 「Layer-wise attention budgeting」 的概念。



Poolside 的 Laguna XS.2 架構(gòu)示意圖。

這里所謂 attention budgeting 的核心思路之一,是不再讓每個(gè) Transformer Layer 都擁有完全相同的 Attention 預(yù)算,而是根據(jù)層的不同,動(dòng)態(tài)分配不同的 Attention 成本

Laguna XS.2 總共有 40 層,其中 30 層使用 Sliding-Window Attention,10 層使用 Global / Full Attention。

和常見(jiàn)做法一樣,Sliding-Window Layer 只會(huì)關(guān)注局部窗口(這里是 512 個(gè) token),因此 KV Cache 與 Attention 計(jì)算成本都更低;而 Global Layer 雖然更昂貴,但能夠保留對(duì)整個(gè)上下文窗口中所有信息的訪問(wèn)能力。

這種 Sliding-Window Attention 與 Global / Full Attention 混合使用的結(jié)構(gòu),并不是 Laguna XS.2 獨(dú)有的,很多其他模型(包括 Gemma 4)也采用了類(lèi)似設(shè)計(jì)。

但真正新的地方在于:Laguna XS.2 引入了「逐層不同 Query Head 數(shù)量」的設(shè)計(jì)。

例如,在 Hugging Face 的 config.json 中,可以看到一個(gè)名為 num_attention_heads_per_layer 的配置項(xiàng),這意味著不同 Layer 可以擁有不同數(shù)量的 Query Head,同時(shí)仍然保持 KV Cache 結(jié)構(gòu)兼容。



Laguna 中的逐層 Query-Head Budgeting。其中 Full Attention Layer 每個(gè) KV Head 對(duì)應(yīng) 6 個(gè) Query Head; Sliding Window Attention Layer 每個(gè) KV Head 對(duì)應(yīng) 8 個(gè) Query Head。

因此,Laguna XS.2 的實(shí)際做法是:給 Sliding-Window Layer 分配更多 Query Head,給 Global Layer 分配更少 Query Head,同時(shí)將 KV Head 數(shù)固定為 8

這才是真正意義上的 「Layer-wise Head Budgeting」。

Laguna XS.2 是近期 open model 中最具代表性的逐層 Query-Head Budgeting 實(shí)踐之一。不過(guò),更廣義上的「按層動(dòng)態(tài)分配模型容量」這一思路,其實(shí)至少可以追溯到 Apple 在 2024 年提出的 OpenELM。

為什么這樣設(shè)計(jì)?

和 KV Sharing 類(lèi)似,它的核心目標(biāo)依然是:把 Attention Capacity 花在最值得的地方,而不是讓所有 Layer 平均分配相同預(yù)算

具體來(lái)說(shuō),F(xiàn)ull Attention Layer 因?yàn)樾枰L問(wèn)整個(gè)上下文窗口,本身計(jì)算代價(jià)就更高,因此 Laguna 會(huì)相對(duì)減少它們的 Query Head 數(shù)量;而計(jì)算成本更低的 Sliding-Window Layer,則可以擁有更多 Query Head。

(此外,還有一個(gè)較小的實(shí)現(xiàn)細(xì)節(jié):Laguna 還采用了 per-head attention-output gating,這一點(diǎn)與 Qwen3-Next 等模型有些類(lèi)似。不過(guò)由于我之前已經(jīng)討論過(guò)類(lèi)似機(jī)制,因此這里不再展開(kāi)。)

ZAYA1-8B:壓縮卷積注意力(CCA)

和 Laguna 類(lèi)似,ZAYA1-8B 也是一位新玩家。它由 Zyphra 開(kāi)發(fā),而這次發(fā)布中一個(gè)很有意思的細(xì)節(jié)是:該模型并不是基于更常見(jiàn)的 NVIDIA GPU(或 Google TPU)訓(xùn)練,而是使用 AMD GPU 完成訓(xùn)練的。

不過(guò),真正關(guān)鍵的架構(gòu)設(shè)計(jì),是一種名為Compressed Convolutional Attention(CCA,壓縮卷積注意力)的機(jī)制,并且它與 Grouped-Query Attention(GQA)共同使用。

與 MLA(Multi-head Latent Attention)這類(lèi)主要把 latent representation 當(dāng)作緊湊 KV Cache 格式的設(shè)計(jì)不同,CCA 會(huì)直接在壓縮后的 latent space 中完成 Attention 計(jì)算。不過(guò)這一點(diǎn)我們后面再詳細(xì)展開(kāi)。

(順帶一提:ZAYA1-8B 的 config.json 中實(shí)際上列出了 80 個(gè)交替出現(xiàn)的 layer entry,而不是傳統(tǒng)意義上的 40 個(gè) Transformer Block。這些 layer 在結(jié)構(gòu)上會(huì)在 CCA/GQA Attention 與 MoE Feed-Forward Layer 之間交替出現(xiàn)。不過(guò)在架構(gòu)圖里,把它們簡(jiǎn)化理解成 40 個(gè)重復(fù)的 「Attention + MoE」 Pair 會(huì)更直觀,兩種表示在概念上是等價(jià)的。)



采用 Compressed Convolutional Attention 的 ZAYA1(8B)Transformer Block。

正如上圖所示,ZAYA1-8B 采用了 CCA,并結(jié)合了 4:1 的 GQA 結(jié)構(gòu)。這里最關(guān)鍵的一點(diǎn)在于:它的 Attention Block 是圍繞 CCA 構(gòu)建的,而不是傳統(tǒng)的 Sliding-Window Attention。

什么是 Compressed Convolutional Attention(CCA)?

我認(rèn)為,從整體思路上來(lái)看,CCA 與 DeepSeek 模型中的 MLA(Multi-head Latent Attention)是相近的,因?yàn)樗鼈兌荚?Attention Block 中引入了壓縮后的 latent representation。不過(guò),兩者使用 latent space 的方式并不相同。

MLA 的核心目標(biāo),主要是通過(guò) latent representation 來(lái)壓縮 KV Cache。在 MLA 中,KV Tensor 會(huì)以壓縮形式存儲(chǔ),隨后再被投影回 Attention Head 空間,用于真正的 Attention 計(jì)算。



普通 Multi-head Attention(MHA)與 Multi-head Latent Attention(MLA)對(duì)比。

而 CCA 則更進(jìn)一步,它不僅壓縮 K、V,還同時(shí)壓縮 Q,并且直接在壓縮后的 latent space 中完成 Attention 運(yùn)算。也正因?yàn)槿绱耍珻CA 不僅能夠減少 KV Cache 的大小,還能夠降低 Prefill 階段與訓(xùn)練階段的 Attention FLOPs。



MLA 與 CCA 的結(jié)構(gòu)對(duì)比。

正如上圖所示的,在 CCA 中,壓縮后的 latent representation 會(huì)直接進(jìn)入 Attention 機(jī)制,而生成出的 compressed attention vector 隨后再被 up-project 回原始空間。

為什么叫「卷積注意力」?

這里需要特別注意:它被稱(chēng)為 「Compressed Convolutional Attention」,而不僅僅是「Compressed Attention」,是因?yàn)?strong>在 latent K 與 latent Q 上,還額外加入了 convolutional mixing(卷積混合)

由于結(jié)構(gòu)圖中空間有限,沒(méi)有把這一部分畫(huà)出來(lái),但它本身其實(shí)并不復(fù)雜。正如 Figure 12 所暗示的,卷積混合是直接作用在壓縮后的 Q Tensor 與 K Tensor 上的。

原因在于壓縮會(huì)讓 Q、K、V 維度變窄,從而降低計(jì)算量與緩存開(kāi)銷(xiāo),但與此同時(shí),也可能削弱 Attention 的表達(dá)能力。

而卷積則是一種相對(duì)廉價(jià)的方法,它能夠在 Q 與 K 被用于 Attention Score 計(jì)算之前,為這些壓縮后的表示補(bǔ)充更多局部上下文信息。

(這里的卷積只作用于 Q 與 K,而不作用于 V。因?yàn)?Q 與 K 決定的是 Attention Score,而 V 則代表最終被加權(quán)聚合的內(nèi)容。)



Sequence-Mixing Convolution 的概念示意圖。

除了前文中展示的 Sequence Mixing 外,CCA 還包含一個(gè) Channel Mixing Component。不過(guò)它們?cè)谠砩陷^為類(lèi)似,因此這里不再單獨(dú)展開(kāi)。

CCA 看起來(lái)是 Zyphra 在 ZAYA1-8B Technical Report 發(fā)布之前就已經(jīng)提出的一種 Attention 機(jī)制。獨(dú)立論文《Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space》最早發(fā)表于 2025 年 10 月,并正式提出了 CCA;而 ZAYA1-8B 則將這一機(jī)制作為核心架構(gòu)組件之一實(shí)際投入使用。

CCA 是否真的比 MLA 更好?

根據(jù) CCA 論文中的實(shí)驗(yàn)結(jié)果,在相同壓縮設(shè)置下,CCA 的表現(xiàn)確實(shí)優(yōu)于 MLA。



CCA 論文中的實(shí)驗(yàn)結(jié)果標(biāo)注圖。

總體來(lái)說(shuō),這部分真正有意思的地方,其實(shí)是新的 Attention 機(jī)制本身。

當(dāng)然,ZAYA1-8B 同時(shí)也采用了相當(dāng)激進(jìn)(也就是非常稀疏)的 MoE 結(jié)構(gòu):每個(gè) token 只激活一個(gè) routed expert。不過(guò)這一點(diǎn)相對(duì)已經(jīng)比較常見(jiàn)。

真正更特殊的是 CCA,它直接在壓縮 latent space 中執(zhí)行 Attention 計(jì)算,并通過(guò)對(duì)壓縮后的 Q/K 做卷積混合,來(lái)緩解壓縮 Attention 本身表達(dá)能力受限的問(wèn)題。

簡(jiǎn)而言之,ZAYA1-8B 不只是想在 Feed-Forward Layer 上節(jié)省計(jì)算量,它甚至試圖從 Attention Mechanism 本身開(kāi)始降低計(jì)算成本。

DeepSeek V4:mHC 與壓縮注意力

DeepSeek V4 是今年最受關(guān)注的大模型之一。有意思的是,如果按照 active-parameter share(活躍參數(shù)占比)來(lái)衡量,DeepSeek V4-Pro 同時(shí)也是參數(shù)最稀疏的 MoE 模型。

關(guān)于 DeepSeek V4,其實(shí)有很多可以討論的內(nèi)容。不過(guò)由于它已經(jīng)在新聞與社區(qū)中被廣泛討論,同時(shí)為了繼續(xù)聚焦「架構(gòu)層面的改動(dòng)」,這里我主要關(guān)注兩個(gè)相較以往架構(gòu)真正新的部分:

  • 用于擴(kuò)展 Residual Path 的 mHC;
  • 用于長(zhǎng)上下文 Attention 壓縮與稀疏化的 CSA/HCA。

從下圖中的 DeepSeek V4 架構(gòu)圖來(lái)看,整個(gè)結(jié)構(gòu)似乎非常復(fù)雜。不過(guò),一個(gè)比較有效的閱讀方式是將 Residual Path 上的改動(dòng)(mHC),與 Attention Path 上的改動(dòng)(CSA/HCA 與 Compressed Attention Cache)分開(kāi)理解。



DeepSeek V4-Pro 架構(gòu)概覽。

5.1 mHC:流形約束超連接

我們先從 DeepSeek V4 中的 mHC 組件開(kāi)始。

這一設(shè)計(jì)最早來(lái)自 DeepSeek 團(tuán)隊(duì)在去年(2025 年 12 月 31 日)發(fā)布的一篇研究論文《mHC: Manifold-Constrained Hyper-Connections》。不過(guò),當(dāng)時(shí)論文中的實(shí)驗(yàn)只在一個(gè) 27B 規(guī)模的實(shí)驗(yàn)?zāi)P蜕贤瓿伞6缃瘢覀円呀?jīng)在他們的旗艦?zāi)P椭锌吹搅诉@一機(jī)制,這也意味著,這一想法很可能已經(jīng)在真實(shí)生產(chǎn)環(huán)境中被驗(yàn)證有效。

mHC 的核心目標(biāo),是重新設(shè)計(jì) Transformer Block 內(nèi)部的 Residual Connection。這一點(diǎn)其實(shí)非常新鮮,因?yàn)榻陙?lái)絕大多數(shù)架構(gòu)改動(dòng),通常都集中在Attention Mechanism、Normalization Layer 的放置方式與MoE 結(jié)構(gòu)本身。

mHC 本身建立在更早的 Hyper-Connections 工作之上(見(jiàn) Zhu 等人 2024 年論文《Hyper-connections》),因此我們需要先簡(jiǎn)單理解一下 Hyper-Connections。

傳統(tǒng) Transformer 中,只有一條單獨(dú)的 Residual Stream。而 Hyper-Connections 會(huì)把它替換成:多條并行 Residual Stream,并通過(guò)可學(xué)習(xí)映射(learned mappings)在它們之間交換信息。

Hyper-Connections 的核心思想,是「擴(kuò)寬 Residual Stream」。

可以把它理解為模型同時(shí)維護(hù)多條并行 Residual Path,并額外加入一個(gè) Res Mapping 線性變換,在不同 Residual Stream 之間進(jìn)行信息混合

由于 Attention Layer 或 MoE Layer 本身仍然工作在普通 Hidden Size 上,因此 Hyper-Connections 還會(huì)增加:

  • Pre Mapping:把多條 Residual Stream 合并成單一 Hidden Vector;
  • Post Mapping:再把 Layer 輸出重新分發(fā)回多個(gè) Residual Stream。



普通 Transformer Block(上)與帶 Hyper-Connections 的 Transformer Block(下)。

上圖主要展示了 Attention Branch 中的結(jié)構(gòu),但同樣的思想也適用于圍繞 MoE Layer 的第二條 Residual Branch。

Hyper-Connections 的目的,是在不真正擴(kuò)大 Attention 或 MoE Layer 本身寬度的情況下,讓 Residual Path 擁有更強(qiáng)表達(dá)能力。

而它帶來(lái)的 FLOPs 增長(zhǎng)其實(shí)很有限,因?yàn)檫@些額外映射只作用在較小的 residual-stream 維度上(例如 DeepSeek V4 中 n=4),而不是作用在巨大的 hidden dimension 上。

在最初的 Hyper-Connections 論文中,7B OLMo MoE 模型的 FLOPs per token 從 13.36G 增加到 13.38G,幾乎沒(méi)有變化;而性能指標(biāo)則獲得了穩(wěn)定但溫和的提升。

當(dāng)然,只看 FLOPs 其實(shí)有些過(guò)于簡(jiǎn)單。因?yàn)閿U(kuò)寬后的 Residual State 依然需要存儲(chǔ)、在顯存中移動(dòng)并參與混合計(jì)算。 因此,真正的額外開(kāi)銷(xiāo)更多可能來(lái)自Memory Traffic 與 Implementation Complexity,而不僅僅是算術(shù)計(jì)算本身。

不過(guò)考慮到 DeepSeek V4 整體都在追求效率,這看起來(lái)依然是一個(gè)值得加入的設(shè)計(jì)。



Hyper-Connections 相較 Baseline 的性能表現(xiàn)。

傳統(tǒng) Transformer 只有單一 residual stream。而 Hyper-Connections 將其擴(kuò)展成多個(gè)并行 residual stream。

此外,如圖所示:Hyper-Connections 在大約只使用一半訓(xùn)練 token的情況下,就達(dá)到了 Baseline 的性能水平。

而從普通 Hyper-Connections(HC)到 Manifold-Constrained Hyper-Connections(mHC)最關(guān)鍵的變化,在于這些 Mapping 不再是「無(wú)約束」的。

在普通 HC 中,Res Mapping 是一個(gè)可學(xué)習(xí)矩陣,用于混合不同 Residual Stream。但當(dāng)多個(gè)這樣的矩陣不斷堆疊時(shí),信號(hào)可能會(huì)不可預(yù)測(cè)地被放大或縮小。

而在 mHC 中,這個(gè) Residual Mapping 會(huì)被約束到「雙隨機(jī)矩陣(doubly stochastic matrix)」流形上。也就是說(shuō):所有元素非負(fù); 每一行之和為 1; 每一列之和為 1。

這樣一來(lái):Residual Mixing 會(huì)更像是一種穩(wěn)定的信息重新分配(stable redistribution),而不是不可控的信號(hào)放大或衰減。

與此同時(shí) Pre Mapping 與 Post Mapping 也同樣會(huì)被約束為非負(fù)且有界,從而避免在讀取與寫(xiě)回?cái)U(kuò)寬 Residual State 時(shí)出現(xiàn)信息抵消。

簡(jiǎn)而言之,mHC 保留了 HC 更豐富的 Residual Mixing 能力,同時(shí)加入額外約束,使其在更大、更深的模型中能夠更穩(wěn)定地?cái)U(kuò)展。

除此之外,多 Residual Stream 的整體思路并沒(méi)有改變,如下圖所示。



采用 HC 與 mHC 的 Transformer Block。

在 mHC 論文中,DeepSeek 團(tuán)隊(duì)基于 27B 模型實(shí)驗(yàn)表明:在使用融合優(yōu)化(fusion)、重計(jì)算(recomputation)與 pipeline scheduling 后,即使在整個(gè) Transformer 中使用 4 條 Residual Stream(n=4),訓(xùn)練時(shí)間額外開(kāi)銷(xiāo)也僅增加約 6.7%。

總結(jié)來(lái)說(shuō):HC/mHC 的本質(zhì),是通過(guò)把單一 Residual Stream 替換為多條相互交互的 Residual Stream,重新定義信息在 Transformer Layer 中的傳播方式。mHC 則進(jìn)一步加入穩(wěn)定性約束,同時(shí)只帶來(lái)很小的計(jì)算額外開(kāi)銷(xiāo)

此外,它也與后面將介紹的 CSA/HCA Attention 改動(dòng)形成了很好的配合。

通過(guò) CSA 與 HCA 實(shí)現(xiàn)壓縮 Attention

DeepSeek V4 的另一項(xiàng)核心架構(gòu)升級(jí),發(fā)生在 Attention 部分。其背后的動(dòng)機(jī)依然非常明確:在超長(zhǎng)上下文場(chǎng)景下,Attention 的成本不僅來(lái)自 Attention Score 本身的計(jì)算,還來(lái)自 KV Cache 會(huì)隨著 Sequence Length 持續(xù)增長(zhǎng)。

DeepSeek V4 針對(duì)這一問(wèn)題,引入了兩種壓縮 Attention 機(jī)制的混合設(shè)計(jì):

  • Compressed Sparse Attention(CSA)
  • Heavily Compressed Attention(HCA)

首先需要注意的是:DeepSeek V4 中的 CSA/HCA,與 DeepSeek V2/V3 中 MLA 風(fēng)格的壓縮并不是同一種思路。

MLA 的壓縮對(duì)象主要是「每個(gè) token 對(duì)應(yīng)的 KV 表示」,而 CSA/HCA 壓縮的則是「Sequence Dimension 本身」。

也就是說(shuō),它們不再為每個(gè)歷史 token 都保留一個(gè)完整(或壓縮)KV Entry,而是把一組 token 匯總成更少的壓縮 KV Entry,因此整個(gè) Cache 本身也變短了。



MLA、CSA 與 HCA 的概念對(duì)比。

MLA 會(huì)壓縮每個(gè) token 的 KV Representation,但依然保留「一 token 對(duì)應(yīng)一個(gè) latent KV」。而 CSA,尤其是 HCA,則進(jìn)一步減少「Sequence Entry 的數(shù)量」

因此模型會(huì)犧牲部分 token-level 信息,以換取顯著更低的長(zhǎng)上下文成本。

當(dāng)然,這種壓縮也存在質(zhì)量上的 Trade-off:如果壓縮過(guò)強(qiáng),模型能力就可能下降。

也正因如此,DeepSeek V4 并沒(méi)有只依賴(lài)一種壓縮機(jī)制,而是:交替使用 CSA 與 HCA

  • CSA 使用較輕的壓縮率,并結(jié)合類(lèi)似 DSA(DeepSeek Sparse Attention)的 Sparse Selector;
  • HCA 則采用更激進(jìn)的壓縮,用于更便宜地覆蓋全局上下文;
  • 兩者都保留了一個(gè) Local Sliding-Window Branch,用于處理最近的未壓縮 token。

HCA 是其中更激進(jìn)的版本:它會(huì)把每 128 個(gè) token 壓縮成一個(gè) KV Entry,然后在這些高度壓縮后的 KV 上執(zhí)行 Dense Attention。

換句話說(shuō),CSA 保留更多細(xì)節(jié),但采用 Sparse Selection; HCA 保留更少 Entry,但因此能夠負(fù)擔(dān) Dense Attention



CSA 與 HCA 的對(duì)比。

CSA 與 HCA 在某種程度上是互補(bǔ)的,這也是為什么 DeepSeek V4 會(huì)交替使用它們,而不是只采用其中一種。

根據(jù) DeepSeek V4 論文,在 1M Token Context 下,相比采用 MLA 與 DSA 的 DeepSeek V3.2:DeepSeek V4-Pro 的單 token 推理 FLOPs 僅為后者的 27%,KV Cache 大小僅為后者的 10%。

而 DeepSeek V4-Flash 更進(jìn)一步:FLOPs 降至 10%,KV Cache 降至 7%。



DeepSeek V4 相較 DeepSeek V3.2 的 1M Context 效率數(shù)據(jù)。

不過(guò),我并不會(huì)簡(jiǎn)單地把 CSA/HCA 定義為「比 MLA 更好」。CSA/HCA 本質(zhì)上是一種更激進(jìn)、更偏向長(zhǎng)上下文效率的設(shè)計(jì),而且它本身也更加復(fù)雜。

遺憾的是,論文中并沒(méi)有提供完整的 Ablation Study。不過(guò)整體來(lái)看,論文確實(shí)展示了非常強(qiáng)的最終結(jié)果,例如:DeepSeek V4-Flash-Base 在多數(shù) Base Benchmark 上超過(guò) DeepSeek V3.2-Base; 同時(shí)擁有很強(qiáng)的 1M-token Retrieval 能力。

但需要注意的是,這些結(jié)果來(lái)自整個(gè) DeepSeek V4 完整訓(xùn)練體系,包括:更好的數(shù)據(jù)、基于 Muon 的優(yōu)化、mHC、精度與存儲(chǔ)優(yōu)化以及訓(xùn)練推理系統(tǒng)優(yōu)化;

而不僅僅是 CSA/HCA 本身。就我個(gè)人而言,目前我更傾向于把 CSA/HCA 看作:

一種以效率為核心的長(zhǎng)上下文設(shè)計(jì)。它似乎能夠在大型旗艦?zāi)P椭泻芎玫乇A裟P唾|(zhì)量,但并不意味著它在所有場(chǎng)景下都絕對(duì)優(yōu)于 MLA。

總結(jié)

2026 年的新一代開(kāi)源 LLM,一個(gè)非常明顯的趨勢(shì)是:大家都在嘗試降低長(zhǎng)上下文成本,但并不是簡(jiǎn)單地通過(guò)縮小模型總參數(shù)量來(lái)實(shí)現(xiàn),而是通過(guò)大量結(jié)構(gòu)級(jí)優(yōu)化。

  • Gemma 4:跨層 KV 共享 + PLE
  • Laguna:分層 Attention Budget
  • ZAYA1:壓縮 latent attention
  • DeepSeek V4:mHC + CSA/HCA

Transformer Block 仍然在持續(xù)演化,但這種變化已經(jīng)變得越來(lái)越定向化。

相比 GPT-2 時(shí)代幾十行 PyTorch 就能實(shí)現(xiàn),如今的 Attention Variant,代碼復(fù)雜度可能已經(jīng)增長(zhǎng)了 10 倍。

但這些復(fù)雜化的目的并不是增加成本,而是為了實(shí)現(xiàn)真正的超長(zhǎng)上下文推理。

但另一方面,理解這些組件本身,以及它們之間如何相互作用,也正在變得越來(lái)越困難。



從 GPT-2(2019)到 DeepSeek V4-Pro(2026)的演化過(guò)程。

對(duì)此,你怎么看?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
科技大佬也躲不過(guò)!黃仁勛的指甲被網(wǎng)友云診斷成灰指甲 醫(yī)生回應(yīng)

科技大佬也躲不過(guò)!黃仁勛的指甲被網(wǎng)友云診斷成灰指甲 醫(yī)生回應(yīng)

快科技
2026-05-19 11:47:11
潔麗雅風(fēng)波意外帶火同行,山東“毛巾老板”遭誤認(rèn)后亮結(jié)婚證自證“無(wú)三原配”,錯(cuò)位流量?jī)商鞚q粉8萬(wàn)銷(xiāo)售額破百萬(wàn)

潔麗雅風(fēng)波意外帶火同行,山東“毛巾老板”遭誤認(rèn)后亮結(jié)婚證自證“無(wú)三原配”,錯(cuò)位流量?jī)商鞚q粉8萬(wàn)銷(xiāo)售額破百萬(wàn)

大風(fēng)新聞
2026-05-19 10:08:05
馬斯克怒噴達(dá)美航空棄用星鏈服務(wù) 高管反擊:亞馬遜競(jìng)品更便宜、功能更多

馬斯克怒噴達(dá)美航空棄用星鏈服務(wù) 高管反擊:亞馬遜競(jìng)品更便宜、功能更多

財(cái)聯(lián)社
2026-05-19 04:02:12
小寶與王某雷,誰(shuí)探訪花的數(shù)量更多?

小寶與王某雷,誰(shuí)探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
日本媒體震驚:中國(guó)拋棄日式暴利,“去日本化”,江蘇宜興立功了

日本媒體震驚:中國(guó)拋棄日式暴利,“去日本化”,江蘇宜興立功了

掉了顆大白兔糖
2026-05-18 19:25:51
接手爛攤子!阿隆索官宣執(zhí)教切爾西,將面臨三大絕境難題!

接手爛攤子!阿隆索官宣執(zhí)教切爾西,將面臨三大絕境難題!

田先生籃球
2026-05-18 11:11:43
山東103歲醫(yī)生免費(fèi)給人看病,臨終前告訴妻子:其實(shí)我是一名日軍

山東103歲醫(yī)生免費(fèi)給人看病,臨終前告訴妻子:其實(shí)我是一名日軍

興趣知識(shí)
2026-05-18 00:49:57
為什么“地下停車(chē)位”突然沒(méi)人買(mǎi)了??jī)?nèi)行人說(shuō)出實(shí)情,恍然大悟

為什么“地下停車(chē)位”突然沒(méi)人買(mǎi)了??jī)?nèi)行人說(shuō)出實(shí)情,恍然大悟

笑熬漿糊111
2026-05-19 00:05:12
歷史上最炸裂的3個(gè)MVP:?jiǎn)痰W尼爾榜上有名,現(xiàn)役僅庫(kù)里入選!

歷史上最炸裂的3個(gè)MVP:?jiǎn)痰W尼爾榜上有名,現(xiàn)役僅庫(kù)里入選!

錢(qián)說(shuō)體育
2026-05-19 12:51:40
澤連斯基怎么都沒(méi)料到,下令攻打俄羅斯核電站,反而遭殃是烏克蘭

澤連斯基怎么都沒(méi)料到,下令攻打俄羅斯核電站,反而遭殃是烏克蘭

一盅情懷
2026-05-19 13:10:40
瞞天過(guò)海!日本深夜爆出驚天丑聞!

瞞天過(guò)海!日本深夜爆出驚天丑聞!

回京歷史夢(mèng)
2026-05-18 17:35:22
地產(chǎn)公司副總10年受賄1.6億元!上海檢察機(jī)關(guān)兩次補(bǔ)充起訴,20余名關(guān)聯(lián)人員被連根拔起

地產(chǎn)公司副總10年受賄1.6億元!上海檢察機(jī)關(guān)兩次補(bǔ)充起訴,20余名關(guān)聯(lián)人員被連根拔起

極目新聞
2026-05-19 12:31:19
新生兒腰斬、房?jī)r(jià)下跌?別怪政策了,這才是中國(guó)經(jīng)濟(jì)的殘酷真相!

新生兒腰斬、房?jī)r(jià)下跌?別怪政策了,這才是中國(guó)經(jīng)濟(jì)的殘酷真相!

冷夜說(shuō)
2026-05-11 20:31:08
人老了,只剩一個(gè)人的時(shí)候,千萬(wàn)要記住:1、不要再找老伴兒…

人老了,只剩一個(gè)人的時(shí)候,千萬(wàn)要記住:1、不要再找老伴兒…

富書(shū)
2026-04-30 23:20:06
700項(xiàng)物資直接斷供,中方重拳出擊,大難臨頭,日本竟全員鴕鳥(niǎo)化

700項(xiàng)物資直接斷供,中方重拳出擊,大難臨頭,日本竟全員鴕鳥(niǎo)化

西北漢子
2026-05-19 09:07:39
多爾袞十世孫向國(guó)家索要故宮,稱(chēng)是自家祖產(chǎn),老朱家:有問(wèn)過(guò)我嗎

多爾袞十世孫向國(guó)家索要故宮,稱(chēng)是自家祖產(chǎn),老朱家:有問(wèn)過(guò)我嗎

銘記歷史呀
2026-05-18 18:15:59
斯洛伐克總理菲佐回懟德國(guó)總理默茨:我去不去莫斯科,關(guān)他什么事?還有幾個(gè)國(guó)家拒絕開(kāi)放領(lǐng)空,令人震驚!

斯洛伐克總理菲佐回懟德國(guó)總理默茨:我去不去莫斯科,關(guān)他什么事?還有幾個(gè)國(guó)家拒絕開(kāi)放領(lǐng)空,令人震驚!

極目新聞
2026-05-18 09:49:50
西媒:穆帥這次仍會(huì)邀請(qǐng)一名皇馬舊將入教練組,最想要?jiǎng)跔?>
    </a>
        <h3>
      <a href=懂球帝
2026-05-19 06:32:14
“慰安椅”根本不是椅子,是把十七歲姑娘活生生碾碎的吃人機(jī)器!

“慰安椅”根本不是椅子,是把十七歲姑娘活生生碾碎的吃人機(jī)器!

非虛構(gòu)人間
2026-05-16 15:47:00
一村62人先后罹患癌癥和白血病,村民懷疑與村里工廠有關(guān),連續(xù)舉報(bào)四年無(wú)果,區(qū)生態(tài)環(huán)境分局拒絕信息公開(kāi)

一村62人先后罹患癌癥和白血病,村民懷疑與村里工廠有關(guān),連續(xù)舉報(bào)四年無(wú)果,區(qū)生態(tài)環(huán)境分局拒絕信息公開(kāi)

蓬勃新聞
2026-05-19 12:42:05
2026-05-19 13:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13031文章數(shù) 142651關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果WWDC26定檔6月9日凌晨:iOS27將亮相

頭條要聞

賴(lài)清德彈劾案未通過(guò):同意票56張未達(dá)門(mén)檻 但仍創(chuàng)紀(jì)錄

頭條要聞

賴(lài)清德彈劾案未通過(guò):同意票56張未達(dá)門(mén)檻 但仍創(chuàng)紀(jì)錄

體育要聞

58順位的保羅,最強(qiáng)第三中鋒

娛樂(lè)要聞

張雪峰42歲冥誕,學(xué)生家長(zhǎng)自發(fā)緬懷

財(cái)經(jīng)要聞

從賣(mài)流量到賣(mài)Token,運(yùn)營(yíng)商算力生意破局

汽車(chē)要聞

試駕與眾07:首搭CEA架構(gòu) 德味操控+聰明大腦

態(tài)度原創(chuàng)

藝術(shù)
親子
房產(chǎn)
教育
家居

藝術(shù)要聞

蔣萬(wàn)安手寫(xiě)賀卡成焦點(diǎn)!網(wǎng)友:字軟人弱!練書(shū)法3年,該如何提高

親子要聞

10歲男孩狂吃海苔致碘超標(biāo),脖子粗大確診甲狀腺結(jié)節(jié)。家長(zhǎng)注意這幾種零食別亂吃!

房產(chǎn)要聞

7516元/㎡,161套一次全甩!海口住宅最低價(jià)出現(xiàn)了!

教育要聞

爸爸1米75,媽媽1米65,兒子12歲長(zhǎng)到1米77

家居要聞

觀山隱秀 心靈沉淀

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版