一個 12B模型,憑什么讓26B MoE緊張?
2026年6月4日,Google發布Gemma 4 12B。官方定位很克制:介于E4B與26B MoE之間的中端型號,能跑16GB筆記本,Apache 2.0開源。
DeepMind科學家Michael Tschannen的推文泄露了另一層意圖。"過去幾年我的研究重點是統一跨模態的模型和訓練范式。今天發布的Gemma 4 12B,直接處理原始文本、圖像和音頻輸入。"
關鍵詞是"直接"。"支持""融合"都不準,只有一個詞能概括:直接。
絕大多數科技自媒體只盯著16G筆記本、開源免費兩個噱頭,完全無視這次發布真正顛覆多模態行業的底層架構革新。這也是12B能威脅26B MoE的核心密碼。
多數報道把"無編碼器"解讀為減法:用35M輕量嵌入替代數百兆的ViT,顯存從15GB壓到9GB,剛好塞進消費級筆記本。這個解讀沒錯,但漏掉了更底層的東西。
若僅以降低顯存為目標,Google完全能通過量化蒸餾改造現有26B MoE,沒必要從零重構整套多模態架構。Gemma 4 12B是重新設計的,它要做的不是把模型做小,而是讓原始音畫無損直通LLM。
傳統多模態的巴別塔困境:編碼器翻譯必然損耗信息
![]()
過去三年,主流多模態模型,LLaVA、GPT-4V、甚至Gemma 4 26B,本質上都是拼接怪。內部結構大同小異:
ViT編碼器(通常12-24層)把圖像切成patch,提取特征向量;Conformer或Whisper編碼器把聲波轉成梅爾頻譜,提取聲學特征。然后兩者分別經過對齊層,投影到LLM的文本向量空間。最后,語言模型才開始處理這些被轉換過的信息。
這個架構能工作,但有一個結構性缺陷:信息在到達LLM之前,已經過至少一次壓縮和轉換。ViT輸出的是高維特征向量,原始像素已經不存在;Conformer輸出的是聲學特征表示,原始聲波已經不存在。LLM拿到的是經過壓縮提煉的高層特征,丟失大量原始畫面的空間細節和音頻的時序紋理。
三種模態的優化目標也相互割裂。ViT學圖像分類,Conformer學語音識別,LLM學文本預測。拼接時需要用額外訓練彌合差異,"學了看圖忘了說話"的災難性遺忘反復出現。
編碼器本身沒做錯什么。錯的是"必須分層轉譯"的架構規則。壓縮轉換一旦發生,信息損耗就不可逆。
Gemma 4 12B沒打算修這條管道,它直接把管道拆了。
視覺拋棄了傳統ViT編碼器,改用35M輕量嵌入模塊。單次矩陣乘法 + 2D坐標嵌入 + 歸一化,圖像塊直接映射到與文本Token相同的向量空間,然后進入Transformer主干的注意力計算。提取特征變成了直接投影。
音頻更徹底。徹底移除音頻編碼器,原始音頻信號直接投影到文本Token的向量空間。不做頻譜轉換,不做聲學特征提取,原始聲波直接進模型。
傳統架構是"分別處理再拼接",Gemma 4 12B是"混合Token序列統一處理"。圖像Token、音頻Token、文本Token按順序排列,進入統一的Transformer主干后,由同一套注意力機制處理,共享主干網絡的權重和推理邏輯。
投影層本身因模態特性而異。視覺需2D坐標嵌入,音頻需時序切片。但進入主干后,三種模態的表征空間和計算邏輯完全統一。
這就是Tschannen說的"統一"。功能層面的"支持多模態"太淺了。架構層面的"所有模態共享同一套表征空間"才是。
實測逼近 26B MoE:架構效率正在改寫游戲規則
atomic.chat的實測數據很能說明問題:RTX 4090上,12B生成8.9k Token的物理模擬代碼,顯存僅9GB,性能逼近26B MoE的15GB配置。二者參數差距高達140億,12B用不到一半的顯存,跑出了旗艦模型超半數的速度,代碼生成質量、物理邏輯推理能力幾乎無差距。
![]()
過往大廠內卷思路永遠是堆MoE、堆參數量抬升性能,而Gemma 4 12B證明:優化架構同樣能追平旗艦效果,直接動搖"靠堆參數取勝"的行業慣性研發思路。這才是26B級大模型路線倍感緊張的根源。
顯存大幅縮減,無編碼器設計是重要因素之一。沒有獨立編碼器的額外內存開銷,也沒有編碼器與主干之間的特征對齊損耗。但性能逼近26B是多重優化共同作用的結果,訓練數據配比、架構效率提升都有貢獻,不能單一歸因。
真正的信號在于:Gemma 4 12B證明了"無編碼器統一架構"在中等規模模型上的量產可行性。
這個驗證完成以后,事情開始往幾個方向傳導。
LoRA等輕量微調方法可以直接作用于Transformer主干,理論上能同步優化全模態回路。不再需要分別維護編碼器和主干,不再需要為對齊問題頭疼。具體微調效果還得等獨立驗證,Google自己也沒發布官方消融實驗。
硬件門檻的變化更直觀。多模態推理從"雙路工作站"降到了"單張消費級顯卡",9GB顯存跑原生多模態,這個門檻直接決定了它能不能進入普通開發者的工作流。
生態層面也有想象空間。統一嵌入空間在架構理論上預留了擴展接口,新增模態理論上只需定制專屬投影層即可接入主干。但"可接入"和"可用"是兩回事,配套的訓練數據、任務設計和專項調優缺一不可。"零成本新增模態"是幻覺,"架構層面的可能性"才是準確的描述。
邊界與分水嶺:架構領先不等于全能,但方向已經確立
必須誠實交代:Gemma 4 12B面對超過三步的復雜串聯任務、多工具聯動場景,仍會出現規劃幻覺、路徑偏移的問題。這不算否定它的理由,只說明它正處于從"能對話"到"能做事"的過渡期。
早期智能手機的觸屏也不夠靈敏,但方向已經確立。無編碼器統一架構的驗證已經完成,剩下的工程優化只是時間問題。
Gemma 4 12B的發布很容易被淹沒在"又發了一個模型"的信息噪音中。但把視線從參數表移開,看向架構圖,會看到一個清晰的信號:
多模態AI的研發邏輯,正在從"為每種模態設計專用轉換器再拼接",轉向"所有模態共享同一套注意力機制"。
12B參數不是重點。它證明了,多模態的"大一統"不需要靠堆模塊實現,統一表示空間就夠了。
未來兩年,當業界回顧2026年的多模態進展時,Gemma 4 26B的基準分數會被遺忘,Gemma 4 12B的架構選擇會被反復引用。它是第一個在中等規模、可商用、可本地部署的模型上,驗證了"無編碼器統一架構"的量產可行性。
26B 打贏了當下的性能戰,12B 改寫了未來多模態的底層規則。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.