網易首頁 > 網易號 > 正文申請入駐

砍掉獨立編碼器：Gemma 4 12B推翻多模態"拼接設計"

2026-06-06 12:13:21　來源: AI唱反調

北京舉報

分享至

一個 12B模型，憑什么讓26B MoE緊張？

2026年6月4日，Google發布Gemma 4 12B。官方定位很克制：介于E4B與26B MoE之間的中端型號，能跑16GB筆記本，Apache 2.0開源。

DeepMind科學家Michael Tschannen的推文泄露了另一層意圖。"過去幾年我的研究重點是統一跨模態的模型和訓練范式。今天發布的Gemma 4 12B，直接處理原始文本、圖像和音頻輸入。"

關鍵詞是"直接"。"支持""融合"都不準，只有一個詞能概括：直接。

絕大多數科技自媒體只盯著16G筆記本、開源免費兩個噱頭，完全無視這次發布真正顛覆多模態行業的底層架構革新。這也是12B能威脅26B MoE的核心密碼。

多數報道把"無編碼器"解讀為減法：用35M輕量嵌入替代數百兆的ViT，顯存從15GB壓到9GB，剛好塞進消費級筆記本。這個解讀沒錯，但漏掉了更底層的東西。

若僅以降低顯存為目標，Google完全能通過量化蒸餾改造現有26B MoE，沒必要從零重構整套多模態架構。Gemma 4 12B是重新設計的，它要做的不是把模型做小，而是讓原始音畫無損直通LLM。

傳統多模態的巴別塔困境：編碼器翻譯必然損耗信息

過去三年，主流多模態模型，LLaVA、GPT-4V、甚至Gemma 4 26B，本質上都是拼接怪。內部結構大同小異：

ViT編碼器（通常12-24層）把圖像切成patch，提取特征向量；Conformer或Whisper編碼器把聲波轉成梅爾頻譜，提取聲學特征。然后兩者分別經過對齊層，投影到LLM的文本向量空間。最后，語言模型才開始處理這些被轉換過的信息。

這個架構能工作，但有一個結構性缺陷：信息在到達LLM之前，已經過至少一次壓縮和轉換。ViT輸出的是高維特征向量，原始像素已經不存在；Conformer輸出的是聲學特征表示，原始聲波已經不存在。LLM拿到的是經過壓縮提煉的高層特征，丟失大量原始畫面的空間細節和音頻的時序紋理。

三種模態的優化目標也相互割裂。ViT學圖像分類，Conformer學語音識別，LLM學文本預測。拼接時需要用額外訓練彌合差異，"學了看圖忘了說話"的災難性遺忘反復出現。

編碼器本身沒做錯什么。錯的是"必須分層轉譯"的架構規則。壓縮轉換一旦發生，信息損耗就不可逆。

Gemma 4 12B沒打算修這條管道，它直接把管道拆了。

視覺拋棄了傳統ViT編碼器，改用35M輕量嵌入模塊。單次矩陣乘法 + 2D坐標嵌入 + 歸一化，圖像塊直接映射到與文本Token相同的向量空間，然后進入Transformer主干的注意力計算。提取特征變成了直接投影。

音頻更徹底。徹底移除音頻編碼器，原始音頻信號直接投影到文本Token的向量空間。不做頻譜轉換，不做聲學特征提取，原始聲波直接進模型。

傳統架構是"分別處理再拼接"，Gemma 4 12B是"混合Token序列統一處理"。圖像Token、音頻Token、文本Token按順序排列，進入統一的Transformer主干后，由同一套注意力機制處理，共享主干網絡的權重和推理邏輯。

投影層本身因模態特性而異。視覺需2D坐標嵌入，音頻需時序切片。但進入主干后，三種模態的表征空間和計算邏輯完全統一。

這就是Tschannen說的"統一"。功能層面的"支持多模態"太淺了。架構層面的"所有模態共享同一套表征空間"才是。

實測逼近 26B MoE：架構效率正在改寫游戲規則

atomic.chat的實測數據很能說明問題：RTX 4090上，12B生成8.9k Token的物理模擬代碼，顯存僅9GB，性能逼近26B MoE的15GB配置。二者參數差距高達140億，12B用不到一半的顯存，跑出了旗艦模型超半數的速度，代碼生成質量、物理邏輯推理能力幾乎無差距。

過往大廠內卷思路永遠是堆MoE、堆參數量抬升性能，而Gemma 4 12B證明：優化架構同樣能追平旗艦效果，直接動搖"靠堆參數取勝"的行業慣性研發思路。這才是26B級大模型路線倍感緊張的根源。

顯存大幅縮減，無編碼器設計是重要因素之一。沒有獨立編碼器的額外內存開銷，也沒有編碼器與主干之間的特征對齊損耗。但性能逼近26B是多重優化共同作用的結果，訓練數據配比、架構效率提升都有貢獻，不能單一歸因。

真正的信號在于：Gemma 4 12B證明了"無編碼器統一架構"在中等規模模型上的量產可行性。

這個驗證完成以后，事情開始往幾個方向傳導。

LoRA等輕量微調方法可以直接作用于Transformer主干，理論上能同步優化全模態回路。不再需要分別維護編碼器和主干，不再需要為對齊問題頭疼。具體微調效果還得等獨立驗證，Google自己也沒發布官方消融實驗。

硬件門檻的變化更直觀。多模態推理從"雙路工作站"降到了"單張消費級顯卡"，9GB顯存跑原生多模態，這個門檻直接決定了它能不能進入普通開發者的工作流。

生態層面也有想象空間。統一嵌入空間在架構理論上預留了擴展接口，新增模態理論上只需定制專屬投影層即可接入主干。但"可接入"和"可用"是兩回事，配套的訓練數據、任務設計和專項調優缺一不可。"零成本新增模態"是幻覺，"架構層面的可能性"才是準確的描述。

邊界與分水嶺：架構領先不等于全能，但方向已經確立

必須誠實交代：Gemma 4 12B面對超過三步的復雜串聯任務、多工具聯動場景，仍會出現規劃幻覺、路徑偏移的問題。這不算否定它的理由，只說明它正處于從"能對話"到"能做事"的過渡期。

早期智能手機的觸屏也不夠靈敏，但方向已經確立。無編碼器統一架構的驗證已經完成，剩下的工程優化只是時間問題。

Gemma 4 12B的發布很容易被淹沒在"又發了一個模型"的信息噪音中。但把視線從參數表移開，看向架構圖，會看到一個清晰的信號：

多模態AI的研發邏輯，正在從"為每種模態設計專用轉換器再拼接"，轉向"所有模態共享同一套注意力機制"。

12B參數不是重點。它證明了，多模態的"大一統"不需要靠堆模塊實現，統一表示空間就夠了。

未來兩年，當業界回顧2026年的多模態進展時，Gemma 4 26B的基準分數會被遺忘，Gemma 4 12B的架構選擇會被反復引用。它是第一個在中等規模、可商用、可本地部署的模型上，驗證了"無編碼器統一架構"的量產可行性。

26B 打贏了當下的性能戰，12B 改寫了未來多模態的底層規則。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

NEWTON:等物理涌現到請牛頓進工具箱，Agent 驅動視頻生成新范式

機器之心Pro 2026-06-11 20:50:32
0 跟貼 0
代碼定位太慢？螞蟻ACL2026新作：讓模型自己學會「該搜多少」

新智元 2026-06-14 09:32:37
0 跟貼 0

Fable 5突遭下架，GLM-5.2全量開放！

新智元 2026-06-13 22:29:08
14 跟貼 14

不用向量數據庫，Agent也能會搜索：給它一個grep就夠了？

機器之心Pro 2026-06-11 17:06:46
0 跟貼 0
飯后這些信號別大意，身體在拉警報，一定別掉以輕心！

瘋狂生活家 2026-06-14 09:08:13
1 跟貼 1

多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0

19歲，常青藤輟學，這群中國年輕人重構了AI記憶

量子位 2026-04-04 16:21:02
0 跟貼 0
神經流模型 NeuroFlow 打通視覺與神經的雙向通道

機器之心Pro 2026-06-12 12:44:05
0 跟貼 0

面壁智能開源全模態模型MiniCPM-o4.5，邊看邊聽還能主動搶答

量子位 2026-02-05 23:20:12
0 跟貼 0
4位AI大牛對話50分鐘！編程是AI勝負手、Claude“神話”模型是自然結果、降token是正確的

智東西 2026-06-12 14:52:40
13 跟貼 13
比特與信念的交鋒：數智時代領導者的“算法敘事”與“人機共情”藝術

經濟觀察報 2026-06-14 09:07:53
0 跟貼 0
從高考第一，看見最懂中國的全國產底座大模型

中國日報網 2026-06-12 22:03:23
0 跟貼 0
GuidedVLA給動作解碼器裝上可控可解釋的注意力專家

機器之心Pro 2026-06-12 19:04:46
0 跟貼 0
師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

鳥姐談笑 2026-06-12 09:53:41
0 跟貼 0
到底誰在買AI硬件？

雷科技 2026-06-12 17:10:06
1 跟貼 1
活久見，時代少年團給大模型上了一課

機器之心Pro 2026-05-09 12:48:20
0 跟貼 0
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
日媒：韓國決定申請加入CPTPP

參考消息 2026-06-13 12:18:28
18288 跟貼 18288
全市進入暴雨戒備狀態！深圳雙預警生效！

深圳晚報 2026-06-14 09:07:14
2 跟貼 2
大名氣象臺繼續發布雷暴大風橙色預警信號

新浪財經 2026-06-14 09:46:31
0 跟貼 0
竇文濤對談：想瘦？真正瘦下來的底層邏輯不是少睡！

小腦袋鍋 2026-06-13 09:50:50
0 跟貼 0
男子舉報酒駕遭人上門扇耳光，到底哪個環節泄露了信息？

推石頭的林律師 2026-06-13 01:09:31
0 跟貼 0
HuggingFace CEO力薦：這個1500美元訓出的HRM模型，憑什么火了？

量子位 2026-06-13 20:36:36
1 跟貼 1
腦回路有時候還挺清晰的

海韻影視劇 2026-06-11 08:08:56
3 跟貼 3
昨天晚上接到一個電話，讓我后背發涼！提醒大家警惕陌生號碼

小椰子專欄呀 2026-06-12 05:19:44
1 跟貼 1
多國嘉賓：在中國，人權不是抽象概念，而是扎根現實的民生福祉

中國日報網 2026-06-13 17:07:04
6192 跟貼 6192
廣東省惠州市發布暴雨紅色預警信號

北青網-北京青年報 2026-06-14 11:48:11
0 跟貼 0
領導對你有意見，不會和你明說，但這三個信號太明顯了

職有鋒哥 2026-06-14 11:01:57
0 跟貼 0
大反轉！Anthropic CEO拒修漏洞才被封，舉報Claude新模型是自家大股東

智東西 2026-06-14 10:01:06
8 跟貼 8
300個Agent組網，萬億參數減負：Kimi把AI從"學霸"變成"項目經理"

鈦媒體APP 2026-06-14 11:35:06
0 跟貼 0
燃油車為沖刺年中銷量加大優惠力度新能源車開始漲價

大象新聞 2026-06-13 15:33:15
3544 跟貼 3544
男子想給新身份證找地方放，卻意外發現了舊的身份證，網友：新密碼不能和舊密碼一致

星沙時報 2026-06-12 10:30:13
0 跟貼 0
AI時代，別再提“人人都是程序員”了

虎嗅APP 2026-06-14 02:46:07
2 跟貼 2
“張雪機車”再次奪冠

新華社客戶端 2026-06-13 20:36:34
8215 跟貼 8215
Agent終于長出了身體：Jiuwen Symbiosis背后的思考與實踐

量子位 2026-06-13 16:08:07
3 跟貼 3
加拿大開幕式充氣的大世界杯模型沒100%撐起來，然后就萎了！

臺海大林 2026-06-13 07:48:16
139 跟貼 139
新餐館裝修500把椅子放門口被市民誤認為是不要的直接搬空老板娘喊話：主動歸還者請吃砂鍋

閃電新聞 2026-06-13 12:22:15
1605 跟貼 1605
上海頭部高校重磅！復旦、交大、同濟、華東師大齊宣布：本科擴招！

環球網資訊 2026-06-13 22:01:12
79 跟貼 79
"五星"巴西首戰1比1戰平摩洛哥德國"戰車"凌晨登場

極目新聞 2026-06-14 08:24:41
533 跟貼 533
上頭魔性3分鐘！媳婦離譜操作輪番上演，腦回路清奇笑料炸場

小步胡侃 2026-06-13 06:08:40
0 跟貼 0

AI唱反調

在這里，聽見不一樣的 AI 聲音。

24文章數 0關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

房產

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

砍掉獨立編碼器：Gemma 4 12B推翻多模態"拼接設計"

Anthropic最強模型被禁，傳亞馬遜通風報信

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

美國4比1巴拉圭：這統治力真是美國隊？！

具俊曄曝大S離世前虛弱照，難怪小s退讓

金價跌至900元關口，大媽又來抄底了！

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

立省30%！《明末：淵虛之羽》開啟Steam限時折扣

廣州再建一座“小蠻腰”？190米，頂著個球，2027年見！

海南最賺錢行業曝光！最快4年半，海口全款買三房！

多名球星展示新款Beats頭戴式耳機

陜西橋梁垮塌致25輛車墜河62人死亡失蹤官方公布細節

陜西橋梁垮塌致25輛車墜河62人死亡失蹤官方公布細節

深藍S07華為乾崑激光版增程車型上市限時15.49萬元起