網易首頁 > 網易號 > 正文申請入駐

清華系團隊出手！一張 4090 即可「爆改」，1.3B小鋼炮震撼開源

2026-05-13 12:11:23　來源: 新智元

北京舉報

分享至

新智元報道

編輯：YHluck

【新智元導讀】端側多模態，卷出新天花板。僅1.3B，性能反超，效率翻倍，一張4090就能「爆改」。剛剛，清華系團隊面壁智能開源了新一代「小鋼炮」MiniCPM-V 4.6，再次證明了在端側AI領域，中國團隊已然站在世界前沿。

想象一下：你將一支筆放進裝滿水的玻璃杯，用手機拍下照片，然后問它：「這個現象的原因是什么」？

幾秒鐘后，手機屏幕上出現了「光的折射」的準確回答和原理解釋，視覺問答表現驚人：

還有機票識別，文字提取精準：

整個過程絲滑流暢，沒有聯網，沒有等待云端服務器的響應，不產生天價token賬單。

而實現這一切的，不是云端某個需要排隊等API的千億參數模型，而是一個剛剛開源、僅有1.3B的「小鋼炮」——MiniCPM-V 4.6。

5月11日，「國產端側大模型擔當」面壁智能聯合清華大學、OpenBMB開源社區正式開源了新一代端側多模態大模型MiniCPM-V 4.6。

MiniCPM-V 4.6一經發布，立即給1B量級多模態模型重新劃定了起跑線，給日趨白熱化的端側AI賽道投下了一枚重磅炸彈！

它不僅在性能上全面超越了阿里 Qwen3.5-0.8B和谷歌Gemma4-E2B-it等同級對手，更在效率上實現了驚人的「反超」——參數更大，跑得卻更快。

這波操作，直接打破了行業里「小尺寸=閹割版」的常規認知。

MiniCPM-V 4.6用扎實硬核的數據向行業證明：1B級模型，也可以是性能強悍、足以在端云兩棲部署的工業級武器。

此外，在尺寸上，MiniCPM-V 4.6是MiniCPM-V系列模型上有史以來參數規模最小的模型，只有1B左右，但智能密度卻為同尺寸模型范圍內最高，這再次驗證了面壁智能在2024年提出并登上Nature子刊的「密度定律」。

根據Artificial Analysis（AA）榜單評測，MiniCPM-V 4.6 1.3B（非推理版本）的運行僅消耗5.4M token量，僅為Qwen3.5-0.8B（非推理版本，101M）的1/19、Qwen 3.5-0.8B（推理版本，233M）的1/43：

Hugging Face：

https://huggingface.co/openbmb/MiniCPM-V-4.6

GitHub：

https://github.com/OpenBMB/MiniCPM-V

Modelscope：

https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

Web Demo：

https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

APP Demo：

https://github.com/OpenBMB/MiniCPM-V-Apps

性能越級，效率反超

體感是最終標準

Talk is cheap，直接上數據。

在多個主流Benchmark上，MiniCPM-V 4.6的表現突出一個「反常識」。

無論是做通用圖文理解、解數學題，還是搞文檔OCR，它的Instruct版和Thinking版基本都是亂殺局，全面碾壓Qwen3.5-0.8B與Gemma4-E2B-it。

在更看綜合實力的Artificial Analysis（AA）榜單上，MiniCPM-V 4.6的得分也表現出色，領先Mistral 3 3B、Qwen 3.5-0.8B等在內的一眾模型一個身位，成為了1B多模態大模型賽道的「新科狀元」！

但真正讓技術圈高潮的，是它的效率！

推理吞吐量：直接干到1.5倍

拿一張4090跑高并發，MiniCPM-V 4.6處理高清圖的吞吐量是Qwen3.5-0.8B 的1.5倍。

什么概念？一樣的服務器成本，你能扛住過去1.5倍的用戶流量。對于SaaS服務來說，這就是赤裸裸的利潤。

首響延遲（TTFT）：延遲曲線被拉直了！

處理31362的超高清大圖，它的首響延遲比對手快了2.2倍。更驚人的是，當圖片分辨率暴漲49倍，它的延遲增長居然不到2.5倍。

這條幾乎被「拉直」的延遲曲線，意味著你的4090無論加載多大的圖，用戶體感都差不多——一個字，穩！

這兩個維度共同指向同一個結論：MiniCPM-V 4.6用更短的視覺序列和更小的 KV-Cache，把端側體感與云側ROI同時推到了新的高度。

對端側產品而言，這意味著流暢；對云端工業場景而言，這意味著同等成本下的吞吐翻倍。

參數更大，跑得更快，這聽起來就像是物理學不存在了。但這背后，是兩個非常硬核的架構創新。

技術深扒：這效率「外掛」是怎么開的？

為什么一個比Qwen3.5-0.8B參數更大的模型，反而跑得更快？

答案藏在MiniCPM-V 4.6的兩項核心架構創新里：一個是ViT架構創新，另一個是4倍/16倍混合視覺token壓縮率。

ViT架構重構

LLaVA-UHD v4開路

傳統ViT（視覺編碼器）在編碼圖像時，會讓大量冗余視覺token一路跑完全程，造成顯著的算力浪費。

就像個耿直的打工人，收到一堆視覺Token（圖像信息塊），不管有用沒用、全部拉通處理一遍，計算量巨大。

而MiniCPM-V 4.6不當「老實人」，采用了面壁智能聯合清華大學自研的LLaVA-UHD v4技術，在 ViT 內部很早就把沒用的Token給優化掉了，提前完成視覺token的壓縮，算力直接節省約50%！

也就是說，僅在圖像編碼這一環節，MiniCPM-V 4.6就比傳統ViT路線少跑了一半的開銷，且性能不掉點。

這也是為什么 MiniCPM-V 4.6雖然參數比Qwen3.5-0.8B略大，卻在推理效率上實現反超的根本原因。

具體是怎么做到的？

主要是LLaVA-UHD v4圍繞兩個方向做了優化：如何更高效地看高清大圖，以及如何更早地減少視覺Token帶來的計算負擔。

一是「切片大法」：不傻乎乎地處理整張高清大圖，而是先切成小塊，分而治之。這樣Attention計算量就不會隨分辨率指數爆炸。MiniCPM-V 4.6的研究團隊做了不同尺寸和不同數據量的模型試驗，證明切片相比于全局編碼不掉點——這實際是一個「反常識」的技術突破。

二是「提前壓縮」：最關鍵的一步。在ViT剛開始工作沒多久，就用一個精巧的壓縮模塊（Intra-ViT Early Compressor）把Token數量壓下來。這樣一來，后續ViT層的計算開銷節省75%+。

LLaVA-UHD v4 論文鏈接：https://huggingface.co/papers/2605.08985

通過這一設計，視覺Token壓縮可以穩定地前移到 ViT 淺層，在大幅降低后續計算量的同時，仍然保持較好的圖像表征質量和下游任務表現。

這就是MiniCPM-V 4.6「效率反超」的秘密武器：在最耗算力的環節，只干最該干的活。

4倍/16倍混合壓縮

給足開發者選擇權

視覺token壓縮率，影響的是顯存占用、首響延遲、推理吞吐、功耗這些核心效率指標，壓縮率越高，響應速度就越快。

市面上的多模態大模型，絕大部分都焊死在了固定的4倍壓縮上。而MiniCPM-V系列從2024年起就率先支持16倍壓縮，此前支持在4倍/16倍中二選一，但這次MiniCPM-V 4.6實現了魚和熊掌可兼得：

4倍模式（精度更高）：適合高要求識別任務，如文檔解析、密集文字識別等。跑文檔識別、醫療影像這種任務，一個像素都不能錯。
16倍模式（速度更快）：跑手機端實時交互、云端高并發API，速度就是生命線。

這個設計，讓同一個模型既能塞進手機里做你的隨身AI，又能部署在云端扛住千萬級日活。兩全其美，開發者便無需做取舍。

這可不是PPT技術。快手的推薦大模型OneRec，扛下主場景25%的流量，就采用了MiniCPM-V系列模型。16倍壓縮的工業級實戰能力，已經被真金白銀驗證過了。

論文地址：

https://arxiv.org/abs/2502.18965

只需一張 4090

為「魔改」而生的開源生態

技術再牛，部署和微調不行、開發者照樣不買賬。

面壁智能這次直接把開發者體驗拉滿了。

最炸裂的一點是：一張消費級的RTX 4090，就能完整跑下全量微調！

這意味著什么？無論是獨立開發者、小團隊還是學術圈，多模態模型的定制化開發，都能用得起MiniCPM-V 4.6，門檻從「服務器集群」直接降到了「一臺高性能PC」。這才是真正的AI普惠！

配套的工具鏈也安排得明明白白！

MiniCPM-V 4.6實現了與當前主流開源生態的全面無縫對接，讓開發者徹底告別繁瑣的環境配置：

微調：原生支持最火的LLaMA-Factory和ms-swift——

微調框架

LLaMA-Factory：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

ms-swift：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

推理：vLLM、SGLang、llama.cpp、Ollama全家桶無縫銜接——

推理框架：

vLLM：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

SGLang：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

llama.cpp：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

Ollama：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

極低的顯存占用、極高的并發吞吐量、完備的上下游工具鏈——可以說MiniCPM-V 4.6天生就是為了被「魔改」而生，是開發者用于構建高并發計算、極速響應的垂直應用的高性價比多模態底座。

它把最硬核的底層優化做完，把最靈活的改造空間留給了社區。

附端側部署指南：

https://github.com/tc-mb/MiniCPM-V-edge-demo/blob/main/README_zh.md

從「被抄襲」到「定義者」

端側 AI 的中國敘事

從2024年4月的V 2.0算起，MiniCPM-V已經走過了6代。

截至2026年3月，MiniCPM-V系列在開源社區累計下載量已接近3000萬，多次霸榜GitHub Trending與HuggingFace趨勢榜。

在產業落地端，已先后服務于聯想、吉利、上汽大眾、廣汽、馬自達、紅旗等廠商，覆蓋汽車、PC、手機、智能家居等多場景。

回顧面壁智能的MiniCPM-V系列，你會發現一條非常清晰的進化路徑——追求極致的「智能密度」。

也就是，用最小的代價，干最智能的事。

從2024年面壁智能密度定律登上《Nature子刊》，到MiniCPM-V2.5被斯坦福研究團隊「套殼」引發全球關注，再到今天MiniCPM-V 4.6用1.3B模型重新定義端側效率，面壁智能已經變成端側AI賽道的最大「定義者」。

MiniCPM-V 4.6的發布，不只是一個更強的模型，更是一個信號：端側AI的「妥協」時代，正在結束。

MiniCPM-V 4.6證明了：1B多模態模型可以又強又快又省，也可以同時擔任端側最佳基座和云端高并發利器。

面壁在做的事情，從來不是卷參數、卷榜單。

他們在用一種近乎偏執的方式，把AI能力塞進每一塊你能想到的屏幕里——手機、平板、車載屏、智能家居面板、工廠質檢終端……凡是有屏幕、有芯片的地方，都是他們想覆蓋的場景。這便是所謂「智周萬物」。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

從零到千萬：一個中國開源操作系統的全球崛起之路

智東西 2025-11-25 17:27:09
17 跟貼 17
海外研選 | 大摩：2030年服務器CPU市場規模或達2830億美元

財聯社 2026-05-12 20:07:11
1 跟貼 1

告別云端依賴！字節開源新作DreamLite讓手機秒變 AI 畫板

機器之心Pro 2026-05-12 20:47:59
0 跟貼 0

這不是一個關于AI的故事，這是一個關于你的故事

孤獨大腦 2026-03-12 15:28:05
0 跟貼 0
索尼研發乒乓球機器人打敗日本頂尖選手

每日經濟新聞 2026-04-23 17:49:24
1214 跟貼 1214

00后小孩哥10天AI編程，陳天橋24小時砸3000萬！靠大四作業當上CEO

36氪 2026-03-08 17:24:08
26 跟貼 26

做AI漫劇的、搞Agent的、投硅谷的，5.20這些賽道頂流碰頭了

量子位 2026-05-11 18:32:24
0 跟貼 0
AI步入“自我進化”時代，李彥宏首提AI時代度量衡“DAA”

量子位 2026-05-13 12:40:28
0 跟貼 0

安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
大模型的魅力在于突發涌現的能力

量子位 2025-12-11 03:38:02
0 跟貼 0
騰訊需要一場2026年的首勝

鈦媒體APP 2026-05-13 12:21:07
0 跟貼 0
人形機器人半馬跑姿大賞，有的比人快多了！有的“狀況百出”

每日經濟新聞 2026-04-20 00:25:36
9 跟貼 9
一線調研｜“9.9元跑30多公里”，青島成無人車角力場：從低價搶客到基建卡位，新石器、九識、滴滴、貨拉拉誰在搶跑？

每日經濟新聞 2026-05-13 09:00:04
1 跟貼 1
以人為本的AI對用戶而言才是最有用的AI

每日經濟新聞 2026-03-14 13:16:04
0 跟貼 0
AI相對論②丨智駕進入數據驅動時代，能落地的L3必須具備L4能力

每日經濟新聞 2026-05-13 12:29:08
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
Bonree ONE 4.0 正式全球發布！三大核心能力速覽

經濟觀察報 2026-05-13 12:04:14
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
谷歌發布安卓 AI 系統，這就是蘋果想象中的自己

愛范兒 2026-05-13 12:13:33
0 跟貼 0
朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發和適配

財聯社 2026-04-17 16:59:02
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
1 跟貼 1
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
6月上海，這場論壇聊透出海真問題

36氪 2026-05-13 13:12:04
0 跟貼 0
Google DeepMind與EVE Online達成合作，共同研究"玩家驅動系統"

至頂頭條 2026-05-12 22:34:55
4 跟貼 4
偷油賊服務器偷油，專挑大貨車下手，職業素質不錯還把油箱蓋蓋上

哈哈看生活 2026-05-12 09:07:30
0 跟貼 0
日軍"小鋼炮"秘密被我軍發現后，在投降書上寫下：勿將用于日本！

鑒史錄 2026-05-12 17:56:38
3 跟貼 3
云端三峽橫空出世，大國基建實力盡顯

好奇的老八 2026-05-12 11:07:54
1 跟貼 1
“鳥”是風景，“槍”才是身份

布衣亂彈 2026-05-10 18:24:22
3 跟貼 3
如何把一塊普普通通的金屬變成漂亮的晶體？

哇喔科學 2026-05-12 17:19:20
7 跟貼 7

新智元

AI產業主平臺領航智能+時代

15198文章數 66864關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

本地

時尚

數碼

手機 / 數碼

房產 / 家居

清華系團隊出手！一張 4090 即可「爆改」，1.3B小鋼炮震撼開源

谷歌劇透安卓重大升級 Gemini深度集成底層

特朗普訪華隨行名單：夫人缺席 次子夫婦、魯比奧隨行

特朗普訪華隨行名單：夫人缺席 次子夫婦、魯比奧隨行

14年半，74萬，何冰嬌沒選那條更安穩的路

鞏俐用中文宣布戛納開幕，彰顯國際地位

深圳夫妻囤芯片，身家飆漲320億

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

海口禁摩，3.3萬名車主要慌了！

果然是經濟強省！浙江縣域第一高樓，高約300米！

用蘇繡的方式，打開江西婺源

沒八卦、純素人、不驚艷，可她贏麻了

聯發科天璣開發者大會MDDC 2026：官宣天璣AI智能體化引擎2.0

特朗普訪華隨行名單：夫人缺席次子夫婦、魯比奧隨行

特朗普訪華隨行名單：夫人缺席次子夫婦、魯比奧隨行

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達