一張4090就能爆改！面壁智能MiniCPM-V 4.6，1B多模態(tài)卷出新高度

2026-05-13 14:18:42　來源: 機(jī)器之心Pro

河北舉報

分享至

編輯｜+0

在過去的幾年里，Scaling Law 被整個 AI 行業(yè)奉為圭臬。大家普遍認(rèn)為，模型越大，參數(shù)越多，其涌現(xiàn)出的邏輯推理與世界知識就越強(qiáng)。

但大模型的巨額推理成本、不可控的網(wǎng)絡(luò)延遲以及嚴(yán)苛的數(shù)據(jù)隱私風(fēng)險，讓真正的 AI 普惠成了一個偽命題。性能、時效、并發(fā)，構(gòu)成了大模型落地時難以逾越的「不可能三角」。

今年是 AI 應(yīng)用大規(guī)模落地的一年，當(dāng)我們真正審視 AI 普惠的現(xiàn)實需求時，會發(fā)現(xiàn)一個反常識的演進(jìn)趨勢：在某些維度上，參數(shù)規(guī)模更小的模型，反而能爆發(fā)出更高的效率與特定場景下的性能優(yōu)勢。

其實早有廠商注意到了端側(cè)落地和云端降本的現(xiàn)實需求，悄悄在 1B（十億）參數(shù)規(guī)模以下的端側(cè)模型賽道上開始布局。

有人可能會問，這么小的模型有什么用？

在真實的業(yè)務(wù)場景里，這些端側(cè)模型正在干著最基礎(chǔ)但最實用的活。

它們體積小巧，既能在手機(jī)端毫秒級離線運行、嚴(yán)格保護(hù)隱私，也能扛住千萬級并發(fā)下的低延遲意圖識別。在 RAG 系統(tǒng)里，充當(dāng)著智能路由器和數(shù)據(jù)清洗工，分流閑聊請求、壓縮大模型調(diào)用成本；配合超大模型推理時，又以投機(jī)采樣技術(shù)將預(yù)測速度拉高 2 至 3 倍。更關(guān)鍵的是，在信息提取、格式轉(zhuǎn)換等窄任務(wù)上，微調(diào)后的端側(cè)模型幾乎零幻覺，準(zhǔn)確率甚至超過百億大模型——論單點專精，云端大模型未必打得過它。

從阿里的 Qwen3.5-0.8B 到谷歌針對移動端的 Gemma 4 E2B-it，輕量級 LLM 正在快速接管那些追求快、穩(wěn)、省資源的輔助性任務(wù)。

5 月 11 日面壁智能正式發(fā)布并開源了 MiniCPM-V 系列新一代基礎(chǔ)模型——MiniCPM-V 4.6。這款模型的整體參數(shù)規(guī)模僅約 1B（1.3B），是該系列有史以來參數(shù)規(guī)模最小的一款。但在多模態(tài)綜合能力上，它卻成功超越了被視為標(biāo)桿的阿里 Qwen3.5-0.8B 和谷歌 Gemma 4 E2B-it，做到了「尺寸更小、效率更高、性能更好」。

Hugging Face：https://huggingface.co/openbmb/MiniCPM-V-4.6

GitHub：https://github.com/OpenBMB/MiniCPM-V

Modelscope：https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

Web Demo：https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

App Demo：https://github.com/OpenBMB/MiniCPM-V-Apps

從 2024 年 4 月初次驚艷亮相至今，MiniCPM-V 已經(jīng)在汽車、PC、手機(jī)、智能家居等終端場景中實現(xiàn)了廣泛的商業(yè)落地。

此次 MiniCPM-V 4.6 的發(fā)布，不僅在參數(shù)規(guī)模、推理速度、計算成本等多個維度都有明顯提升，也讓面壁智能在側(cè)端多模態(tài)開源領(lǐng)域站穩(wěn)了腳跟。這距離面壁智能「智周萬物」的愿景，又邁出了堅實的一大步。

為什么說 1B 的

MiniCPM-4.6 是「端側(cè)第一」？

評價一款端側(cè)模型，不能僅看參數(shù)大小，更要看它在極端受限的算力環(huán)境下，能爆發(fā)出多大的「智能密度」。不同尺寸的模型運行門檻截然不同，參數(shù)越小，意味著運行門檻越低、速度越快，能夠完美適配更廣泛的芯片和算力環(huán)境。

MiniCPM-V 4.6 的「端側(cè)第一」，是通過實打?qū)嵉亩嗄B(tài)綜合能力與極致的推理效率雙重驗證的。

在業(yè)內(nèi)公認(rèn)的幾大核心評測基準(zhǔn)中，MiniCPM-V 4.6 展現(xiàn)出了遠(yuǎn)超其體量的綜合實力。根據(jù)最新的評測數(shù)據(jù)，其在同尺寸模型范圍內(nèi)的智能密度位列最高。

全面超越 Qwen3.5-0.8B：目前業(yè)內(nèi)最新的 1B 左右多模態(tài)標(biāo)桿是 Qwen3.5-0.8B，而 MiniCPM-4.6 版本在大部分圖文理解任務(wù)等基礎(chǔ)能力上均實現(xiàn)了超越。

極致的 Token 利用率：在權(quán)威的 Artificial Analysis 評測體系中，MiniCPM-V 4.6 僅使用了相當(dāng)于 Qwen3.5-0.8B 2.5% 的 Token 吞吐量，就取得了超越后者的成績。這種對上下文的高效利用，是端側(cè)模型極為看重的特質(zhì)。

對于「高并發(fā)」的云端工業(yè)場景和算力功耗受限的終端硬件來說，推理速度和吞吐量是核心指標(biāo)。得益于 16 倍視覺 Token 壓縮這一核心技術(shù)，我們直接來看 MiniCPM-V 4.6 在 RTX 4090 + vLLM 推理環(huán)境下的實測表現(xiàn)，其在兩大關(guān)鍵維度上同時建立起了顯著的優(yōu)勢：

首先，在單并發(fā)首字響應(yīng)延遲（TTFT）上，MiniCPM-V 4.6 表現(xiàn)出了極高的穩(wěn)定性。它幾乎把「分辨率——延遲」曲線壓得平坦。當(dāng)處理 31362 的超高清大圖時，其首響僅需 75.7 毫秒，較同基座規(guī)模的 Qwen3.5-0.8B 快 2.2 倍。這意味著用戶在 4090 顯卡上加載一張 4K 級別的照片進(jìn)行提問時，模型幾乎能做到「秒回」。

其次，在高并發(fā)吞吐量上優(yōu)勢同樣亮眼。在輸出長度為 200 token 的設(shè)定下，RTX 4090 單卡處理 13442 分辨率圖片的吞吐量可達(dá) 2624 token/s，即每秒可處理 14.3 張圖片，是 Qwen3.5-0.8B 的 1.4 倍。這意味著同樣的硬件部署 MiniCPM-V 4.6，可以承載數(shù)倍的線上業(yè)務(wù)流量。

這兩個維度共同指向同一個結(jié)論——MiniCPM-V 4.6 用更短的視覺序列、更小的 KV-Cache 占用，把多模態(tài)推理的端側(cè)體感與云側(cè) ROI（投資回報率）同時推到了新的高度。

為了直觀感受，我們來看看 MiniCPM-V 4.6 單在實際的移動端設(shè)備（iPhone 17）上的運行效果。

讓 AI 觀察圖片識別物體

我們向 MiniCPM-V 4.6 喂入了一張 3024x3024 分辨率（近千萬像素）的實拍食物原圖，經(jīng)過預(yù)處理后，正如前文數(shù)據(jù)所印證的那樣，得益于模型極小的 KV-Cache 占用，一旦跨過最耗時的預(yù)處理門檻，極度精簡的視覺序列交接給 1B 語言基座后，文本生成速度便瞬間起飛。在我們順著圖片細(xì)節(jié)進(jìn)行二次追問時，不需要重新經(jīng)歷漫長的讀圖，直接實現(xiàn)了幾乎「零預(yù)熱」的秒回響應(yīng)，真正做到了毫秒級的連續(xù)解碼。

復(fù)雜的文字識別

再看文本類任務(wù)，可以看到經(jīng)過預(yù)處理后，無論是提取文本還是翻譯成多種語言，MiniCPM-V 4.6 的表現(xiàn)都可以用「迅雷不及掩耳」來形容。按下發(fā)送鍵的瞬間，文字流便如流水般涌出，精準(zhǔn)的圖文解析能力和極低的首答延遲，真正讓人感受到 AI 已經(jīng)融入了設(shè)備的「血液」中，而非遙遠(yuǎn)的云端接口。

扒開論文，

看 MiniCPM-V 4.6 的技術(shù)邏輯

為什么在參數(shù)量極小（僅 1B）、甚至與競品相近的情況下，MiniCPM-V 4.6 能夠爆發(fā)出如此驚人的推理效率和算力性價比？甚至實現(xiàn)了「參數(shù)量略大，效率卻大幅反超」的奇跡？

答案藏在面壁智能與清華大學(xué)團(tuán)隊最新聯(lián)合研發(fā)的第四代 LLaVA-UHD (v4)架構(gòu)之中。針對高分辨率圖像處理中的視覺編碼效率問題，研發(fā)團(tuán)隊做了兩項關(guān)鍵的技術(shù)改進(jìn)。

創(chuàng)新一：ViT 內(nèi)部視覺 Token 早壓縮

目前社區(qū)處理高分辨率圖像的主流方案通常是全局編碼（Global Encoding），即保留原始分辨率，將全圖直接送入視覺編碼器。但這會導(dǎo)致注意力機(jī)制的計算開銷隨著分辨率的提升呈二次方級別爆炸。

LLaVA-UHD v4 首先采用了切片編碼，將大圖分割為多個區(qū)塊進(jìn)行處理，從結(jié)構(gòu)上規(guī)避了二次方的算力膨脹，并通過實驗證明切片編碼能提供比全局編碼更豐富的特征表示，下游性能更好。

然而，切片編碼雖然解決了全局注意力的計算爆炸，但高分辨率圖片依然會生成極其龐大的視覺 Token 序列，給后端的語言模型帶來沉重的推理負(fù)擔(dān)。現(xiàn)有的主流優(yōu)化方案，大多是在 ViT 提取完所有特征之后，再進(jìn)行 Token 壓縮。這種做法治標(biāo)不治本，僅僅減輕了 LLM 的負(fù)擔(dān)，卻完全沒有降低龐大的視覺編碼器內(nèi)部的計算量。

面壁智能的解法是：將壓縮動作「前置」。

為了實現(xiàn)極致高效，LLaVA-UHD v4 設(shè)計了一種早期 ViT 內(nèi)壓縮模塊。直覺上，壓縮越早進(jìn)行，后續(xù)絕大部分的 ViT 層需要處理的 Token 就越少，計算量自然大幅下降。但難點在于，如果在 ViT 淺層簡單粗暴地插入隨機(jī)初始化的下采樣模塊，會嚴(yán)重破壞模型在預(yù)訓(xùn)練階段辛苦學(xué)到的視覺表征，不僅訓(xùn)練代價極其高昂，還會導(dǎo)致模型「變笨」。

為此，研發(fā)團(tuán)隊巧妙地引入了窗口注意力機(jī)制，在 Token 合并前增強(qiáng)鄰近 Token 的上下文交互；同時，通過復(fù)用相鄰預(yù)訓(xùn)練 ViT 層的參數(shù)，實現(xiàn)了參數(shù)的平滑初始化，最大限度地減小了對視覺表征的擾動。

這一架構(gòu)創(chuàng)新，使得視覺 Token 壓縮能夠穩(wěn)定前移至 ViT 淺層，在保持下游任務(wù)性能完全不掉點的前提下，將視覺編碼階段的浮點運算量暴降了 55.8%（節(jié)省了約一半的圖像編碼開銷）。這也是為什么 MiniCPM-V 4.6 能夠在處理高清大圖時，不僅看得清，而且跑得飛快。

創(chuàng)新二：4 倍 / 16 倍混合視覺 Token 壓縮率

視覺 Token 的壓縮率直接影響到顯存占用、首響延遲、推理吞吐和功耗等關(guān)鍵指標(biāo)。目前市面上的多模態(tài)模型，絕大部分只能做到 4 倍的壓縮率。

面壁智能的 MiniCPM-V 系列從 2024 年初就開始死磕 16 倍壓縮率。在此之前的版本中，開發(fā)者只能在「4 倍」和「16 倍」之間二選一。但在 MiniCPM-V 4.6 中，面壁智能實現(xiàn)了「魚與熊掌兼得」：

4 倍壓縮模式：性能拉滿，精度極高，適合需要細(xì)粒度視覺解析的場景。
16 倍壓縮模式：速度起飛，吞吐量爆表，既利于在算力受限的終端硬件上落地，又能以極低的成本承接巨大的云端業(yè)務(wù)流量，滿足「高并發(fā)」的工業(yè)級需求。

16 倍壓縮率的含金量有多高？我們可以看一個快手推薦算法的真實工業(yè)案例。

在快手 2025 年發(fā)布的 OneRec 推薦大模型中，系統(tǒng)需要處理海量短視頻的字幕、標(biāo)簽、ASR、OCR、封面圖等多模態(tài)數(shù)據(jù)。由于用戶體量龐大，并發(fā)請求量極高，快手最終選用 MiniCPM-V-8B 來處理底層多模態(tài)數(shù)據(jù)的特征提取，承接了快手短視頻推薦主場景高達(dá) 25% 的請求。這個案例說明 MiniCPM-V 系列在高并發(fā)工業(yè)場景下的可用性和成本優(yōu)勢是經(jīng)過實際驗證的。

一張 4090 就能爆改的「保姆級」基座

評判一個開源模型的生命力，不僅要看它在榜單上如何稱王，更要看它能否迅速落到開發(fā)者的代碼庫里、跑在業(yè)務(wù)的服務(wù)器上發(fā)光發(fā)熱。

本次發(fā)布，面壁智能不僅帶來了一個極其能打的 1B 模型，更為社區(qū)開發(fā)者、高校研究團(tuán)隊以及初創(chuàng)公司準(zhǔn)備了一套從微調(diào)（Fine-tuning）到部署（Deployment）開箱即用的「保姆級」二次開發(fā)基石。它天生就是為了被「爆改」而生的。

打破算力壁壘：消費級顯卡即刻開跑

大模型的微調(diào)往往讓人聯(lián)想到昂貴的 A100/H100 算力集群，這讓很多獨立開發(fā)者和中小型企業(yè)望而卻步。但 MiniCPM-V 4.6 得益于其極致精簡的 1B 參數(shù)量，將定制微調(diào)的門檻大幅降低。

開發(fā)者只需一張 RTX 4090 等消費級顯卡，就能跑通完整的微調(diào)流程。這意味著驗證一個想法、定制一個垂類場景模型（如工業(yè)流水線上的缺陷檢測、金融領(lǐng)域的復(fù)雜財報解析），不需要申請大量算力預(yù)算，在本地 PC 上就能完成。

擁抱主流生態(tài)：微調(diào)與推理全鏈路打通

「好用」是開源生態(tài)的核心。為了讓開發(fā)者徹底告別配環(huán)境配到崩潰的「折磨」，MiniCPM-V 4.6 實現(xiàn)了與當(dāng)前主流開源工具鏈的全面無縫對接：

微調(diào)框架全面原生支持：官方原生深度適配了 ms-swift 與 LLaMA-Factory 等業(yè)內(nèi)最受歡迎的微調(diào)框架。無論你是偏好代碼還是可視化操作，只需準(zhǔn)備好自己的場景數(shù)據(jù)，修改幾行配置文件，一鍵即可拉起專屬模型的訓(xùn)練，官方甚至貼心地提供了中英雙語的 CookBook 教程。
推理框架全家桶兼容：在模型部署端，官方同步適配了目前最頂級的幾大高性能推理框架：vLLM、SGLang、llama.cpp 和 Ollama。

如果你追求云端極致并發(fā)，可以使用 vLLM 或 SGLang；如果你要在沒有獨立顯卡的輕薄本、Mac 甚至手機(jī)上進(jìn)行純 CPU/端側(cè)推理，llama.cpp 和 Ollama 能夠讓你游刃有余地完成高效部署。

極低的顯存占用、極高的并發(fā)吞吐量、完備的上下游工具鏈，使 MiniCPM-V 4.6 成為了構(gòu)建高并發(fā)、極速響應(yīng)多模態(tài)應(yīng)用的高性價比首選。

不止于 1B：

面壁智能的端側(cè)「長期主義」

MiniCPM-V 4.6 的這次表現(xiàn)，背后是面壁智能在端側(cè)多模態(tài)領(lǐng)域多年的持續(xù)積累。回顧 MiniCPM-V 系列的發(fā)展路徑，可以看到一條以「智能密度」為核心的清晰脈絡(luò)：

MiniCPM-V 2.0（2.8B，2024 年 4 月）：確立了「以小博大」的基調(diào)，在 7B 以下模型中排名靠前，在 OCRBench 上達(dá)到開源最優(yōu)水平，展現(xiàn)了較強(qiáng)的高清圖像解析能力和防幻覺能力。
MiniCPM-V 2.5（8B，2024 年 5 月）：支持 30 多種語言，OCR 成績達(dá)到 SOTA，綜合性能超過 GPT-4V 和 Gemini Pro Vision 等商業(yè)模型。
MiniCPM-V 2.6（8B，2024 年 8 月）：首次在端側(cè)同時支持單圖、多圖聯(lián)合理解和實時視頻推理，量化后僅需 6G 內(nèi)存，在主流手機(jī)和 iPad 上實現(xiàn)了對標(biāo) GPT-4V 水平的交互。
MiniCPM-V 4.0（4.1B，2025 年）：參數(shù)減半但性能提升，專為移動端優(yōu)化，在新款手機(jī)上實現(xiàn)了低延遲的實時交互，在 OpenCompass 等榜單取得同級 SOTA。
MiniCPM-V 4.5（8B，2025 年）：行業(yè)首個具備較高幀率視頻理解能力的多模態(tài)模型，獨創(chuàng) 3D-Resampler 架構(gòu)支持最高 10 FPS 長視頻解析，配合 96 倍視頻 Token 壓縮率，綜合能力超過 72B 開源模型，也超越了 GPT-4o-latest。

從 2.0 到 4.6，MiniCPM-V 系列一步步拓展了端側(cè)模型的能力邊界：超高清長文檔解析、連續(xù)視頻理解、多圖聯(lián)合推理、高密度文本提取，這些任務(wù)在端側(cè)模型上逐漸成為可能。這也讓該系列在聯(lián)想、吉利、上汽大眾、廣汽等企業(yè)的實際業(yè)務(wù)中落地。

更令人振奮的是，面壁智能在端側(cè)多模態(tài)的路線早已獲得了國際頂尖學(xué)術(shù)共同體的認(rèn)可。其關(guān)于「密度定律」的相關(guān)成果成功發(fā)表于國際頂級學(xué)術(shù)期刊《Nature Communications》。

2024 年 6 月，斯坦福一個團(tuán)隊被發(fā)現(xiàn)直接套用了 MiniCPM-V 2.5 的成果，隨后公開致歉。這件事從另一個角度說明，中國多模態(tài)大模型的研究已經(jīng)走到了全球開源社區(qū)的前列，不再只是在別人的基礎(chǔ)上做二次開發(fā)。

結(jié)語

回到文章開篇的問題：1B 以下的端側(cè)模型，到底有什么實際意義？

當(dāng)我們被云端千億參數(shù)巨獸的發(fā)布會不斷轟炸時，很容易陷入一種唯參數(shù)論的迷思。然而，AI 的最終目的不是停留在機(jī)房里炫技，而是融入人類生活的每一個角落。

MiniCPM-V 4.6 給出了一個具體的答案：端側(cè)模型的意義，在于用更低的成本、更快的速度、更好的隱私保護(hù)，把視覺理解和認(rèn)知推理能力塞進(jìn)手機(jī)、電腦、汽車和智能家電里。

當(dāng)一款 1B 參數(shù)的模型，通過架構(gòu)優(yōu)化和混合 Token 壓縮，在性能上超過同類、在速度上實現(xiàn)單卡數(shù)千 Token 的秒級吞吐，且讓開發(fā)者用一張消費級顯卡就能定制，它就已經(jīng)不再是一個簡單的「技術(shù) Demo」，而是加速整個邊緣計算生態(tài)全面爆發(fā)的強(qiáng)勁催化劑。

大廠卷端側(cè)模型，是因為未來屬于邊緣側(cè)。而面壁智能與它的 MiniCPM-V 家族，正在這條通往「智周萬物」的道路上，刻下屬于中國架構(gòu)的深刻印記。

文中視頻鏈接：https://mp.weixin.qq.com/s/jN5OJCrHnaPSjINfM1yQQA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.