網易首頁 > 網易號 > 正文申請入駐

一張4090就能爆改！面壁智能MiniCPM-V 4.6，1B多模態(tài)卷出新高度

2026-05-13 14:18:42　來源: 機器之心Pro

河北舉報

分享至

編輯｜+0

在過去的幾年里，Scaling Law 被整個 AI 行業(yè)奉為圭臬。大家普遍認為，模型越大，參數越多，其涌現出的邏輯推理與世界知識就越強。

但大模型的巨額推理成本、不可控的網絡延遲以及嚴苛的數據隱私風險，讓真正的 AI 普惠成了一個偽命題。性能、時效、并發(fā)，構成了大模型落地時難以逾越的「不可能三角」。

今年是 AI 應用大規(guī)模落地的一年，當我們真正審視 AI 普惠的現實需求時，會發(fā)現一個反常識的演進趨勢：在某些維度上，參數規(guī)模更小的模型，反而能爆發(fā)出更高的效率與特定場景下的性能優(yōu)勢。

其實早有廠商注意到了端側落地和云端降本的現實需求，悄悄在 1B（十億）參數規(guī)模以下的端側模型賽道上開始布局。

有人可能會問，這么小的模型有什么用？

在真實的業(yè)務場景里，這些端側模型正在干著最基礎但最實用的活。

它們體積小巧，既能在手機端毫秒級離線運行、嚴格保護隱私，也能扛住千萬級并發(fā)下的低延遲意圖識別。在 RAG 系統(tǒng)里，充當著智能路由器和數據清洗工，分流閑聊請求、壓縮大模型調用成本；配合超大模型推理時，又以投機采樣技術將預測速度拉高 2 至 3 倍。更關鍵的是，在信息提取、格式轉換等窄任務上，微調后的端側模型幾乎零幻覺，準確率甚至超過百億大模型——論單點專精，云端大模型未必打得過它。

從阿里的 Qwen3.5-0.8B 到谷歌針對移動端的 Gemma 4 E2B-it，輕量級 LLM 正在快速接管那些追求快、穩(wěn)、省資源的輔助性任務。

5 月 11 日面壁智能正式發(fā)布并開源了 MiniCPM-V 系列新一代基礎模型——MiniCPM-V 4.6。這款模型的整體參數規(guī)模僅約 1B（1.3B），是該系列有史以來參數規(guī)模最小的一款。但在多模態(tài)綜合能力上，它卻成功超越了被視為標桿的阿里 Qwen3.5-0.8B 和谷歌 Gemma 4 E2B-it，做到了「尺寸更小、效率更高、性能更好」。

Hugging Face：https://huggingface.co/openbmb/MiniCPM-V-4.6

GitHub：https://github.com/OpenBMB/MiniCPM-V

Modelscope：https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

Web Demo：https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

App Demo：https://github.com/OpenBMB/MiniCPM-V-Apps

從 2024 年 4 月初次驚艷亮相至今，MiniCPM-V 已經在汽車、PC、手機、智能家居等終端場景中實現了廣泛的商業(yè)落地。

此次 MiniCPM-V 4.6 的發(fā)布，不僅在參數規(guī)模、推理速度、計算成本等多個維度都有明顯提升，也讓面壁智能在側端多模態(tài)開源領域站穩(wěn)了腳跟。這距離面壁智能「智周萬物」的愿景，又邁出了堅實的一大步。

為什么說 1B 的

MiniCPM-4.6 是「端側第一」？

評價一款端側模型，不能僅看參數大小，更要看它在極端受限的算力環(huán)境下，能爆發(fā)出多大的「智能密度」。不同尺寸的模型運行門檻截然不同，參數越小，意味著運行門檻越低、速度越快，能夠完美適配更廣泛的芯片和算力環(huán)境。

MiniCPM-V 4.6 的「端側第一」，是通過實打實的多模態(tài)綜合能力與極致的推理效率雙重驗證的。

在業(yè)內公認的幾大核心評測基準中，MiniCPM-V 4.6 展現出了遠超其體量的綜合實力。根據最新的評測數據，其在同尺寸模型范圍內的智能密度位列最高。

全面超越 Qwen3.5-0.8B：目前業(yè)內最新的 1B 左右多模態(tài)標桿是 Qwen3.5-0.8B，而 MiniCPM-4.6 版本在大部分圖文理解任務等基礎能力上均實現了超越。

極致的 Token 利用率：在權威的 Artificial Analysis 評測體系中，MiniCPM-V 4.6 僅使用了相當于 Qwen3.5-0.8B 2.5% 的 Token 吞吐量，就取得了超越后者的成績。這種對上下文的高效利用，是端側模型極為看重的特質。

對于「高并發(fā)」的云端工業(yè)場景和算力功耗受限的終端硬件來說，推理速度和吞吐量是核心指標。得益于 16 倍視覺 Token 壓縮這一核心技術，我們直接來看 MiniCPM-V 4.6 在 RTX 4090 + vLLM 推理環(huán)境下的實測表現，其在兩大關鍵維度上同時建立起了顯著的優(yōu)勢：

首先，在單并發(fā)首字響應延遲（TTFT）上，MiniCPM-V 4.6 表現出了極高的穩(wěn)定性。它幾乎把「分辨率——延遲」曲線壓得平坦。當處理 31362 的超高清大圖時，其首響僅需 75.7 毫秒，較同基座規(guī)模的 Qwen3.5-0.8B 快 2.2 倍。這意味著用戶在 4090 顯卡上加載一張 4K 級別的照片進行提問時，模型幾乎能做到「秒回」。

其次，在高并發(fā)吞吐量上優(yōu)勢同樣亮眼。在輸出長度為 200 token 的設定下，RTX 4090 單卡處理 13442 分辨率圖片的吞吐量可達 2624 token/s，即每秒可處理 14.3 張圖片，是 Qwen3.5-0.8B 的 1.4 倍。這意味著同樣的硬件部署 MiniCPM-V 4.6，可以承載數倍的線上業(yè)務流量。

這兩個維度共同指向同一個結論——MiniCPM-V 4.6 用更短的視覺序列、更小的 KV-Cache 占用，把多模態(tài)推理的端側體感與云側 ROI（投資回報率）同時推到了新的高度。

為了直觀感受，我們來看看 MiniCPM-V 4.6 單在實際的移動端設備（iPhone 17）上的運行效果。

讓 AI 觀察圖片識別物體

我們向 MiniCPM-V 4.6 喂入了一張 3024x3024 分辨率（近千萬像素）的實拍食物原圖，經過預處理后，正如前文數據所印證的那樣，得益于模型極小的 KV-Cache 占用，一旦跨過最耗時的預處理門檻，極度精簡的視覺序列交接給 1B 語言基座后，文本生成速度便瞬間起飛。在我們順著圖片細節(jié)進行二次追問時，不需要重新經歷漫長的讀圖，直接實現了幾乎「零預熱」的秒回響應，真正做到了毫秒級的連續(xù)解碼。

復雜的文字識別

再看文本類任務，可以看到經過預處理后，無論是提取文本還是翻譯成多種語言，MiniCPM-V 4.6 的表現都可以用「迅雷不及掩耳」來形容。按下發(fā)送鍵的瞬間，文字流便如流水般涌出，精準的圖文解析能力和極低的首答延遲，真正讓人感受到 AI 已經融入了設備的「血液」中，而非遙遠的云端接口。

扒開論文，

看 MiniCPM-V 4.6 的技術邏輯

為什么在參數量極小（僅 1B）、甚至與競品相近的情況下，MiniCPM-V 4.6 能夠爆發(fā)出如此驚人的推理效率和算力性價比？甚至實現了「參數量略大，效率卻大幅反超」的奇跡？

答案藏在面壁智能與清華大學團隊最新聯(lián)合研發(fā)的第四代 LLaVA-UHD (v4)架構之中。針對高分辨率圖像處理中的視覺編碼效率問題，研發(fā)團隊做了兩項關鍵的技術改進。

創(chuàng)新一：ViT 內部視覺 Token 早壓縮

目前社區(qū)處理高分辨率圖像的主流方案通常是全局編碼（Global Encoding），即保留原始分辨率，將全圖直接送入視覺編碼器。但這會導致注意力機制的計算開銷隨著分辨率的提升呈二次方級別爆炸。

LLaVA-UHD v4 首先采用了切片編碼，將大圖分割為多個區(qū)塊進行處理，從結構上規(guī)避了二次方的算力膨脹，并通過實驗證明切片編碼能提供比全局編碼更豐富的特征表示，下游性能更好。

然而，切片編碼雖然解決了全局注意力的計算爆炸，但高分辨率圖片依然會生成極其龐大的視覺 Token 序列，給后端的語言模型帶來沉重的推理負擔。現有的主流優(yōu)化方案，大多是在 ViT 提取完所有特征之后，再進行 Token 壓縮。這種做法治標不治本，僅僅減輕了 LLM 的負擔，卻完全沒有降低龐大的視覺編碼器內部的計算量。

面壁智能的解法是：將壓縮動作「前置」。

為了實現極致高效，LLaVA-UHD v4 設計了一種早期 ViT 內壓縮模塊。直覺上，壓縮越早進行，后續(xù)絕大部分的 ViT 層需要處理的 Token 就越少，計算量自然大幅下降。但難點在于，如果在 ViT 淺層簡單粗暴地插入隨機初始化的下采樣模塊，會嚴重破壞模型在預訓練階段辛苦學到的視覺表征，不僅訓練代價極其高昂，還會導致模型「變笨」。

為此，研發(fā)團隊巧妙地引入了窗口注意力機制，在 Token 合并前增強鄰近 Token 的上下文交互；同時，通過復用相鄰預訓練 ViT 層的參數，實現了參數的平滑初始化，最大限度地減小了對視覺表征的擾動。

這一架構創(chuàng)新，使得視覺 Token 壓縮能夠穩(wěn)定前移至 ViT 淺層，在保持下游任務性能完全不掉點的前提下，將視覺編碼階段的浮點運算量暴降了 55.8%（節(jié)省了約一半的圖像編碼開銷）。這也是為什么 MiniCPM-V 4.6 能夠在處理高清大圖時，不僅看得清，而且跑得飛快。

創(chuàng)新二：4 倍 / 16 倍混合視覺 Token 壓縮率

視覺 Token 的壓縮率直接影響到顯存占用、首響延遲、推理吞吐和功耗等關鍵指標。目前市面上的多模態(tài)模型，絕大部分只能做到 4 倍的壓縮率。

面壁智能的 MiniCPM-V 系列從 2024 年初就開始死磕 16 倍壓縮率。在此之前的版本中，開發(fā)者只能在「4 倍」和「16 倍」之間二選一。但在 MiniCPM-V 4.6 中，面壁智能實現了「魚與熊掌兼得」：

4 倍壓縮模式：性能拉滿，精度極高，適合需要細粒度視覺解析的場景。
16 倍壓縮模式：速度起飛，吞吐量爆表，既利于在算力受限的終端硬件上落地，又能以極低的成本承接巨大的云端業(yè)務流量，滿足「高并發(fā)」的工業(yè)級需求。

16 倍壓縮率的含金量有多高？我們可以看一個快手推薦算法的真實工業(yè)案例。

在快手 2025 年發(fā)布的 OneRec 推薦大模型中，系統(tǒng)需要處理海量短視頻的字幕、標簽、ASR、OCR、封面圖等多模態(tài)數據。由于用戶體量龐大，并發(fā)請求量極高，快手最終選用 MiniCPM-V-8B 來處理底層多模態(tài)數據的特征提取，承接了快手短視頻推薦主場景高達 25% 的請求。這個案例說明 MiniCPM-V 系列在高并發(fā)工業(yè)場景下的可用性和成本優(yōu)勢是經過實際驗證的。

一張 4090 就能爆改的「保姆級」基座

評判一個開源模型的生命力，不僅要看它在榜單上如何稱王，更要看它能否迅速落到開發(fā)者的代碼庫里、跑在業(yè)務的服務器上發(fā)光發(fā)熱。

本次發(fā)布，面壁智能不僅帶來了一個極其能打的 1B 模型，更為社區(qū)開發(fā)者、高校研究團隊以及初創(chuàng)公司準備了一套從微調（Fine-tuning）到部署（Deployment）開箱即用的「保姆級」二次開發(fā)基石。它天生就是為了被「爆改」而生的。

打破算力壁壘：消費級顯卡即刻開跑

大模型的微調往往讓人聯(lián)想到昂貴的 A100/H100 算力集群，這讓很多獨立開發(fā)者和中小型企業(yè)望而卻步。但 MiniCPM-V 4.6 得益于其極致精簡的 1B 參數量，將定制微調的門檻大幅降低。

開發(fā)者只需一張 RTX 4090 等消費級顯卡，就能跑通完整的微調流程。這意味著驗證一個想法、定制一個垂類場景模型（如工業(yè)流水線上的缺陷檢測、金融領域的復雜財報解析），不需要申請大量算力預算，在本地 PC 上就能完成。

擁抱主流生態(tài)：微調與推理全鏈路打通

「好用」是開源生態(tài)的核心。為了讓開發(fā)者徹底告別配環(huán)境配到崩潰的「折磨」，MiniCPM-V 4.6 實現了與當前主流開源工具鏈的全面無縫對接：

微調框架全面原生支持：官方原生深度適配了 ms-swift 與 LLaMA-Factory 等業(yè)內最受歡迎的微調框架。無論你是偏好代碼還是可視化操作，只需準備好自己的場景數據，修改幾行配置文件，一鍵即可拉起專屬模型的訓練，官方甚至貼心地提供了中英雙語的 CookBook 教程。
推理框架全家桶兼容：在模型部署端，官方同步適配了目前最頂級的幾大高性能推理框架：vLLM、SGLang、llama.cpp 和 Ollama。

如果你追求云端極致并發(fā)，可以使用 vLLM 或 SGLang；如果你要在沒有獨立顯卡的輕薄本、Mac 甚至手機上進行純 CPU/端側推理，llama.cpp 和 Ollama 能夠讓你游刃有余地完成高效部署。

極低的顯存占用、極高的并發(fā)吞吐量、完備的上下游工具鏈，使 MiniCPM-V 4.6 成為了構建高并發(fā)、極速響應多模態(tài)應用的高性價比首選。

不止于 1B：

面壁智能的端側「長期主義」

MiniCPM-V 4.6 的這次表現，背后是面壁智能在端側多模態(tài)領域多年的持續(xù)積累。回顧 MiniCPM-V 系列的發(fā)展路徑，可以看到一條以「智能密度」為核心的清晰脈絡：

MiniCPM-V 2.0（2.8B，2024 年 4 月）：確立了「以小博大」的基調，在 7B 以下模型中排名靠前，在 OCRBench 上達到開源最優(yōu)水平，展現了較強的高清圖像解析能力和防幻覺能力。
MiniCPM-V 2.5（8B，2024 年 5 月）：支持 30 多種語言，OCR 成績達到 SOTA，綜合性能超過 GPT-4V 和 Gemini Pro Vision 等商業(yè)模型。
MiniCPM-V 2.6（8B，2024 年 8 月）：首次在端側同時支持單圖、多圖聯(lián)合理解和實時視頻推理，量化后僅需 6G 內存，在主流手機和 iPad 上實現了對標 GPT-4V 水平的交互。
MiniCPM-V 4.0（4.1B，2025 年）：參數減半但性能提升，專為移動端優(yōu)化，在新款手機上實現了低延遲的實時交互，在 OpenCompass 等榜單取得同級 SOTA。
MiniCPM-V 4.5（8B，2025 年）：行業(yè)首個具備較高幀率視頻理解能力的多模態(tài)模型，獨創(chuàng) 3D-Resampler 架構支持最高 10 FPS 長視頻解析，配合 96 倍視頻 Token 壓縮率，綜合能力超過 72B 開源模型，也超越了 GPT-4o-latest。

從 2.0 到 4.6，MiniCPM-V 系列一步步拓展了端側模型的能力邊界：超高清長文檔解析、連續(xù)視頻理解、多圖聯(lián)合推理、高密度文本提取，這些任務在端側模型上逐漸成為可能。這也讓該系列在聯(lián)想、吉利、上汽大眾、廣汽等企業(yè)的實際業(yè)務中落地。

更令人振奮的是，面壁智能在端側多模態(tài)的路線早已獲得了國際頂尖學術共同體的認可。其關于「密度定律」的相關成果成功發(fā)表于國際頂級學術期刊《Nature Communications》。

2024 年 6 月，斯坦福一個團隊被發(fā)現直接套用了 MiniCPM-V 2.5 的成果，隨后公開致歉。這件事從另一個角度說明，中國多模態(tài)大模型的研究已經走到了全球開源社區(qū)的前列，不再只是在別人的基礎上做二次開發(fā)。

結語

回到文章開篇的問題：1B 以下的端側模型，到底有什么實際意義？

當我們被云端千億參數巨獸的發(fā)布會不斷轟炸時，很容易陷入一種唯參數論的迷思。然而，AI 的最終目的不是停留在機房里炫技，而是融入人類生活的每一個角落。

MiniCPM-V 4.6 給出了一個具體的答案：端側模型的意義，在于用更低的成本、更快的速度、更好的隱私保護，把視覺理解和認知推理能力塞進手機、電腦、汽車和智能家電里。

當一款 1B 參數的模型，通過架構優(yōu)化和混合 Token 壓縮，在性能上超過同類、在速度上實現單卡數千 Token 的秒級吞吐，且讓開發(fā)者用一張消費級顯卡就能定制，它就已經不再是一個簡單的「技術 Demo」，而是加速整個邊緣計算生態(tài)全面爆發(fā)的強勁催化劑。

大廠卷端側模型，是因為未來屬于邊緣側。而面壁智能與它的 MiniCPM-V 家族，正在這條通往「智周萬物」的道路上，刻下屬于中國架構的深刻印記。

文中視頻鏈接：https://mp.weixin.qq.com/s/jN5OJCrHnaPSjINfM1yQQA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.