![]()
編輯|+0
在過去的幾年里,Scaling Law 被整個 AI 行業(yè)奉為圭臬。大家普遍認(rèn)為,模型越大,參數(shù)越多,其涌現(xiàn)出的邏輯推理與世界知識就越強(qiáng)。
但大模型的巨額推理成本、不可控的網(wǎng)絡(luò)延遲以及嚴(yán)苛的數(shù)據(jù)隱私風(fēng)險,讓真正的 AI 普惠成了一個偽命題。性能、時效、并發(fā),構(gòu)成了大模型落地時難以逾越的「不可能三角」。
今年是 AI 應(yīng)用大規(guī)模落地的一年,當(dāng)我們真正審視 AI 普惠的現(xiàn)實需求時,會發(fā)現(xiàn)一個反常識的演進(jìn)趨勢:在某些維度上,參數(shù)規(guī)模更小的模型,反而能爆發(fā)出更高的效率與特定場景下的性能優(yōu)勢。
其實早有廠商注意到了端側(cè)落地和云端降本的現(xiàn)實需求,悄悄在 1B(十億)參數(shù)規(guī)模以下的端側(cè)模型賽道上開始布局。
有人可能會問,這么小的模型有什么用?
在真實的業(yè)務(wù)場景里,這些端側(cè)模型正在干著最基礎(chǔ)但最實用的活。
它們體積小巧,既能在手機(jī)端毫秒級離線運行、嚴(yán)格保護(hù)隱私,也能扛住千萬級并發(fā)下的低延遲意圖識別。在 RAG 系統(tǒng)里,充當(dāng)著智能路由器和數(shù)據(jù)清洗工,分流閑聊請求、壓縮大模型調(diào)用成本;配合超大模型推理時,又以投機(jī)采樣技術(shù)將預(yù)測速度拉高 2 至 3 倍。更關(guān)鍵的是,在信息提取、格式轉(zhuǎn)換等窄任務(wù)上,微調(diào)后的端側(cè)模型幾乎零幻覺,準(zhǔn)確率甚至超過百億大模型——論單點專精,云端大模型未必打得過它。
從阿里的 Qwen3.5-0.8B 到谷歌針對移動端的 Gemma 4 E2B-it,輕量級 LLM 正在快速接管那些追求快、穩(wěn)、省資源的輔助性任務(wù)。
5 月 11 日面壁智能正式發(fā)布并開源了 MiniCPM-V 系列新一代基礎(chǔ)模型——MiniCPM-V 4.6。這款模型的整體參數(shù)規(guī)模僅約 1B(1.3B),是該系列有史以來參數(shù)規(guī)模最小的一款。但在多模態(tài)綜合能力上,它卻成功超越了被視為標(biāo)桿的阿里 Qwen3.5-0.8B 和谷歌 Gemma 4 E2B-it,做到了「尺寸更小、效率更高、性能更好」。
![]()
Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4.6
GitHub:https://github.com/OpenBMB/MiniCPM-V
Modelscope:https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
Web Demo:https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
App Demo:https://github.com/OpenBMB/MiniCPM-V-Apps
從 2024 年 4 月初次驚艷亮相至今,MiniCPM-V 已經(jīng)在汽車、PC、手機(jī)、智能家居等終端場景中實現(xiàn)了廣泛的商業(yè)落地。
此次 MiniCPM-V 4.6 的發(fā)布,不僅在參數(shù)規(guī)模、推理速度、計算成本等多個維度都有明顯提升,也讓面壁智能在側(cè)端多模態(tài)開源領(lǐng)域站穩(wěn)了腳跟。這距離面壁智能「智周萬物」的愿景,又邁出了堅實的一大步。
為什么說 1B 的
MiniCPM-4.6 是「端側(cè)第一」?
評價一款端側(cè)模型,不能僅看參數(shù)大小,更要看它在極端受限的算力環(huán)境下,能爆發(fā)出多大的「智能密度」。不同尺寸的模型運行門檻截然不同,參數(shù)越小,意味著運行門檻越低、速度越快,能夠完美適配更廣泛的芯片和算力環(huán)境。
MiniCPM-V 4.6 的「端側(cè)第一」,是通過實打?qū)嵉亩嗄B(tài)綜合能力與極致的推理效率雙重驗證的。
在業(yè)內(nèi)公認(rèn)的幾大核心評測基準(zhǔn)中,MiniCPM-V 4.6 展現(xiàn)出了遠(yuǎn)超其體量的綜合實力。根據(jù)最新的評測數(shù)據(jù),其在同尺寸模型范圍內(nèi)的智能密度位列最高。
![]()
- 全面超越 Qwen3.5-0.8B:目前業(yè)內(nèi)最新的 1B 左右多模態(tài)標(biāo)桿是 Qwen3.5-0.8B,而 MiniCPM-4.6 版本在大部分圖文理解任務(wù)等基礎(chǔ)能力上均實現(xiàn)了超越。
![]()
- 極致的 Token 利用率:在權(quán)威的 Artificial Analysis 評測體系中,MiniCPM-V 4.6 僅使用了相當(dāng)于 Qwen3.5-0.8B 2.5% 的 Token 吞吐量,就取得了超越后者的成績。這種對上下文的高效利用,是端側(cè)模型極為看重的特質(zhì)。
對于「高并發(fā)」的云端工業(yè)場景和算力功耗受限的終端硬件來說,推理速度和吞吐量是核心指標(biāo)。得益于 16 倍視覺 Token 壓縮這一核心技術(shù),我們直接來看 MiniCPM-V 4.6 在 RTX 4090 + vLLM 推理環(huán)境下的實測表現(xiàn),其在兩大關(guān)鍵維度上同時建立起了顯著的優(yōu)勢:
首先,在單并發(fā)首字響應(yīng)延遲(TTFT)上,MiniCPM-V 4.6 表現(xiàn)出了極高的穩(wěn)定性。它幾乎把「分辨率——延遲」曲線壓得平坦。當(dāng)處理 31362 的超高清大圖時,其首響僅需 75.7 毫秒,較同基座規(guī)模的 Qwen3.5-0.8B 快 2.2 倍。這意味著用戶在 4090 顯卡上加載一張 4K 級別的照片進(jìn)行提問時,模型幾乎能做到「秒回」。
![]()
其次,在高并發(fā)吞吐量上優(yōu)勢同樣亮眼。在輸出長度為 200 token 的設(shè)定下,RTX 4090 單卡處理 13442 分辨率圖片的吞吐量可達(dá) 2624 token/s,即每秒可處理 14.3 張圖片,是 Qwen3.5-0.8B 的 1.4 倍。這意味著同樣的硬件部署 MiniCPM-V 4.6,可以承載數(shù)倍的線上業(yè)務(wù)流量。
![]()
這兩個維度共同指向同一個結(jié)論——MiniCPM-V 4.6 用更短的視覺序列、更小的 KV-Cache 占用,把多模態(tài)推理的端側(cè)體感與云側(cè) ROI(投資回報率)同時推到了新的高度。
為了直觀感受,我們來看看 MiniCPM-V 4.6 單在實際的移動端設(shè)備(iPhone 17)上的運行效果。
- 讓 AI 觀察圖片識別物體
![]()
我們向 MiniCPM-V 4.6 喂入了一張 3024x3024 分辨率(近千萬像素)的實拍食物原圖,經(jīng)過預(yù)處理后,正如前文數(shù)據(jù)所印證的那樣,得益于模型極小的 KV-Cache 占用,一旦跨過最耗時的預(yù)處理門檻,極度精簡的視覺序列交接給 1B 語言基座后,文本生成速度便瞬間起飛。在我們順著圖片細(xì)節(jié)進(jìn)行二次追問時,不需要重新經(jīng)歷漫長的讀圖,直接實現(xiàn)了幾乎「零預(yù)熱」的秒回響應(yīng),真正做到了毫秒級的連續(xù)解碼。
- 復(fù)雜的文字識別
![]()
再看文本類任務(wù),可以看到經(jīng)過預(yù)處理后,無論是提取文本還是翻譯成多種語言,MiniCPM-V 4.6 的表現(xiàn)都可以用「迅雷不及掩耳」來形容。按下發(fā)送鍵的瞬間,文字流便如流水般涌出,精準(zhǔn)的圖文解析能力和極低的首答延遲,真正讓人感受到 AI 已經(jīng)融入了設(shè)備的「血液」中,而非遙遠(yuǎn)的云端接口。
扒開論文,
看 MiniCPM-V 4.6 的技術(shù)邏輯
為什么在參數(shù)量極小(僅 1B)、甚至與競品相近的情況下,MiniCPM-V 4.6 能夠爆發(fā)出如此驚人的推理效率和算力性價比?甚至實現(xiàn)了「參數(shù)量略大,效率卻大幅反超」的奇跡?
答案藏在面壁智能與清華大學(xué)團(tuán)隊最新聯(lián)合研發(fā)的第四代 LLaVA-UHD (v4)架構(gòu)之中。針對高分辨率圖像處理中的視覺編碼效率問題,研發(fā)團(tuán)隊做了兩項關(guān)鍵的技術(shù)改進(jìn)。
創(chuàng)新一:ViT 內(nèi)部視覺 Token 早壓縮
目前社區(qū)處理高分辨率圖像的主流方案通常是全局編碼(Global Encoding),即保留原始分辨率,將全圖直接送入視覺編碼器。但這會導(dǎo)致注意力機(jī)制的計算開銷隨著分辨率的提升呈二次方級別爆炸。
![]()
LLaVA-UHD v4 首先采用了切片編碼,將大圖分割為多個區(qū)塊進(jìn)行處理,從結(jié)構(gòu)上規(guī)避了二次方的算力膨脹,并通過實驗證明切片編碼能提供比全局編碼更豐富的特征表示,下游性能更好。
然而,切片編碼雖然解決了全局注意力的計算爆炸,但高分辨率圖片依然會生成極其龐大的視覺 Token 序列,給后端的語言模型帶來沉重的推理負(fù)擔(dān)。現(xiàn)有的主流優(yōu)化方案,大多是在 ViT 提取完所有特征之后,再進(jìn)行 Token 壓縮。這種做法治標(biāo)不治本,僅僅減輕了 LLM 的負(fù)擔(dān),卻完全沒有降低龐大的視覺編碼器內(nèi)部的計算量。
面壁智能的解法是:將壓縮動作「前置」。
為了實現(xiàn)極致高效,LLaVA-UHD v4 設(shè)計了一種早期 ViT 內(nèi)壓縮模塊。直覺上,壓縮越早進(jìn)行,后續(xù)絕大部分的 ViT 層需要處理的 Token 就越少,計算量自然大幅下降。但難點在于,如果在 ViT 淺層簡單粗暴地插入隨機(jī)初始化的下采樣模塊,會嚴(yán)重破壞模型在預(yù)訓(xùn)練階段辛苦學(xué)到的視覺表征,不僅訓(xùn)練代價極其高昂,還會導(dǎo)致模型「變笨」。
為此,研發(fā)團(tuán)隊巧妙地引入了窗口注意力機(jī)制,在 Token 合并前增強(qiáng)鄰近 Token 的上下文交互;同時,通過復(fù)用相鄰預(yù)訓(xùn)練 ViT 層的參數(shù),實現(xiàn)了參數(shù)的平滑初始化,最大限度地減小了對視覺表征的擾動。
這一架構(gòu)創(chuàng)新,使得視覺 Token 壓縮能夠穩(wěn)定前移至 ViT 淺層,在保持下游任務(wù)性能完全不掉點的前提下,將視覺編碼階段的浮點運算量暴降了 55.8%(節(jié)省了約一半的圖像編碼開銷)。這也是為什么 MiniCPM-V 4.6 能夠在處理高清大圖時,不僅看得清,而且跑得飛快。
創(chuàng)新二:4 倍 / 16 倍混合視覺 Token 壓縮率
視覺 Token 的壓縮率直接影響到顯存占用、首響延遲、推理吞吐和功耗等關(guān)鍵指標(biāo)。目前市面上的多模態(tài)模型,絕大部分只能做到 4 倍的壓縮率。
面壁智能的 MiniCPM-V 系列從 2024 年初就開始死磕 16 倍壓縮率。在此之前的版本中,開發(fā)者只能在「4 倍」和「16 倍」之間二選一。但在 MiniCPM-V 4.6 中,面壁智能實現(xiàn)了「魚與熊掌兼得」:
- 4 倍壓縮模式:性能拉滿,精度極高,適合需要細(xì)粒度視覺解析的場景。
- 16 倍壓縮模式:速度起飛,吞吐量爆表,既利于在算力受限的終端硬件上落地,又能以極低的成本承接巨大的云端業(yè)務(wù)流量,滿足「高并發(fā)」的工業(yè)級需求。
16 倍壓縮率的含金量有多高?我們可以看一個快手推薦算法的真實工業(yè)案例。
![]()
在快手 2025 年發(fā)布的 OneRec 推薦大模型中,系統(tǒng)需要處理海量短視頻的字幕、標(biāo)簽、ASR、OCR、封面圖等多模態(tài)數(shù)據(jù)。由于用戶體量龐大,并發(fā)請求量極高,快手最終選用 MiniCPM-V-8B 來處理底層多模態(tài)數(shù)據(jù)的特征提取,承接了快手短視頻推薦主場景高達(dá) 25% 的請求。這個案例說明 MiniCPM-V 系列在高并發(fā)工業(yè)場景下的可用性和成本優(yōu)勢是經(jīng)過實際驗證的。
一張 4090 就能爆改的「保姆級」基座
評判一個開源模型的生命力,不僅要看它在榜單上如何稱王,更要看它能否迅速落到開發(fā)者的代碼庫里、跑在業(yè)務(wù)的服務(wù)器上發(fā)光發(fā)熱。
本次發(fā)布,面壁智能不僅帶來了一個極其能打的 1B 模型,更為社區(qū)開發(fā)者、高校研究團(tuán)隊以及初創(chuàng)公司準(zhǔn)備了一套從微調(diào)(Fine-tuning)到部署(Deployment)開箱即用的「保姆級」二次開發(fā)基石。它天生就是為了被「爆改」而生的。
打破算力壁壘:消費級顯卡即刻開跑
大模型的微調(diào)往往讓人聯(lián)想到昂貴的 A100/H100 算力集群,這讓很多獨立開發(fā)者和中小型企業(yè)望而卻步。但 MiniCPM-V 4.6 得益于其極致精簡的 1B 參數(shù)量,將定制微調(diào)的門檻大幅降低。
開發(fā)者只需一張 RTX 4090 等消費級顯卡,就能跑通完整的微調(diào)流程。這意味著驗證一個想法、定制一個垂類場景模型(如工業(yè)流水線上的缺陷檢測、金融領(lǐng)域的復(fù)雜財報解析),不需要申請大量算力預(yù)算,在本地 PC 上就能完成。
擁抱主流生態(tài):微調(diào)與推理全鏈路打通
「好用」是開源生態(tài)的核心。為了讓開發(fā)者徹底告別配環(huán)境配到崩潰的「折磨」,MiniCPM-V 4.6 實現(xiàn)了與當(dāng)前主流開源工具鏈的全面無縫對接:
- 微調(diào)框架全面原生支持:官方原生深度適配了 ms-swift 與 LLaMA-Factory 等業(yè)內(nèi)最受歡迎的微調(diào)框架。無論你是偏好代碼還是可視化操作,只需準(zhǔn)備好自己的場景數(shù)據(jù),修改幾行配置文件,一鍵即可拉起專屬模型的訓(xùn)練,官方甚至貼心地提供了中英雙語的 CookBook 教程。
- 推理框架全家桶兼容:在模型部署端,官方同步適配了目前最頂級的幾大高性能推理框架:vLLM、SGLang、llama.cpp 和 Ollama。
如果你追求云端極致并發(fā),可以使用 vLLM 或 SGLang;如果你要在沒有獨立顯卡的輕薄本、Mac 甚至手機(jī)上進(jìn)行純 CPU/端側(cè)推理,llama.cpp 和 Ollama 能夠讓你游刃有余地完成高效部署。
極低的顯存占用、極高的并發(fā)吞吐量、完備的上下游工具鏈,使 MiniCPM-V 4.6 成為了構(gòu)建高并發(fā)、極速響應(yīng)多模態(tài)應(yīng)用的高性價比首選。
不止于 1B:
面壁智能的端側(cè)「長期主義」
MiniCPM-V 4.6 的這次表現(xiàn),背后是面壁智能在端側(cè)多模態(tài)領(lǐng)域多年的持續(xù)積累。回顧 MiniCPM-V 系列的發(fā)展路徑,可以看到一條以「智能密度」為核心的清晰脈絡(luò):
- MiniCPM-V 2.0(2.8B,2024 年 4 月):確立了「以小博大」的基調(diào),在 7B 以下模型中排名靠前,在 OCRBench 上達(dá)到開源最優(yōu)水平,展現(xiàn)了較強(qiáng)的高清圖像解析能力和防幻覺能力。
- MiniCPM-V 2.5(8B,2024 年 5 月):支持 30 多種語言,OCR 成績達(dá)到 SOTA,綜合性能超過 GPT-4V 和 Gemini Pro Vision 等商業(yè)模型。
- MiniCPM-V 2.6(8B,2024 年 8 月):首次在端側(cè)同時支持單圖、多圖聯(lián)合理解和實時視頻推理,量化后僅需 6G 內(nèi)存,在主流手機(jī)和 iPad 上實現(xiàn)了對標(biāo) GPT-4V 水平的交互。
- MiniCPM-V 4.0(4.1B,2025 年):參數(shù)減半但性能提升,專為移動端優(yōu)化,在新款手機(jī)上實現(xiàn)了低延遲的實時交互,在 OpenCompass 等榜單取得同級 SOTA。
- MiniCPM-V 4.5(8B,2025 年):行業(yè)首個具備較高幀率視頻理解能力的多模態(tài)模型,獨創(chuàng) 3D-Resampler 架構(gòu)支持最高 10 FPS 長視頻解析,配合 96 倍視頻 Token 壓縮率,綜合能力超過 72B 開源模型,也超越了 GPT-4o-latest。
從 2.0 到 4.6,MiniCPM-V 系列一步步拓展了端側(cè)模型的能力邊界:超高清長文檔解析、連續(xù)視頻理解、多圖聯(lián)合推理、高密度文本提取,這些任務(wù)在端側(cè)模型上逐漸成為可能。這也讓該系列在聯(lián)想、吉利、上汽大眾、廣汽等企業(yè)的實際業(yè)務(wù)中落地。
更令人振奮的是,面壁智能在端側(cè)多模態(tài)的路線早已獲得了國際頂尖學(xué)術(shù)共同體的認(rèn)可。其關(guān)于「密度定律」的相關(guān)成果成功發(fā)表于國際頂級學(xué)術(shù)期刊《Nature Communications》。
2024 年 6 月,斯坦福一個團(tuán)隊被發(fā)現(xiàn)直接套用了 MiniCPM-V 2.5 的成果,隨后公開致歉。這件事從另一個角度說明,中國多模態(tài)大模型的研究已經(jīng)走到了全球開源社區(qū)的前列,不再只是在別人的基礎(chǔ)上做二次開發(fā)。
結(jié)語
回到文章開篇的問題:1B 以下的端側(cè)模型,到底有什么實際意義?
當(dāng)我們被云端千億參數(shù)巨獸的發(fā)布會不斷轟炸時,很容易陷入一種唯參數(shù)論的迷思。然而,AI 的最終目的不是停留在機(jī)房里炫技,而是融入人類生活的每一個角落。
MiniCPM-V 4.6 給出了一個具體的答案:端側(cè)模型的意義,在于用更低的成本、更快的速度、更好的隱私保護(hù),把視覺理解和認(rèn)知推理能力塞進(jìn)手機(jī)、電腦、汽車和智能家電里。
當(dāng)一款 1B 參數(shù)的模型,通過架構(gòu)優(yōu)化和混合 Token 壓縮,在性能上超過同類、在速度上實現(xiàn)單卡數(shù)千 Token 的秒級吞吐,且讓開發(fā)者用一張消費級顯卡就能定制,它就已經(jīng)不再是一個簡單的「技術(shù) Demo」,而是加速整個邊緣計算生態(tài)全面爆發(fā)的強(qiáng)勁催化劑。
大廠卷端側(cè)模型,是因為未來屬于邊緣側(cè)。而面壁智能與它的 MiniCPM-V 家族,正在這條通往「智周萬物」的道路上,刻下屬于中國架構(gòu)的深刻印記。
文中視頻鏈接:https://mp.weixin.qq.com/s/jN5OJCrHnaPSjINfM1yQQA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.