作者 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
2026 年初的科技圈發(fā)生了一個(gè)很有意思的現(xiàn)象:二手市場上的 Mac Mini 突然成了理財(cái)產(chǎn)品,價(jià)格一路飆升。
名為 OpenClaw(以及其前身 Moltbot)的開源項(xiàng)目在 GitHub 上爆火,一夜之間,全球的開發(fā)者和極客們似乎達(dá)成了一種共識(shí):我們不再滿足于在網(wǎng)頁框里和 ChatGPT 聊天,我們需要一個(gè) Agent(智能體),一個(gè)能接管我的鼠標(biāo)鍵盤、能幫我整理本地文件、能像私人管家一樣處理繁雜事務(wù)的“數(shù)字分身”。
但這股狂熱背后,很快就暴露出了一個(gè)巨大的邏輯黑洞。
當(dāng)你興奮地在本地部署好 OpenClaw,看著它接管你的電腦時(shí),你很快會(huì)發(fā)現(xiàn)——這個(gè)所謂的“本地管家”,本質(zhì)上是一個(gè)把你的隱私數(shù)據(jù)打包發(fā)送給云端 API 的搬運(yùn)工。每一次屏幕截圖的分析,每一次語音指令的理解,都要跨越幾千公里的光纜,傳到某個(gè)不知名的數(shù)據(jù)中心,計(jì)算完再傳回來。
延遲、隱私泄露、斷網(wǎng)即智障。這三個(gè)幽靈,讓所謂的“個(gè)人智能”變成了一個(gè)隨時(shí)可能斷線的風(fēng)箏。
也是在這個(gè)時(shí)間節(jié)點(diǎn),我走進(jìn)了五道口科建大廈。比起外面對(duì)于 Agent 概念的狂熱追捧,這里正在進(jìn)行的一場發(fā)布顯得有些“反潮流”。DeepSeek、Qwen、GLM 皆有消息要在近期發(fā)布大參數(shù)模型,而面壁智能則是一如既往地掏出了一個(gè)僅有 9B(90億參數(shù))的小模型 MiniCPM-o 4.5,以及一塊看起來樸實(shí)無華的硬件開發(fā)板 松果派(Pinea Pi)。
他們?cè)噲D回答的問題,正是當(dāng)今熱潮下最被忽視的那個(gè)痛點(diǎn):如果 AI 真的要接管我們的生活,它能不能把“腦子”長在它自己的“身體”里?
這場對(duì)話,無關(guān)乎誰的模型跑分更高,而關(guān)乎 AI 進(jìn)化的下一個(gè)分支——從“云端的神諭”變成“指尖的直覺”。
![]()
告別“對(duì)講機(jī)”:當(dāng) AI 終于學(xué)會(huì)了“被插嘴”
在很長一段時(shí)間里,人與 AI 的語音交互——無論是 Siri 還是早期的 GPT-4o 語音模式——都被困在一個(gè)名為“回合制”的牢籠里。
這種體驗(yàn)就像是使用老式的軍用對(duì)講機(jī):你說完一句話,必須停頓,等待 VAD(語音活動(dòng)檢測)算法判定你“閉嘴”了,它才切斷麥克風(fēng),把聲音發(fā)給云端。云端處理完,再把回復(fù)發(fā)回來。
AI 在“說話”的時(shí)候,它的耳朵是聾的。
在面壁智能的演示現(xiàn)場,清華大學(xué)人工智能學(xué)院助理教授、面壁智能多模態(tài)首席科學(xué)家姚遠(yuǎn)向我們展示了什么叫“全雙工”(Full-duplex)。這不僅僅是一個(gè)通信術(shù)語,它是讓 AI 從“機(jī)器”變成“人”的關(guān)鍵一躍。
演示的場景非常生活化:一個(gè)人在白板上隨意涂鴉,一邊畫一邊跟 AI 閑聊。
畫筆剛剛落下幾根起伏的波浪線,MiniCPM-o 4.5 的聲音就響起了:“看這線條的走勢,你是打算畫一片大海嗎?”
畫畫的人并沒有停筆,也沒有按任何暫停鍵,只是隨口回了一句:“沒,你再看看。”
在傳統(tǒng)的交互邏輯里,這句話大概率會(huì)被 AI 忽略,或者因?yàn)?AI 正在說話而造成識(shí)別沖突。但在這里,AI 幾乎是毫秒級(jí)地改了口:“哦!看見那兩個(gè)圓圓的眼睛了,原來是個(gè)卡通小人啊,這表情看著挺樂呵。”
這個(gè)過程沒有那個(gè)“看門人”。MiniCPM-o 4.5 實(shí)現(xiàn)了真正的“感知不中斷”——它的“眼睛”和“耳朵”是常開的。即使它自己正在說話,它也能同時(shí)聽到你的插話,或者看到畫面的變化,并實(shí)時(shí)決定是閉嘴傾聽,還是調(diào)整話術(shù)。
官方將這種能力總結(jié)為“邊看、邊聽、主動(dòng)說”。
這背后的技術(shù)難度極高。模型需要在一個(gè)統(tǒng)一的時(shí)間軸上,同時(shí)處理輸入的視頻流、音頻流和輸出的語音流、文本流。面壁智能通過“時(shí)分復(fù)用”機(jī)制,將并行的全模態(tài)流劃分為微小的時(shí)間片,讓 9B 的小模型也能像雜技演員一樣,同時(shí)拋接好幾個(gè)球。
![]()
這帶來的改變是顛覆性的。AI 不再是一個(gè)需要你按鍵觸發(fā)的工具,它變成了一個(gè)始終在線的觀察者。
它每秒鐘都在以 1Hz 的頻率進(jìn)行決策:現(xiàn)在的環(huán)境變化重要嗎?值得我打斷主人嗎?
這種混亂、實(shí)時(shí)、多并發(fā)的交流,才是真實(shí)世界的本來面目。如果不打破“回合制”的枷鎖,AI 永遠(yuǎn)只能是像《鋼鐵俠》里早期的機(jī)械臂,而不是那個(gè)隨時(shí)能吐槽、隨時(shí)能幫忙的賈維斯。
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5
ModelScope: https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
![]()
9B 的反擊:用“密度法則”對(duì)抗“暴力美學(xué)”
這次發(fā)布的另一個(gè)爭議點(diǎn)在于參數(shù)量。在各家大廠都在卷千億甚至萬億參數(shù)的當(dāng)下,面壁為什么死磕 9B 這個(gè)小尺寸?
在與清華大學(xué)計(jì)算機(jī)系長聘教授、面壁智能首席科學(xué)家劉知遠(yuǎn)教授的交流中,他詳細(xì)解釋了一遍面壁智能看家的核心理論:Densing Law(密度法則)。
![]()
劉教授現(xiàn)場畫了個(gè)圖,講解兩個(gè) Law 之間的關(guān)系
過去幾年,行業(yè)里信奉的是 Scaling Law(尺度法則),簡單說就是大力出奇跡,模型越大越聰明。這就像早期的計(jì)算機(jī),為了更強(qiáng)的算力,把機(jī)器造得像房子一樣大。
“Scaling Law 并沒有失效,但我們不能只看這一條路。” 劉知遠(yuǎn)認(rèn)為,AI 的發(fā)展正在進(jìn)入“摩爾定律”時(shí)刻。芯片的性能提升不是靠把芯片做成足球場那么大,而是靠更先進(jìn)的光刻機(jī),在指甲蓋大小的地方塞進(jìn)更多的晶體管。
同理,AI 的未來不在于把模型做得無限大,而在于提高“知識(shí)密度”。
“我們要做大模型界的光刻機(jī)。”這是面壁智能內(nèi)部的一個(gè)核心信條。按照他們的測算,大模型的知識(shí)密度現(xiàn)在大約每 100 天就能翻一倍。這意味著,今天 9B 模型能做到的事情——全模態(tài)理解、高刷視覺識(shí)別、端到端語音對(duì)話——可能相當(dāng)于一年前 70B 甚至更大模型的能力。
![]()
僅靠 9B 參數(shù),在全模態(tài)、視覺理解、文檔解析、語音理解和生成、聲音克隆等方方面面,均做到了全模態(tài)模型 SOTA 水準(zhǔn)
MiniCPM-o 4.5 就是這個(gè)理論的最新產(chǎn)物。它把視覺理解、文檔解析、語音理解和生成、聲音克隆等能力 All in One,塞進(jìn)了一個(gè) 9B 的軀殼里。
這個(gè)判斷極其關(guān)鍵。因?yàn)?strong>只有模型足夠小,它才能跑在你的手機(jī)上,跑在你的車機(jī)里,跑在機(jī)器人那顆并不算強(qiáng)大的芯片上。
李大海在采訪中也直言:“純?cè)贫说姆桨福瑳]法解決隱私和延遲。”
回到開頭 OpenClaw 的例子。為什么大家那么渴望本地運(yùn)行?因?yàn)檎l也不想把自己的銀行賬單、私人郵件傳到云端。而對(duì)于未來的機(jī)器人、智能眼鏡來說,如果每做一個(gè)動(dòng)作都要把視頻傳到云端分析,那個(gè)高昂的推理成本和帶寬成本,足以讓任何一家商業(yè)公司破產(chǎn)。
面壁在賭一個(gè)未來:最極致的智能,一定是在端側(cè)的。 它不需要無所不知(那些百科全書式的知識(shí)可以偶爾問問云端),但它必須反應(yīng)極快、極其懂你、并且絕對(duì)安全。
![]()
松果派:一家模型公司的“越界”陽謀
如果說 MiniCPM-o 4.5 是面壁打造的“靈魂”,即將在今年年中發(fā)布的“松果派”(Pinea Pi)就是他們?cè)噲D定義的“軀體”。
這在行業(yè)里其實(shí)是個(gè)挺“非主流”的動(dòng)作。一家做算法模型的軟件公司,突然發(fā)了個(gè)硬件開發(fā)板。通常我們認(rèn)為,軟件公司做硬件,要么是想通過賣硬件賺錢(像蘋果),要么是軟件賣不動(dòng)了想換個(gè)賽道。
那么,這究竟是一款什么樣的硬件?
![]()
從拆解結(jié)構(gòu)來看,松果派與其說是一塊像樹莓派那樣的“裸板”,不如說是一個(gè)高度集成的“AI 智能體原生套件”。
它的核心是一顆算力澎湃的 Orin AGX 64G 模組,這為端側(cè)運(yùn)行 9B 這樣參數(shù)規(guī)模的模型提供了物理保障。但不同于傳統(tǒng)開發(fā)板需要你自己去買攝像頭、配麥克風(fēng)、還要被各種驅(qū)動(dòng)兼容性折磨,松果派直接在機(jī)身頂端集成了高清攝像頭和環(huán)形麥克風(fēng)陣列,并配備了主動(dòng)散熱風(fēng)扇以及 HDMI、Type-C、USB-A 和千兆網(wǎng)口等豐富接口。
換句話說,這是一個(gè)“開箱即用的物理大腦”。通電的一瞬間,住在里面的 MiniCPM-o 4.5 就擁有了眼睛和耳朵,能聽能看。對(duì)于開發(fā)者來說,這意味著你不需要懂復(fù)雜的硬件電路,只需要把它像樂高積木一樣塞進(jìn)機(jī)器狗、服務(wù)機(jī)器人或者智能座艙里,你的設(shè)備就立刻擁有了理解世界的能力。
面壁 COO 雷升濤在現(xiàn)場講了一個(gè)真實(shí)的故事。他們之前給一家車企做“遺留物提醒”功能——就是當(dāng)你下車時(shí),如果手機(jī)忘在車?yán)锪耍嚈C(jī)要提醒你。
一開始,他們把模型部署上去,延遲高達(dá) 4 秒。
你想想這個(gè)場景:你關(guān)上車門,走了兩步,甚至都進(jìn)電梯了,車機(jī)才慢悠悠地喊一聲“手機(jī)忘拿了”。這功能有啥用?
這 4 秒里,模型推理其實(shí)只占了一小部分時(shí)間。大量的時(shí)間被浪費(fèi)在了攝像頭數(shù)據(jù)的采集、編碼、傳輸、解碼,以及芯片內(nèi)存的搬運(yùn)上。因?yàn)楝F(xiàn)有的硬件架構(gòu),壓根就不是為這種“流式全模態(tài)”模型設(shè)計(jì)的。芯片廠商設(shè)計(jì)芯片時(shí),想的是怎么解碼高清電影,怎么跑王者榮耀,而不是怎么讓一個(gè)大模型同時(shí)處理視頻流和音頻流。
為了解決這個(gè)問題,他們不得不深入到底層,跟芯片廠商一起改驅(qū)動(dòng)、改架構(gòu),把延遲硬生生從 4 秒壓到了 1 秒以內(nèi)。
這讓他們意識(shí)到一個(gè)問題:如果沒有一個(gè)好的“身體”,再聰明的“大腦”也發(fā)揮不出來。
松果派的存在,就是為了“打個(gè)樣”。
它不是為了跟樹莓派搶極客市場,而是為了給整個(gè)行業(yè)——給開發(fā)者,也給芯片廠商——定義一種標(biāo)準(zhǔn):什么樣的硬件才叫 Model-Native(模型原生)?
在這個(gè)板子上,MiniCPM-o 4.5 可以跑得飛快,視頻流的處理路徑是最短的,內(nèi)存的占用是極致優(yōu)化的。他們希望通過這個(gè)板子,告訴所有的硬件廠商:“看,路要這么修,車才能跑得快。”
這一招其實(shí)是“陽謀”。面壁通過開源模型和參考硬件,正在構(gòu)建一個(gè)龐大的端側(cè)生態(tài)。我們可以看到,MiniCPM-o 4.5 已經(jīng)基于統(tǒng)一系統(tǒng)軟件棧眾智 FlagOS,在天數(shù)智芯、華為昇騰、平頭哥、海光、沐曦等 6 款國產(chǎn)主流芯片上獲得了端到端推理性能的提升。
![]()
具身智能的“最后一公里”:1Hz vs 10Hz
如果現(xiàn)在把一群 AI 圈的人放在一個(gè)房間里聊天,話題經(jīng)常會(huì)自然延伸到那個(gè)終極科幻場景——機(jī)器人。
現(xiàn)在的機(jī)器人行業(yè),其實(shí)挺尷尬的。做本體的廠商(波士頓動(dòng)力那些)把運(yùn)動(dòng)控制做得爐火純青,機(jī)器人能空翻、能跳舞。但如果你讓它“去廚房把那個(gè)紅色的杯子拿來”,它可能就傻了。
因?yàn)樗邪l(fā)達(dá)的小腦(運(yùn)動(dòng)控制),卻缺一個(gè)聰明的大腦(理解與決策)。
李大海在采訪中提出了一個(gè)非常精準(zhǔn)的“頻率分層理論”,即“1Hz vs 10Hz”。
“機(jī)器人的運(yùn)動(dòng)控制,比如保持平衡、抓取物體,屬于 10Hz 甚至更高頻的直覺反應(yīng)。”李大海解釋道,“這部分也就是我們常說的‘小腦’,目前行業(yè)解決得已經(jīng)不錯(cuò)了。但真正的瓶頸在于 1Hz 的智能。”
什么是 1Hz 的智能?
它是深度思考,是規(guī)劃,是對(duì)環(huán)境的復(fù)雜理解。當(dāng)你告訴機(jī)器人“我渴了”,它需要理解這句話背后的意圖(找水),環(huán)顧四周確認(rèn)杯子的位置(感知),規(guī)劃一條避開障礙物的路線(規(guī)劃)。
“現(xiàn)在的機(jī)器人,往往是 10Hz 很強(qiáng),1Hz 很弱。”姚遠(yuǎn)補(bǔ)充道。這就導(dǎo)致了一個(gè)尷尬的現(xiàn)狀:機(jī)器人能精準(zhǔn)地把杯子拿起來,但它不知道該去拿哪個(gè)杯子,或者在聽到門鈴響時(shí)不知道該先去開門還是繼續(xù)倒水。
MiniCPM-o 4.5 的出現(xiàn),本質(zhì)上就是試圖成為那個(gè)通用的 1Hz 大腦。
它不僅僅是一個(gè)聊天軟件,它更像是一個(gè)通用的“感知中樞”。當(dāng)把它裝進(jìn)機(jī)器人里,機(jī)器人就不再是一個(gè)瞎子和聾子。它可以一邊走(小腦控制),一邊看路邊的障礙物,一邊聽主人的指令,一邊思考該怎么規(guī)劃路線(大腦控制)。
而且,因?yàn)樗嵌藗?cè)模型,這一切都不需要依賴不穩(wěn)定的 Wi-Fi 網(wǎng)絡(luò)。即使在沒有信號(hào)的地下室,或者在火星上,這個(gè)機(jī)器人依然是有智慧的。
這種“端側(cè)大腦 + 本地小腦”的架構(gòu),或許才是具身智能走出實(shí)驗(yàn)室、進(jìn)入家庭的唯一解。
那么,當(dāng)大廠也開始下場做手機(jī)助手、做端側(cè)模型時(shí),創(chuàng)業(yè)公司的護(hù)城河究竟有多深?
李大海在現(xiàn)場的回答顯示出一種難得的清醒:“我們不打陣地戰(zhàn)。”
他把 AI 市場分為了兩類:
一類是 通用搜索與問答,這是巨頭的必爭之地。無論是 ChatGPT 還是豆包,本質(zhì)上都是在搶占下一個(gè)時(shí)代的搜索入口。這是一個(gè)贏家通吃的統(tǒng)一市場,創(chuàng)業(yè)公司進(jìn)去大概率是炮灰。
另一類是端側(cè)智能,這是一個(gè)高度碎片化的市場。
“端側(cè)市場不是鐵板一塊。”李大海分析道,“汽車、手機(jī)、PC、機(jī)器人、甚至智能眼鏡,每一個(gè)終端的硬件架構(gòu)不同,使用場景不同,用戶的隱私需求也不同。”
在這個(gè)碎片化的戰(zhàn)場里,巨頭的“通用大模型”往往因?yàn)樗敛环y以落地。你不能直接把一個(gè)千億參數(shù)的模型塞進(jìn)車機(jī)里,也不能指望一套標(biāo)準(zhǔn) API 適配所有的機(jī)器人底盤。
這就給面壁留出了巨大的“修路”空間。
他們?cè)敢飧煽嗷罾刍睿喝ミm配幾十種不同的芯片,去壓榨每一毫秒的延遲,去設(shè)計(jì)松果派這樣的參考硬件。這些工作瑣碎、繁重,但一旦做成,就會(huì)形成極高的壁壘。
MiniCPM-o 4.5 已經(jīng)支持了 16 種不同大小的 int4 和 GGUF 量化模型,通過 llama.cpp 和 Ollama 就能在本地設(shè)備上高效推理。這種極致的工程化能力,正是面壁在“夾縫”中生長出來的根系。
“我們是在制造大模型時(shí)代的 ‘光刻機(jī)’,也是在鋪設(shè)端側(cè)智能的 ‘高速公路’。”
當(dāng)開發(fā)者習(xí)慣了在松果派上開發(fā),當(dāng)車企習(xí)慣了 MiniCPM 的低延遲,當(dāng)機(jī)器人廠商習(xí)慣了 1Hz 的智能分層,面壁智能就不再只是一個(gè)賣模型的公司,而是成為了端側(cè)生態(tài)的基礎(chǔ)設(shè)施。
走出科建大廈的時(shí)候,天色已晚。北京的寒風(fēng)中,路邊的大屏幕上正播放著某大廠“全知全能”AI 的廣告。而在我身后這間普通的會(huì)議室里,一群人正在試圖把 AI 從神壇上拉下來,塞進(jìn)芯片,塞進(jìn)板卡,塞進(jìn)每一個(gè)具體的、微小的設(shè)備里。
OpenClaw 掀起的 Agent 熱潮或許只是一個(gè)序幕,而真正的故事,可能就始于這塊不起眼的開發(fā)板和這個(gè)只有 9B 大小的模型。這不僅是一場技術(shù)的突圍,更是一場關(guān)于 AI 究竟該屬于“巨頭”還是屬于“個(gè)體”的權(quán)利爭奪戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.