![]()
今天,大模型圈再次被點燃,這一次的火花來自前OpenAI應用研究負責人翁荔(Lilian Weng)。她與前OpenAI CTO米拉·穆拉蒂(Mira Murati)聯合創立的Thinking Machines Lab(TML)首次公布的技術愿景,直指人機交互的終極形態——一個能與人類進行「全雙工」(Full-Duplex)實時對話的AI模型。
然而,當TML那支展示著無縫、主動交互能力的Demo視頻在網絡上流傳時,許多AI領域的從業者卻產生了一種強烈的「既視感」——因為TML描繪的那個未來,早在三個月前,就已被中國公司「面壁智能」的MiniCPM-o 4.5以開源的形式,帶到了現實。
先看「邊看邊聽邊說」的全模態實時交互效果——
這是MiniCPM-o 4.5的效果,模型可以實時觀察周圍并對環境進行描述輸出,主動反應表現一流:
(視頻)
這是TML時隔3個月后發布的模型效果:
這不僅是一次簡單的「撞車」,更像是一場跨越太平洋的技術共識。它不僅驗證了下一代 AI 交互的技術路徑,也讓我們重新審視中國AI力量在全球創新版圖中的位置。
一、一場不約而同的交互革命:打破「對講機」模式
要理解這場技術共識的深刻性,首先要明白TML和面壁智能共同挑戰的敵人是什么——延續至今的「回合制」(turn-based)交互范式。
從Siri到各類語音助手,再到GPT-4o的語音模式,我們與AI的交流更像是使用一部「對講機」:你說完,等待「滴」的一聲,然后它回應。
這背后是一套名為「語音活動檢測」(VAD)的機制在主導,它像一個裁判,嚴格劃分著你和AI的發言輪次。這種模式,與人類自然對話中那種你來我往、信息流交織的狀態,相去甚遠。
而面壁智能與TML的共同洞察是:真正的自然交互,必須打破這種輪次限制,進入一個「全雙工」的流式處理時代。
- 面壁智能的先行:這正是面壁智能在2月發布并開源MiniCPM-o 4.5時提出的核心理念。在其技術報告中,面壁智能將目標定義為構建一個能夠處理和生成「交錯多模態信息」的系統,其核心動機就是擺脫「對講機」的束縛。
- TML的愿景:在其博客中,翁荔團隊明確指出,要從「回合制」轉變為處理平行的輸入、輸出信息流。AI 應該能一邊聽你說話,一邊看著周圍的環境,同時思考并生成回應,甚至在你話音未落時就能捕捉到意圖,進行打斷或補充。
這是面壁智能的MiniCPM-o 4.5,打破了傳統交互中「對講機」的模式:
(視頻)
這是TML的模型效果:
雙方幾乎用不同的語言,描述了同一個未來。這標志著,AI交互的下一次范式革命,已經有了清晰的靶心。
二、高度重合的技術框架
如果說目標一致是「英雄所見略同」,那么實現路徑的高度重合,則讓這場技術共識變得無可辯駁。TML與面壁智能,仿佛拿著同一張地圖,走向了同一個目的地。
這張「地圖」的核心,是一種基于時間對齊的流式處理框架。
面壁智能稱之為「Omni-Flow」框架。其原理是將連續的音視頻流,像切香腸一樣,切成以毫秒(如200ms)為單位的細小片段。然后,將同一時間片段內的視覺、聽覺和已生成的文本token「打包」在一起,形成一個按時間排序的統一序列,喂給大模型。
![]()
▲面壁智能Omni-Flow框架示意圖
而TML在其博客中提出的,是「基于時間對齊的微輪次」(Time-aligned micro-turn based)概念。其圖示與Omni-Flow 的原理如出一轍:同樣是將多模態信息流切碎成帶有時間戳的微小單元,然后在一條共享的時間軸上對齊融合。
![]()
▲TML微輪次框架示意圖
這種設計的精妙之處在于,它將世界從AI視角下離散的、模態各異的數據,還原成了其本來的面目——一個連續不斷、多感官信息交織的整體。
正是基于這一共同的底層架構,兩者都實現了兩個顛覆性的能力:
- 讓模型自己決定「何時說」:由于信息是連續輸入的,模型學會了在對話的「流」中尋找最佳發言時機,徹底擺脫了對VAD的依賴。
- 實現「主動交互」:模型不再是被動等待指令的機器,而是可以主動與周圍的環境進行交互,對環境的變動、人物做出反應。
從革命的目標,到核心的實現框架,再到最終呈現的能力,TML的首秀與面壁智能三個月前的工作,形成了完美的閉環印證。
三、愿景與現實:誰先撞線?
既然技術路線高度一致,那么評判的標尺自然就落在了「執行力」上——誰先將藍圖變成了現實?
答案是清晰的。
- TML(2026年5月):交付的是一份詳盡的技術博客和一支制作精良的Demo視頻。它成功地將一個激動人心的技術愿景傳遞給了世界,但截至目前,它仍是一個「期貨」。
- 面壁智能(2026年2月與4月):交付的是一套完整、開源、可立即上手的技術棧。包括了可部署的模型權重、復現所有工作的源代碼、長達數十頁的詳盡技術報告,以及人人可試玩的在線Demo。它是一個已經可以觸摸和使用的「現貨」。
MiniCPM-o 4.5技術報告地址:
https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_o_45_technical_report.pdf
如果說翁荔團隊是向世界宣告「我們發現了新大陸」,那么面壁智能則是早在三個月前就已經登陸,并繪制好了海圖,甚至向所有后來者開放了港口。
(視頻)
▲MiniCPM-o 4.5視覺主動提醒
這種「交付」形態的差異至關重要。在大模型技術一日千里的今天,三個月的時間差,以及「概念展示」與「開源實物」之間的鴻溝,足以定義誰是先行者,誰是驗證者。
四、一場中國AI的「自我證明」
TML與面壁智能的這次「技術撞車」,與其說是一場競賽,不如說是一次相互成就。
翁荔以其在全球AI領域的巨大影響力,為這一技術方向帶來了聚光燈,讓「全雙工」AI的概念迅速成為行業焦點。
而面壁智能則以其更早的布局、扎實的工程實現和徹底的開源精神,證明了中國AI團隊不僅能跟上世界潮流,更有能力在關鍵領域領先潮流。
直接的數據佐證就是:面壁智能的MiniCPM-o 4.5在2026年2月就已正式開源,比翁荔TML團隊領先了3個月。
未來已來,只是分布尚不均勻。這一次,中國AI團隊,有幸站在了更早的時區。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.