網易首頁 > 網易號 > 正文申請入駐

OpenAI前CTO創業的模型首秀，與面壁智能「撞車」了

2026-05-12 20:09:32　來源: 智東西

北京舉報

分享至

今天，大模型圈再次被點燃，這一次的火花來自前OpenAI應用研究負責人翁荔（Lilian Weng）。她與前OpenAI CTO米拉·穆拉蒂（Mira Murati）聯合創立的Thinking Machines Lab（TML）首次公布的技術愿景，直指人機交互的終極形態——一個能與人類進行「全雙工」（Full-Duplex）實時對話的AI模型。

然而，當TML那支展示著無縫、主動交互能力的Demo視頻在網絡上流傳時，許多AI領域的從業者卻產生了一種強烈的「既視感」——因為TML描繪的那個未來，早在三個月前，就已被中國公司「面壁智能」的MiniCPM-o 4.5以開源的形式，帶到了現實。

先看「邊看邊聽邊說」的全模態實時交互效果——

這是MiniCPM-o 4.5的效果，模型可以實時觀察周圍并對環境進行描述輸出，主動反應表現一流：

（視頻）

這是TML時隔3個月后發布的模型效果：

這不僅是一次簡單的「撞車」，更像是一場跨越太平洋的技術共識。它不僅驗證了下一代 AI 交互的技術路徑，也讓我們重新審視中國AI力量在全球創新版圖中的位置。

一、一場不約而同的交互革命：打破「對講機」模式

要理解這場技術共識的深刻性，首先要明白TML和面壁智能共同挑戰的敵人是什么——延續至今的「回合制」（turn-based）交互范式。

從Siri到各類語音助手，再到GPT-4o的語音模式，我們與AI的交流更像是使用一部「對講機」：你說完，等待「滴」的一聲，然后它回應。

這背后是一套名為「語音活動檢測」（VAD）的機制在主導，它像一個裁判，嚴格劃分著你和AI的發言輪次。這種模式，與人類自然對話中那種你來我往、信息流交織的狀態，相去甚遠。

而面壁智能與TML的共同洞察是：真正的自然交互，必須打破這種輪次限制，進入一個「全雙工」的流式處理時代。

面壁智能的先行：這正是面壁智能在2月發布并開源MiniCPM-o 4.5時提出的核心理念。在其技術報告中，面壁智能將目標定義為構建一個能夠處理和生成「交錯多模態信息」的系統，其核心動機就是擺脫「對講機」的束縛。
TML的愿景：在其博客中，翁荔團隊明確指出，要從「回合制」轉變為處理平行的輸入、輸出信息流。AI 應該能一邊聽你說話，一邊看著周圍的環境，同時思考并生成回應，甚至在你話音未落時就能捕捉到意圖，進行打斷或補充。

這是面壁智能的MiniCPM-o 4.5，打破了傳統交互中「對講機」的模式：

（視頻）

這是TML的模型效果：

雙方幾乎用不同的語言，描述了同一個未來。這標志著，AI交互的下一次范式革命，已經有了清晰的靶心。

二、高度重合的技術框架

如果說目標一致是「英雄所見略同」，那么實現路徑的高度重合，則讓這場技術共識變得無可辯駁。TML與面壁智能，仿佛拿著同一張地圖，走向了同一個目的地。

這張「地圖」的核心，是一種基于時間對齊的流式處理框架。

面壁智能稱之為「Omni-Flow」框架。其原理是將連續的音視頻流，像切香腸一樣，切成以毫秒（如200ms）為單位的細小片段。然后，將同一時間片段內的視覺、聽覺和已生成的文本token「打包」在一起，形成一個按時間排序的統一序列，喂給大模型。

▲面壁智能Omni-Flow框架示意圖

而TML在其博客中提出的，是「基于時間對齊的微輪次」（Time-aligned micro-turn based）概念。其圖示與Omni-Flow 的原理如出一轍：同樣是將多模態信息流切碎成帶有時間戳的微小單元，然后在一條共享的時間軸上對齊融合。

▲TML微輪次框架示意圖

這種設計的精妙之處在于，它將世界從AI視角下離散的、模態各異的數據，還原成了其本來的面目——一個連續不斷、多感官信息交織的整體。

正是基于這一共同的底層架構，兩者都實現了兩個顛覆性的能力：

讓模型自己決定「何時說」：由于信息是連續輸入的，模型學會了在對話的「流」中尋找最佳發言時機，徹底擺脫了對VAD的依賴。
實現「主動交互」：模型不再是被動等待指令的機器，而是可以主動與周圍的環境進行交互，對環境的變動、人物做出反應。

從革命的目標，到核心的實現框架，再到最終呈現的能力，TML的首秀與面壁智能三個月前的工作，形成了完美的閉環印證。

三、愿景與現實：誰先撞線？

既然技術路線高度一致，那么評判的標尺自然就落在了「執行力」上——誰先將藍圖變成了現實？

答案是清晰的。

TML（2026年5月）：交付的是一份詳盡的技術博客和一支制作精良的Demo視頻。它成功地將一個激動人心的技術愿景傳遞給了世界，但截至目前，它仍是一個「期貨」。
面壁智能（2026年2月與4月）：交付的是一套完整、開源、可立即上手的技術棧。包括了可部署的模型權重、復現所有工作的源代碼、長達數十頁的詳盡技術報告，以及人人可試玩的在線Demo。它是一個已經可以觸摸和使用的「現貨」。

MiniCPM-o 4.5技術報告地址：

https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_o_45_technical_report.pdf

如果說翁荔團隊是向世界宣告「我們發現了新大陸」，那么面壁智能則是早在三個月前就已經登陸，并繪制好了海圖，甚至向所有后來者開放了港口。

（視頻）

▲MiniCPM-o 4.5視覺主動提醒

這種「交付」形態的差異至關重要。在大模型技術一日千里的今天，三個月的時間差，以及「概念展示」與「開源實物」之間的鴻溝，足以定義誰是先行者，誰是驗證者。

四、一場中國AI的「自我證明」

TML與面壁智能的這次「技術撞車」，與其說是一場競賽，不如說是一次相互成就。

翁荔以其在全球AI領域的巨大影響力，為這一技術方向帶來了聚光燈，讓「全雙工」AI的概念迅速成為行業焦點。

而面壁智能則以其更早的布局、扎實的工程實現和徹底的開源精神，證明了中國AI團隊不僅能跟上世界潮流，更有能力在關鍵領域領先潮流。

直接的數據佐證就是：面壁智能的MiniCPM-o 4.5在2026年2月就已正式開源，比翁荔TML團隊領先了3個月。

未來已來，只是分布尚不均勻。這一次，中國AI團隊，有幸站在了更早的時區。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.