網易首頁 > 網易號 > 正文申請入駐

Thinking Machines 剛發的「邊聽邊說」，讓我想到了幾個月前的面壁智能

2026-05-12 20:23:52　來源: 賽博禪心

北京舉報

分享至

邊聽邊說

OpenAI 前 CTO Mira Murati 和前應用研究負責人翁荔（Lilian Weng）創立的 Thinking Machines Lab，也就是 TML，剛剛發布了一個叫「Interaction Models」的研究

這東西的核心能力，是讓 AI 能一邊聽你說話、一邊看周圍環境、一邊回應你。TML 種子輪融資 20 億美元，估值 120 億，這是他們創立一年多來第一次公布核心技術方向，下面這個是發布視頻

看完 TML 的發布，我想到了兩個東西：

OpenAI 的 Realtime API，這應該是最早落地邊聽邊說的，不過沒有多模態能力：
還有一個就是面壁智能今年 2 月開源了 MiniCPM-o 4.5：

今天的故事由此展開，聚焦于 TML-Interaction 和 MiniCPM-o 這倆系列的技術技術、思路的異同，大家是怎么做的：

→ TML 發布 TML-Interaction-Small，276B 參數，12B 激活，200ms 微回合設計

→ 面壁 2 月開源 MiniCPM-o 4.5，9B 參數，1.0s 時間片段，可在 12GB RAM 設備上運行

→ 兩家核心洞察一致：交互瓶頸在范式層面，傳統的 VAD 應該被模型自身替代

→ 技術路徑有分歧：時間粒度、編碼器策略、模型架構各走各的

TML 發了什么

Thinking Machines Lab 這次的模型叫 TML-Interaction-Small，276B 參數的混合專家架構（參數很多但每次只激活其中 12B），搭配一個異步運行的「背景模型」使用。

注意，這里是兩套模型：交互模型負責實時對話，始終在線。背景模型負責工具調用、網頁搜索這類需要時間的重活，做完把結果回傳給交互模型

翁荔在 Demo 視頻里出鏡，也是她的首次產品演示。在視頻里，她要求模型在她講故事時，每聽到一個動物名字就計數一次。她中間喝水、停頓思考，模型都沒有打斷。最后給出了正確答案：鹿一次、綿羊一次、郊狼一次、卡皮巴拉一次

TML Demo：Introducing Interaction Models

Benchmark 方面，TML 用了 FD-bench，一個專門測交互質量的基準。輪次切換延遲 0.40 秒，GPT-realtime-2.0 是 1.18 秒，Gemini-3.1-flash-live 是 0.57 秒。交互質量評分 77.8，GPT 兩個版本分別 46.8 和 47.8

TML 還自己造了兩個 benchmark：TimeSpeak 和 CueSpeak

TimeSpeak 測模型能不能在指定時間主動開口，比如「每 4 秒提醒我呼吸一次」；CueSpeak 測模型能不能在正確時刻回應，比如「聽到外語就糾正發音」

對于這倆 bench，現有模型幾乎為零，GPT-realtime-2.0 分別得了 4.3 和 2.9，TML 得了 64.7 和 81.7

TML 在智能和交互兩個維度上的位置

然后...這個模型目前只是放了個視頻，還沒有正式開放，預計公開發布會安排在今年晚些時候

VAD 該退休了

現在的 AI 通話，主流是怎么做的呢？其實流程跟用對講機差不多：你說完，等一下，AI 回應。AI 說完，你再說...一輪一輪，循環往復

控制這個節奏的組件叫 VAD（Voice Activity Detection，語音活動檢測），負責判斷你有沒有在說話。你停頓超過大約半秒，它就認定你說完了，觸發 AI 回復。TML 在博客里是這樣描述的：這個組件比模型本身笨得多，但它在主導整個對話節奏

人說話會停頓、會思考、會猶豫，但是呢... VAD 分不清「在想」和「說完了」，所以 AI 經常在你思考的時候搶話...講道理，這個很煩...

于是，讓模型自己學會判斷什么時候該說、什么時候該聽這件事就變得無比重要，并且得把 VAD 從系統里拿掉

TML 的做法是把時間切成 200ms 一個片段，叫「微回合」（micro-turn）。每個片段里模型先處理剛收到的輸入，再決定是否輸出。200ms 刷新一次感知，沒有人工設定的輪次邊界

上面是人感受到的（同時），下面是模型看到的（交替）

而在面壁這一側，框架叫 Omni-Flow，思路類似：把連續的音視頻流切成時間片段，在共享時間軸上對齊

面壁的方案

面壁在 2 月 3 日開源了 MiniCPM-o 4.5，2 月 6 日放出了可本地部署的實時 Web Demo，也發了技術報告，其實之前有比較詳細的解讀：

MiniCPM-o 4.5 是 9B 參數的端到端全模態模型，從編碼到解碼全部打通：視覺用 SigLIP ViT（0.4B），音頻用 Whisper Medium（0.3B），語言模型用 Qwen3-8B，語音解碼用一個 0.3B 的輕量解碼器。所有組件通過 token 級的隱狀態連接，可以端到端聯合訓練

9B 參數，從編碼器到語音解碼器一路連到底

Omni-Flow 把交互過程切成以秒為單位的時間窗口。每個窗口內，模型先接收新的視覺和音頻信號，再預測一個控制 token：「聽」還是「說」。如果是「說」，再生成具體內容

面壁對 Omni-Flow 做了消融實驗。時間窗口從 1.0 秒、0.2 秒到 0.1 秒都測了，1.0 秒效果最好。窗口太短，模型在每個片段內拿到的信息不夠做穩定決策

面壁還處理了一個問題：模型生成文本很快，但把文本念出來需要時間。如果不做對齊，模型說出來的內容會滯后于當前語境。他們的 TAIL 技術讓模型自適應控制每個窗口的文本量，保持語音和實時語境同步

部署方面，面壁開發了 llama.cpp-omni 推理框架，MiniCPM-o 4.5 在 RTX 4090 上的實時因子是 0.21，內存占用低于 12GB。模型權重和代碼公開在 Hugging Face 和 GitHub

MiniCPM-o 4.5 邊看邊聽邊說的實時交互

兩家的技術分歧

兩家對「為什么做」的判斷幾乎一致，在「怎么做」上走了不同的路

時間粒度：TML 選了 200ms，面壁選了 1.0s。 TML 的邏輯是粒度越細感知越快。面壁的消融實驗給出了不同結論：0.2 秒的窗口里信息太少，模型決策不穩定。兩家都沒有公開對方粒度下的測試數據

編碼器策略上，TML 不用 Whisper 這類獨立編碼器，直接把原始音頻信號通過輕量嵌入層送進 transformer，從頭聯合訓練。TML 在博客里引用了 Rich Sutton 的 Bitter Lesson：通用的學習能力最終會超過手工設計的組件。面壁保留了 Whisper Medium 和 SigLIP ViT

模型架構上，TML 拆成交互模型和背景模型兩個，面壁用一個 9B 的統一模型覆蓋全部

「是否說話」的判斷方式也不同。TML 讓模型隱式學會，而面壁用顯式的 Listen-Speak 控制 token，先預測「聽還是說」，再預測內容。面壁的消融顯示拆開效果更好

部署目標上，TML 面向云端，面壁面向端側

此外，TML 的博客里有一個細節。他們引用了 Anthropic 一份 model card 里的話：用戶以同步的、手在鍵盤上的方式使用模型時，收益并不明顯

邊聽邊說這件事，TML 和面壁給出了各自的解法

以上

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.