邊聽邊說
OpenAI 前 CTO Mira Murati 和前應用研究負責人翁荔(Lilian Weng)創立的 Thinking Machines Lab,也就是 TML,剛剛發布了一個叫「Interaction Models」的研究
這東西的核心能力,是讓 AI 能一邊聽你說話、一邊看周圍環境、一邊回應你。TML 種子輪融資 20 億美元,估值 120 億,這是他們創立一年多來第一次公布核心技術方向,下面這個是發布視頻
看完 TML 的發布,我想到了兩個東西:
OpenAI 的 Realtime API,這應該是最早落地邊聽邊說的,不過沒有多模態能力:
還有一個就是面壁智能今年 2 月開源了 MiniCPM-o 4.5:
今天的故事由此展開,聚焦于 TML-Interaction 和 MiniCPM-o 這倆系列的技術技術、思路的異同,大家是怎么做的:
→ TML 發布 TML-Interaction-Small,276B 參數,12B 激活,200ms 微回合設計
→ 面壁 2 月開源 MiniCPM-o 4.5,9B 參數,1.0s 時間片段,可在 12GB RAM 設備上運行
→ 兩家核心洞察一致:交互瓶頸在范式層面,傳統的 VAD 應該被模型自身替代
→ 技術路徑有分歧:時間粒度、編碼器策略、模型架構各走各的
TML 發了什么
Thinking Machines Lab 這次的模型叫 TML-Interaction-Small,276B 參數的混合專家架構(參數很多但每次只激活其中 12B),搭配一個異步運行的「背景模型」使用。
注意,這里是兩套模型:交互模型負責實時對話,始終在線。背景模型負責工具調用、網頁搜索這類需要時間的重活,做完把結果回傳給交互模型
翁荔在 Demo 視頻里出鏡,也是她的首次產品演示。在視頻里,她要求模型在她講故事時,每聽到一個動物名字就計數一次。她中間喝水、停頓思考,模型都沒有打斷。最后給出了正確答案:鹿一次、綿羊一次、郊狼一次、卡皮巴拉一次
![]()
TML Demo:Introducing Interaction Models
Benchmark 方面,TML 用了 FD-bench,一個專門測交互質量的基準。輪次切換延遲 0.40 秒,GPT-realtime-2.0 是 1.18 秒,Gemini-3.1-flash-live 是 0.57 秒。交互質量評分 77.8,GPT 兩個版本分別 46.8 和 47.8
TML 還自己造了兩個 benchmark:TimeSpeak 和 CueSpeak
TimeSpeak 測模型能不能在指定時間主動開口,比如「每 4 秒提醒我呼吸一次」;CueSpeak 測模型能不能在正確時刻回應,比如「聽到外語就糾正發音」
對于這倆 bench,現有模型幾乎為零,GPT-realtime-2.0 分別得了 4.3 和 2.9,TML 得了 64.7 和 81.7
![]()
TML 在智能和交互兩個維度上的位置
然后...這個模型目前只是放了個視頻,還沒有正式開放,預計公開發布會安排在今年晚些時候
VAD 該退休了
現在的 AI 通話,主流是怎么做的呢?其實流程跟用對講機差不多:你說完,等一下,AI 回應。AI 說完,你再說...一輪一輪,循環往復
控制這個節奏的組件叫 VAD(Voice Activity Detection,語音活動檢測),負責判斷你有沒有在說話。你停頓超過大約半秒,它就認定你說完了,觸發 AI 回復。TML 在博客里是這樣描述的:這個組件比模型本身笨得多,但它在主導整個對話節奏
人說話會停頓、會思考、會猶豫,但是呢... VAD 分不清「在想」和「說完了」,所以 AI 經常在你思考的時候搶話...講道理,這個很煩...
于是,讓模型自己學會判斷什么時候該說、什么時候該聽這件事就變得無比重要,并且得把 VAD 從系統里拿掉
TML 的做法是把時間切成 200ms 一個片段,叫「微回合」(micro-turn)。每個片段里模型先處理剛收到的輸入,再決定是否輸出。200ms 刷新一次感知,沒有人工設定的輪次邊界
![]()
上面是人感受到的(同時),下面是模型看到的(交替)
而在面壁這一側,框架叫 Omni-Flow,思路類似:把連續的音視頻流切成時間片段,在共享時間軸上對齊
面壁的方案
面壁在 2 月 3 日開源了 MiniCPM-o 4.5,2 月 6 日放出了可本地部署的實時 Web Demo,也發了技術報告,其實之前有比較詳細的解讀:
MiniCPM-o 4.5 是 9B 參數的端到端全模態模型,從編碼到解碼全部打通:視覺用 SigLIP ViT(0.4B),音頻用 Whisper Medium(0.3B),語言模型用 Qwen3-8B,語音解碼用一個 0.3B 的輕量解碼器。所有組件通過 token 級的隱狀態連接,可以端到端聯合訓練
![]()
9B 參數,從編碼器到語音解碼器一路連到底
Omni-Flow 把交互過程切成以秒為單位的時間窗口。每個窗口內,模型先接收新的視覺和音頻信號,再預測一個控制 token:「聽」還是「說」。如果是「說」,再生成具體內容
面壁對 Omni-Flow 做了消融實驗。時間窗口從 1.0 秒、0.2 秒到 0.1 秒都測了,1.0 秒效果最好。窗口太短,模型在每個片段內拿到的信息不夠做穩定決策
面壁還處理了一個問題:模型生成文本很快,但把文本念出來需要時間。如果不做對齊,模型說出來的內容會滯后于當前語境。他們的 TAIL 技術讓模型自適應控制每個窗口的文本量,保持語音和實時語境同步
部署方面,面壁開發了 llama.cpp-omni 推理框架,MiniCPM-o 4.5 在 RTX 4090 上的實時因子是 0.21,內存占用低于 12GB。模型權重和代碼公開在 Hugging Face 和 GitHub
![]()
MiniCPM-o 4.5 邊看邊聽邊說的實時交互
兩家的技術分歧
兩家對「為什么做」的判斷幾乎一致,在「怎么做」上走了不同的路
時間粒度:TML 選了 200ms,面壁選了 1.0s。 TML 的邏輯是粒度越細感知越快。面壁的消融實驗給出了不同結論:0.2 秒的窗口里信息太少,模型決策不穩定。兩家都沒有公開對方粒度下的測試數據
編碼器策略上,TML 不用 Whisper 這類獨立編碼器,直接把原始音頻信號通過輕量嵌入層送進 transformer,從頭聯合訓練。TML 在博客里引用了 Rich Sutton 的 Bitter Lesson:通用的學習能力最終會超過手工設計的組件。面壁保留了 Whisper Medium 和 SigLIP ViT
模型架構上,TML 拆成交互模型和背景模型兩個,面壁用一個 9B 的統一模型覆蓋全部
「是否說話」的判斷方式也不同。TML 讓模型隱式學會,而面壁用顯式的 Listen-Speak 控制 token,先預測「聽還是說」,再預測內容。面壁的消融顯示拆開效果更好
部署目標上,TML 面向云端,面壁面向端側
此外,TML 的博客里有一個細節。他們引用了 Anthropic 一份 model card 里的話:用戶以同步的、手在鍵盤上的方式使用模型時,收益并不明顯
邊聽邊說這件事,TML 和面壁給出了各自的解法
以上
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.