網易首頁 > 網易號 > 正文申請入駐

剛剛，Thinking Machines出手！首款交互模型來了，翁荔出鏡實測

2026-05-12 12:18:10　來源: 機器之心Pro

河北舉報

分享至

編輯｜冷貓

從遙遠的 iPhone 4S 時代開始，人和機器的對話始終是單輪的「你來我往」。哪怕智能體如此發達的今天也是如此。

為什么和機器的對話總是一問一答，而從始至終不能像和人對話那樣自然呢？

業界主流方案，仍然是在傳統的 turn-based 大模型外面套一層 VAD（語音活動檢測）外殼，硬把它逼進實時場景。

就在剛剛，大名鼎鼎的Thinking Machines Lab 終于拿出了成立以來首個大模型 TML-Interaction-Small，這是第一個同時具備強智能 / 指令遵循和交互性的模型。

出場即炸場，徹底打破了傳統「一問一答」的人機交互模式，真正實現同時輸出語音，內容，代碼，全自然交互。

「人們在同一時間交談、傾聽、觀看、思考和協作，實時進行。我們設計了一種與人類以相同方式協同工作的 AI。」

更值得一提的是，OpenAI 前應用研究 VP、Thinking Machines 聯合創始人翁荔（Lilian Weng）親自出鏡，用一段連貫的故事演示了這款模型的核心能力。

按照 Thinking Machines 官方的描述：「Lilian 在講故事的過程中，交互模型可以追蹤她到底是在思考、在讓出話語權、在自我糾正，還是在邀請回應；整個過程中沒有任何專門的對話管理系統在工作。」

她在社交平臺上寫道：

「過去幾個月，我們經歷了大量的樂趣（和壓力），最終產出了 12 個版本（外加大量子版本）和 137 頁的訓練日志。事實證明，要讓人和 AI 協作得更好，先要靠人和人之間的協作。」

Thinking Machines 發布了技術博客，詳細解讀了模型的技術細節。

博客鏈接：https://thinkingmachines.ai/blog/interaction-models/#introduction

核心創新：把「時間」縫進模型架構里

從評測數據看，TML-Interaction-Small 在交互質量與智能度的綜合指標上壓過了 GPT Realtime 2.0、Gemini 3.1 Flash Live 等一眾閉源對手；在新提出的時間感知與視覺主動性評測上，與第二名拉開了一個數量級的差距

智能與交互前沿。模型在交互質量上表現卓越，同時比任何非思考模型都更加智能。實現了最佳響應速度，以用戶與模型之間的輪次延遲來衡量。

這一交互模型之所以能做到這種程度，根本原因在于它的訓練范式與傳統大模型完全不同

200ms 一拍：時間對齊的 micro-turn

傳統 LLM 的輸入輸出是被「拍平」成一個單線 token 序列的：人說一句，模型答一句，再人說一句，再模型答。模型對真實世界的時間沒有任何感知。

Thinking Machines 的做法是：把音頻、視頻、文本三種模態都按 200ms 一個 chunk 切成連續的「微回合」（micro-turn）。每個 200ms 里，模型同時處理輸入并產出輸出，也就是說，模型一邊在聽你說，一邊可能在生成回應、保持沉默、或者插入一句反饋。

200ms 這個數字并不隨便。它接近人類聽覺感知與口頭反應的最短自然窗口，也是 backchannel（嗯嗯、對對這類小口癖）能夠自然嵌入的時間粒度。

這種設計帶來的直接好處是：「沉默」「重疊」「打斷」這些過去被腳本特殊處理的場景，全部回歸為模型本身的常規輸出。需要說話就生成語音 token，不需要說話就生成「沉默」token，跟模型決定下一個文字 token 是什么沒有本質區別。

拋掉編碼器，從零訓練

第二個關鍵設計，是「encoder-free early fusion」

主流的 omni 多模態模型，往往要先訓一個 Whisper 類的音頻編碼器、一個 TTS 類的解碼器，再把它們拼到 LLM 主干上。這一套組合拳的代價是：每個組件都要單獨優化、單獨維護，模態之間的信息很容易在邊界處丟失。

Thinking Machines 直接拋棄了這種思路：

音頻用 dMel 表示，經過一個輕量級 embedding 層進入主干；
圖像被切成 40x40 的 patch，由 hMLP 模塊完成編碼；
音頻解碼端用一個 flow head 直出 mel 頻譜；
所有這些組件，連同 transformer 主干，全部從零開始聯合訓練。

這意味著模型從訓練第一秒起，就在同一個梯度流里學習如何協調音頻、視頻、文本三種信號。早期融合帶來的好處是顯而易見的：聲音里的笑意、畫面里的表情、文字里的猶豫，可以在同一層被模型捕捉到，而不是在三個獨立模塊里各自損耗。

雙模型協同：實時門面 + 后臺大腦

第三層巧思，是系統級的雙模型架構

交互模型負責「現場」，要求嚴格的實時響應。而真正需要深度推理、檢索、工具調用的任務，會被打包成完整的上下文，派發給一個異步運行的 background model 去做。結果回來之后，交互模型再選一個合適的時機，把信息自然插進當前對話。

「讓用戶同時享受 thinking 模型的智能和 non-thinking 模型的響應延遲」，這是 Thinking Machines 給這套架構的定位。

為了把 200ms 的延遲控制做到極致，他們還做了幾件硬核工程：

自研 streaming session 推理機制，已經把一個版本上游合入了 SGLang；
MoE kernel 用 gather+gemv 替代標準 grouped gemm，更適合 bidirectional serving 的張量形狀；
實現了 trainer 與 sampler 的 bitwise 級對齊，做到 batch-invariant 訓練，端到端開銷不到 5%。

最后這一條尤其值得一提。在大模型訓練里，trainer 和 sampler 之間的浮點不一致，長期以來是 RL 調試的「玄學黑盒」。Thinking Machines 在 NVLS 通信、Attention Split-KV 等關鍵路徑上重寫了 kernel，把它徹底變成了確定性問題。

實驗結果

具體數據很能說明問題。

在衡量交互質量的 FD-bench v1.5 上，TML-Interaction-Small 拿到 77.8 分，第二名 Gemini-3.1-flash-live (minimal) 只有 54.3 分；GPT-Realtime-2.0 (minimal) 是 46.8 分。

在衡量端到端響應延遲的 FD-bench v1 上，TML 把簡單轉換的延遲做到了 0.40 秒，對比 GPT-Realtime-2.0 (minimal) 1.18 秒、Gemini-3.1-flash-live (minimal) 0.57 秒，更智能的同時還更快。

加上后臺 agent 之后，FD-bench v3（Audio + Tools）上的 Pass@1 是 68.0%，對比 GPT-2.0 (minimal) 的 52.0%、GPT-2.0 (xhigh) 的 58.0%，依然是榜首。

智能度方面，TML-Interaction-Small 在 Audio MultiChallenge 拿到 43.4 分，超過所有 instant 模型；BigBench Audio 在啟用后臺 agent 后達到 96.5%，與 GPT-Realtime-2.0 (xhigh) 的 96.6% 幾乎打平。

主流 benchmark 之外，Thinking Machines 自己設計了幾項專門衡量「時間感知」與「視覺主動性」的新評測。在這些任務上，TML-Interaction-Small 與第二名的差距，可以說是數量級的：

TimeSpeak（按用戶指定時間主動開口）：64.7 vs 4.3
CueSpeak（在合適的語義時點主動接話）：81.7 vs 2.9
RepCount-A（視覺計數）：35.4 vs 1.3
Charades（視覺動作時段定位）：mIoU 32.4 vs 0

「目前沒有任何已有模型能夠有意義地完成這些任務。」官方在博客里直接寫道。所有評測過的對照模型，要么沉默不語，要么給出錯誤回答，包括開了 high reasoning 的 thinking 版本。

2025 年 7 月，Thinking Machines Lab 完成了一筆轟動硅谷的融資：約 20 億美元種子輪，估值約 120 億美元。這是有公開記錄以來最大的種子輪之一，由 a16z 領投，英偉達、Accel、ServiceNow、Cisco、AMD、Jane Street 等紛紛跟進。一家成立不到半年、還沒有任何產品的公司，憑借創始團隊的研究信譽，直接拿到獨角獸十倍門檻的估值，本身就是 AI 行業的一件標志性事件。

此后近一年時間里，Thinking Machines 的對外動作并不多，主要通過自家研究博客 Connectionism 釋出階段性成果。其中最廣為討論的一篇是 Horace He 主筆的《Defeating Nondeterminism in LLM Inference》，把大模型推理的不確定性問題拆得相當透徹，也為這次 Interaction Models 提到的 trainer-sampler bitwise 對齊打下了鋪墊。

而這次的 Interaction Models 發布，是 Thinking Machines第一次拿出真正意義上的「自研旗艦大模型」。120 億美元估值壓在身上一年多之后，他們終于交出了第一份對外答卷。

TML-Interaction-Small 只是起點。官方明確表示，更大尺寸的模型今年內會陸續推出，background agent 的協同方式也「剛開始挖掘」。

文中視頻鏈接：https://mp.weixin.qq.com/s/0VNL5A9Bu3spdtbu91Ti0Q

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.