網易首頁 > 網易號 > 正文申請入駐

OpenAI 前 CTO 創業大模型首秀，第一劍先斬 ChatGPT 聊天框

2026-05-12 12:13:43　來源: AppSo

廣東舉報

分享至

2013 年的科幻電影《Her》中，操作系統 Samantha（薩曼莎）讓觀眾首次具象化了理想的 AI 存在方式：不等你說完即可開口、能感知語氣遲疑，且始終「在場」，而非被動等待喚醒。

十三年后，由 OpenAI 前 CTO Mira Murati 創立的 Thinking Machines Lab 發布了一篇研究預覽，其構建的交互模型在底層追求上，與 Samantha 的邏輯高度契合。

這篇題為《交互模型：人機協作的可擴展方案》的博客，全篇反復強調的核心便是一個詞：「presence」——持續在場。

博客鏈接地址：https://thinkingmachines.ai/blog/interaction-models/

頗有意思的是，2024 年正是 Mira Murati 在 OpenAI 主持發布了 GPT-4o 的高級語音模式，讓人機交互開始更接近人與人的自然交流。

兩年后，她帶著出走的團隊另起爐灶，卻又把這件事從頭做了一遍。

評論區的吐槽也是一條比一條犀利。

人類已被移出 AI 協作群聊

文章開篇指出，結合 METR 在 2025 年的研究報告，主流 AI 公司普遍傾向將「模型自主完成長任務」作為最重要的能力指標，導致目前的交互界面幾乎沒給人類留出持續參與的空間。

但在實際工作中，需求極少能在最初就交代得完美無缺。高質量產出往往需要人持續介入與反復調整，而現有的「回合制」機制恰恰缺乏這樣的通道。

語言學者 Clark 和 Brennan 在 1991 年的研究表明：高效溝通依賴共在、同時性和并發性。雙方需共處同一情境，同步接收和表達信息；同時，如 Walter Ong 在 1982 年關于「口語稍縱即逝性」的研究所示，對話的本質在于高頻參與。結合哈耶克 1945 年的理論，真正有價值的知識正存在于這類即時的細節傳遞中。

現在的模型工作時，用戶輸入，AI 等待；AI 輸出時，則對用戶的即時反應一無所知。Thinking Machines 將此比喻為：面對緊迫分歧不去當面溝通，而是靠發郵件來回拉扯。

目前的實時語音市場存在兩條存在局限的路線：大多數主流商業系統是靠在模型外接入語音活動檢測（VAD）等組件拼接出的「偽實時」。

這種外掛組件的管理方式局限性明顯：模型無法主動打斷對話，無法對屏幕報錯等視覺變化作即時反應，更難以勝任「邊聽邊同傳」這類高頻并發任務。而另一方面，市場上雖然也出現了 Moshi、PersonaPlex 等無需 VAD 的原生全雙工系統，但它們多為較小規模的模型，為了低延遲在綜合智能水平上做出了妥協。

Thinking Machines 認同強化學習學者 Richard Sutton 的觀點：依賴人工設計組件的系統最終會被通用學習趕超。交互能力必須成為模型原生的一部分。

為此，他們參考了業界在全雙工語音交互與異步智能體上的探索（如 Seeduplex、Qwen-omni、MoshiRAG 等），從頭訓練了原生支持實時交互的系統。該系統由感知時間的「交互模型」（前臺）和異步運行的「后臺模型」（負責深層推理）協同工作。

基于時間對齊的微輪次分析 / 微輪次機制：模型以 200 毫秒為處理單元，持續交替處理輸入與輸出。用戶的沉默、搶話均作為真實信息保留。

打破人為輪次邊界后，模型能隱式追蹤用戶是在思考、讓步、自我糾正還是邀請回應，無需獨立的對話管理模塊。它不僅能同步說話、中途插話，甚至能在邊聽邊看的同時，并行調用工具、搜索網頁或生成 UI 界面。

在模態處理上，他們省去了獨立的大型編碼器，音視頻經輕量處理后直接與 Transformer 主體聯合訓練。同時，為滿足高頻處理要求，團隊實現了「流式會話」機制并優化了底層算力與通信，避免反復重分配內存，確保了低延遲的穩定運行。

當遇到復雜任務時，前臺會把完整上下文拋給后臺，后臺將結果流式返回，前臺再伺機自然地融入對話，在保證實時響應的同時兼顧深度推理。針對新衍生的安全挑戰，模型也進行了拒絕對話的擬真訓練與防越獄的魯棒性測試。

一份讓主流模型集體關注的成績單

測試中，這款名為 TML-Interaction-Small（活躍參數 12B）的模型表現亮眼。

在評估打斷、背景音干擾的 FD-bench v1.5 基準中，TML 獲 77.8 分，遠超 GPT Realtime-2.0（46.8 分）和 Gemini（54.3 分），輪次切換延遲僅 0.40 秒。在需深度推理的 FD-bench v3 中，其響應質量/Pass@1（82.8/68.0）也穩壓競品高延遲版本。

在其他綜合測試中，TML 同樣展現了極強的平衡性：QIVD 音視頻問答（54.0 分）、BigBench Audio（75.7/96.5 分）以及 IFEval 指令遵循（82.1/89.7 分），并在 Harmbench 保持了 99.0% 的安全拒絕率。雖然在部分純智力單項上略微落后于 Qwen 3.5 Omni 或 GPT-2.0 極高延遲版，但它是唯一在響應速度與智能水平上實現雙優的模型。

為了更精準地衡量原生交互能力，Thinking Machines 自建了多項評測。

對比學術界現有的 StreamBridge、AURA 等文本輸出原型，TML 實現了真正的語音并發輸出。在考察主動發言的 TimeSpeak（得分 64.7）、同步糾錯的 CueSpeak（得分 81.7）、持續視覺追蹤的 RepCount-A（得分 35.4）以及看視頻搶答的 ProactiveVideoQA 等單項測試中，TML 均取得有效成績，而對比的主流模型在這些場景下幾乎全部得零分或沉默以對。

當然，這套架構目前也有局限：長會話的上下文積累難以管理，且流式音視頻高度依賴網絡穩定性。此外，該架構尚未擴展至更大參數量的版本，計劃于今年晚些時候發布。

和 AI 說話，越來越像在和人說話

參與這項工作的研究員 Neal Wu 概括了他們的初衷：「如果和 AI 協作不再是對著聊天框輸入，而更像在和另一個人說話，會怎樣？」原生支持交互的模型，就是他們給出的初步嘗試。

Thinking Machines CTO Soumith Chintala 則將整體路線圖分為三步：第一步，提升人與 AI 之間的信息帶寬；第二步，拉高人類加 AI 的智能上限；第三步，幫助人類在未來的體系中繼續發揮核心作用。

在許多 AI 研發方向傾向于讓模型更自主、減少人類介入的當下，Thinking Machines 選擇了一條不同的路徑：讓人類的介入變得更流暢，讓溝通帶寬本身成為一種基礎設施。

翁荔更是在推文中提到：「寫了 137 頁日志，產出了 12 個版本。結果發現，人與人之間的協作，對于改善人與 AI 之間的協作至關重要。」這或許意味著，要研發出一個能理解人類溝通節奏的模型，研究者首先需要深刻體會人類溝通的本質。

不過，一個持續在場、能即時感知情緒和狀態的 AI，與傳統的工具型 AI 帶來的心理感受是截然不同的。當模型在每次交互中的在場感越來越強，人們對它的認知和依賴會發生怎樣的改變？

這些觸及靈魂的拷問，論文并沒有作答，只是留下了一個關于「實時對齊與安全」的開放性方向。但可以預見的是，當科幻電影里的情節真正降臨桌面，AI 變成一個一個始終陪伴左右的「存在」時，我們真正需要對齊的，或許不只是模型，更是人類自己在新世界中的位置。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.