无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

沖刺3400億估值,翁荔親自出鏡,交出一款更像人的大模型

0
分享至


智東西
作者 王涵
編輯 心緣

智東西5月12日報道,今日凌晨,前OpenAI CTO米拉·穆拉蒂(Mira Murati)聯(lián)合創(chuàng)辦的AI獨(dú)角獸Thinking Machines Lab發(fā)布新型交互語音模型研究版TML-Interaction-Small,該模型可以持續(xù)接收音頻、視頻和文本信息實(shí)時思考,與用戶像聊天一樣及時反饋。


該模型系統(tǒng)由一個276B的交互模型以及一個負(fù)責(zé)持續(xù)推理、工具使用和長周期任務(wù)的異步后臺模型組成。

Thinking Machines Lab聯(lián)合創(chuàng)始人翁荔親自演示該模型的語音交互能力,該模型可以做到:

1、無縫對話管理

模型能隱式追蹤說話者是在思考、停頓、自我糾正還是邀請回應(yīng),無需單獨(dú)的對話管理模塊。

2、語言和視覺上的插話

模型會根據(jù)上下文需要隨時插入互動。

3、同時發(fā)聲

用戶和模型可以同時說話(例如實(shí)時翻譯)。

4、時間感知

模型能直接感知時間的流逝。

5、同步工具調(diào)用、搜索與生成式UI

在說話和聆聽用戶的同時,模型可以并行進(jìn)行搜索、瀏覽網(wǎng)頁或生成UI,并根據(jù)需要將結(jié)果自然融入對話。

在較長的真實(shí)會話中,模型與用戶的對話連續(xù)發(fā)生,更像是與用戶協(xié)作而非僅是“提示”。

在基準(zhǔn)測試上中,TML-Interaction-Small在智能與交互質(zhì)量的對比中,其交互質(zhì)量遠(yuǎn)超Gemini-3.1-flash-live-preview (minimal)等一眾模型,智能則僅次于GPT-realtime-2.0 (xhigh)


在響應(yīng)速度對比上,TML-Interaction-Small的響應(yīng)時間最短,超越GPT-realtime-2.0、GPT-realtime-1.5以及Gemini-3.1-flash-live-preview。


模型一經(jīng)發(fā)出,就獲得了不少網(wǎng)友的支持與好評。


知名科技KOL Daniel評論稱“天吶,他們做出了Her。”Her是一部2013年上映的的AI題材電影,男主購買了一套高度智能的AI操作系統(tǒng),而這個系統(tǒng)逐漸發(fā)展出具有情感、幽默感和自主意識的人格。


在X擔(dān)任高級軟件工程師的Raimo Tuisku認(rèn)為實(shí)時交互能力能夠?qū)I的體驗推向更接近人類所感知的智能。


但也有網(wǎng)友提出了質(zhì)疑。

這位網(wǎng)友提出:“實(shí)時交互模型面臨的隱私挑戰(zhàn)在于:設(shè)備無法可靠區(qū)分孩子靠近時的無意背景音和有意輸入,而不同標(biāo)注者的合理判斷差異常被誤讀為數(shù)據(jù)噪聲,而非測量缺陷。實(shí)時交互模型非但沒有緩解這一問題,還讓這個問題更棘手了。”


Thinking Machines Lab是由前OpenAI CTO米拉·穆拉蒂(Mira Murati)聯(lián)合創(chuàng)辦的AI初創(chuàng)公司,于2025年2月正式成立于美國舊金山。

Thinking Machines Lab創(chuàng)立初期就從OpenAI、Meta等公司挖來了約30名核心研究員和工程師,其聯(lián)合創(chuàng)始人團(tuán)隊成員有:OpenAI聯(lián)合創(chuàng)始人John Schulman;前OpenAI后訓(xùn)練負(fù)責(zé)人Barret Zoph;前OpenAI VP翁荔;前OpenAI研究員Luke Metz與Andrew Tulloch。PyTorch核心人物Soumith Chintala后來也加入并擔(dān)任CTO。

融資方面,2025年7月,Thinking Machines Lab完成由a16z領(lǐng)投的20億美元(約合人民幣135.9億元)種子輪融資,投資方還包括NVIDIA、AMD、Cisco、ServiceNow等,融資后估值達(dá)到120億美元(約合人民幣815.4億元),該輪融資被認(rèn)為是硅谷歷史上最大的Seed輪之一。

2025年底,Thinking Machines Lab被曝正在尋求新一輪融資,目標(biāo)估值已被推高至約500億美元(約合人民幣3397.5億元)。今年3月,其還與英偉達(dá)達(dá)成大規(guī)模算力合作,獲得至少1GW級別的Vera Rubin GPU資源。

一、流式交互SOTA,主動視覺超越現(xiàn)有模型

在流式基準(zhǔn)測試FD-bench V1、FD-bench V1.5、FD-bench V3中,TML-Interaction-Small的得分超過了同類型的GPT-realtime-2.0(minimal)等Instant模型與思考模型如GPT-realtime-2.0(xhigh)Gemini-3.1-flash-live(high)

但在輪次式基準(zhǔn)測試Audio MultiChallenge、BigBench Audio、BigBench Audio與IFEval中,TML-Interaction-Small的得分僅次于GPT-realtime-2.0(xhigh)


Thinking Machines Lab(后簡稱TML)團(tuán)隊內(nèi)部創(chuàng)建的的主動音頻基準(zhǔn)測試TimeSpeak、CueSpeak以及視覺主動性基準(zhǔn)測試RepCount-A、ProactiveVideoQA與Charades中,TML-Interaction-Small的表現(xiàn)遠(yuǎn)超其他現(xiàn)有模型,其他模型要么保持沉默,要么給出錯誤答案。


在這個案例中,測試者讓模型識別其伸出了幾根手指并實(shí)時播報。可以看到TML-Interaction-Small可以很精準(zhǔn)地數(shù)出手指的數(shù)量并且瞬時播報,幾乎沒有響應(yīng)時間。

TML-Interaction-Small還可以計算時間的流逝,例如,測試者讓其倒數(shù)30秒,并每十秒播報一次。TML-Interaction-Small沒有受到測試者演講內(nèi)容的影響,認(rèn)真執(zhí)行倒數(shù)計時的任務(wù),時間把握也很精確。


二、200ms并發(fā)處理,后臺異步深度推理,口語化安全拒答

TML-Interaction-Small是原生適應(yīng)雙向連續(xù)交互的模型,它能夠在同一持續(xù)循環(huán)中,跨音頻、視頻和文本同時進(jìn)行感知與回應(yīng)。整個系統(tǒng)圍繞兩個核心理念進(jìn)行架構(gòu):一個具備時間感知能力、維持實(shí)時在場的交互模型,以及一個負(fù)責(zé)持續(xù)推理、工具使用和長周期任務(wù)的異步后臺模型



輪次式模型看到的是交替的token序列。而具備時間感知能力的交互模型看到的則是連續(xù)的微輪次流,因此靜默、重疊發(fā)聲和打斷都會保留在模型的上下文中。

當(dāng)某項任務(wù)所需的深度推理無法瞬時完成時,交互模型會將任務(wù)委托給異步運(yùn)行的后臺模型。在整個過程中,交互模型始終保持在場并在后臺結(jié)果產(chǎn)生時將其無縫融入對話。

這種分工讓用戶能夠同時受益于高響應(yīng)速度與最大限度的智能:既擁有非推理模型的響應(yīng)延遲,又能獲得推理模型的規(guī)劃、工具使用和智能體工作流能力。需要注意的是,后臺模型與交互模型本身都具備智能。


TML團(tuán)隊從連續(xù)的實(shí)時音頻和視頻出發(fā),他們設(shè)計了:

1、時間對齊的微輪次

持續(xù)交替處理200毫秒的輸入與生成200毫秒的輸出。通過這種設(shè)計,模型必須遵守的人為輪次邊界將不存在。


2、無編碼器的早期融合

TML團(tuán)隊選擇以dMel的形式接收音頻信號,并通過一個輕量級的嵌入層進(jìn)行轉(zhuǎn)換。圖像被分割成40×40的圖塊,并由hMLP進(jìn)行編碼。在音頻解碼方面,其使用了一個flow head。所有組件均與Transformer一起從零開始聯(lián)合訓(xùn)練。


3、推理優(yōu)化

在推理時,客戶端可以將每個200毫秒塊作為一個獨(dú)立的請求發(fā)送,而推理服務(wù)器則將這些塊追加到GPU內(nèi)存中的一個持久化序列中。此外,TML團(tuán)隊還在MoE(混合專家)內(nèi)核中采用了gather+gemv策略,優(yōu)化了雙向服務(wù)中遇到的延遲和計算形態(tài)。

4、訓(xùn)練器-采樣器對齊

在訓(xùn)練穩(wěn)定性和系統(tǒng)各組件調(diào)試方面,TML團(tuán)隊采用訓(xùn)練器-采樣器對齊方法,實(shí)現(xiàn)了批處理不變的內(nèi)核,端到端性能開銷<5%。

5、交互模型與后臺模型之間的協(xié)調(diào)

當(dāng)交互模型進(jìn)行任務(wù)委派時,它會發(fā)送一個豐富的上下文包,包含完整的對話內(nèi)容。后臺模型產(chǎn)生結(jié)果時會將其流式返回,而交互模型則會根據(jù)用戶當(dāng)前正在做的事情,在合適的時機(jī)將這些更新交織進(jìn)對話中。

在安全方面,為了使拒答在語音中更自然口語化,TML團(tuán)隊使用文本轉(zhuǎn)語音模型生成拒答和過度拒答的訓(xùn)練數(shù)據(jù),覆蓋一系列被禁止的話題范圍,并將拒答邊界校準(zhǔn)為傾向于自然措辭但同樣堅定的拒答方式。為了提升在extended語音對話中的魯棒性,TML團(tuán)隊使用自動化紅隊測試工具生成了多輪拒答數(shù)據(jù),同時在行為上保持與模型基于文本的拒答高度一致。

結(jié)語:AI開始具備真人感

就TML-Interaction-Small的表現(xiàn)來看,AI已經(jīng)開始具備“真人感”。它能聽、能看、能等待、能打斷、能并行思考。

交互模型就像一個能一直和你同時說話、同時聽你說話的人,而這種實(shí)時性是AI與物理世界交互所必需的。從落地角度來看,TML-Interaction-Small將給機(jī)器人、自動駕駛等物理交互領(lǐng)域帶來突破。

當(dāng)然,TML-Interaction-Small也并不完美,在技術(shù)博客的最后,TML團(tuán)隊提出該模型在長會話上下文管理、低延遲部署的網(wǎng)絡(luò)依賴性、實(shí)時交互的對齊與安全、模型規(guī)模擴(kuò)展的延遲瓶頸,以及后臺代理與交互模型協(xié)同等五個方面仍有待突破的空間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
拉赫蒙訪華釋放明確信號

拉赫蒙訪華釋放明確信號

環(huán)球時報國際
2026-05-12 09:17:16
特朗普訪華前,40國同謀出兵護(hù)航,名單公開后發(fā)現(xiàn):全是伊朗強(qiáng)敵

特朗普訪華前,40國同謀出兵護(hù)航,名單公開后發(fā)現(xiàn):全是伊朗強(qiáng)敵

烈史
2026-05-12 12:41:00
小伙連刮3天刮刮樂,刮中100萬,彩票店老板:小伙在附近工廠上班,中獎后已辭職返回老家

小伙連刮3天刮刮樂,刮中100萬,彩票店老板:小伙在附近工廠上班,中獎后已辭職返回老家

觀威海
2026-05-10 20:02:09
不講武德!高市早苗選在特朗普訪華前,一刀打亂全局部署

不講武德!高市早苗選在特朗普訪華前,一刀打亂全局部署

肖茲探秘說
2026-05-11 23:10:10
《穿Prada的女王2》階層鄙視鏈:穿衣隨便的最有錢,穿越貴越焦慮

《穿Prada的女王2》階層鄙視鏈:穿衣隨便的最有錢,穿越貴越焦慮

商務(wù)范
2026-05-11 15:00:11
中年男性破產(chǎn)被“斬殺”四件套:陽痿、失業(yè)、老婆出軌離婚和心梗

中年男性破產(chǎn)被“斬殺”四件套:陽痿、失業(yè)、老婆出軌離婚和心梗

黯泉
2026-05-09 20:15:36
TVB前當(dāng)家小生閃電辭職CEO,曾豪言簽歌手拍電影,引發(fā)外界猜測

TVB前當(dāng)家小生閃電辭職CEO,曾豪言簽歌手拍電影,引發(fā)外界猜測

陳意小可愛
2026-05-12 15:23:47
外交部:中美經(jīng)貿(mào)關(guān)系的本質(zhì)是互利共贏

外交部:中美經(jīng)貿(mào)關(guān)系的本質(zhì)是互利共贏

界面新聞
2026-05-12 15:34:36
人倫之亂,正在悄悄毀掉無數(shù)家庭!看完一身冷汗

人倫之亂,正在悄悄毀掉無數(shù)家庭!看完一身冷汗

三農(nóng)老歷
2026-05-08 19:20:12
挖出英方在我內(nèi)部安插的重要“釘子”!又破獲一起重大間諜案

挖出英方在我內(nèi)部安插的重要“釘子”!又破獲一起重大間諜案

驚視
2026-05-12 04:46:26
她倆退役后恐難再有交集,王曼昱樸實(shí)低調(diào),孫穎莎太會說

她倆退役后恐難再有交集,王曼昱樸實(shí)低調(diào),孫穎莎太會說

一娛三分地
2026-03-10 17:25:46
大暴雨馬上到廣州!還會降溫

大暴雨馬上到廣州!還會降溫

魯中晨報
2026-05-12 07:22:02
北京安貞醫(yī)院,院長再迎調(diào)整!

北京安貞醫(yī)院,院長再迎調(diào)整!

醫(yī)療器械經(jīng)銷商聯(lián)盟
2026-05-12 12:11:36
梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復(fù)婚后超寵妻

梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復(fù)婚后超寵妻

樂悠悠娛樂
2026-05-12 14:37:35
徹底撕破臉!央視硬剛天價轉(zhuǎn)播費(fèi)后,資本報復(fù)手段簡直不堪入目

徹底撕破臉!央視硬剛天價轉(zhuǎn)播費(fèi)后,資本報復(fù)手段簡直不堪入目

微風(fēng)輕拂面
2026-05-12 01:32:22
失業(yè)后我才明白,只有愚蠢的人,才會花幾十萬在農(nóng)村建房子

失業(yè)后我才明白,只有愚蠢的人,才會花幾十萬在農(nóng)村建房子

三農(nóng)雷哥
2026-05-12 11:36:27
沙媒:一名中國女球迷前往勝利基地門口舉牌,支持C羅拿下德比戰(zhàn)

沙媒:一名中國女球迷前往勝利基地門口舉牌,支持C羅拿下德比戰(zhàn)

懂球帝
2026-05-12 11:07:08
宇樹發(fā)布GD01載人變形機(jī)甲 起售價390萬元 體重約500kg

宇樹發(fā)布GD01載人變形機(jī)甲 起售價390萬元 體重約500kg

CNMO科技
2026-05-12 13:01:07
一圖看懂|特朗普時隔9年再訪華,回顧中美元首歷次會晤

一圖看懂|特朗普時隔9年再訪華,回顧中美元首歷次會晤

澎湃新聞
2026-05-12 08:38:27
庫克、馬斯克、奧特伯格等美企高管將隨特朗普訪華,曾表示“榮幸”的黃仁勛疑缺席

庫克、馬斯克、奧特伯格等美企高管將隨特朗普訪華,曾表示“榮幸”的黃仁勛疑缺席

界面新聞
2026-05-12 12:39:04
2026-05-12 16:47:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11809文章數(shù) 117072關(guān)注度
往期回顧 全部

科技要聞

宇樹發(fā)布載人變形機(jī)甲,定價390萬元起

頭條要聞

學(xué)生建議吸煙區(qū)設(shè)板凳 高校回應(yīng):若"站不住"建議戒煙

頭條要聞

學(xué)生建議吸煙區(qū)設(shè)板凳 高校回應(yīng):若"站不住"建議戒煙

體育要聞

總是掉鏈子的“倒霉蛋”,闖進(jìn)了歐戰(zhàn)決賽

娛樂要聞

劉濤曬媽祖誕辰活動照 評論區(qū)變許愿池

財經(jīng)要聞

黃仁勛真是被白宮徹底封殺了

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

態(tài)度原創(chuàng)

藝術(shù)
家居
時尚
本地
軍事航空

藝術(shù)要聞

這位畫家的油畫美人讓人驚嘆不已!

家居要聞

極簡主義下的居住場域與空間

征集|| 她們也太會買裙子了!邊看邊種草

本地新聞

用蘇繡的方式,打開江西婺源

軍事要聞

知情人士披露:美國或考慮恢復(fù)對伊朗軍事行動

無障礙瀏覽 進(jìn)入關(guān)懷版