![]()
新智元報道
編輯:Aeneas KingHZ
【新智元導(dǎo)讀】北大校友翁荔首次出鏡,介紹了Thinking Machines的又一產(chǎn)品——交互模型!200毫秒神同步,能聽懂你的猶豫,更能實時感知協(xié)作。AI不再是冷冰冰的回復(fù)機器,更是同頻呼吸的靈魂隊友。OpenAI前高管天團,終于又有新作亮相了。
就在剛剛,Thinking Machines又一重磅產(chǎn)品——交互模型(Interaction Models)正式亮相了!
![]()
作為OpenAI前安全負(fù)責(zé)人、如今Thinking Machines Lab的聯(lián)合創(chuàng)始人,Lilian Weng獻出了她的出鏡首秀。
在這段備受矚目的視頻中,她展示了AI如何從一個「只會對話的工具」進化為「能實時協(xié)作的伙伴」。
在視頻中,Lilian Weng提了一個要求:每聽到一次動物的名字,都計數(shù)一次。
而且,非常難得的是,即使她在喝水或思考而停止說話時,AI也并沒有打斷。
最后,當(dāng)她講完,AI給出正確答案:鹿出現(xiàn)一次,綿羊一次,郊狼一次,卡皮巴拉一次。
注意,這個交互模型可以隱式地追蹤她是在思考、讓步、自我糾正還是邀請回應(yīng),這個過程中,并沒有專門內(nèi)置的對話管理組件!
此前,這家由前OpenAI CTO Mira Murati創(chuàng)辦的明星公司,在0產(chǎn)品、0論文的情況下,就憑借全明星創(chuàng)始團隊完成了高達20億美元的種子輪融資,由a16z領(lǐng)投,英偉達、AMD、微軟等巨頭跟投,估值直接沖上120億美元,刷新了硅谷早期融資紀(jì)錄。
繼去年10月發(fā)布首個開發(fā)者平臺Tinker(一個讓大模型微調(diào)變得像呼吸一樣簡單的工具)之后,這一次,他們又交出了一份讓業(yè)界刮目相看的成績單。
![]()
當(dāng)交互帶寬被拉滿,AI 就不再是我們的工具,而是我們意識的實時延伸。這或許徹底改變?nèi)祟惻cAI互動的方式,取得通往AGI路徑上又一次勝利的里程碑!
![]()
AI時代的iPhone時刻終將到來!
![]()
AI終于學(xué)會了「插嘴」
這一步比AGI更動人
想象一下,你正在和一位博學(xué)的朋友聊天。你話還沒說完,只是稍作停頓,在腦海中搜尋一個詞,他便敏銳地捕捉到了你的猶豫,輕聲給出了那個詞。
或者當(dāng)你正興奮地描述一個構(gòu)思時,他眼神微動,在恰當(dāng)?shù)臅r機發(fā)出一聲贊嘆。
這種「同頻呼吸」的節(jié)奏感,是我們作為人類最習(xí)以為常、也最珍視的協(xié)作體驗。
但在過去兩年里,盡管AI的智力在指數(shù)級增長,我們與它的交互卻始終像是在進行一場跨世紀(jì)的電郵往來。
無論ChatGPT多么博學(xué),你必須打包好你的思想,點擊發(fā)送,然后屏息凝神,等待反饋。
![]()
這種尷尬的「回合制」(Turn-based)殘余,正是阻礙人機真正融合的那層障礙。
![]()
就在剛剛,由OpenAI前研究主管Lilian Weng與Mira Murati等人領(lǐng)銜的初創(chuàng)公司Thinking Machines (TML)發(fā)布了其首個重磅成果:交互模型(Interaction Models)。
這一次,AI終于打破了沉默,學(xué)會了「插嘴」。
除了Lilian Weng展示的無縫對話管理功能之外,這個AI還有以下令人深刻的記憶點。
它會根據(jù)上下文按需介入,而不僅僅是在用戶說完話之后。
用戶和模型可以同時說話,這樣就能實現(xiàn)實時翻譯這類功能。
令人驚訝的是,這個模型還具有對時間流逝的直接感知。
在與用戶對話和聆聽的同時,它可以同時進行搜索、瀏覽網(wǎng)頁或生成用戶界面,并根據(jù)需要將搜索結(jié)果融入對話中。
在更長的真實會話中,這些過程都會持續(xù)進行,讓你感覺更像是在和它合作,而不是在提示它。
網(wǎng)友們直言:這個產(chǎn)品太酷了。
![]()
![]()
![]()
200毫秒的革命
終結(jié)AI的「冷場」時代
目前,AI模型大多患有一種「數(shù)字自閉癥」。
當(dāng)你說話時,它是耳聾的——它必須等待一個名為VAD(語音活動檢測)的「外掛腳手架」告訴它:「好了,人類說完了,你現(xiàn)在可以處理了。」
在它生成回復(fù)時,它又是盲目的——如果你在它說話中途指著屏幕上的Bug大喊,它往往聽不見。
![]()
Thinking Machines決定拆掉這些腳手架。
他們發(fā)布的交互模型采用了名為「時間對齊微回合(Time-Aligned Micro-Turns)」的架構(gòu)。
![]()
傳統(tǒng)的AI是以「句子」或「段落」為單位處理信息的,但這個架構(gòu)不再把對話看作是一塊塊巨大的「磚頭」,而是將其切碎成200毫秒為一個單位的微小流片段。
這是什么概念?200毫秒正是人類反應(yīng)時間的生理極限。
在這種頻率下,輸入與輸出不再是先后順序,而是交織共生。
AI并不是等你把話說完才開始理解,而是每200毫秒就在進行一次「感知-反饋」的循環(huán)。
![]()
這就像人類的神經(jīng)反射系統(tǒng)——你還沒意識到自己說錯話,AI的耳朵和大腦已經(jīng)捕捉到了你的發(fā)音偏差。
在Lilian Weng出鏡的演示中,模型不再是被動等待指令,它能實時追蹤Lilian何時在思考、何時在讓步、何時在進行自我糾正,甚至能預(yù)判她何時邀請回應(yīng)。
技術(shù)從「指令響應(yīng)」進化為了「感知共振」。
正如Lilian Weng所言:「人與人之間的協(xié)作,對于改善人機協(xié)作至關(guān)重要。」
![]()
徹底告別VAD(語音檢測外掛)
市面上幾乎所有的實時語音AI都在用一種叫VAD的技術(shù)。它的邏輯是:監(jiān)測靜音,如果用戶超過0.5秒沒說話,就判定「用戶說完了」,然后觸發(fā)AI回復(fù)。
這就是為什么目前的AI總是接話太慢,或者在你思考停頓時粗魯?shù)卮驍嗄恪?/strong>
TML的模型則是原生感知。
它不需要靜音檢測,它能通過你的語氣、語速、呼吸聲,甚至是視頻里的眼神,判斷你是在「思考」、「想讓人接話」還是「自我糾正」。這種「懂你」的能力是長在模型骨子里的。
「前臺交互+后臺思考」的雙模型協(xié)作
這是TML最天才的設(shè)計。
實時交互模型(InteractionModel),就像人類的「直覺」和「反射」,負(fù)責(zé)保持在線,負(fù)責(zé)聽、看、說、感知情緒,確保200ms的響應(yīng)速度。
異步背景模型(Background Model):就像人類的「深度思考」,負(fù)責(zé)調(diào)用工具、搜索網(wǎng)頁、運行復(fù)雜邏輯。
![]()
當(dāng)你跟AI聊天時,前臺模型負(fù)責(zé)陪你「扯淡」和感知,后臺模型在瘋狂幫你查資料。
一旦后臺有了結(jié)果,前臺模型會找一個「合適的時機」(而不是粗暴打斷)把結(jié)果揉進對話里。
他們的出發(fā)點是連續(xù)的音頻與視頻——這些模態(tài)本質(zhì)上是實時的。
文本可以等,但實時對話不能等。通過優(yōu)先針對最困難的場景進行設(shè)計,TML團隊最終得到了一種架構(gòu):它原生支持多模態(tài)、具備時間感知能力,并且能夠處理跨所有模態(tài)的并發(fā)輸入與輸出流。
他們不使用大型獨立編碼器來處理音視頻,而是采用預(yù)處理盡可能少的方案。
音頻:以dMel格式輸入,通過輕量級嵌入層轉(zhuǎn)換
圖像:分割成40×40的圖塊,由hMLP編碼
音頻解碼:使用流頭(flow head)
所有組件與Transformer從零開始聯(lián)合訓(xùn)練。
![]()
這一切,都證明了他們官網(wǎng)的這句話:「好的協(xié)作,不是某個人最后給出一個完美答案。好的協(xié)作,是有人在當(dāng)下真正投入、共同在場。」
行業(yè)地震:GPT真的被超越了嗎?
很多人會問:OpenAI的GPT Realtime API不也能做到實時嗎?
答案是:邏輯完全不同。
根據(jù)TML發(fā)布的技術(shù)報告,他們的TML-Interaction-Small模型(12B活躍參數(shù)的MoE架構(gòu))在FD-bench(專門衡量交互質(zhì)量的基準(zhǔn)測試)上,已經(jīng)全面領(lǐng)先于GPT Realtime等競爭對手。
![]()
核心差距在于「主控權(quán)」:
GPT等模型:依然是被動的。除非你叫它,否則它不動。
TML模型:具有視覺主動性(VisualProactivity)。它能主動看到世界發(fā)生了變化,并在不需要你發(fā)指令的情況下開口。
![]()
比如你做俯臥撐,GPT必須等你問「我做了幾個」才會回答;而TML的模型能一邊看著你做,一邊自然地喊出:「1、2、3……加油,最后兩個!」
Mira Murati的復(fù)仇,還是新征途?
曾經(jīng),Thinking Machines的橫空出世,讓整個硅谷為之側(cè)目。
作為前OpenAI的二號人物,Mira Murati在離職后并沒有選擇復(fù)刻一個更大參數(shù)的GPT,而是選擇了「交互」這個切口。
這反映了她對AI未來的判斷:智能固然重要,但協(xié)作才是AI進入人類生活的入場券。
過去三年,所有AI實驗室都在拼誰更聰明,參數(shù)更大、推理更強、上下文更長。但幾乎沒有人認(rèn)真想過,人類跟AI之間的交互界面本身,就是一個巨大的瓶頸。
如果AI永遠(yuǎn)需要人類去「伺候」它的Prompt,去忍受它的延遲,那它永遠(yuǎn)只是個好用的計算器。只有當(dāng)AI能夠「感知時間」、「感知猶豫」、「自然插嘴」時,它才真正具備了人的屬性。
Thinking Machines選擇的行業(yè)路線告訴我們:AI的下一個戰(zhàn)場,不在參數(shù)表上。
你覺得,他們押對方向了嗎?
參考資料:
https://x.com/thinkymachines/status/2053938892152435174
https://x.com/miramurati/status/2053939069890298321
https://thinkingmachines.ai/blog/interaction-models/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.