亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

具身龍蝦,上車?yán)硐?/h1>
0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

別人家的“龍蝦”還在盯著屏幕玩電腦,理想已經(jīng)把“龍蝦”帶上車了!

最近,理想發(fā)布了全新的流式視頻理解與具身智能統(tǒng)一的Agent框架——

StreamingClaw



在保持與OpenClaw框架完全兼容的基礎(chǔ)上,StreamingClaw原生支持實(shí)時(shí)的多模態(tài)流式交互。

這意味著,系統(tǒng)在面對(duì)視覺輸入時(shí),不再將其視為死板的離線視頻文件,而是像人類感知世界一樣,實(shí)時(shí)捕獲流數(shù)據(jù)(Stream)并進(jìn)行即時(shí)推理。

比如,這只蝦不僅能在駕駛中盯著你,檢測可疑動(dòng)作(哈欠、玩手機(jī))并主動(dòng)預(yù)警。

還能在你取車的時(shí)候,主動(dòng)跟你打招呼。

與此同時(shí),StreamingClaw還引入了自主多代理調(diào)度機(jī)制。

依托主-從代理的緊密協(xié)同,它不僅能自主完成復(fù)雜的任務(wù)規(guī)劃與邏輯決策,更深度集成了豐富的工具及技能庫,在現(xiàn)實(shí)場景中實(shí)現(xiàn)了指令驅(qū)動(dòng)的具身智能。

在StreamingClaw的加持下,機(jī)器人與終端設(shè)備實(shí)現(xiàn)了極低延遲的“邊看、邊記、邊行動(dòng)”:

比如,它可以實(shí)時(shí)上識(shí)別你手持的物品,幫你解題。

不難看出,在這些復(fù)雜場景中,StreamingClaw的核心硬實(shí)力在于實(shí)時(shí)推理與瞬時(shí)響應(yīng)。

而支撐這只“理想龍蝦”在物理世界靈活行動(dòng)的,正是一整套圍繞“流式架構(gòu)”展開的系統(tǒng)設(shè)計(jì)。

從“離線處理”到“主動(dòng)閉環(huán)”

不同于大模型等對(duì)延遲(相對(duì))不敏感的場景,在具身智能、AI硬件及智能座艙等領(lǐng)域,系統(tǒng)往往需要在毫秒級(jí)完成感知—決策—執(zhí)行的閉環(huán):

  • 感知(看):通過攝像頭捕獲環(huán)境;
  • 決策(想):AI大腦規(guī)劃對(duì)策;
  • 執(zhí)行(做):驅(qū)動(dòng)硬件或指令,并根據(jù)動(dòng)作后的新環(huán)境再次循環(huán)。

然而,現(xiàn)有的視頻Agent在處理實(shí)時(shí)感知(流式感知)時(shí)往往面臨著延遲較高的問題。

之所以這樣是因?yàn)?,傳統(tǒng)方法通常將視頻視為完整文件處理。長視頻的計(jì)算量呈指數(shù)級(jí)爆炸,難以實(shí)時(shí)響應(yīng);

同時(shí),模型難以持續(xù)追蹤長時(shí)程信息,導(dǎo)致決策草率、頻繁遺忘,甚至直接任務(wù)失敗。

針對(duì)這些問題,以往的研究嘗試通過視覺壓縮或Token精簡來緩解負(fù)載,但同時(shí)也導(dǎo)致了細(xì)節(jié)丟失,無法準(zhǔn)確定位等問題。

更致命的是,傳統(tǒng)模型大多是被動(dòng)觸發(fā):你不問,它不動(dòng),缺乏對(duì)環(huán)境風(fēng)險(xiǎn)的主動(dòng)感知。

StreamingClaw通過“增量計(jì)算”改寫了這一邏輯。

它不再機(jī)械地重復(fù)處理歷史畫面,而是將環(huán)境的細(xì)微變化視為增量信號(hào)進(jìn)行推理更新。

這意味著,它不僅能“看”得更準(zhǔn)、記”得更久,還能在思考過程中自主調(diào)用工具,實(shí)現(xiàn)從感知到物理干預(yù)的真正閉環(huán)。

這就是所謂的流式推理,與處理現(xiàn)成文件的“離線模式”不同,其要求AI必須像觀看直播一樣,在數(shù)據(jù)不斷涌入的同時(shí)即時(shí)分析,不允許任何嚴(yán)重滯后。

接下來,我們具體來看StreamingClaw是怎么做到的。

具身智能的流式交互引擎

總體來看,StreamingClaw是一個(gè)高度協(xié)同的多代理(Multi-agent)架構(gòu)。它通過一套標(biāo)準(zhǔn)化的流水線,打破了不同硬件之間的壁壘:



首先,無論是智能眼鏡、自動(dòng)駕駛芯片還是具身機(jī)器人,所有多模態(tài)流式輸入都會(huì)通過時(shí)間戳對(duì)齊共享流式緩存*進(jìn)行標(biāo)準(zhǔn)化處理,確保AI擁有統(tǒng)一的“時(shí)間尺度”。

其次,核心大腦StreamingReasoning(主代理)負(fù)責(zé)實(shí)時(shí)感知與規(guī)劃;StreamingMemoryStreamingProactivity(從代理)則分別提供長效記憶支撐與主動(dòng)交互決策。

最后,代理生成的決策指令會(huì)直接驅(qū)動(dòng)工具箱與技能庫。

從簡單的視頻剪切到復(fù)雜的具身動(dòng)作序列,執(zhí)行結(jié)果會(huì)即時(shí)反饋至代理,形成一套完整的“感知—決策—執(zhí)行”閉環(huán)。

這種架構(gòu)讓StreamingClaw不僅能聽懂指令,更能通過自主規(guī)劃與工具調(diào)用,真正深入現(xiàn)實(shí)場景解決問題。

流式推理::StreamingReasoning

流式推理(StreamingReasoning)主要針對(duì)具有連續(xù)輸入輸出的流視頻理解場景。

其核心目標(biāo)是在極低延遲的約束下,實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界的實(shí)時(shí)感知、理解與推理。



實(shí)時(shí)流式推理方面,系統(tǒng)會(huì)將輸入的視頻流拆分為細(xì)粒度片段,并通過動(dòng)態(tài)滑動(dòng)窗口嚴(yán)格控制上下文范圍,從源頭上避免無效信息的堆積。

在此基礎(chǔ)上,結(jié)合經(jīng)過剪枝優(yōu)化的流式KV-Cache機(jī)制,StreamingReasoning可以持續(xù)進(jìn)行高效的增量解碼,使整體推理過程始終緊貼視頻流節(jié)奏運(yùn)行,而不會(huì)出現(xiàn)延遲堆積。

在此之上,系統(tǒng)引入了自規(guī)劃調(diào)度能力,充當(dāng)整個(gè)流程的“總指揮”。

它能夠動(dòng)態(tài)解析用戶指令,并自主規(guī)劃任務(wù)路徑。在面對(duì)復(fù)雜任務(wù)時(shí),系統(tǒng)會(huì)根據(jù)需要選擇調(diào)用層級(jí)化記憶進(jìn)行檢索,或轉(zhuǎn)而觸發(fā)主動(dòng)交互決策;

而在常規(guī)場景下,則保持直接、低延遲的流式多模態(tài)推理,使整體交互過程始終順暢自然。

流式存儲(chǔ):StreamingMemory

StreamingMemory存儲(chǔ)真正的多模態(tài)向量,通過層級(jí)記憶演化(HME)機(jī)制,以應(yīng)對(duì)復(fù)雜的流視頻理解任務(wù)。



具體來說,在記憶機(jī)制上,系統(tǒng)以視覺為核心,將多模態(tài)信息組織為可持續(xù)增長的增量式記憶節(jié)點(diǎn),避免原始數(shù)據(jù)的簡單堆疊。

這些記憶進(jìn)一步從碎片演化為更高層級(jí)的“行動(dòng)”和“事件”,使檢索對(duì)象從畫面本身轉(zhuǎn)向可用于決策的結(jié)構(gòu)化經(jīng)驗(yàn)。

在此基礎(chǔ)上,系統(tǒng)通過命令驅(qū)動(dòng)的并行時(shí)間遍歷實(shí)現(xiàn)高效檢索,在長時(shí)序信息中快速定位關(guān)鍵內(nèi)容,同時(shí)保證魯棒性。

同時(shí),統(tǒng)一的接口設(shè)計(jì)打通跨代理記憶,使不同Agent既能共享關(guān)鍵經(jīng)驗(yàn),又能進(jìn)行差異化管理,從而支撐更高效的協(xié)同。

從代理:StreamingProactivity

StreamingProactivity面向未來事件預(yù)測、推理與主動(dòng)交互設(shè)計(jì),其目標(biāo)既可以由用戶預(yù)先設(shè)定,也可以在流式過程中持續(xù)演化。

當(dāng)請(qǐng)求被識(shí)別為主動(dòng)交互時(shí),主代理會(huì)將其轉(zhuǎn)化為持續(xù)在線的監(jiān)控任務(wù),例如追蹤行為、判斷事件或監(jiān)控風(fēng)險(xiǎn)。

一旦滿足觸發(fā)條件,系統(tǒng)即刻生成通知或解釋性響應(yīng),形成“感知—推理—觸發(fā)—反饋”的閉環(huán),避免反復(fù)查詢。



這一機(jī)制主要覆蓋兩類場景,一類是時(shí)間感知交互,強(qiáng)調(diào)對(duì)狀態(tài)隨時(shí)間演化的持續(xù)跟蹤;

另一類是事件定位交互,聚焦關(guān)鍵事件在時(shí)間流中的精確識(shí)別,常見于異常檢測與自動(dòng)標(biāo)注等任務(wù)。

在實(shí)現(xiàn)上,系統(tǒng)分為免訓(xùn)練適配與訓(xùn)練適配兩種路徑。



免訓(xùn)練適配無需額外訓(xùn)練,通過將觸發(fā)條件結(jié)構(gòu)化為可監(jiān)控節(jié)點(diǎn),在流式過程中匹配視覺信號(hào)并即時(shí)生成響應(yīng);同時(shí)支持目標(biāo)在線更新,形成持續(xù)演化的主動(dòng)交互閉環(huán)。

訓(xùn)練適配則將狀態(tài)變化建模為視覺語言信號(hào),引入場景專用觸發(fā)Token,使感知與任務(wù)解耦,并在單次推理中完成多事件識(shí)別與響應(yīng)生成。

該方案在復(fù)雜場景下具備更高精度、更強(qiáng)泛化能力,同時(shí)顯著降低并發(fā)任務(wù)下的推理開銷。

整體來看,StreamingProactivity實(shí)現(xiàn)了全天候在線的主動(dòng)交互,使系統(tǒng)能夠持續(xù)感知變化并觸發(fā)響應(yīng)。

可擴(kuò)展的工具與技能:閉環(huán)的最后一公里

為了真正讓AI影響物理世界,StreamingClaw還提供了高效工具與技能接口,從而完成了“感知—決策—執(zhí)行”閉環(huán)的最后一個(gè)環(huán)節(jié)。

除了標(biāo)準(zhǔn)的工具組合外,研究還引入了專為視頻理解和流式交互定制的專業(yè)工具。

比如,Video Cut工具可以在關(guān)鍵片段中精準(zhǔn)裁剪時(shí)間戳,將內(nèi)容送入大型多模態(tài)模型進(jìn)行“顯微級(jí)分析”,再輸出精簡文本結(jié)果。



總體而言,StreamingClaw面向流式視頻場景,基于多模態(tài)大模型實(shí)現(xiàn)感知、理解與語音輸出,但當(dāng)前仍以“視覺+文本”為核心輸入范式,對(duì)音頻輸入、精細(xì)時(shí)序?qū)R及跨模態(tài)聯(lián)合推理的支持仍有限。

未來,系統(tǒng)將演進(jìn)為統(tǒng)一的全模態(tài)代理框架,打通視頻、圖像、音頻與文本的輸入輸出,實(shí)現(xiàn)真正的感知-執(zhí)行閉環(huán);

同時(shí)強(qiáng)化長時(shí)程建模、空間理解與跨模態(tài)對(duì)齊能力,并持續(xù)優(yōu)化低延遲部署與記憶、工具調(diào)用機(jī)制,以支撐更真實(shí)世界的具身交互。

[1]https://jackyu6.github.io/StreamingClaw-Page/

[2]https://arxiv.org/pdf/2603.22120

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
變卦了?鄭麗文訪美日期確定,聲稱兩岸要和平,美國同樣至關(guān)重要

變卦了?鄭麗文訪美日期確定,聲稱兩岸要和平,美國同樣至關(guān)重要

阿龍聊軍事
2026-04-15 06:17:36
金球無水貨!登貝萊歐冠封神,極致表現(xiàn)印證金球獎(jiǎng)絕對(duì)含金量!

金球無水貨!登貝萊歐冠封神,極致表現(xiàn)印證金球獎(jiǎng)絕對(duì)含金量!

田先生籃球
2026-04-15 08:53:05
巴基斯坦空軍傳來喜訊,6架空警500今年抵達(dá),首批殲-35A一同交付

巴基斯坦空軍傳來喜訊,6架空警500今年抵達(dá),首批殲-35A一同交付

嘆知
2026-04-15 23:31:10
78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

LULU生活家
2026-04-14 18:43:54
兌現(xiàn)目標(biāo)!37歲奧運(yùn)冠軍退役5個(gè)月減肥40斤 網(wǎng)友驚呼:變美認(rèn)不出

兌現(xiàn)目標(biāo)!37歲奧運(yùn)冠軍退役5個(gè)月減肥40斤 網(wǎng)友驚呼:變美認(rèn)不出

我愛英超
2026-04-14 10:44:22
隨著深圳豪取14連勝,山東4連敗,廣廈爆冷輸球,CBA最新積分出爐

隨著深圳豪取14連勝,山東4連敗,廣廈爆冷輸球,CBA最新積分出爐

小火箭愛體育
2026-04-15 22:12:01
北約和多個(gè)國家支持美國封鎖霍爾木茲海峽

北約和多個(gè)國家支持美國封鎖霍爾木茲海峽

一種觀點(diǎn)
2026-04-13 15:34:58
美軍封鎖禁令剛下,4艘中方巨輪直沖霍爾木茲,我國054A軍艦護(hù)送

美軍封鎖禁令剛下,4艘中方巨輪直沖霍爾木茲,我國054A軍艦護(hù)送

漫步獨(dú)行俠
2026-04-15 08:30:07
誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

動(dòng)物奇奇怪怪
2026-04-15 13:19:42
全線大漲!特朗普稱美國對(duì)伊朗的戰(zhàn)爭已經(jīng)結(jié)束,油價(jià)重挫

全線大漲!特朗普稱美國對(duì)伊朗的戰(zhàn)爭已經(jīng)結(jié)束,油價(jià)重挫

每日經(jīng)濟(jì)新聞
2026-04-15 10:35:26
歷史性突破!人民幣躍居全球二大結(jié)算貨幣,美元霸權(quán)加速崩塌!

歷史性突破!人民幣躍居全球二大結(jié)算貨幣,美元霸權(quán)加速崩塌!

夢回千年a
2026-04-15 10:48:20
公安部公布5起危害生態(tài)安全犯罪典型案例

公安部公布5起危害生態(tài)安全犯罪典型案例

界面新聞
2026-04-15 10:22:27
斯諾克戰(zhàn)報(bào):張安達(dá)5破百4桿50+,10-3勝舒爾第晉級(jí)正賽

斯諾克戰(zhàn)報(bào):張安達(dá)5破百4桿50+,10-3勝舒爾第晉級(jí)正賽

小皷拍客在北漂
2026-04-16 01:32:36
國合署:中方將在發(fā)展中國家再開展2000個(gè)“小而美”民生項(xiàng)目

國合署:中方將在發(fā)展中國家再開展2000個(gè)“小而美”民生項(xiàng)目

澎湃新聞
2026-04-14 22:16:28
拜仁vs皇馬前瞻:皇馬兩大將缺席 拜仁主場反擊戰(zhàn)可不敗晉級(jí)

拜仁vs皇馬前瞻:皇馬兩大將缺席 拜仁主場反擊戰(zhàn)可不敗晉級(jí)

智道足球
2026-04-15 12:45:14
浙江溫州一男子滑旱冰摔倒去世,年僅31歲,目擊者:摔倒后不愿去醫(yī)院,第二天加重

浙江溫州一男子滑旱冰摔倒去世,年僅31歲,目擊者:摔倒后不愿去醫(yī)院,第二天加重

瀟湘晨報(bào)
2026-04-15 18:47:24
仰望U8為何“涼了”

仰望U8為何“涼了”

趣味萌寵的日常
2026-04-15 04:07:54
李在明萬萬沒想到,被判無期的尹錫悅,竟能比當(dāng)總統(tǒng)還掙得多

李在明萬萬沒想到,被判無期的尹錫悅,竟能比當(dāng)總統(tǒng)還掙得多

說歷史的老牢
2026-04-08 04:57:56
今夜,太瘋狂!暴漲,熔斷!

今夜,太瘋狂!暴漲,熔斷!

中國基金報(bào)
2026-04-16 00:15:20
恒大集團(tuán)許家印坑的最慘的9位大佬

恒大集團(tuán)許家印坑的最慘的9位大佬

地產(chǎn)微資訊
2026-03-29 19:08:15
2026-04-16 02:11:00

量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12476文章數(shù) 176450關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

法國全票通過 “將不義之財(cái)歸還中國”

頭條要聞

法國全票通過 “將不義之財(cái)歸還中國”

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
藝術(shù)
時(shí)尚

教育要聞

黃岡小升初招生題,求面積,方法思路太絕了

家居要聞

簡而不減 暖居之道

數(shù)碼要聞

明基新款顯示器首發(fā)12499元:4K專業(yè)級(jí)色彩校準(zhǔn) 根據(jù)環(huán)境光自動(dòng)調(diào)整

藝術(shù)要聞

看!波蘭超模阿里亞納的驚艷寫真,身材讓人心動(dòng)不已!

赫本愛穿的傘裙,好優(yōu)雅!

無障礙瀏覽 進(jìn)入關(guān)懷版