无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

94毫秒延遲、監(jiān)控勝率100%!國產(chǎn)視頻模型干翻Gemini

0
分享至


新智元報道


【新智元導讀】京東開源JoyAI-VL-Interaction,把視頻AI從「你問我答」的輪次對話,推進到「持續(xù)在場、主動開口、按時機說話」的流式交互新范式。

世界杯決賽最后一秒,球進了。

你身邊那個號稱能「看懂視頻」的AI,還在安靜地等你開口問一句「剛才發(fā)生了什么?」。

這就是今天幾乎所有視頻AI的樣子——不管包裝得多酷炫,骨子里都是同一個邏輯:你問,它答。

可真實世界里最需要AI出聲的那些瞬間,從來不會等人提問——解說員不會等導播發(fā)話才開口喊「Goal」。

這些場景要的不是「問答」,而是一雙全程在線、自己拿主意什么時候該說話的眼睛。

現(xiàn)在,京東把這雙「眼睛」開源了,它叫JoyAI-VL-Interaction。


JoyAI-VL-Interaction的重點不只是「看懂視頻」,更是要讓模型在連續(xù)的視頻流里自己決定——何時回應、何時沉默、何時把復雜任務甩給后臺。

一句話:它學會了什么時候該閉嘴,更學會了什么時候必須開口。

這套系統(tǒng)剛開源就拿到了生態(tài)層面的背書——JoyAI-VL-Interaction 獲得了 vLLM-Omni 的 day-0 支持,已原生合入 vLLM-Omni 主線。

開發(fā)者可以在 vLLM-Omni 上一鍵拉起服務體驗,也可以直接從京東的倉庫一鍵啟動。


代碼:https://github.com/jd-opensource/JoyAI-VL-Interaction

模型:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

數(shù)據(jù)集:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技術報告:https://huggingface.co/papers/2606.14777

主動、實時、還會「甩鍋」

JoyAI-VL-Interaction擁有三項核心能力。

第一是自主交互(Proactive Interaction)。

這是整個模型最顛覆直覺的地方——它不等你開口,自己判斷這一刻值不值得說話。

看護場景里,老人正常活動它一聲不吭,一旦察覺異常立刻預警,而不是每隔十秒問你「需要幫忙嗎?」。

實時翻譯場景更直觀:你跟它說「把電影字幕翻譯成中文」,它不會翻一句停下來等你發(fā)下一條指令,而是自己盯著畫面,每出一行新字幕就主動翻譯。

比如,JoyAI-VL-Interaction在街頭采訪視頻上逐句翻譯字幕,全程不落一句。

第二是實時響應(Real-time Response)。

能力有了,速度跟不上也白搭。

JoyAI-VL-Interaction靠三個關鍵設計把延遲壓到了亞秒級:

一是JoyAI-VL-Interaction推理系統(tǒng)是vllm原生適配的,確保有較高的KV Cache復用率,獲得了 vLLM-Omni 的 day-0 原生支持。

二是AdaCodec——它不給每一幀都花完整的ViT token,而是只在畫面真正發(fā)生變化的「關鍵幀」上花全量token(約256個),中間的「可預測幀」只用大約16個輕量P-token就搞定。

這樣一來,即使持續(xù)看幾個小時的視頻,token預算也只和畫面變化量成正比,而不是隨幀數(shù)線性爆炸。

三是長程記憶的分層緩存:短期記憶保留最近的原始視覺token,中期記憶存文本摘要,長期記憶做進一步壓縮。

這三層加起來能覆蓋大約12小時的上下文,而且壓縮過程是異步運行的,完全不堵實時推理。

2026 世界杯墨西哥對南非的直播流里,用戶只丟了一句「裁判出示紅牌時提醒我」,JoyAI-VL-Interaction 就自己盯著畫面,紅牌亮出的一瞬間同步喊出「裁判出示紅牌」——平均延遲 94 毫秒,比現(xiàn)場觀眾的反應還快。

有人摔倒時,也能夠及時提醒。而不是事后總結。

第三是任務委派(Delegation)。

這招最像人。

碰上超出實時推理能力的難題——比如你對著一道數(shù)學證明題說「幫我推導一下」,或者看著手機界面說「用HTML把這個APP頁面復刻出來」——它不會硬答一通然后翻車。

JoyAI-VL-Interaction能主動把活兒甩給后臺的大模型或Agent,自己繼續(xù)盯著畫面、陪著你,等后臺結果回來再自然接回對話。

比如,它可以一邊把「復刻手機界面」的任務交給后臺,一邊繼續(xù)和用戶聊天、回答其他問題,后臺返回HTML代碼后無縫銜接,全程不斷線。

你這邊還在跟它你問我答,后臺已經(jīng)默默把證明微分中值定理這種硬骨頭啃完了。

而且這個「后臺」是可替換的:JoyAI-VL-Interaction已經(jīng)做好了到Claude Code、OpenClaw、Hermes Agent等各種Agent的橋接,任何API、模型都能接進來當「后臺大腦」。

前臺實時陪伴,后臺默默干活——它不再只是個視頻問答助手,更像一套「邊看邊說+后臺執(zhí)行」的協(xié)作系統(tǒng)。

這就像是在物理世界和數(shù)字世界之間自由穿梭。

聽著有點玄,但拆開看就是:前臺模型盯著攝像頭里的真實世界(物理世界),后臺Agent去完成搜索、寫代碼、下單之類的數(shù)字世界任務。

看到了,判斷了,還能動手干活——一個8B的小模型,居然跑出了Agent的味道。

從「一問一答」到「邊看邊說」

能力清單看著熱鬧,可它到底比Gemini強在哪?得先看清老辦法卡在哪。

今天的視頻通話AI看著像實時交互,扒開看還是輪次對話:你拋一個問題,它回答,然后等你下一句。

本質(zhì)和文字聊天沒區(qū)別,只是把輸入換成了畫面。

豆包的視頻通話還更主動一點,靠的是外部輪詢觸發(fā)器定時「打一槍」才看畫面。Gemini的視頻通話更直接,連這一槍都省了——你不問,它連一幀都不給你看。

同樣是世界杯這個例子,不論是豆包還是Gemini都沒能實時做出反應。

JoyAI-VL-Interaction改寫的正是這套邏輯:從「輪次對話」走向「流式交互」。

「要不要開口」這個決定,第一次被交給了模型自己——說話、沉默、或者把難題甩給后臺。不是if-else規(guī)則,而是模型自己學來的判斷。

無獨有偶,上個月由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab也拋出了「交互模型」的概念。

兩個團隊幾乎同時撞到同一個判斷——「從輪次走向交互」是個時機已到的方向。

不同的是,TML放出的是276B的research preview,暫不公開;京東則是模型、數(shù)據(jù)、訓練方法和完整系統(tǒng)全部開源。

跟Gemini正面掰手腕

光講理念是虛的,京東直接拉對手做了人類評測。

在監(jiān)控預警、實時計數(shù)、實時翻譯、時間感知、直播解說與引導、長程記憶等六類真實流式場景里,總共58個案例,JoyAI-VL-Interaction對陣豆包、Gemini。

5位專業(yè)評審從回答質(zhì)量和時機兩個維度打分,整體勝率分別是77.6%87.9%


幾個數(shù)字尤其搶眼:

  • 監(jiān)控預警對兩個對手都打出100%勝率——摔倒檢測案例里,JoyAI-VL-Interaction在人倒下一瞬間就發(fā)警報,豆包晚了四五秒,Gemini直接表示無法監(jiān)控。

  • 實時計數(shù)飛鏢六投六中同步報數(shù),豆包只數(shù)出兩把,Gemini說了句「讓我看看」就沉默了。

  • 實時翻譯它全程逐句跟字幕,對手只翻了第一幀就停了。

  • 時間感知20秒提醒它只差一兩秒,豆包沒響,Gemini到40秒才開口。

JoyAI-VL-Interaction優(yōu)勢不只是「答得對」,更在于「來得及」和「跟得住」。

豆包靠輪詢觸發(fā)、Gemini卡在一問一答,反應永遠受制于外部節(jié)奏;JoyAI-VL-Interaction把「何時開口」訓進了模型內(nèi)部,反應只受推理速度限制。

更何況,它眼下只是個8B的小模型,通用知識和表達豐富度未必占優(yōu),數(shù)據(jù)和評測也還在早期。

但這么小的參數(shù)量就跑出了這樣的交互能力,說明把交互性訓進模型這條路,數(shù)據(jù)效率高得驚人。

技術報告甚至提到了「能力涌現(xiàn)」——引導用戶在手機APP上完成購物、看著PPT即興講課,這些從未被訓練過的能力自己冒了出來。

不是背答案,是模型學會了一種通用的「看著辦」能力。

開源的

是一整套能跑起來的系統(tǒng)

京東的誠意,藏在「開源」二字里。

它放出來的不是一個孤零零的權重,而是訓練recipe、超過400萬條時間對齊的交互數(shù)據(jù),外加一套完整可部署的系統(tǒng)——ASR/TTS語音模塊、三層長程記憶、可視化操作界面、后臺大腦橋接,全是可插拔模塊。

拿來就能搭一個能聽、能說、能看、能記的實時助手,插上攝像頭或接入直播流就能直接跑。

這在國內(nèi)多模態(tài)開源圈里幾乎是頭一回。

過去開源模型大多只放權重和推理代碼,想跑起來還得自己搭半套基建。

而京東這次連vLLM推理優(yōu)化、WebRTC視頻流接入、會話狀態(tài)管理都一并放出,把「開源」從「給你一把錘子」升級成了「給你一整套工具箱加使用手冊」。

為什么是京東?

答案藏在「全球最大的物理世界運營中心」里。

會「看視頻」的AI滿地都是,但能在真實世界里持續(xù)干活的AI,需要的不只是算法——還需要場景、數(shù)據(jù)和落地入口。

供應鏈、零售、物流、倉儲、履約、客服——這些年京東在真實世界趟出來的流程和觸點,恰恰是多模態(tài)AI最缺的土壤。

倉庫里的異常檢測、物流途中的貨品監(jiān)控、直播間里的實時解說和購物陪伴、售后服務中的視頻通話指引——每一個都是「需要AI持續(xù)在場」的真實剛需。

這也解釋了為什么JoyAI-VL-Interaction的場景清單讀起來像一張京東業(yè)務地圖:世界杯賽事直播解說、監(jiān)控預警、老人兒童看護、寵物照看、手機購物陪伴、穿搭評價、操作指引、AI視頻通話……每一個場景里,人盯著屏幕會累、會走神,機器卻能7×24小時不眨眼。

從「看懂」到「看著辦」,差的從來不只是一個模型,而是讓它真正用起來的那片土壤——能在真實世界里一直干活的模型,得有人先把那片土壤養(yǎng)出來。

現(xiàn)在,京東把模型和土壤一起攤開了。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
娜然辱華言論曝光,霍家婚訊緊急剎車,郭晶晶一句話把門堵死了

娜然辱華言論曝光,霍家婚訊緊急剎車,郭晶晶一句話把門堵死了

往史過眼云煙
2026-06-22 16:48:30
本想拿突尼斯當出氣筒!結果日本 4-0 后,國足反被嘲諷上了熱搜

本想拿突尼斯當出氣筒!結果日本 4-0 后,國足反被嘲諷上了熱搜

酷侃體壇
2026-06-22 21:33:59
尼日利亞無緣2026世界杯正賽

尼日利亞無緣2026世界杯正賽

體壇周報
2026-06-23 02:19:22
巴媒:巴西希望頭名出線,若第二名出線將失去優(yōu)質(zhì)的后勤保障

巴媒:巴西希望頭名出線,若第二名出線將失去優(yōu)質(zhì)的后勤保障

懂球帝
2026-06-23 07:10:17
日本媒體憂心忡忡!北海道一小鎮(zhèn)全是印度人,連超市都標滿印地語

日本媒體憂心忡忡!北海道一小鎮(zhèn)全是印度人,連超市都標滿印地語

小徐講八卦
2026-06-22 09:15:27
勇士追字母失敗 醞釀兩筆新交易

勇士追字母失敗 醞釀兩筆新交易

體壇周報
2026-06-23 13:20:06
歷史總是驚人地相似!解放臺灣,康熙340年前的經(jīng)驗值得學習借鑒

歷史總是驚人地相似!解放臺灣,康熙340年前的經(jīng)驗值得學習借鑒

近史談
2026-06-09 16:59:24
戚薇泳裝生圖

戚薇泳裝生圖

情感大頭說說
2026-06-23 13:24:38
扎心!500萬薪資!到手就剩140萬!

扎心!500萬薪資!到手就剩140萬!

柚子說球
2026-06-23 09:34:41
SpaceX剛創(chuàng)下一個歷史性紀錄:發(fā)射衛(wèi)星數(shù)超過全人類總和

SpaceX剛創(chuàng)下一個歷史性紀錄:發(fā)射衛(wèi)星數(shù)超過全人類總和

知識碎碎念
2026-06-22 20:07:09
2026廣州真實收入真相:月薪過萬已是少數(shù),普通人高薪到底有多難

2026廣州真實收入真相:月薪過萬已是少數(shù),普通人高薪到底有多難

侃故事的阿慶
2026-06-23 08:24:26
林慶華,已任甘肅省領導!湖南省委副秘書長白云峰,任郴州市代市長!

林慶華,已任甘肅省領導!湖南省委副秘書長白云峰,任郴州市代市長!

吃貨的分享
2026-06-23 11:55:30
李金銘十多年前綜藝事件還未停息,被節(jié)目里的“婆婆”糾纏十余年

李金銘十多年前綜藝事件還未停息,被節(jié)目里的“婆婆”糾纏十余年

韓小娛
2026-06-23 06:57:03
向太曝馬伊琍已再婚:當年文章過不了心理那關

向太曝馬伊琍已再婚:當年文章過不了心理那關

娛樂看阿敞
2025-12-12 15:50:00
楊振寧去世5個月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨居國內(nèi)

楊振寧去世5個月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨居國內(nèi)

照見古今
2026-03-26 19:06:28
俄羅斯GDP,1993年是中國的97%,2009年是中國的23.5%,現(xiàn)在呢?

俄羅斯GDP,1993年是中國的97%,2009年是中國的23.5%,現(xiàn)在呢?

時尚的弄潮
2026-06-23 03:44:26
無傷亡!北京著名商業(yè)街大柵欄發(fā)生火災!原因正在調(diào)查中

無傷亡!北京著名商業(yè)街大柵欄發(fā)生火災!原因正在調(diào)查中

聲情專遞
2026-06-22 20:52:21
翁虹女兒被UCLA錄取,翁虹發(fā)長文:萬萬沒想到真切發(fā)生在我家

翁虹女兒被UCLA錄取,翁虹發(fā)長文:萬萬沒想到真切發(fā)生在我家

仙味少女心
2026-06-21 18:31:19
吃錯藥鬧烏龍!羅永浩怒撕百萬醫(yī)療大V博主:流量流氓

吃錯藥鬧烏龍!羅永浩怒撕百萬醫(yī)療大V博主:流量流氓

雷科技
2026-06-22 17:39:06
拒絕重返廣東隊!徐昕完成重磅簽約,朱芳雨損失慘重!

拒絕重返廣東隊!徐昕完成重磅簽約,朱芳雨損失慘重!

緋雨兒
2026-06-23 10:15:38
2026-06-23 14:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
15511文章數(shù) 66932關注度
往期回顧 全部

科技要聞

48名中國開發(fā)者聯(lián)名舉報蘋果

頭條要聞

山西沁源新任縣委書記上任 就"82死礦難"表態(tài)

頭條要聞

山西沁源新任縣委書記上任 就"82死礦難"表態(tài)

體育要聞

哈蘭德國家隊52場59球 世界杯狂刷6大紀錄

娛樂要聞

喜劇大師曝光肖戰(zhàn)拍戲狀態(tài)!

財經(jīng)要聞

智譜萬億市值,國產(chǎn)Anthropic真來了?

汽車要聞

華為智駕ADS限時優(yōu)惠月底結束 7月1日前下訂立省3000元

態(tài)度原創(chuàng)

旅游
親子
時尚
房產(chǎn)
軍事航空

旅游要聞

身邊的紅色地標 | 中共一大紀念館“圈粉”海內(nèi)外游客

親子要聞

一封家書令人動容!孩子確診發(fā)育遲緩 深圳父親辭職全職帶娃

今年夏天一定要擁有的6條絕美裙子,太好看了!

房產(chǎn)要聞

一年時間,36個盤“消失”!海口樓市,罕見“大收縮”!

軍事要聞

以色列總理、國防部長和國防軍總參謀長發(fā)表聯(lián)合聲明

無障礙瀏覽 進入關懷版