![]()
新智元報道
![]()
【新智元導讀】京東開源JoyAI-VL-Interaction,把視頻AI從「你問我答」的輪次對話,推進到「持續(xù)在場、主動開口、按時機說話」的流式交互新范式。
世界杯決賽最后一秒,球進了。
你身邊那個號稱能「看懂視頻」的AI,還在安靜地等你開口問一句「剛才發(fā)生了什么?」。
這就是今天幾乎所有視頻AI的樣子——不管包裝得多酷炫,骨子里都是同一個邏輯:你問,它答。
可真實世界里最需要AI出聲的那些瞬間,從來不會等人提問——解說員不會等導播發(fā)話才開口喊「Goal」。
這些場景要的不是「問答」,而是一雙全程在線、自己拿主意什么時候該說話的眼睛。
現(xiàn)在,京東把這雙「眼睛」開源了,它叫JoyAI-VL-Interaction。
![]()
JoyAI-VL-Interaction的重點不只是「看懂視頻」,更是要讓模型在連續(xù)的視頻流里自己決定——何時回應、何時沉默、何時把復雜任務甩給后臺。
一句話:它學會了什么時候該閉嘴,更學會了什么時候必須開口。
這套系統(tǒng)剛開源就拿到了生態(tài)層面的背書——JoyAI-VL-Interaction 獲得了 vLLM-Omni 的 day-0 支持,已原生合入 vLLM-Omni 主線。
開發(fā)者可以在 vLLM-Omni 上一鍵拉起服務體驗,也可以直接從京東的倉庫一鍵啟動。
![]()
代碼:https://github.com/jd-opensource/JoyAI-VL-Interaction
模型:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
數(shù)據(jù)集:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
技術報告:https://huggingface.co/papers/2606.14777
主動、實時、還會「甩鍋」
JoyAI-VL-Interaction擁有三項核心能力。
第一是自主交互(Proactive Interaction)。
這是整個模型最顛覆直覺的地方——它不等你開口,自己判斷這一刻值不值得說話。
看護場景里,老人正常活動它一聲不吭,一旦察覺異常立刻預警,而不是每隔十秒問你「需要幫忙嗎?」。
實時翻譯場景更直觀:你跟它說「把電影字幕翻譯成中文」,它不會翻一句停下來等你發(fā)下一條指令,而是自己盯著畫面,每出一行新字幕就主動翻譯。
比如,JoyAI-VL-Interaction在街頭采訪視頻上逐句翻譯字幕,全程不落一句。
第二是實時響應(Real-time Response)。
能力有了,速度跟不上也白搭。
JoyAI-VL-Interaction靠三個關鍵設計把延遲壓到了亞秒級:
一是JoyAI-VL-Interaction推理系統(tǒng)是vllm原生適配的,確保有較高的KV Cache復用率,獲得了 vLLM-Omni 的 day-0 原生支持。
二是AdaCodec——它不給每一幀都花完整的ViT token,而是只在畫面真正發(fā)生變化的「關鍵幀」上花全量token(約256個),中間的「可預測幀」只用大約16個輕量P-token就搞定。
這樣一來,即使持續(xù)看幾個小時的視頻,token預算也只和畫面變化量成正比,而不是隨幀數(shù)線性爆炸。
三是長程記憶的分層緩存:短期記憶保留最近的原始視覺token,中期記憶存文本摘要,長期記憶做進一步壓縮。
這三層加起來能覆蓋大約12小時的上下文,而且壓縮過程是異步運行的,完全不堵實時推理。
2026 世界杯墨西哥對南非的直播流里,用戶只丟了一句「裁判出示紅牌時提醒我」,JoyAI-VL-Interaction 就自己盯著畫面,紅牌亮出的一瞬間同步喊出「裁判出示紅牌」——平均延遲 94 毫秒,比現(xiàn)場觀眾的反應還快。
有人摔倒時,也能夠及時提醒。而不是事后總結。
第三是任務委派(Delegation)。
這招最像人。
碰上超出實時推理能力的難題——比如你對著一道數(shù)學證明題說「幫我推導一下」,或者看著手機界面說「用HTML把這個APP頁面復刻出來」——它不會硬答一通然后翻車。
JoyAI-VL-Interaction能主動把活兒甩給后臺的大模型或Agent,自己繼續(xù)盯著畫面、陪著你,等后臺結果回來再自然接回對話。
比如,它可以一邊把「復刻手機界面」的任務交給后臺,一邊繼續(xù)和用戶聊天、回答其他問題,后臺返回HTML代碼后無縫銜接,全程不斷線。
你這邊還在跟它你問我答,后臺已經(jīng)默默把證明微分中值定理這種硬骨頭啃完了。
而且這個「后臺」是可替換的:JoyAI-VL-Interaction已經(jīng)做好了到Claude Code、OpenClaw、Hermes Agent等各種Agent的橋接,任何API、模型都能接進來當「后臺大腦」。
前臺實時陪伴,后臺默默干活——它不再只是個視頻問答助手,更像一套「邊看邊說+后臺執(zhí)行」的協(xié)作系統(tǒng)。
這就像是在物理世界和數(shù)字世界之間自由穿梭。
聽著有點玄,但拆開看就是:前臺模型盯著攝像頭里的真實世界(物理世界),后臺Agent去完成搜索、寫代碼、下單之類的數(shù)字世界任務。
看到了,判斷了,還能動手干活——一個8B的小模型,居然跑出了Agent的味道。
從「一問一答」到「邊看邊說」
能力清單看著熱鬧,可它到底比Gemini強在哪?得先看清老辦法卡在哪。
今天的視頻通話AI看著像實時交互,扒開看還是輪次對話:你拋一個問題,它回答,然后等你下一句。
本質(zhì)和文字聊天沒區(qū)別,只是把輸入換成了畫面。
豆包的視頻通話還更主動一點,靠的是外部輪詢觸發(fā)器定時「打一槍」才看畫面。Gemini的視頻通話更直接,連這一槍都省了——你不問,它連一幀都不給你看。
同樣是世界杯這個例子,不論是豆包還是Gemini都沒能實時做出反應。
JoyAI-VL-Interaction改寫的正是這套邏輯:從「輪次對話」走向「流式交互」。
「要不要開口」這個決定,第一次被交給了模型自己——說話、沉默、或者把難題甩給后臺。不是if-else規(guī)則,而是模型自己學來的判斷。
無獨有偶,上個月由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab也拋出了「交互模型」的概念。
兩個團隊幾乎同時撞到同一個判斷——「從輪次走向交互」是個時機已到的方向。
不同的是,TML放出的是276B的research preview,暫不公開;京東則是模型、數(shù)據(jù)、訓練方法和完整系統(tǒng)全部開源。
跟Gemini正面掰手腕
光講理念是虛的,京東直接拉對手做了人類評測。
在監(jiān)控預警、實時計數(shù)、實時翻譯、時間感知、直播解說與引導、長程記憶等六類真實流式場景里,總共58個案例,JoyAI-VL-Interaction對陣豆包、Gemini。
5位專業(yè)評審從回答質(zhì)量和時機兩個維度打分,整體勝率分別是77.6%和87.9%。
![]()
幾個數(shù)字尤其搶眼:
監(jiān)控預警對兩個對手都打出100%勝率——摔倒檢測案例里,JoyAI-VL-Interaction在人倒下一瞬間就發(fā)警報,豆包晚了四五秒,Gemini直接表示無法監(jiān)控。
實時計數(shù),飛鏢六投六中同步報數(shù),豆包只數(shù)出兩把,Gemini說了句「讓我看看」就沉默了。
實時翻譯,它全程逐句跟字幕,對手只翻了第一幀就停了。
時間感知,20秒提醒它只差一兩秒,豆包沒響,Gemini到40秒才開口。
JoyAI-VL-Interaction優(yōu)勢不只是「答得對」,更在于「來得及」和「跟得住」。
豆包靠輪詢觸發(fā)、Gemini卡在一問一答,反應永遠受制于外部節(jié)奏;JoyAI-VL-Interaction把「何時開口」訓進了模型內(nèi)部,反應只受推理速度限制。
更何況,它眼下只是個8B的小模型,通用知識和表達豐富度未必占優(yōu),數(shù)據(jù)和評測也還在早期。
但這么小的參數(shù)量就跑出了這樣的交互能力,說明把交互性訓進模型這條路,數(shù)據(jù)效率高得驚人。
技術報告甚至提到了「能力涌現(xiàn)」——引導用戶在手機APP上完成購物、看著PPT即興講課,這些從未被訓練過的能力自己冒了出來。
不是背答案,是模型學會了一種通用的「看著辦」能力。
開源的
是一整套能跑起來的系統(tǒng)
京東的誠意,藏在「開源」二字里。
它放出來的不是一個孤零零的權重,而是訓練recipe、超過400萬條時間對齊的交互數(shù)據(jù),外加一套完整可部署的系統(tǒng)——ASR/TTS語音模塊、三層長程記憶、可視化操作界面、后臺大腦橋接,全是可插拔模塊。
拿來就能搭一個能聽、能說、能看、能記的實時助手,插上攝像頭或接入直播流就能直接跑。
這在國內(nèi)多模態(tài)開源圈里幾乎是頭一回。
過去開源模型大多只放權重和推理代碼,想跑起來還得自己搭半套基建。
而京東這次連vLLM推理優(yōu)化、WebRTC視頻流接入、會話狀態(tài)管理都一并放出,把「開源」從「給你一把錘子」升級成了「給你一整套工具箱加使用手冊」。
為什么是京東?
答案藏在「全球最大的物理世界運營中心」里。
會「看視頻」的AI滿地都是,但能在真實世界里持續(xù)干活的AI,需要的不只是算法——還需要場景、數(shù)據(jù)和落地入口。
供應鏈、零售、物流、倉儲、履約、客服——這些年京東在真實世界趟出來的流程和觸點,恰恰是多模態(tài)AI最缺的土壤。
倉庫里的異常檢測、物流途中的貨品監(jiān)控、直播間里的實時解說和購物陪伴、售后服務中的視頻通話指引——每一個都是「需要AI持續(xù)在場」的真實剛需。
這也解釋了為什么JoyAI-VL-Interaction的場景清單讀起來像一張京東業(yè)務地圖:世界杯賽事直播解說、監(jiān)控預警、老人兒童看護、寵物照看、手機購物陪伴、穿搭評價、操作指引、AI視頻通話……每一個場景里,人盯著屏幕會累、會走神,機器卻能7×24小時不眨眼。
從「看懂」到「看著辦」,差的從來不只是一個模型,而是讓它真正用起來的那片土壤——能在真實世界里一直干活的模型,得有人先把那片土壤養(yǎng)出來。
現(xiàn)在,京東把模型和土壤一起攤開了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.