網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

94毫秒延遲、監(jiān)控勝率100%！國產(chǎn)視頻模型干翻Gemini

2026-06-23 12:31:25　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】京東開源JoyAI-VL-Interaction，把視頻AI從「你問我答」的輪次對話，推進到「持續(xù)在場、主動開口、按時機說話」的流式交互新范式。

世界杯決賽最后一秒，球進了。

你身邊那個號稱能「看懂視頻」的AI，還在安靜地等你開口問一句「剛才發(fā)生了什么？」。

這就是今天幾乎所有視頻AI的樣子——不管包裝得多酷炫，骨子里都是同一個邏輯：你問，它答。

可真實世界里最需要AI出聲的那些瞬間，從來不會等人提問——解說員不會等導播發(fā)話才開口喊「Goal」。

這些場景要的不是「問答」，而是一雙全程在線、自己拿主意什么時候該說話的眼睛。

現(xiàn)在，京東把這雙「眼睛」開源了，它叫JoyAI-VL-Interaction。

JoyAI-VL-Interaction的重點不只是「看懂視頻」，更是要讓模型在連續(xù)的視頻流里自己決定——何時回應、何時沉默、何時把復雜任務甩給后臺。

一句話：它學會了什么時候該閉嘴，更學會了什么時候必須開口。

這套系統(tǒng)剛開源就拿到了生態(tài)層面的背書——JoyAI-VL-Interaction 獲得了 vLLM-Omni 的 day-0 支持，已原生合入 vLLM-Omni 主線。

開發(fā)者可以在 vLLM-Omni 上一鍵拉起服務體驗，也可以直接從京東的倉庫一鍵啟動。

代碼：https://github.com/jd-opensource/JoyAI-VL-Interaction

模型：https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

數(shù)據(jù)集：https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技術報告：https://huggingface.co/papers/2606.14777

主動、實時、還會「甩鍋」

JoyAI-VL-Interaction擁有三項核心能力。

第一是自主交互（Proactive Interaction）。

這是整個模型最顛覆直覺的地方——它不等你開口，自己判斷這一刻值不值得說話。

看護場景里，老人正常活動它一聲不吭，一旦察覺異常立刻預警，而不是每隔十秒問你「需要幫忙嗎？」。

實時翻譯場景更直觀：你跟它說「把電影字幕翻譯成中文」，它不會翻一句停下來等你發(fā)下一條指令，而是自己盯著畫面，每出一行新字幕就主動翻譯。

比如，JoyAI-VL-Interaction在街頭采訪視頻上逐句翻譯字幕，全程不落一句。

第二是實時響應（Real-time Response）。

能力有了，速度跟不上也白搭。

JoyAI-VL-Interaction靠三個關鍵設計把延遲壓到了亞秒級：

一是JoyAI-VL-Interaction推理系統(tǒng)是vllm原生適配的，確保有較高的KV Cache復用率，獲得了 vLLM-Omni 的 day-0 原生支持。

二是AdaCodec——它不給每一幀都花完整的ViT token，而是只在畫面真正發(fā)生變化的「關鍵幀」上花全量token（約256個），中間的「可預測幀」只用大約16個輕量P-token就搞定。

這樣一來，即使持續(xù)看幾個小時的視頻，token預算也只和畫面變化量成正比，而不是隨幀數(shù)線性爆炸。

三是長程記憶的分層緩存：短期記憶保留最近的原始視覺token，中期記憶存文本摘要，長期記憶做進一步壓縮。

這三層加起來能覆蓋大約12小時的上下文，而且壓縮過程是異步運行的，完全不堵實時推理。

2026 世界杯墨西哥對南非的直播流里，用戶只丟了一句「裁判出示紅牌時提醒我」，JoyAI-VL-Interaction 就自己盯著畫面，紅牌亮出的一瞬間同步喊出「裁判出示紅牌」——平均延遲 94 毫秒，比現(xiàn)場觀眾的反應還快。

有人摔倒時，也能夠及時提醒。而不是事后總結。

第三是任務委派（Delegation）。

這招最像人。

碰上超出實時推理能力的難題——比如你對著一道數(shù)學證明題說「幫我推導一下」，或者看著手機界面說「用HTML把這個APP頁面復刻出來」——它不會硬答一通然后翻車。

JoyAI-VL-Interaction能主動把活兒甩給后臺的大模型或Agent，自己繼續(xù)盯著畫面、陪著你，等后臺結果回來再自然接回對話。

比如，它可以一邊把「復刻手機界面」的任務交給后臺，一邊繼續(xù)和用戶聊天、回答其他問題，后臺返回HTML代碼后無縫銜接，全程不斷線。

你這邊還在跟它你問我答，后臺已經(jīng)默默把證明微分中值定理這種硬骨頭啃完了。

而且這個「后臺」是可替換的：JoyAI-VL-Interaction已經(jīng)做好了到Claude Code、OpenClaw、Hermes Agent等各種Agent的橋接，任何API、模型都能接進來當「后臺大腦」。

前臺實時陪伴，后臺默默干活——它不再只是個視頻問答助手，更像一套「邊看邊說+后臺執(zhí)行」的協(xié)作系統(tǒng)。

這就像是在物理世界和數(shù)字世界之間自由穿梭。

聽著有點玄，但拆開看就是：前臺模型盯著攝像頭里的真實世界（物理世界），后臺Agent去完成搜索、寫代碼、下單之類的數(shù)字世界任務。

看到了，判斷了，還能動手干活——一個8B的小模型，居然跑出了Agent的味道。

從「一問一答」到「邊看邊說」

能力清單看著熱鬧，可它到底比Gemini強在哪？得先看清老辦法卡在哪。

今天的視頻通話AI看著像實時交互，扒開看還是輪次對話：你拋一個問題，它回答，然后等你下一句。

本質(zhì)和文字聊天沒區(qū)別，只是把輸入換成了畫面。

豆包的視頻通話還更主動一點，靠的是外部輪詢觸發(fā)器定時「打一槍」才看畫面。Gemini的視頻通話更直接，連這一槍都省了——你不問，它連一幀都不給你看。

同樣是世界杯這個例子，不論是豆包還是Gemini都沒能實時做出反應。

JoyAI-VL-Interaction改寫的正是這套邏輯：從「輪次對話」走向「流式交互」。

「要不要開口」這個決定，第一次被交給了模型自己——說話、沉默、或者把難題甩給后臺。不是if-else規(guī)則，而是模型自己學來的判斷。

無獨有偶，上個月由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab也拋出了「交互模型」的概念。

兩個團隊幾乎同時撞到同一個判斷——「從輪次走向交互」是個時機已到的方向。

不同的是，TML放出的是276B的research preview，暫不公開；京東則是模型、數(shù)據(jù)、訓練方法和完整系統(tǒng)全部開源。

跟Gemini正面掰手腕

光講理念是虛的，京東直接拉對手做了人類評測。

在監(jiān)控預警、實時計數(shù)、實時翻譯、時間感知、直播解說與引導、長程記憶等六類真實流式場景里，總共58個案例，JoyAI-VL-Interaction對陣豆包、Gemini。

5位專業(yè)評審從回答質(zhì)量和時機兩個維度打分，整體勝率分別是77.6%和87.9%。

幾個數(shù)字尤其搶眼：

監(jiān)控預警對兩個對手都打出100%勝率——摔倒檢測案例里，JoyAI-VL-Interaction在人倒下一瞬間就發(fā)警報，豆包晚了四五秒，Gemini直接表示無法監(jiān)控。
實時計數(shù)，飛鏢六投六中同步報數(shù)，豆包只數(shù)出兩把，Gemini說了句「讓我看看」就沉默了。
實時翻譯，它全程逐句跟字幕，對手只翻了第一幀就停了。
時間感知，20秒提醒它只差一兩秒，豆包沒響，Gemini到40秒才開口。

JoyAI-VL-Interaction優(yōu)勢不只是「答得對」，更在于「來得及」和「跟得住」。

豆包靠輪詢觸發(fā)、Gemini卡在一問一答，反應永遠受制于外部節(jié)奏；JoyAI-VL-Interaction把「何時開口」訓進了模型內(nèi)部，反應只受推理速度限制。

更何況，它眼下只是個8B的小模型，通用知識和表達豐富度未必占優(yōu)，數(shù)據(jù)和評測也還在早期。

但這么小的參數(shù)量就跑出了這樣的交互能力，說明把交互性訓進模型這條路，數(shù)據(jù)效率高得驚人。

技術報告甚至提到了「能力涌現(xiàn)」——引導用戶在手機APP上完成購物、看著PPT即興講課，這些從未被訓練過的能力自己冒了出來。

不是背答案，是模型學會了一種通用的「看著辦」能力。

開源的

是一整套能跑起來的系統(tǒng)

京東的誠意，藏在「開源」二字里。

它放出來的不是一個孤零零的權重，而是訓練recipe、超過400萬條時間對齊的交互數(shù)據(jù)，外加一套完整可部署的系統(tǒng)——ASR/TTS語音模塊、三層長程記憶、可視化操作界面、后臺大腦橋接，全是可插拔模塊。

拿來就能搭一個能聽、能說、能看、能記的實時助手，插上攝像頭或接入直播流就能直接跑。

這在國內(nèi)多模態(tài)開源圈里幾乎是頭一回。

過去開源模型大多只放權重和推理代碼，想跑起來還得自己搭半套基建。

而京東這次連vLLM推理優(yōu)化、WebRTC視頻流接入、會話狀態(tài)管理都一并放出，把「開源」從「給你一把錘子」升級成了「給你一整套工具箱加使用手冊」。

為什么是京東？

答案藏在「全球最大的物理世界運營中心」里。

會「看視頻」的AI滿地都是，但能在真實世界里持續(xù)干活的AI，需要的不只是算法——還需要場景、數(shù)據(jù)和落地入口。

供應鏈、零售、物流、倉儲、履約、客服——這些年京東在真實世界趟出來的流程和觸點，恰恰是多模態(tài)AI最缺的土壤。

倉庫里的異常檢測、物流途中的貨品監(jiān)控、直播間里的實時解說和購物陪伴、售后服務中的視頻通話指引——每一個都是「需要AI持續(xù)在場」的真實剛需。

這也解釋了為什么JoyAI-VL-Interaction的場景清單讀起來像一張京東業(yè)務地圖：世界杯賽事直播解說、監(jiān)控預警、老人兒童看護、寵物照看、手機購物陪伴、穿搭評價、操作指引、AI視頻通話……每一個場景里，人盯著屏幕會累、會走神，機器卻能7×24小時不眨眼。

從「看懂」到「看著辦」，差的從來不只是一個模型，而是讓它真正用起來的那片土壤——能在真實世界里一直干活的模型，得有人先把那片土壤養(yǎng)出來。

現(xiàn)在，京東把模型和土壤一起攤開了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.