![]()
很多人都有過這樣的時刻:開著導(dǎo)航找路,手機(jī)突然彈出一條重要消息;你低頭想看,又怕錯過路口。真正理想的AI,不應(yīng)該等你問“我該不該轉(zhuǎn)彎”,而應(yīng)該在看到路口、車速和路線變化時,提前說一句:“下個路口靠右,消息我先幫你收著。”
辦公室里也一樣。視頻會議開到一半,屏幕共享還停在上一頁,講的人已經(jīng)翻到了新的數(shù)據(jù)表;有人在群里問“剛才那個數(shù)是多少”,大家都在忙著聽。一個在場的 AI,應(yīng)該能看見屏幕和討論節(jié)奏,主動把關(guān)鍵數(shù)記下來,而不是等會后再被人追問。
這些都不是科幻場景,而是日常生活和工作里經(jīng)常發(fā)生的小斷點。真正需要AI 介入的時刻,往往不是人已經(jīng)說出口的那一秒,而是變化剛剛出現(xiàn)、人還沒來得及反應(yīng)的那一秒。
這就是過去幾年多模態(tài)AI 最尷尬的地方:模型越來越聰明,能讀文字、看圖片、聽聲音、理解視頻,但它和人的關(guān)系仍然像一次客服對話。你問,它答。你不問,它就安靜待命。
這種“回合制”交互適合寫文案、查資料、做總結(jié),卻不太適合真實世界。真實世界不是一張靜態(tài)截圖,也不是一段準(zhǔn)備好的問題。它一直在變化,而且變化發(fā)生時,人未必有空開口。
京東最近開源的JoyAI-VL-Interaction,切中的正是這個問題。
![]()
它不是一個追求更會聊天的模型,而是一個讓AI 在連續(xù)視頻流里判斷“什么時候該說話、什么時候該閉嘴、什么時候該把復(fù)雜任務(wù)交給后臺模型”的實時視覺語言交互模型。換句話說,它想解決的首先不是回答質(zhì)量,而是交互時機(jī)。
這件事聽上去很小,卻可能是人機(jī)交互的一次重要轉(zhuǎn)向:AI 不再只是等人提問的工具,而開始學(xué)習(xí)如何“在場”。
![]()
AI 最難的
有時不是開口,而是別亂開口
今天的實時多模態(tài)交互,大體有兩條路線。
一條是把問答做得更快。用戶說一句,模型立刻回一句;用戶上傳畫面,模型馬上分析。這當(dāng)然有價值,但本質(zhì)上還是“你發(fā)球,我接球”。延遲低了,回合制沒有消失。
另一條是全雙工,讓AI 像電話那頭的人一樣,可以邊聽邊說,可以被打斷,也可以插話。這讓語音助手自然了很多,但它主要解決的是“對話像不像人”。
京東這次更激進(jìn)的地方在于,它把視覺放到了觸發(fā)交互的位置。
為什么是視覺?因為真實世界里,很多事情一開始并不會變成一句話。
會議室投屏上的數(shù)字變了,不會主動解釋;庫房貨架上的箱子放錯層,也不會發(fā)語音;門店收銀臺前排隊突然變長,在人眼里可能只是“有點忙”,但這恰恰是機(jī)器應(yīng)該捕捉的信號。
語音是人的表達(dá),視覺是世界的表達(dá)。前者告訴AI“我想要什么”,后者告訴 AI“正在發(fā)生什么”。
如果未來的AI 要進(jìn)入家庭、工廠、門店、倉庫、車輛、機(jī)器人,它不能只聽人說話。它必須持續(xù)看見環(huán)境變化,并判斷這些變化是否值得回應(yīng)。
難點也在這里。
人類在社交里有一種很強(qiáng)的隱性能力:知道什么時候不打擾別人。朋友正在專心開車,你不會突然講一個長故事;同事正在接電話,你不會立刻插入一個無關(guān)提醒。好的交互不是多說,而是在合適的時候說合適的話。
對模型來說,這反而很難。因為它要從沒有明確邊界的視頻流里,自己切出“事件”:哪些變化重要,哪些只是背景噪聲;哪些應(yīng)該馬上提醒,哪些可以繼續(xù)觀察;哪些一句話夠了,哪些需要調(diào)用更強(qiáng)的后臺 Agent。
JoyAI-VL-Interaction 把“沉默”設(shè)計成一個需要學(xué)習(xí)的動作,這一點很關(guān)鍵。一個會主動說話但不會克制的 AI,進(jìn)入物理世界后不會更智能,只會更煩。
京東在技術(shù)報告里也給了一個直接對比:在六個真實流式場景的人類評測中,JoyAI-VL-Interaction 相比豆包內(nèi)視頻通話助手的整體勝率為 77.6%,相比 Gemini 的整體勝率為 87.9%。在最考驗“抓住事件發(fā)生瞬間”的監(jiān)控預(yù)警場景中,對兩者的勝率都是 100%。也就是說,差距并不只是“說得好不好”,而是誰能更早、更準(zhǔn)地判斷該不該說。
![]()
![]()
8B 模型為什么夠用?
這次京東沒有把模型做成一個龐大的萬能大腦,而是選擇了一個更工程化的方案:8B 參數(shù),目標(biāo)是單張 RTX 3090 級別顯卡即可部署。
這背后有一個很清楚的分工:前臺模型負(fù)責(zé)“看情況”,后臺模型負(fù)責(zé)“想明白”。
可以把它理解成一個前廳經(jīng)理。它不需要自己會修所有機(jī)器、算所有賬、寫所有報告,但必須站在現(xiàn)場,知道哪件事要馬上處理,哪件事該轉(zhuǎn)給更專業(yè)的系統(tǒng)。
比如,攝像頭看到一名倉庫員工連續(xù)三次在同一個貨位停留。前臺模型可以先判斷:這是不是揀貨異常?要不要提醒他核對SKU?如果只是簡單提醒,模型自己就能完成;如果需要追溯庫存、訂單、路線規(guī)劃,它就把任務(wù)委托給后臺系統(tǒng)。
再比如,用戶戴著AI 眼鏡修一臺咖啡機(jī)。模型看到螺絲已經(jīng)拆下、面板松動,就可以提醒“先別直接拉,右側(cè)還有排線”;如果用戶繼續(xù)問“為什么不出水”,它再把故障排查交給更強(qiáng)的推理模型或維修知識庫。
這類場景不要求前臺模型寫一篇長論文,但要求它低延遲、低成本、一直在線。一個8B 模型反而更合適。
![]()
京東技術(shù)報告里提到的AdaCodec 視頻編碼和長程記憶設(shè)計,也是圍繞這個目標(biāo)展開:連續(xù)視頻流如果每一幀都按高成本處理,很快就會耗盡上下文和算力。更合理的方法是,穩(wěn)定畫面用少量 token 表示,真正發(fā)生變化時再投入更多視覺 token;短期保留原始畫面,中期做文字摘要,長期進(jìn)一步壓縮。
這套設(shè)計讓模型更像一個“現(xiàn)場值班員”:平時低成本巡檢,有事時迅速聚焦。
開源也因此有了現(xiàn)實意義。一個只能在巨型集群上跑的交互模型,很難長出早期應(yīng)用;一個開發(fā)者能部署、企業(yè)能試點、硬件廠商能嵌入的模型,才有機(jī)會被大量場景反復(fù)打磨。
在AI 行業(yè),很多能力不是在實驗室里想出來的,而是在用戶把它用到意想不到的地方之后長出來的。京東把模型放出來,本質(zhì)上是在讓真實需求參與定義下一代交互。
![]()
京東為什么押這個方向?
如果只看大模型榜單,京東并不是最愛講故事的那類公司。但如果把AI 放回物理世界,它的優(yōu)勢會變得更清楚。
京東的業(yè)務(wù)不是純線上軟件。它有倉儲、配送、零售、健康、工業(yè)這些密集連接線下流程的場景。一個商品從工廠、倉庫、干線、站點到用戶手里,中間經(jīng)過大量人、車、貨、場的協(xié)同。這里天然需要感知、判斷、調(diào)度和執(zhí)行。
這也是京東此前提出“全球最大物理世界運(yùn)營中心”時,真正值得關(guān)注的部分。
所謂物理世界運(yùn)營中心,并不只是把更多倉庫、車輛、門店連接起來,而是把真實世界里持續(xù)發(fā)生的狀態(tài)變化,變成可理解、可預(yù)測、可調(diào)度的數(shù)據(jù)和動作。AI 在這里不是聊天窗口,而是運(yùn)營系統(tǒng)的一層神經(jīng)。
從這個角度看,京東最近一系列布局是連在一起的。
JoyAI-LLM Flash 強(qiáng)調(diào)中等規(guī)模模型的效率,48B 總參數(shù)、每次僅激活少量參數(shù),并開源多種量化版本,說明京東在意的不是單純堆大,而是可用、可部署、可規(guī)模化。
JoyAI-Image 強(qiáng)化視覺理解和空間智能,讓模型不僅知道“這是什么”,還知道“它在哪里、和旁邊東西是什么關(guān)系”;JoyAI-RA 則直接指向具身智能,把第一視角人類操作視頻、仿真軌跡、真實機(jī)器人數(shù)據(jù)放在一起訓(xùn)練,補(bǔ)的是機(jī)器人最缺的真實行為數(shù)據(jù)。
再回到JoyAI-VL-Interaction,它像是把這些能力往應(yīng)用側(cè)推了一步:讓 AI 在真實環(huán)境里持續(xù)觀察、判斷時機(jī)、觸發(fā)動作。
![]()
這條鏈路很清楚:模型要懂語言和圖像,要能生成和理解,要會推理,也要能在現(xiàn)場低延遲運(yùn)行;最后,還要接到機(jī)器人、無人車、無人機(jī)、門店設(shè)備和工業(yè)終端上。
這不是一個單點模型的故事,而是京東把AI 重新接回物理世界的一套系統(tǒng)工程。
![]()
開源不是終點,是找場景的開始
實時視覺交互最有想象力的地方,不在于它能不能做一個更酷的視頻助手,而在于它讓AI 從“被召喚”變成“在現(xiàn)場”。
在家庭里,它可以做看護(hù)的第二雙眼睛;在門店里,它可以發(fā)現(xiàn)缺貨、排隊和顧客反復(fù)尋找;在工廠里,它可以捕捉危險動作、設(shè)備異常和流程偏差;在機(jī)器人身上,它會決定什么時候提醒、讓路或請求人類接管。
這些場景很瑣碎,不像發(fā)布會上演示的“驚艷能力”。但物理世界的商業(yè)價值,恰恰藏在這些瑣碎動作里。
誰能把提醒、避障、分揀、補(bǔ)貨做得更及時、更低成本、更穩(wěn)定,誰就能把AI 從新奇產(chǎn)品變成生產(chǎn)力系統(tǒng)。
所以,JoyAI-VL-Interaction 的意義不只是“京東又開源了一個模型”。它更像一個信號:AI 的競爭正在從屏幕里的問答,走向屏幕外的運(yùn)營。
![]()
過去的大模型像一個知識豐富的遠(yuǎn)程顧問。未來的AI 更像站在現(xiàn)場的同事:知道什么時候該看、該說、該動手,什么時候該找更專業(yè)的人來處理。
京東要做“全球最大物理世界運(yùn)營中心”,商業(yè)邏輯也正在這里閉環(huán)。
物理世界給京東提供場景和數(shù)據(jù),開源模型吸引開發(fā)者和生態(tài),具身智能把感知與行動接起來,各類終端再把模型帶回現(xiàn)場。
當(dāng)這套循環(huán)跑起來,京東賣的不只是商品、云和模型,而是一種把真實世界高效組織起來的能力。
AI 最終要改變的,不只是人怎么和機(jī)器聊天,而是機(jī)器怎么參與世界運(yùn)轉(zhuǎn)。
而讓AI 學(xué)會“看情況”,可能就是這件事的開始。
大家可以在vLLM-Omni上一鍵拉起服務(wù)體驗,也可以在倉庫下一鍵啟動~
代碼地址:
https://github.com/jd-opensource/JoyAI-VL-Interaction
模型地址:
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
數(shù)據(jù)集地址:
https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
技術(shù)報告地址:
https://huggingface.co/papers/2606.14777
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.