用一個8B開源模型，京東把AI推向物理世界

2026-06-25 11:17:43　來源: 創(chuàng)業(yè)邦

北京舉報

分享至

很多人都有過這樣的時刻：開著導(dǎo)航找路，手機(jī)突然彈出一條重要消息；你低頭想看，又怕錯過路口。真正理想的AI，不應(yīng)該等你問“我該不該轉(zhuǎn)彎”，而應(yīng)該在看到路口、車速和路線變化時，提前說一句：“下個路口靠右，消息我先幫你收著。”

辦公室里也一樣。視頻會議開到一半，屏幕共享還停在上一頁，講的人已經(jīng)翻到了新的數(shù)據(jù)表；有人在群里問“剛才那個數(shù)是多少”，大家都在忙著聽。一個在場的 AI，應(yīng)該能看見屏幕和討論節(jié)奏，主動把關(guān)鍵數(shù)記下來，而不是等會后再被人追問。

這些都不是科幻場景，而是日常生活和工作里經(jīng)常發(fā)生的小斷點。真正需要AI 介入的時刻，往往不是人已經(jīng)說出口的那一秒，而是變化剛剛出現(xiàn)、人還沒來得及反應(yīng)的那一秒。

這就是過去幾年多模態(tài)AI 最尷尬的地方：模型越來越聰明，能讀文字、看圖片、聽聲音、理解視頻，但它和人的關(guān)系仍然像一次客服對話。你問，它答。你不問，它就安靜待命。

這種“回合制”交互適合寫文案、查資料、做總結(jié)，卻不太適合真實世界。真實世界不是一張靜態(tài)截圖，也不是一段準(zhǔn)備好的問題。它一直在變化，而且變化發(fā)生時，人未必有空開口。

京東最近開源的JoyAI-VL-Interaction，切中的正是這個問題。

它不是一個追求更會聊天的模型，而是一個讓AI 在連續(xù)視頻流里判斷“什么時候該說話、什么時候該閉嘴、什么時候該把復(fù)雜任務(wù)交給后臺模型”的實時視覺語言交互模型。換句話說，它想解決的首先不是回答質(zhì)量，而是交互時機(jī)。

這件事聽上去很小，卻可能是人機(jī)交互的一次重要轉(zhuǎn)向：AI 不再只是等人提問的工具，而開始學(xué)習(xí)如何“在場”。

AI 最難的

有時不是開口，而是別亂開口

今天的實時多模態(tài)交互，大體有兩條路線。

一條是把問答做得更快。用戶說一句，模型立刻回一句；用戶上傳畫面，模型馬上分析。這當(dāng)然有價值，但本質(zhì)上還是“你發(fā)球，我接球”。延遲低了，回合制沒有消失。

另一條是全雙工，讓AI 像電話那頭的人一樣，可以邊聽邊說，可以被打斷，也可以插話。這讓語音助手自然了很多，但它主要解決的是“對話像不像人”。

京東這次更激進(jìn)的地方在于，它把視覺放到了觸發(fā)交互的位置。

為什么是視覺？因為真實世界里，很多事情一開始并不會變成一句話。

會議室投屏上的數(shù)字變了，不會主動解釋；庫房貨架上的箱子放錯層，也不會發(fā)語音；門店收銀臺前排隊突然變長，在人眼里可能只是“有點忙”，但這恰恰是機(jī)器應(yīng)該捕捉的信號。

語音是人的表達(dá)，視覺是世界的表達(dá)。前者告訴AI“我想要什么”，后者告訴 AI“正在發(fā)生什么”。

如果未來的AI 要進(jìn)入家庭、工廠、門店、倉庫、車輛、機(jī)器人，它不能只聽人說話。它必須持續(xù)看見環(huán)境變化，并判斷這些變化是否值得回應(yīng)。

難點也在這里。

人類在社交里有一種很強(qiáng)的隱性能力：知道什么時候不打擾別人。朋友正在專心開車，你不會突然講一個長故事；同事正在接電話，你不會立刻插入一個無關(guān)提醒。好的交互不是多說，而是在合適的時候說合適的話。

對模型來說，這反而很難。因為它要從沒有明確邊界的視頻流里，自己切出“事件”：哪些變化重要，哪些只是背景噪聲；哪些應(yīng)該馬上提醒，哪些可以繼續(xù)觀察；哪些一句話夠了，哪些需要調(diào)用更強(qiáng)的后臺 Agent。

JoyAI-VL-Interaction 把“沉默”設(shè)計成一個需要學(xué)習(xí)的動作，這一點很關(guān)鍵。一個會主動說話但不會克制的 AI，進(jìn)入物理世界后不會更智能，只會更煩。

京東在技術(shù)報告里也給了一個直接對比：在六個真實流式場景的人類評測中，JoyAI-VL-Interaction 相比豆包內(nèi)視頻通話助手的整體勝率為 77.6%，相比 Gemini 的整體勝率為 87.9%。在最考驗“抓住事件發(fā)生瞬間”的監(jiān)控預(yù)警場景中，對兩者的勝率都是 100%。也就是說，差距并不只是“說得好不好”，而是誰能更早、更準(zhǔn)地判斷該不該說。

8B 模型為什么夠用？

這次京東沒有把模型做成一個龐大的萬能大腦，而是選擇了一個更工程化的方案：8B 參數(shù)，目標(biāo)是單張 RTX 3090 級別顯卡即可部署。

這背后有一個很清楚的分工：前臺模型負(fù)責(zé)“看情況”，后臺模型負(fù)責(zé)“想明白”。

可以把它理解成一個前廳經(jīng)理。它不需要自己會修所有機(jī)器、算所有賬、寫所有報告，但必須站在現(xiàn)場，知道哪件事要馬上處理，哪件事該轉(zhuǎn)給更專業(yè)的系統(tǒng)。

比如，攝像頭看到一名倉庫員工連續(xù)三次在同一個貨位停留。前臺模型可以先判斷：這是不是揀貨異常？要不要提醒他核對SKU？如果只是簡單提醒，模型自己就能完成；如果需要追溯庫存、訂單、路線規(guī)劃，它就把任務(wù)委托給后臺系統(tǒng)。

再比如，用戶戴著AI 眼鏡修一臺咖啡機(jī)。模型看到螺絲已經(jīng)拆下、面板松動，就可以提醒“先別直接拉，右側(cè)還有排線”；如果用戶繼續(xù)問“為什么不出水”，它再把故障排查交給更強(qiáng)的推理模型或維修知識庫。

這類場景不要求前臺模型寫一篇長論文，但要求它低延遲、低成本、一直在線。一個8B 模型反而更合適。

京東技術(shù)報告里提到的AdaCodec 視頻編碼和長程記憶設(shè)計，也是圍繞這個目標(biāo)展開：連續(xù)視頻流如果每一幀都按高成本處理，很快就會耗盡上下文和算力。更合理的方法是，穩(wěn)定畫面用少量 token 表示，真正發(fā)生變化時再投入更多視覺 token；短期保留原始畫面，中期做文字摘要，長期進(jìn)一步壓縮。

這套設(shè)計讓模型更像一個“現(xiàn)場值班員”：平時低成本巡檢，有事時迅速聚焦。

開源也因此有了現(xiàn)實意義。一個只能在巨型集群上跑的交互模型，很難長出早期應(yīng)用；一個開發(fā)者能部署、企業(yè)能試點、硬件廠商能嵌入的模型，才有機(jī)會被大量場景反復(fù)打磨。

在AI 行業(yè)，很多能力不是在實驗室里想出來的，而是在用戶把它用到意想不到的地方之后長出來的。京東把模型放出來，本質(zhì)上是在讓真實需求參與定義下一代交互。

京東為什么押這個方向？

如果只看大模型榜單，京東并不是最愛講故事的那類公司。但如果把AI 放回物理世界，它的優(yōu)勢會變得更清楚。

京東的業(yè)務(wù)不是純線上軟件。它有倉儲、配送、零售、健康、工業(yè)這些密集連接線下流程的場景。一個商品從工廠、倉庫、干線、站點到用戶手里，中間經(jīng)過大量人、車、貨、場的協(xié)同。這里天然需要感知、判斷、調(diào)度和執(zhí)行。

這也是京東此前提出“全球最大物理世界運(yùn)營中心”時，真正值得關(guān)注的部分。

所謂物理世界運(yùn)營中心，并不只是把更多倉庫、車輛、門店連接起來，而是把真實世界里持續(xù)發(fā)生的狀態(tài)變化，變成可理解、可預(yù)測、可調(diào)度的數(shù)據(jù)和動作。AI 在這里不是聊天窗口，而是運(yùn)營系統(tǒng)的一層神經(jīng)。

從這個角度看，京東最近一系列布局是連在一起的。

JoyAI-LLM Flash 強(qiáng)調(diào)中等規(guī)模模型的效率，48B 總參數(shù)、每次僅激活少量參數(shù)，并開源多種量化版本，說明京東在意的不是單純堆大，而是可用、可部署、可規(guī)模化。

JoyAI-Image 強(qiáng)化視覺理解和空間智能，讓模型不僅知道“這是什么”，還知道“它在哪里、和旁邊東西是什么關(guān)系”；JoyAI-RA 則直接指向具身智能，把第一視角人類操作視頻、仿真軌跡、真實機(jī)器人數(shù)據(jù)放在一起訓(xùn)練，補(bǔ)的是機(jī)器人最缺的真實行為數(shù)據(jù)。

再回到JoyAI-VL-Interaction，它像是把這些能力往應(yīng)用側(cè)推了一步：讓 AI 在真實環(huán)境里持續(xù)觀察、判斷時機(jī)、觸發(fā)動作。

這條鏈路很清楚：模型要懂語言和圖像，要能生成和理解，要會推理，也要能在現(xiàn)場低延遲運(yùn)行；最后，還要接到機(jī)器人、無人車、無人機(jī)、門店設(shè)備和工業(yè)終端上。

這不是一個單點模型的故事，而是京東把AI 重新接回物理世界的一套系統(tǒng)工程。

開源不是終點，是找場景的開始

實時視覺交互最有想象力的地方，不在于它能不能做一個更酷的視頻助手，而在于它讓AI 從“被召喚”變成“在現(xiàn)場”。

在家庭里，它可以做看護(hù)的第二雙眼睛；在門店里，它可以發(fā)現(xiàn)缺貨、排隊和顧客反復(fù)尋找；在工廠里，它可以捕捉危險動作、設(shè)備異常和流程偏差；在機(jī)器人身上，它會決定什么時候提醒、讓路或請求人類接管。

這些場景很瑣碎，不像發(fā)布會上演示的“驚艷能力”。但物理世界的商業(yè)價值，恰恰藏在這些瑣碎動作里。

誰能把提醒、避障、分揀、補(bǔ)貨做得更及時、更低成本、更穩(wěn)定，誰就能把AI 從新奇產(chǎn)品變成生產(chǎn)力系統(tǒng)。

所以，JoyAI-VL-Interaction 的意義不只是“京東又開源了一個模型”。它更像一個信號：AI 的競爭正在從屏幕里的問答，走向屏幕外的運(yùn)營。

過去的大模型像一個知識豐富的遠(yuǎn)程顧問。未來的AI 更像站在現(xiàn)場的同事：知道什么時候該看、該說、該動手，什么時候該找更專業(yè)的人來處理。

京東要做“全球最大物理世界運(yùn)營中心”，商業(yè)邏輯也正在這里閉環(huán)。

物理世界給京東提供場景和數(shù)據(jù)，開源模型吸引開發(fā)者和生態(tài)，具身智能把感知與行動接起來，各類終端再把模型帶回現(xiàn)場。

當(dāng)這套循環(huán)跑起來，京東賣的不只是商品、云和模型，而是一種把真實世界高效組織起來的能力。

AI 最終要改變的，不只是人怎么和機(jī)器聊天，而是機(jī)器怎么參與世界運(yùn)轉(zhuǎn)。

而讓AI 學(xué)會“看情況”，可能就是這件事的開始。

大家可以在vLLM-Omni上一鍵拉起服務(wù)體驗，也可以在倉庫下一鍵啟動～

代碼地址：

https://github.com/jd-opensource/JoyAI-VL-Interaction

模型地址：

https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

數(shù)據(jù)集地址：

https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技術(shù)報告地址：

https://huggingface.co/papers/2606.14777

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.