无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

用一個8B開源模型,京東把AI推向物理世界

0
分享至



很多人都有過這樣的時刻:開著導(dǎo)航找路,手機(jī)突然彈出一條重要消息;你低頭想看,又怕錯過路口。真正理想的AI,不應(yīng)該等你問“我該不該轉(zhuǎn)彎”,而應(yīng)該在看到路口、車速和路線變化時,提前說一句:“下個路口靠右,消息我先幫你收著。”

辦公室里也一樣。視頻會議開到一半,屏幕共享還停在上一頁,講的人已經(jīng)翻到了新的數(shù)據(jù)表;有人在群里問“剛才那個數(shù)是多少”,大家都在忙著聽。一個在場的 AI,應(yīng)該能看見屏幕和討論節(jié)奏,主動把關(guān)鍵數(shù)記下來,而不是等會后再被人追問。

這些都不是科幻場景,而是日常生活和工作里經(jīng)常發(fā)生的小斷點。真正需要AI 介入的時刻,往往不是人已經(jīng)說出口的那一秒,而是變化剛剛出現(xiàn)、人還沒來得及反應(yīng)的那一秒。

這就是過去幾年多模態(tài)AI 最尷尬的地方:模型越來越聰明,能讀文字、看圖片、聽聲音、理解視頻,但它和人的關(guān)系仍然像一次客服對話。你問,它答。你不問,它就安靜待命。

這種“回合制”交互適合寫文案、查資料、做總結(jié),卻不太適合真實世界。真實世界不是一張靜態(tài)截圖,也不是一段準(zhǔn)備好的問題。它一直在變化,而且變化發(fā)生時,人未必有空開口。

京東最近開源的JoyAI-VL-Interaction,切中的正是這個問題。



它不是一個追求更會聊天的模型,而是一個讓AI 在連續(xù)視頻流里判斷“什么時候該說話、什么時候該閉嘴、什么時候該把復(fù)雜任務(wù)交給后臺模型”的實時視覺語言交互模型。換句話說,它想解決的首先不是回答質(zhì)量,而是交互時機(jī)。

這件事聽上去很小,卻可能是人機(jī)交互的一次重要轉(zhuǎn)向:AI 不再只是等人提問的工具,而開始學(xué)習(xí)如何“在場”。



AI 最難的

有時不是開口,而是別亂開口

今天的實時多模態(tài)交互,大體有兩條路線。

一條是把問答做得更快。用戶說一句,模型立刻回一句;用戶上傳畫面,模型馬上分析。這當(dāng)然有價值,但本質(zhì)上還是“你發(fā)球,我接球”。延遲低了,回合制沒有消失。

另一條是全雙工,讓AI 像電話那頭的人一樣,可以邊聽邊說,可以被打斷,也可以插話。這讓語音助手自然了很多,但它主要解決的是“對話像不像人”。

京東這次更激進(jìn)的地方在于,它把視覺放到了觸發(fā)交互的位置。

為什么是視覺?因為真實世界里,很多事情一開始并不會變成一句話。

會議室投屏上的數(shù)字變了,不會主動解釋;庫房貨架上的箱子放錯層,也不會發(fā)語音;門店收銀臺前排隊突然變長,在人眼里可能只是“有點忙”,但這恰恰是機(jī)器應(yīng)該捕捉的信號。

語音是人的表達(dá),視覺是世界的表達(dá)。前者告訴AI“我想要什么”,后者告訴 AI“正在發(fā)生什么”。

如果未來的AI 要進(jìn)入家庭、工廠、門店、倉庫、車輛、機(jī)器人,它不能只聽人說話。它必須持續(xù)看見環(huán)境變化,并判斷這些變化是否值得回應(yīng)。

難點也在這里。

人類在社交里有一種很強(qiáng)的隱性能力:知道什么時候不打擾別人。朋友正在專心開車,你不會突然講一個長故事;同事正在接電話,你不會立刻插入一個無關(guān)提醒。好的交互不是多說,而是在合適的時候說合適的話。

對模型來說,這反而很難。因為它要從沒有明確邊界的視頻流里,自己切出“事件”:哪些變化重要,哪些只是背景噪聲;哪些應(yīng)該馬上提醒,哪些可以繼續(xù)觀察;哪些一句話夠了,哪些需要調(diào)用更強(qiáng)的后臺 Agent。

JoyAI-VL-Interaction 把“沉默”設(shè)計成一個需要學(xué)習(xí)的動作,這一點很關(guān)鍵。一個會主動說話但不會克制的 AI,進(jìn)入物理世界后不會更智能,只會更煩。

京東在技術(shù)報告里也給了一個直接對比:在六個真實流式場景的人類評測中,JoyAI-VL-Interaction 相比豆包內(nèi)視頻通話助手的整體勝率為 77.6%,相比 Gemini 的整體勝率為 87.9%。在最考驗“抓住事件發(fā)生瞬間”的監(jiān)控預(yù)警場景中,對兩者的勝率都是 100%。也就是說,差距并不只是“說得好不好”,而是誰能更早、更準(zhǔn)地判斷該不該說。





8B 模型為什么夠用?

這次京東沒有把模型做成一個龐大的萬能大腦,而是選擇了一個更工程化的方案:8B 參數(shù),目標(biāo)是單張 RTX 3090 級別顯卡即可部署。

這背后有一個很清楚的分工:前臺模型負(fù)責(zé)“看情況”,后臺模型負(fù)責(zé)“想明白”。

可以把它理解成一個前廳經(jīng)理。它不需要自己會修所有機(jī)器、算所有賬、寫所有報告,但必須站在現(xiàn)場,知道哪件事要馬上處理,哪件事該轉(zhuǎn)給更專業(yè)的系統(tǒng)。

比如,攝像頭看到一名倉庫員工連續(xù)三次在同一個貨位停留。前臺模型可以先判斷:這是不是揀貨異常?要不要提醒他核對SKU?如果只是簡單提醒,模型自己就能完成;如果需要追溯庫存、訂單、路線規(guī)劃,它就把任務(wù)委托給后臺系統(tǒng)。

再比如,用戶戴著AI 眼鏡修一臺咖啡機(jī)。模型看到螺絲已經(jīng)拆下、面板松動,就可以提醒“先別直接拉,右側(cè)還有排線”;如果用戶繼續(xù)問“為什么不出水”,它再把故障排查交給更強(qiáng)的推理模型或維修知識庫。

這類場景不要求前臺模型寫一篇長論文,但要求它低延遲、低成本、一直在線。一個8B 模型反而更合適。



京東技術(shù)報告里提到的AdaCodec 視頻編碼和長程記憶設(shè)計,也是圍繞這個目標(biāo)展開:連續(xù)視頻流如果每一幀都按高成本處理,很快就會耗盡上下文和算力。更合理的方法是,穩(wěn)定畫面用少量 token 表示,真正發(fā)生變化時再投入更多視覺 token;短期保留原始畫面,中期做文字摘要,長期進(jìn)一步壓縮。

這套設(shè)計讓模型更像一個“現(xiàn)場值班員”:平時低成本巡檢,有事時迅速聚焦。

開源也因此有了現(xiàn)實意義。一個只能在巨型集群上跑的交互模型,很難長出早期應(yīng)用;一個開發(fā)者能部署、企業(yè)能試點、硬件廠商能嵌入的模型,才有機(jī)會被大量場景反復(fù)打磨。

在AI 行業(yè),很多能力不是在實驗室里想出來的,而是在用戶把它用到意想不到的地方之后長出來的。京東把模型放出來,本質(zhì)上是在讓真實需求參與定義下一代交互。



京東為什么押這個方向?

如果只看大模型榜單,京東并不是最愛講故事的那類公司。但如果把AI 放回物理世界,它的優(yōu)勢會變得更清楚。

京東的業(yè)務(wù)不是純線上軟件。它有倉儲、配送、零售、健康、工業(yè)這些密集連接線下流程的場景。一個商品從工廠、倉庫、干線、站點到用戶手里,中間經(jīng)過大量人、車、貨、場的協(xié)同。這里天然需要感知、判斷、調(diào)度和執(zhí)行。

這也是京東此前提出“全球最大物理世界運(yùn)營中心”時,真正值得關(guān)注的部分。

所謂物理世界運(yùn)營中心,并不只是把更多倉庫、車輛、門店連接起來,而是把真實世界里持續(xù)發(fā)生的狀態(tài)變化,變成可理解、可預(yù)測、可調(diào)度的數(shù)據(jù)和動作。AI 在這里不是聊天窗口,而是運(yùn)營系統(tǒng)的一層神經(jīng)。

從這個角度看,京東最近一系列布局是連在一起的。

JoyAI-LLM Flash 強(qiáng)調(diào)中等規(guī)模模型的效率,48B 總參數(shù)、每次僅激活少量參數(shù),并開源多種量化版本,說明京東在意的不是單純堆大,而是可用、可部署、可規(guī)模化。

JoyAI-Image 強(qiáng)化視覺理解和空間智能,讓模型不僅知道“這是什么”,還知道“它在哪里、和旁邊東西是什么關(guān)系”;JoyAI-RA 則直接指向具身智能,把第一視角人類操作視頻、仿真軌跡、真實機(jī)器人數(shù)據(jù)放在一起訓(xùn)練,補(bǔ)的是機(jī)器人最缺的真實行為數(shù)據(jù)。

再回到JoyAI-VL-Interaction,它像是把這些能力往應(yīng)用側(cè)推了一步:讓 AI 在真實環(huán)境里持續(xù)觀察、判斷時機(jī)、觸發(fā)動作。



這條鏈路很清楚:模型要懂語言和圖像,要能生成和理解,要會推理,也要能在現(xiàn)場低延遲運(yùn)行;最后,還要接到機(jī)器人、無人車、無人機(jī)、門店設(shè)備和工業(yè)終端上。

這不是一個單點模型的故事,而是京東把AI 重新接回物理世界的一套系統(tǒng)工程。



開源不是終點,是找場景的開始

實時視覺交互最有想象力的地方,不在于它能不能做一個更酷的視頻助手,而在于它讓AI 從“被召喚”變成“在現(xiàn)場”。

在家庭里,它可以做看護(hù)的第二雙眼睛;在門店里,它可以發(fā)現(xiàn)缺貨、排隊和顧客反復(fù)尋找;在工廠里,它可以捕捉危險動作、設(shè)備異常和流程偏差;在機(jī)器人身上,它會決定什么時候提醒、讓路或請求人類接管。

這些場景很瑣碎,不像發(fā)布會上演示的“驚艷能力”。但物理世界的商業(yè)價值,恰恰藏在這些瑣碎動作里。

誰能把提醒、避障、分揀、補(bǔ)貨做得更及時、更低成本、更穩(wěn)定,誰就能把AI 從新奇產(chǎn)品變成生產(chǎn)力系統(tǒng)。

所以,JoyAI-VL-Interaction 的意義不只是“京東又開源了一個模型”。它更像一個信號:AI 的競爭正在從屏幕里的問答,走向屏幕外的運(yùn)營。



過去的大模型像一個知識豐富的遠(yuǎn)程顧問。未來的AI 更像站在現(xiàn)場的同事:知道什么時候該看、該說、該動手,什么時候該找更專業(yè)的人來處理。

京東要做“全球最大物理世界運(yùn)營中心”,商業(yè)邏輯也正在這里閉環(huán)。

物理世界給京東提供場景和數(shù)據(jù),開源模型吸引開發(fā)者和生態(tài),具身智能把感知與行動接起來,各類終端再把模型帶回現(xiàn)場。

當(dāng)這套循環(huán)跑起來,京東賣的不只是商品、云和模型,而是一種把真實世界高效組織起來的能力。

AI 最終要改變的,不只是人怎么和機(jī)器聊天,而是機(jī)器怎么參與世界運(yùn)轉(zhuǎn)。

而讓AI 學(xué)會“看情況”,可能就是這件事的開始。

大家可以在vLLM-Omni上一鍵拉起服務(wù)體驗,也可以在倉庫下一鍵啟動~

代碼地址:

https://github.com/jd-opensource/JoyAI-VL-Interaction

模型地址:

https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

數(shù)據(jù)集地址:

https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技術(shù)報告地址:

https://huggingface.co/papers/2606.14777

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
凱爾特人鐵了心要放棄布朗!美媒:綠軍計劃用布朗換騎士的莫布利

凱爾特人鐵了心要放棄布朗!美媒:綠軍計劃用布朗換騎士的莫布利

愛體育
2026-06-24 22:09:48
毛主席有個奇怪的原則,一生從不碰這三種東西,它們都是什么?

毛主席有個奇怪的原則,一生從不碰這三種東西,它們都是什么?

健康快樂丁
2025-04-13 18:08:46
他接受紀(jì)律審查和 監(jiān)察調(diào)查

他接受紀(jì)律審查和 監(jiān)察調(diào)查

錫望
2026-06-24 11:32:57
全世界禁用中國芯片?美國禁令一旦實行下去,中國就真的要笑倒了

全世界禁用中國芯片?美國禁令一旦實行下去,中國就真的要笑倒了

忠于法紀(jì)
2026-06-23 09:51:45
豐田RAV4賣瘋了,經(jīng)銷商庫存按小時算,800人排隊搶車

豐田RAV4賣瘋了,經(jīng)銷商庫存按小時算,800人排隊搶車

賽場名場面
2026-06-23 00:33:38
第一刀砍向了大戶型,剛需笑了

第一刀砍向了大戶型,剛需笑了

金融界
2026-06-25 07:59:10
王治郅魔鬼訓(xùn)練,2米26張子宇減脂成功,女籃新核心將現(xiàn)

王治郅魔鬼訓(xùn)練,2米26張子宇減脂成功,女籃新核心將現(xiàn)

墨史軒
2026-06-17 17:47:35
消失的150萬契丹人找到了?DNA比對結(jié)果一出,原來就在我們身邊

消失的150萬契丹人找到了?DNA比對結(jié)果一出,原來就在我們身邊

馬蹄燙嘴說美食
2026-06-24 21:36:53
中等生成不了學(xué)霸,不是智商不夠,而是被這3個短板拖了后腿!

中等生成不了學(xué)霸,不是智商不夠,而是被這3個短板拖了后腿!

好爸育兒
2026-06-22 08:31:28
兒科其實是一個接近動物學(xué)的專科!來看看大家的經(jīng)歷吧!

兒科其實是一個接近動物學(xué)的專科!來看看大家的經(jīng)歷吧!

另子維愛讀史
2026-06-25 21:49:20
他是上海著名主持,我們熟悉的"申城第一名嘴",如今退休定居澳洲

他是上海著名主持,我們熟悉的"申城第一名嘴",如今退休定居澳洲

白面書誏
2026-06-24 22:21:06
亞足聯(lián)慌了!亞洲球隊第二輪近乎全軍覆沒,名額可能被削減

亞足聯(lián)慌了!亞洲球隊第二輪近乎全軍覆沒,名額可能被削減

鏗鏘格斗
2026-06-24 22:56:37
1天4個瓜!國外生子、緊急送醫(yī)、自曝懷雙胎、關(guān)曉彤最讓人意外

1天4個瓜!國外生子、緊急送醫(yī)、自曝懷雙胎、關(guān)曉彤最讓人意外

翰飛觀事
2026-06-24 19:28:40
替女上司擋災(zāi)縫15針,第二天被開除,收拾東西時她突然叫住我

替女上司擋災(zāi)縫15針,第二天被開除,收拾東西時她突然叫住我

千秋文化
2026-06-23 20:03:54
手握600萬高薪卻毅然降薪離隊,趙睿的抉擇值得所有打工人深思

手握600萬高薪卻毅然降薪離隊,趙睿的抉擇值得所有打工人深思

林子說事
2026-06-24 17:00:41
曼聯(lián)逃過一劫!阿莫林險些賣掉世界杯天才,紅魔未來核心保住了

曼聯(lián)逃過一劫!阿莫林險些賣掉世界杯天才,紅魔未來核心保住了

瀾歸序
2026-06-25 02:52:52
當(dāng)眾怒罵!圖赫爾世界杯失控發(fā)飆!英格蘭國腳首發(fā)被打崩光速換下

當(dāng)眾怒罵!圖赫爾世界杯失控發(fā)飆!英格蘭國腳首發(fā)被打崩光速換下

瀾歸序
2026-06-25 04:05:08
大陸得到信,島內(nèi)都一邊倒了,蔣萬安已經(jīng)動手了,4 字問罪臺當(dāng)局

大陸得到信,島內(nèi)都一邊倒了,蔣萬安已經(jīng)動手了,4 字問罪臺當(dāng)局

丁丁鯉史紀(jì)
2026-06-24 15:45:27
海外市場的爆發(fā)救了比亞迪一命,差點變成第二個恒大。

海外市場的爆發(fā)救了比亞迪一命,差點變成第二個恒大。

音樂時光的娛樂
2026-06-25 00:05:56
親眼見過才懂:哈蘭德比電視上恐怖十倍

親眼見過才懂:哈蘭德比電視上恐怖十倍

籃壇第一線
2026-06-24 01:12:18
2026-06-25 22:36:49
創(chuàng)業(yè)邦 incentive-icons
創(chuàng)業(yè)邦
關(guān)注創(chuàng)新經(jīng)濟(jì)及其推動者。
16120文章數(shù) 112041關(guān)注度
往期回顧 全部

科技要聞

存儲成本壓力山大!蘋果罕見全球提價

頭條要聞

賴清德呼吁大陸放棄"武力攻臺" 國防部表態(tài)

頭條要聞

賴清德呼吁大陸放棄"武力攻臺" 國防部表態(tài)

體育要聞

世界杯最動人一吻:我若離世 你就改嫁吧

娛樂要聞

這國產(chǎn)劇太裝了,居然還熱播第一?

財經(jīng)要聞

又有紙尿褲送檢后被檢測出甲酰胺!

汽車要聞

138.8萬元!東方豪華天花板?尊界S800 Grand Design典藏大觀上市

態(tài)度原創(chuàng)

家居
數(shù)碼
藝術(shù)
教育
房產(chǎn)

家居要聞

綠意盎然 自然之境

數(shù)碼要聞

聯(lián)想推出來酷14銳龍版輕薄本,搭載Ryzen 7 170處理器

藝術(shù)要聞

沙皇把他扔進(jìn)西伯利亞,他卻用一支鉛筆“反殺”了整個時代

教育要聞

收藏!2026全國31省高考志愿填報時間最全匯總,錯過一天等一年!

房產(chǎn)要聞

城市精英集體出手!科學(xué)城這一現(xiàn)象級熱銷紅盤,憑何成為共識之選?

無障礙瀏覽 進(jìn)入關(guān)懷版