網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

重磅開源！240億參數(shù)力壓Nano Banana 2

2026-04-11 12:19:09　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 犀牛

【新智元導讀】當多數(shù)圖像AI還停留在「會生成、不會懂空間」的階段，京東開源JoyAI-Image-Edit，把圖像編輯從平面修圖推向空間智能，也讓外界第一次看清：京東的AI布局，從來不是追風口，而是死磕自己最有勝算的真實場景。

這一刻，圖像AI升維了！

過去兩年，我們見過太多「神級」圖像模型——畫貓比真貓還毛茸茸，畫賽博朋克街道比電影還炫，畫一只手有六根手指也能讓你覺得是藝術(shù)。

Grok生成的AI圖像（上下滑動）

所有人都以為，圖像AI已經(jīng)快到頭了。

直到你真的上手用它干點正經(jīng)事——想換個角度看看自家客廳？透視關(guān)系瞬間崩塌，沙發(fā)像在漂浮，落地燈穿墻而過。

想把前景的蘋果和后面的書調(diào)一下前后順序？遮擋關(guān)系直接錯亂，比例全面失衡，畫面宛如一場災難現(xiàn)場。

你氣不氣？你崩不崩潰？

它們會畫畫，卻不懂空間。

它們能生成驚艷的像素，卻看不懂像素背后那個立體的、有前后、有深度、有光影邏輯的真實世界。

它們是熟練的「平面裱糊匠」，卻不是懂事的「空間觀察者」。

這道坎兒，橫在圖像AI面前。

誰來邁？

JoyAI-Image-Edit

把「空間智能」刻進骨子里的開源模型

4月初，京東探索研究院正式對外開源自研的JoyAI-Image-Edit圖像模型。

代碼已經(jīng)放在GitHub上，以Apache 2.0協(xié)議釋出，推理代碼全部開放，開發(fā)者可以直接拿去做應用。

目前，系統(tǒng)已完成對ComfyUI的支持，并全面兼容Diffusers格式的模型權(quán)重與推理流程，方便開發(fā)者進行靈活部署與二次開發(fā)。

鏈接：https://github.com/jd-opensource/JoyAI-Image

體驗地址：https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

開源權(quán)重：https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

這是一件大事。

因為它不是又一個「更好用的AI修圖工具」，而是業(yè)內(nèi)首個把「空間智能」寫進模型架構(gòu)底層的開源一體化圖像模型，讓模型真正「理解空間，編輯空間」。

野心就寫在標題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》，直譯過來就是「在統(tǒng)一的多模態(tài)理解與生成中，喚醒空間智能」。

技術(shù)上，JoyAI-Image把一個80億參數(shù)的多模態(tài)語言模型（MLLM）和一個160億參數(shù)的多模態(tài)擴散Transformer（MMDiT）耦合在一起，形成一個共享接口，讓空間意圖從指令解析一路貫穿到圖像生成。

更關(guān)鍵的是它背后的數(shù)據(jù)和訓練哲學：一條可擴展的數(shù)據(jù)流水線，包含空間理解數(shù)據(jù)（OpenSpatial）、長文本渲染數(shù)據(jù)、編輯數(shù)據(jù)（SpatialEdit），再加上多階段的優(yōu)化策略。

這套架構(gòu)的精髓在哪？

在于「理解」和「生成」第一次形成了真正的閉環(huán)。

過去的圖像模型，理解歸理解、生成歸生成，兩邊各玩各的。

而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環(huán)協(xié)作：更強的空間理解讓生成和編輯更可控，而視角變換這類生成操作又反過來為空間推理提供新的證據(jù)。

JoyAI-Image在圖像理解、合成與編輯方面均展現(xiàn)了全面領(lǐng)先的能力

說人話就是：模型一邊「看」一邊「畫」，一邊「畫」又幫它看得更清楚。

這才是真正意義上的空間智能覺醒。

落到具體能力上，JoyAI-Image支持三種空間編輯提示范式：物體移動（Object Move）、物體旋轉(zhuǎn)（Object Rotation）和相機控制（Camera Control）。

第一，相機控制。你可以用一句大白話告訴它——「把相機往右偏30度，往下俯15度，再拉近一點」——模型會在保持場景幾何一致性的前提下，給你生成一張全新視角的圖像，透視關(guān)系、遮擋關(guān)系、光影關(guān)系全都對得上。

編輯指令：Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.

編輯指令：Move the camera.

Camera rotation: Yaw -45.0°, Pitch 22.5°.

Camera zoom: unchanged.

Keep the 3D scene static; only change the viewpoint.

第二，物體旋轉(zhuǎn)與空間漫游。支持連續(xù)的視角移動，能生成一整串邏輯連貫的多視角圖像序列。

什么意思？就好像你戴著一臺虛擬相機，真的在這個三維場景里「走動」，每一幀都立得住。

編輯指令：Rotate the sneaker to show the front view.

編輯指令：rotate the girl to show the rear left side view.

編輯指令：rotate the elephant to show the front view.

第三，物體空間關(guān)系操控。挪動、旋轉(zhuǎn)、縮放畫面中的任何一個物體，場景整體結(jié)構(gòu)保持穩(wěn)定，遮擋自然合理，光影過渡順滑，不會再出現(xiàn)變形、錯位、比例失衡那些老毛病。

編輯指令：Move the coffee into the red box

編輯指令：move the red car into the red box, remove the red box, remove the red car

這種空間編輯能力帶來很多有趣的新玩法──

給定第一幀（下圖左）后，你利用空間編輯能力生成視頻的最后一幀（下圖右）。

然后，由視頻生成模型在兩者之間創(chuàng)建平滑的旋轉(zhuǎn)過渡，還能保持背景的一致性。

更硬核的是橫評。

和Qwen-Image-Edit、Nano Banana Pro相比，JoyAI-Image-Edit能夠忠實執(zhí)行相機運動，合成最具診斷性的新視角，這些高保真的新視角有效地消除了復雜空間關(guān)系的歧義。

同樣讓模型「換個角度看世界」，別人換出來的畫面或許能看，但JoyAI-Image-Edit換出來的畫面，是真的對，這對于把模型投入真實生產(chǎn)和應用環(huán)境來說至關(guān)重要。

與此同時，它還全面兼容15類通用編輯能力——替換、刪除、添加、風格遷移、細節(jié)精修、長文本渲染，樣樣拿得出手；尤其在空間推理、長文本渲染以及空間可控操作上表現(xiàn)尤為出色。

比如，輸入一行指令就給小貓戴上皇冠。

或者將行人從圖片中移走。

長文本渲染更是拿手。

頂尖的空間編輯×全面的通用編輯，這是真正的「文武雙全」。

為什么是電商和具身？

一個模型的價值，不在跑分，而在用在哪。

JoyAI-Image-Edit最能發(fā)揮威力的兩個戰(zhàn)場，一個是電商，一個是具身智能——恰好都是京東的主場。

做電商的品牌客戶，是對空間編輯最饑渴的用戶。

一件商品拍進來，要換背景、換角度、換搭配、換場景、換光線。

過去這些活兒要么靠攝影師重拍，要么靠設(shè)計師通宵P圖，要么靠AI生成一堆「塑料感」假圖。

有了JoyAI-Image-Edit，一張主圖可以自動衍生出幾十種視角和場景，商品還是那個商品，形象保持一致，細節(jié)不穿幫，成本直接砍到腳踝。

對于服務著數(shù)百萬商家的京東來說，這不是錦上添花，這是水和電。

具身智能的場景，則是空間理解最硬的剛需。

機器人要在真實世界里干活，第一件事就是「看懂」空間——哪是桌子、哪是椅子、杯子離我多遠、我伸手能不能夠到。

空間理解能力，就是機器人「理解世界」的核心底座。

而機器人行業(yè)的卡脖子問題是「數(shù)據(jù)」，如何能生產(chǎn)海量供機器人訓練的數(shù)據(jù)，光靠本體采集、遙操是不夠的，這時候JoyAI-Image-Edit能派上很大用場。

在具身智能的實測演示中，用戶只需輸入一句自然語言提示詞（比如「機器人左手舉起來」），并用畫框框選目標區(qū)域，就能對指定物體的動作、姿態(tài)和旋轉(zhuǎn)角度進行精細化操控.

在機器人做家務的實拍場景里，模型完整保留了背景環(huán)境、物體空間關(guān)系與物理合理性，生成了機器人抬手的全新姿態(tài)。

這已經(jīng)不是「修圖」，這是給機器人預演動作，也給機器人走進生活提供了大量優(yōu)質(zhì)的數(shù)據(jù)養(yǎng)料。

現(xiàn)在，京東正在將AI能力融入其「超級供應鏈」。

把空間智能的鑰匙交給所有人

這一次，京東選擇了Apache2.0協(xié)議開源，任何開發(fā)者、任何企業(yè)都可以自由地使用、修改、商用這個模型。

這件事的分量比想象中要重。

因為空間智能是通往AGI的「最后一公里」——一個AI如果連物體在空間中的位置關(guān)系都搞不清楚，談何理解世界？

而把這樣一個在空間一致性上達到世界一流水準的模型徹底開源，等于把一把關(guān)鍵鑰匙交到了整個社區(qū)手里。

對電商從業(yè)者，它是成本殺手；對設(shè)計師，它是隨身的三維助手；對機器人團隊，它是視覺感知的現(xiàn)成底座；對學術(shù)研究者，它是可以站在上面繼續(xù)往前走的巨人肩膀。

更重要的是，它讓空間智能這件事，不再是少數(shù)幾家閉源巨頭的專利。

不追風口，只押自己最懂的場景

這兩年大廠卷AI卷得飛起，參數(shù)比大小、榜單比名次、發(fā)布會比排場，每個人都想成為下一個OpenAI。

但京東的節(jié)奏一直挺「穩(wěn)」——不湊熱鬧，不跟風，它的AI布局始終死死咬住一條主線：聚焦自己最懂、最具稟賦的實體場景，把AI扎到產(chǎn)業(yè)最深處。

過去一段時間，京東在AI上的動作密集得驚人：

開源基礎(chǔ)大模型JoyAI-LLM Flash，用基于「纖維叢」理論的FiberPO強化學習方法，在19個權(quán)威基準上躋身一梯隊；
京東云「龍蝦」系列產(chǎn)品上線后，一周token調(diào)用量環(huán)比暴漲455%；
數(shù)字人JoyStreamer性能超越國際SOTA，覆蓋電商直播、文旅講解、新聞主播20多個場景；
JoyInside附身智能已經(jīng)深度接入近百個家電家居品牌、40多個機器人與AI玩具品牌，接入后帶動硬件對話輪次平均提升120%；

更猛的是，京東宣布要建全球規(guī)模最大、場景最全的具身智能數(shù)據(jù)采集中心，兩年內(nèi)攢下超過1000萬小時真實場景數(shù)據(jù)，動員數(shù)十萬人搞「人類史上最大的數(shù)據(jù)采集行動」。

看懂這份清單，你就看懂了京東的AI邏輯：零售、物流、工業(yè)、健康、具身——每一步都踩在自己的供應鏈和場景資源上。

別人在云端打參數(shù)戰(zhàn)，京東在地上打場景戰(zhàn)。

別人在比誰的模型更聰明，京東在比誰的AI更能干活、更能賺錢、更能落地。

而這一次開源的JoyAI-Image-Edit，正是這套打法的最新一塊拼圖。

京東的打法也給整個行業(yè)提了個醒：AI的競爭，終究不是參數(shù)的競爭，而是場景的競爭、落地的競爭、價值的競爭。

誰最懂自己的主場，誰就能把AI真正用起來。

零售、物流、工業(yè)、具身——京東把AI扎進了自己最肥沃的那幾畝地，然后讓種子在產(chǎn)業(yè)的土壤里發(fā)芽。

屬于空間智能的時代，才剛剛開始。

注：文中部分輸入圖來源于Arena

歡迎點擊下方閱讀原文，給JoyAI-Image-Edit點顆星，我們一起支持開源。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

兩名外籍乘客在網(wǎng)約車上對著部隊大門連續(xù)拍照，接下來又要去訓練場方向，司機覺得可疑，直接開車把他們交給了部隊

極目新聞 2026-04-16 08:59:25
5182 跟貼 5182
美民主黨對防長赫格塞思發(fā)起彈劾

界面新聞 2026-04-16 07:08:40
5741 跟貼 5741

大批五一航班突然取消！廣東市民出行受到這些影響

南方都市報 2026-04-15 20:44:18
447 跟貼 447

揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
2949 跟貼 2949
河南萬歲山武俠城演出中“大象”露出人腳，景區(qū)：沒飼養(yǎng)過大象，是4名工作人員扮的

環(huán)球網(wǎng)資訊 2026-04-16 11:29:34
2088 跟貼 2088

廣東“莫氏雞煲大公主”爆火前后反差大，晚上干到凌晨2點才收工，發(fā)文吐槽：這個雞你們是非吃不可嗎

大象新聞 2026-04-15 12:57:04
1774 跟貼 1774

格力怒斥海信，稱其沒資格用“真銅實料”四字進行宣傳，海信高管回懟：又當又立

大風新聞 2026-04-15 15:07:03
505 跟貼 505
確認了！兩人系間諜

浙江之聲 2026-04-16 22:16:31
77 跟貼 77

媒體：法國要"將不義之財歸還中國" 沒你想得那么容易

新民周刊 2026-04-16 15:02:54
2190 跟貼 2190
陽臺遭飛鳥"精準投糞" 住戶:每天來十多次或為挑釁貓

星視頻 2026-04-16 18:45:58
227 跟貼 227
男子因噪音過敏住5年隔音艙：自己設(shè)計，已接上百個訂單，幫噪音受困者找回睡眠

半島官網(wǎng) 2026-04-16 11:20:50
0 跟貼 0
上海業(yè)主傻眼安保、保潔突然全離崗小區(qū)垃圾堆積成山

新聞坊 2026-04-16 21:23:28
2 跟貼 2
美戰(zhàn)爭成本或達1萬億影響供烏武器

紅星新聞 2026-04-16 11:14:37
1215 跟貼 1215
400毫升無償獻血證被中介賣至2000元獻血者僅拿400元

大風新聞 2026-04-16 19:53:03
722 跟貼 722
切記，半夜醒來千萬不要看時間！

環(huán)球網(wǎng)資訊 2026-04-16 07:56:25
159 跟貼 159
文章新開面館口味評分3.6分，網(wǎng)友：30多元一碗面有點貴

紅星新聞 2026-04-13 17:22:41
1249 跟貼 1249
多地出臺中考新方案：“不考不學”怎么破解，是否會造成初高中脫節(jié)？

澎湃新聞 2026-04-16 08:27:07
154 跟貼 154
收評：創(chuàng)業(yè)板指漲超3%刷新近11年新高

財聯(lián)社 2026-04-16 15:07:13
625 跟貼 625
阿姨在竹林拔筍，衣服被竹子穿走了

學申論的談妹 2026-04-16 21:25:16
42 跟貼 42
實現(xiàn)良好開局一季度國內(nèi)生產(chǎn)總值同比增長5.0%

央視新聞客戶端 2026-04-16 10:05:43
155 跟貼 155
舉報虐貓反被開盒氣到進ICU！全家信息被扒，80歲奶奶也遭殃

奇思妙想草葉君 2026-04-17 02:12:48
1 跟貼 1
杭州女子買5份海鮮3份僅退款商家氣憤跨省趕來質(zhì)問

錢江晚報 2026-04-16 14:34:09
0 跟貼 0
大連星海廣場火了，爆發(fā)多方?jīng)_突，攝影師被驅(qū)趕，知情人曝光細節(jié)

米師傅安裝 2026-04-17 02:04:27
0 跟貼 0
最新：同濟大學已成立調(diào)查組

南方都市報 2026-04-16 16:57:13
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14988文章數(shù) 66773關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

手機

親子

教育

藝術(shù)

手機 / 數(shù)碼

房產(chǎn) / 家居

重磅開源！240億參數(shù)力壓Nano Banana 2

趙明：智駕之戰(zhàn)，看誰在大模型上更高效

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

皇馬拜仁踢出名局，但最搶鏡的還是他

絲芭傳媒創(chuàng)始人王子杰去世，享年63歲

海爾與醫(yī)美女王互撕 換血抗衰誰的生意？

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

OPPO Find X10：8000mAh超大電池+雙2億影像，中屏機皇實錘！

兒子認字還可以吧？ 董路的微博視頻

網(wǎng)傳建鄴區(qū)即將迎來大動作？多校學區(qū)要變？

你絕對想不到！這幅油畫背后的美麗故事！

特朗普宣布黎以將停火后以軍大規(guī)模空襲黎巴嫩

特朗普宣布黎以將停火后以軍大規(guī)模空襲黎巴嫩

海爾與醫(yī)美女王互撕換血抗衰誰的生意？

兒子認字還可以吧？董路的微博視頻