網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

京東開源JoyAI-Image-Edit，打造“最懂”三維世界的圖像模型

2026-04-08 15:39:44　來(lái)源: 商業(yè)透鏡

北京舉報(bào)

分享至

我們用 AI 做圖、修圖時(shí)，經(jīng)常會(huì)遇到一些難題：想把圖中的杯子挪個(gè)位置，結(jié)果杯子變形了；想換個(gè)視角看看畫面，透視卻完全不對(duì)；想調(diào)整兩個(gè)物體的前后位置，也會(huì)出現(xiàn)遮擋混亂、比例失衡…… 核心問(wèn)題是AI更像是在平面上“P圖”，無(wú)法理解圖像背后的三維空間結(jié)構(gòu)。

近日，京東探索研究院正式開源了自研的 JoyAI-Image-Edit 圖像模型，徹底解決上述難題。這是業(yè)內(nèi)首個(gè)把 “空間智能” 刻進(jìn)骨子里的開源模型，讓 AI 終于能真正 “看懂” 空間、“編輯” 空間，從原來(lái)的平面修圖，升級(jí)成了三維空間重塑，而且模型的推理代碼全部開放，開發(fā)者能直接拿來(lái)做應(yīng)用。

徹底解決傳統(tǒng)模型空間邏輯混亂難題

JoyAI-Image-Edit深度貼合真實(shí)世界空間規(guī)律，從空間位置關(guān)系、多視角一致性、相機(jī)感知到場(chǎng)景推理等維度全面建模，實(shí)現(xiàn)了相機(jī)坐標(biāo)視角變換、物體空間位移旋轉(zhuǎn)、幾何結(jié)構(gòu)精準(zhǔn)控制等多項(xiàng)空間編輯技術(shù)突破，將空間認(rèn)知能力深度融入文本與圖像生成流程，搭建了完整的空間理解數(shù)據(jù)與任務(wù)體系。

該模型打破了 AI “理解圖像” 和 “生成圖像” 的壁壘，讓 AI 不僅能生成逼真的圖像外觀，更能精準(zhǔn)理解圖像背后的空間結(jié)構(gòu)，在編輯過(guò)程中穩(wěn)定保持主體形象與場(chǎng)景結(jié)構(gòu)完整，多視角空間布局高度一致。不管是移動(dòng)物體、換視角，還是調(diào)整物體間的關(guān)系，都能保持場(chǎng)景的幾何規(guī)律，遮擋、光影也都自然合理，不會(huì)再出現(xiàn)變形、錯(cuò)亂的情況，徹底解決傳統(tǒng)模型空間邏輯混亂的行業(yè)難題。

經(jīng)實(shí)驗(yàn)驗(yàn)證，在物體移動(dòng)精度、空間一致性等空間編輯核心指標(biāo)上，JoyAI-Image-Edit達(dá)到世界一流水準(zhǔn)。

三大空間編輯范式突破，融合15類通用編輯能力

JoyAI-Image-Edit 的核心躍升，在于其攻克了此前開源模型難以逾越的空間理解難題，具備三大辨識(shí)度極高的空間編輯能力：視角變換——用戶可通過(guò)自然語(yǔ)言指定相機(jī)的偏航角、俯仰角及縮放程度，模型在保持場(chǎng)景幾何一致性的前提下生成新視角圖像；空間漫游——支持連續(xù)的視角移動(dòng)，生成在空間中邏輯連貫的多視角圖像序列，類似于在三維場(chǎng)景中"走動(dòng)"；物體空間關(guān)系操控——在保持場(chǎng)景整體結(jié)構(gòu)穩(wěn)定的前提下，對(duì)特定物體進(jìn)行位移、縮放等空間變換，同時(shí)確保遮擋與光影關(guān)系自然合理。

在實(shí)現(xiàn)空間級(jí)突破的同時(shí)，JoyAI-Image-Edit 全面兼容 15 類通用編輯能力，深度覆蓋內(nèi)容創(chuàng)作的高頻需求。無(wú)論是物體的替換、刪除、添加，還是整體風(fēng)格遷移、細(xì)節(jié)精修等操作，模型均實(shí)現(xiàn)了高性能覆蓋。結(jié)合頂尖的空間編輯技術(shù)，模型在長(zhǎng)文本精準(zhǔn)渲染、多視角一致性生成等行業(yè)高難度任務(wù)中表現(xiàn)卓越，真正做到了全場(chǎng)景、無(wú)死角的高效創(chuàng)作。

憑借領(lǐng)先的空間理解與編輯能力，JoyAI-Image-Edit模型突破場(chǎng)景限制，可廣泛應(yīng)用于電商內(nèi)容生產(chǎn)、創(chuàng)意設(shè)計(jì)制作、智能圖像處理、3D 模型重建、具身智能視覺(jué)感知等多元領(lǐng)域，大幅提升 AI 圖像技術(shù)在復(fù)雜空間場(chǎng)景中的適配性與實(shí)用性。尤其是在具身智能領(lǐng)域，空間理解能力是機(jī)器人“理解世界”的核心基礎(chǔ)，而該模型的推出，也為相關(guān)技術(shù)研發(fā)提供了關(guān)鍵的底層能力。

此次 JoyAI-Image-Edit 的開源，是京東在 AI 多模態(tài)模型領(lǐng)域的重要布局，更是讓 AI 圖像編輯實(shí)現(xiàn)了從平面到空間的大跨越。未來(lái)該模型還將持續(xù)落地更多場(chǎng)景，不斷探索空間智能落地價(jià)值。

在AI研發(fā)和應(yīng)用領(lǐng)域，京東今年成果不斷。過(guò)去一個(gè)月內(nèi)，京東宣布首次開源基礎(chǔ)大模型JoyAI-LLM Flash，打破了大模型參數(shù)內(nèi)卷的困局；京東云“龍蝦”系列產(chǎn)品集體上線，token調(diào)用量周環(huán)比增長(zhǎng)高達(dá)455%；京東還宣布將建成全球最大的具身數(shù)據(jù)采集中心。依托超級(jí)供應(yīng)鏈優(yōu)勢(shì)，京東將持續(xù)推動(dòng)AI與產(chǎn)業(yè)深度融合，真正為產(chǎn)業(yè)創(chuàng)造價(jià)值。

開源地址：

HuggingFace：https://huggingface.co/jdopensource/JoyAI-Image-Edit
Github：https://github.com/jd-opensource/JoyAI-Image

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.