我們用 AI 做圖、修圖時(shí),經(jīng)常會(huì)遇到一些難題:想把圖中的杯子挪個(gè)位置,結(jié)果杯子變形了;想換個(gè)視角看看畫面,透視卻完全不對(duì);想調(diào)整兩個(gè)物體的前后位置,也會(huì)出現(xiàn)遮擋混亂、比例失衡…… 核心問(wèn)題是AI更像是在平面上“P圖”,無(wú)法理解圖像背后的三維空間結(jié)構(gòu)。
近日,京東探索研究院正式開源了自研的 JoyAI-Image-Edit 圖像模型,徹底解決上述難題。這是業(yè)內(nèi)首個(gè)把 “空間智能” 刻進(jìn)骨子里的開源模型,讓 AI 終于能真正 “看懂” 空間、“編輯” 空間,從原來(lái)的平面修圖,升級(jí)成了三維空間重塑,而且模型的推理代碼全部開放,開發(fā)者能直接拿來(lái)做應(yīng)用。
![]()
徹底解決傳統(tǒng)模型空間邏輯混亂難題
JoyAI-Image-Edit深度貼合真實(shí)世界空間規(guī)律,從空間位置關(guān)系、多視角一致性、相機(jī)感知到場(chǎng)景推理等維度全面建模,實(shí)現(xiàn)了相機(jī)坐標(biāo)視角變換、物體空間位移旋轉(zhuǎn)、幾何結(jié)構(gòu)精準(zhǔn)控制等多項(xiàng)空間編輯技術(shù)突破,將空間認(rèn)知能力深度融入文本與圖像生成流程,搭建了完整的空間理解數(shù)據(jù)與任務(wù)體系。
該模型打破了 AI “理解圖像” 和 “生成圖像” 的壁壘,讓 AI 不僅能生成逼真的圖像外觀,更能精準(zhǔn)理解圖像背后的空間結(jié)構(gòu),在編輯過(guò)程中穩(wěn)定保持主體形象與場(chǎng)景結(jié)構(gòu)完整,多視角空間布局高度一致。不管是移動(dòng)物體、換視角,還是調(diào)整物體間的關(guān)系,都能保持場(chǎng)景的幾何規(guī)律,遮擋、光影也都自然合理,不會(huì)再出現(xiàn)變形、錯(cuò)亂的情況,徹底解決傳統(tǒng)模型空間邏輯混亂的行業(yè)難題。
經(jīng)實(shí)驗(yàn)驗(yàn)證,在物體移動(dòng)精度、空間一致性等空間編輯核心指標(biāo)上,JoyAI-Image-Edit達(dá)到世界一流水準(zhǔn)。
三大空間編輯范式突破,融合15類通用編輯能力
JoyAI-Image-Edit 的核心躍升,在于其攻克了此前開源模型難以逾越的空間理解難題,具備三大辨識(shí)度極高的空間編輯能力:視角變換——用戶可通過(guò)自然語(yǔ)言指定相機(jī)的偏航角、俯仰角及縮放程度,模型在保持場(chǎng)景幾何一致性的前提下生成新視角圖像;空間漫游——支持連續(xù)的視角移動(dòng),生成在空間中邏輯連貫的多視角圖像序列,類似于在三維場(chǎng)景中"走動(dòng)";物體空間關(guān)系操控——在保持場(chǎng)景整體結(jié)構(gòu)穩(wěn)定的前提下,對(duì)特定物體進(jìn)行位移、縮放等空間變換,同時(shí)確保遮擋與光影關(guān)系自然合理。
在實(shí)現(xiàn)空間級(jí)突破的同時(shí),JoyAI-Image-Edit 全面兼容 15 類通用編輯能力,深度覆蓋內(nèi)容創(chuàng)作的高頻需求。無(wú)論是物體的替換、刪除、添加,還是整體風(fēng)格遷移、細(xì)節(jié)精修等操作,模型均實(shí)現(xiàn)了高性能覆蓋。結(jié)合頂尖的空間編輯技術(shù),模型在長(zhǎng)文本精準(zhǔn)渲染、多視角一致性生成等行業(yè)高難度任務(wù)中表現(xiàn)卓越,真正做到了全場(chǎng)景、無(wú)死角的高效創(chuàng)作。
憑借領(lǐng)先的空間理解與編輯能力,JoyAI-Image-Edit模型突破場(chǎng)景限制,可廣泛應(yīng)用于電商內(nèi)容生產(chǎn)、創(chuàng)意設(shè)計(jì)制作、智能圖像處理、3D 模型重建、具身智能視覺(jué)感知等多元領(lǐng)域,大幅提升 AI 圖像技術(shù)在復(fù)雜空間場(chǎng)景中的適配性與實(shí)用性。尤其是在具身智能領(lǐng)域,空間理解能力是機(jī)器人“理解世界”的核心基礎(chǔ),而該模型的推出,也為相關(guān)技術(shù)研發(fā)提供了關(guān)鍵的底層能力。
![]()
此次 JoyAI-Image-Edit 的開源,是京東在 AI 多模態(tài)模型領(lǐng)域的重要布局,更是讓 AI 圖像編輯實(shí)現(xiàn)了從平面到空間的大跨越。未來(lái)該模型還將持續(xù)落地更多場(chǎng)景,不斷探索空間智能落地價(jià)值。
在AI研發(fā)和應(yīng)用領(lǐng)域,京東今年成果不斷。過(guò)去一個(gè)月內(nèi),京東宣布首次開源基礎(chǔ)大模型JoyAI-LLM Flash,打破了大模型參數(shù)內(nèi)卷的困局;京東云“龍蝦”系列產(chǎn)品集體上線,token調(diào)用量周環(huán)比增長(zhǎng)高達(dá)455%;京東還宣布將建成全球最大的具身數(shù)據(jù)采集中心。依托超級(jí)供應(yīng)鏈優(yōu)勢(shì),京東將持續(xù)推動(dòng)AI與產(chǎn)業(yè)深度融合,真正為產(chǎn)業(yè)創(chuàng)造價(jià)值。
開源地址:
HuggingFace:https://huggingface.co/jdopensource/JoyAI-Image-Edit
Github:https://github.com/jd-opensource/JoyAI-Image
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.