京東開源圖像模型：讓AI從“平面P圖”進階“懂空間”

2026-04-10 23:10:15　來源: 藍鯊財經(jīng)社

江蘇舉報

分享至

據(jù)京東黑板報4月7日消息，京東探索研究院正式開源了自研的JoyAI-Image-Edit圖像模型。據(jù)快科技報道，這是業(yè)內(nèi)首個將“空間智能”刻進骨子里的開源模型，其空間理解與編輯能力達到世界一流水平。模型的推理代碼已全部開放，開發(fā)者可直接調(diào)用。

傳統(tǒng)AI修圖的核心痛點在于無法理解三維空間結(jié)構(gòu)。據(jù)京東官方技術(shù)解讀，傳統(tǒng)AI僅在平面像素層面操作，移動物體時易變形、改變視角后透視關(guān)系錯亂、調(diào)整物體前后關(guān)系時遮擋混亂。JoyAI-Image-Edit深度貼合真實世界空間規(guī)律，從空間位置關(guān)系、多視角一致性、相機感知到場景推理等維度全面建模，實現(xiàn)了相機坐標視角變換、物體空間位移旋轉(zhuǎn)、幾何結(jié)構(gòu)精準控制等多項技術(shù)突破。

該模型具備三大核心空間編輯能力，據(jù)IT之家整理，其一是視角變換，用戶通過自然語言指定相機的偏航角、俯仰角及縮放程度，模型在保持場景幾何一致性的前提下生成新視角圖像；其二是空間漫游，支持連續(xù)的視角移動，生成在三維空間中邏輯連貫的多視角圖像序列；其三是物體空間關(guān)系操控，在保持場景整體結(jié)構(gòu)穩(wěn)定的前提下對特定物體進行位移、縮放等空間變換，同時確保遮擋與光影關(guān)系自然合理。據(jù)京東官方披露，該模型打破了AI“理解圖像”和“生成圖像”的壁壘，編輯過程中能穩(wěn)定保持主體形象與場景結(jié)構(gòu)完整，多視角空間布局高度一致。在實現(xiàn)空間突破的同時，據(jù)京東黑板報披露，JoyAI-Image-Edit全面兼容15類通用編輯能力，涵蓋物體的替換、刪除、添加、整體風(fēng)格遷移及細節(jié)精修等操作，在長文本精準渲染、多視角一致性生成等行業(yè)高難度任務(wù)中表現(xiàn)卓越。應(yīng)用場景方面，據(jù)京東官方介紹，模型可廣泛應(yīng)用于電商內(nèi)容生產(chǎn)、創(chuàng)意設(shè)計制作、智能圖像處理、3D模型重建及具身智能視覺感知等領(lǐng)域。在電商場景中，可為商品圖生成多角度展示；在具身智能領(lǐng)域，空間理解能力是機器人“理解世界”的核心基礎(chǔ)，該模型可為相關(guān)技術(shù)研發(fā)提供關(guān)鍵的底層能力。據(jù)新京報貝殼財經(jīng)報道，京東高級副總裁何曉冬表示，通用人工智能有兩大方向：一是多模態(tài)，大模型必須具有視覺能力；二是走向具身智能，包括機器人、機械臂、無人車等，讓通用人工智能走向物理世界。

近期京東在AI領(lǐng)域動作頻頻。據(jù)快科技報道，過去一個月內(nèi)，京東宣布首次開源基礎(chǔ)大模型JoyAI-LLM Flash；京東云“龍蝦”系列產(chǎn)品上線，Token調(diào)用量周環(huán)比增長達455%；京東還宣布將建成全球最大的具身數(shù)據(jù)采集中心，持續(xù)推動AI與產(chǎn)業(yè)深度融合。

京東探索研究院在開源公告中表示，JoyAI-Image-Edit的開源標志著AI圖像編輯技術(shù)從“平面處理”邁向“三維空間重塑”，是京東在AI多模態(tài)領(lǐng)域的重要戰(zhàn)略落子。模型推理代碼已全面開放，開發(fā)者可通過官方渠道獲取，應(yīng)用

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.