據(jù)京東黑板報4月7日消息,京東探索研究院正式開源了自研的JoyAI-Image-Edit圖像模型。據(jù)快科技報道,這是業(yè)內(nèi)首個將“空間智能”刻進骨子里的開源模型,其空間理解與編輯能力達到世界一流水平。模型的推理代碼已全部開放,開發(fā)者可直接調(diào)用。
傳統(tǒng)AI修圖的核心痛點在于無法理解三維空間結(jié)構(gòu)。據(jù)京東官方技術(shù)解讀,傳統(tǒng)AI僅在平面像素層面操作,移動物體時易變形、改變視角后透視關(guān)系錯亂、調(diào)整物體前后關(guān)系時遮擋混亂。JoyAI-Image-Edit深度貼合真實世界空間規(guī)律,從空間位置關(guān)系、多視角一致性、相機感知到場景推理等維度全面建模,實現(xiàn)了相機坐標視角變換、物體空間位移旋轉(zhuǎn)、幾何結(jié)構(gòu)精準控制等多項技術(shù)突破。
該模型具備三大核心空間編輯能力,據(jù)IT之家整理,其一是視角變換,用戶通過自然語言指定相機的偏航角、俯仰角及縮放程度,模型在保持場景幾何一致性的前提下生成新視角圖像;其二是空間漫游,支持連續(xù)的視角移動,生成在三維空間中邏輯連貫的多視角圖像序列;其三是物體空間關(guān)系操控,在保持場景整體結(jié)構(gòu)穩(wěn)定的前提下對特定物體進行位移、縮放等空間變換,同時確保遮擋與光影關(guān)系自然合理。據(jù)京東官方披露,該模型打破了AI“理解圖像”和“生成圖像”的壁壘,編輯過程中能穩(wěn)定保持主體形象與場景結(jié)構(gòu)完整,多視角空間布局高度一致。在實現(xiàn)空間突破的同時,據(jù)京東黑板報披露,JoyAI-Image-Edit全面兼容15類通用編輯能力,涵蓋物體的替換、刪除、添加、整體風(fēng)格遷移及細節(jié)精修等操作,在長文本精準渲染、多視角一致性生成等行業(yè)高難度任務(wù)中表現(xiàn)卓越。應(yīng)用場景方面,據(jù)京東官方介紹,模型可廣泛應(yīng)用于電商內(nèi)容生產(chǎn)、創(chuàng)意設(shè)計制作、智能圖像處理、3D模型重建及具身智能視覺感知等領(lǐng)域。在電商場景中,可為商品圖生成多角度展示;在具身智能領(lǐng)域,空間理解能力是機器人“理解世界”的核心基礎(chǔ),該模型可為相關(guān)技術(shù)研發(fā)提供關(guān)鍵的底層能力。據(jù)新京報貝殼財經(jīng)報道,京東高級副總裁何曉冬表示,通用人工智能有兩大方向:一是多模態(tài),大模型必須具有視覺能力;二是走向具身智能,包括機器人、機械臂、無人車等,讓通用人工智能走向物理世界。
近期京東在AI領(lǐng)域動作頻頻。據(jù)快科技報道,過去一個月內(nèi),京東宣布首次開源基礎(chǔ)大模型JoyAI-LLM Flash;京東云“龍蝦”系列產(chǎn)品上線,Token調(diào)用量周環(huán)比增長達455%;京東還宣布將建成全球最大的具身數(shù)據(jù)采集中心,持續(xù)推動AI與產(chǎn)業(yè)深度融合。
京東探索研究院在開源公告中表示,JoyAI-Image-Edit的開源標志著AI圖像編輯技術(shù)從“平面處理”邁向“三維空間重塑”,是京東在AI多模態(tài)領(lǐng)域的重要戰(zhàn)略落子。模型推理代碼已全面開放,開發(fā)者可通過官方渠道獲取,應(yīng)用
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.