亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

重磅開源!240億參數(shù)力壓Nano Banana 2

0
分享至


新智元報道

編輯:KingHZ 犀牛

【新智元導讀】當多數(shù)圖像AI還停留在「會生成、不會懂空間」的階段,京東開源JoyAI-Image-Edit,把圖像編輯從平面修圖推向空間智能,也讓外界第一次看清:京東的AI布局,從來不是追風口,而是死磕自己最有勝算的真實場景。

這一刻,圖像AI升維了!

過去兩年,我們見過太多「神級」圖像模型——畫貓比真貓還毛茸茸,畫賽博朋克街道比電影還炫,畫一只手有六根手指也能讓你覺得是藝術(shù)。




Grok生成的AI圖像(上下滑動)

所有人都以為,圖像AI已經(jīng)快到頭了。

直到你真的上手用它干點正經(jīng)事——想換個角度看看自家客廳?透視關(guān)系瞬間崩塌,沙發(fā)像在漂浮,落地燈穿墻而過。

想把前景的蘋果和后面的書調(diào)一下前后順序?遮擋關(guān)系直接錯亂,比例全面失衡,畫面宛如一場災難現(xiàn)場。

你氣不氣?你崩不崩潰?

它們會畫畫,卻不懂空間。

它們能生成驚艷的像素,卻看不懂像素背后那個立體的、有前后、有深度、有光影邏輯的真實世界。

它們是熟練的「平面裱糊匠」,卻不是懂事的「空間觀察者」。

這道坎兒,橫在圖像AI面前。

誰來邁?

JoyAI-Image-Edit

把「空間智能」刻進骨子里的開源模型

4月初,京東探索研究院正式對外開源自研的JoyAI-Image-Edit圖像模型。

代碼已經(jīng)放在GitHub上,以Apache 2.0協(xié)議釋出,推理代碼全部開放,開發(fā)者可以直接拿去做應用。

目前,系統(tǒng)已完成對ComfyUI的支持,并全面兼容Diffusers格式的模型權(quán)重與推理流程,方便開發(fā)者進行靈活部署與二次開發(fā)。


鏈接:https://github.com/jd-opensource/JoyAI-Image

體驗地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

開源權(quán)重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

這是一件大事。

因為它不是又一個「更好用的AI修圖工具」,而是業(yè)內(nèi)首個把「空間智能」寫進模型架構(gòu)底層的開源一體化圖像模型,讓模型真正「理解空間,編輯空間」。


野心就寫在標題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》,直譯過來就是「在統(tǒng)一的多模態(tài)理解與生成中,喚醒空間智能」。

技術(shù)上,JoyAI-Image把一個80億參數(shù)的多模態(tài)語言模型(MLLM)和一個160億參數(shù)的多模態(tài)擴散Transformer(MMDiT)耦合在一起,形成一個共享接口,讓空間意圖從指令解析一路貫穿到圖像生成。


更關(guān)鍵的是它背后的數(shù)據(jù)和訓練哲學:一條可擴展的數(shù)據(jù)流水線,包含空間理解數(shù)據(jù)(OpenSpatial)、長文本渲染數(shù)據(jù)、編輯數(shù)據(jù)(SpatialEdit),再加上多階段的優(yōu)化策略。

這套架構(gòu)的精髓在哪?

在于「理解」和「生成」第一次形成了真正的閉環(huán)。

過去的圖像模型,理解歸理解、生成歸生成,兩邊各玩各的。

而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環(huán)協(xié)作:更強的空間理解讓生成和編輯更可控,而視角變換這類生成操作又反過來為空間推理提供新的證據(jù)。


JoyAI-Image在圖像理解、合成與編輯方面均展現(xiàn)了全面領(lǐng)先的能力

說人話就是:模型一邊「看」一邊「畫」,一邊「畫」又幫它看得更清楚。

這才是真正意義上的空間智能覺醒。

落到具體能力上,JoyAI-Image支持三種空間編輯提示范式:物體移動(Object Move)、物體旋轉(zhuǎn)(Object Rotation)和相機控制(Camera Control)。


第一,相機控制。你可以用一句大白話告訴它——「把相機往右偏30度,往下俯15度,再拉近一點」——模型會在保持場景幾何一致性的前提下,給你生成一張全新視角的圖像,透視關(guān)系、遮擋關(guān)系、光影關(guān)系全都對得上。




編輯指令:Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.



編輯指令:Move the camera.

Camera rotation: Yaw -45.0°, Pitch 22.5°.

Camera zoom: unchanged.

Keep the 3D scene static; only change the viewpoint.

第二,物體旋轉(zhuǎn)與空間漫游。支持連續(xù)的視角移動,能生成一整串邏輯連貫的多視角圖像序列。

什么意思?就好像你戴著一臺虛擬相機,真的在這個三維場景里「走動」,每一幀都立得住。



編輯指令:Rotate the sneaker to show the front view.



編輯指令:rotate the girl to show the rear left side view.



編輯指令:rotate the elephant to show the front view.

第三,物體空間關(guān)系操控。挪動、旋轉(zhuǎn)、縮放畫面中的任何一個物體,場景整體結(jié)構(gòu)保持穩(wěn)定,遮擋自然合理,光影過渡順滑,不會再出現(xiàn)變形、錯位、比例失衡那些老毛病。




編輯指令:Move the coffee into the red box



編輯指令:move the red car into the red box, remove the red box, remove the red car

這種空間編輯能力帶來很多有趣的新玩法──

給定第一幀(下圖左)后,你利用空間編輯能力生成視頻的最后一幀(下圖右)。



然后,由視頻生成模型在兩者之間創(chuàng)建平滑的旋轉(zhuǎn)過渡,還能保持背景的一致性。


更硬核的是橫評。

和Qwen-Image-Edit、Nano Banana Pro相比,JoyAI-Image-Edit能夠忠實執(zhí)行相機運動,合成最具診斷性的新視角,這些高保真的新視角有效地消除了復雜空間關(guān)系的歧義。


同樣讓模型「換個角度看世界」,別人換出來的畫面或許能看,但JoyAI-Image-Edit換出來的畫面,是真的對,這對于把模型投入真實生產(chǎn)和應用環(huán)境來說至關(guān)重要。

與此同時,它還全面兼容15類通用編輯能力——替換、刪除、添加、風格遷移、細節(jié)精修、長文本渲染,樣樣拿得出手;尤其在空間推理、長文本渲染以及空間可控操作上表現(xiàn)尤為出色。


比如,輸入一行指令就給小貓戴上皇冠。


或者將行人從圖片中移走。


長文本渲染更是拿手。



頂尖的空間編輯×全面的通用編輯,這是真正的「文武雙全」。

為什么是電商和具身?

一個模型的價值,不在跑分,而在用在哪。

JoyAI-Image-Edit最能發(fā)揮威力的兩個戰(zhàn)場,一個是電商,一個是具身智能——恰好都是京東的主場。

做電商的品牌客戶,是對空間編輯最饑渴的用戶。

一件商品拍進來,要換背景、換角度、換搭配、換場景、換光線。

過去這些活兒要么靠攝影師重拍,要么靠設(shè)計師通宵P圖,要么靠AI生成一堆「塑料感」假圖。

有了JoyAI-Image-Edit,一張主圖可以自動衍生出幾十種視角和場景,商品還是那個商品,形象保持一致,細節(jié)不穿幫,成本直接砍到腳踝。


對于服務著數(shù)百萬商家的京東來說,這不是錦上添花,這是水和電。

具身智能的場景,則是空間理解最硬的剛需。

機器人要在真實世界里干活,第一件事就是「看懂」空間——哪是桌子、哪是椅子、杯子離我多遠、我伸手能不能夠到。

空間理解能力,就是機器人「理解世界」的核心底座。

而機器人行業(yè)的卡脖子問題是「數(shù)據(jù)」,如何能生產(chǎn)海量供機器人訓練的數(shù)據(jù),光靠本體采集、遙操是不夠的,這時候JoyAI-Image-Edit能派上很大用場。

在具身智能的實測演示中,用戶只需輸入一句自然語言提示詞(比如「機器人左手舉起來」),并用畫框框選目標區(qū)域,就能對指定物體的動作、姿態(tài)和旋轉(zhuǎn)角度進行精細化操控.

在機器人做家務的實拍場景里,模型完整保留了背景環(huán)境、物體空間關(guān)系與物理合理性,生成了機器人抬手的全新姿態(tài)。

這已經(jīng)不是「修圖」,這是機器人預演動作,也給機器人走進生活提供了大量優(yōu)質(zhì)的數(shù)據(jù)養(yǎng)料。

現(xiàn)在,京東正在將AI能力融入其「超級供應鏈」。

把空間智能的鑰匙交給所有人

這一次,京東選擇了Apache2.0協(xié)議開源,任何開發(fā)者、任何企業(yè)都可以自由地使用、修改、商用這個模型。

這件事的分量比想象中要重。

因為空間智能是通往AGI的「最后一公里」——一個AI如果連物體在空間中的位置關(guān)系都搞不清楚,談何理解世界?

而把這樣一個在空間一致性上達到世界一流水準的模型徹底開源,等于把一把關(guān)鍵鑰匙交到了整個社區(qū)手里。

對電商從業(yè)者,它是成本殺手;對設(shè)計師,它是隨身的三維助手;對機器人團隊,它是視覺感知的現(xiàn)成底座;對學術(shù)研究者,它是可以站在上面繼續(xù)往前走的巨人肩膀。

更重要的是,它讓空間智能這件事,不再是少數(shù)幾家閉源巨頭的專利。

不追風口,只押自己最懂的場景

這兩年大廠卷AI卷得飛起,參數(shù)比大小、榜單比名次、發(fā)布會比排場,每個人都想成為下一個OpenAI。

但京東的節(jié)奏一直挺「穩(wěn)」——不湊熱鬧,不跟風,它的AI布局始終死死咬住一條主線:聚焦自己最懂、最具稟賦的實體場景,把AI扎到產(chǎn)業(yè)最深處。

過去一段時間,京東在AI上的動作密集得驚人:

  • 開源基礎(chǔ)大模型JoyAI-LLM Flash,用基于「纖維叢」理論的FiberPO強化學習方法,在19個權(quán)威基準上躋身一梯隊;

  • 京東云「龍蝦」系列產(chǎn)品上線后,一周token調(diào)用量環(huán)比暴漲455%;

  • 數(shù)字人JoyStreamer性能超越國際SOTA,覆蓋電商直播、文旅講解、新聞主播20多個場景;

  • JoyInside附身智能已經(jīng)深度接入近百個家電家居品牌、40多個機器人與AI玩具品牌,接入后帶動硬件對話輪次平均提升120%;

更猛的是,京東宣布要建全球規(guī)模最大、場景最全的具身智能數(shù)據(jù)采集中心,兩年內(nèi)攢下超過1000萬小時真實場景數(shù)據(jù),動員數(shù)十萬人搞「人類史上最大的數(shù)據(jù)采集行動」。

看懂這份清單,你就看懂了京東的AI邏輯:零售、物流、工業(yè)、健康、具身——每一步都踩在自己的供應鏈和場景資源上。

別人在云端打參數(shù)戰(zhàn),京東在地上打場景戰(zhàn)。

別人在比誰的模型更聰明,京東在比誰的AI更能干活、更能賺錢、更能落地。

而這一次開源的JoyAI-Image-Edit,正是這套打法的最新一塊拼圖。

京東的打法也給整個行業(yè)提了個醒:AI的競爭,終究不是參數(shù)的競爭,而是場景的競爭、落地的競爭、價值的競爭

誰最懂自己的主場,誰就能把AI真正用起來。

零售、物流、工業(yè)、具身——京東把AI扎進了自己最肥沃的那幾畝地,然后讓種子在產(chǎn)業(yè)的土壤里發(fā)芽。

屬于空間智能的時代,才剛剛開始。

注:文中部分輸入圖來源于Arena

歡迎點擊下方閱讀原文,給JoyAI-Image-Edit點顆星,我們一起支持開源。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
Shams:NBA和球員工會裁定,東契奇和坎寧安可以參加獎項評選

Shams:NBA和球員工會裁定,東契奇和坎寧安可以參加獎項評選

懂球帝
2026-04-16 23:44:26
央視都看好的《金關(guān)》,觀眾卻強烈要求下架,為什么罵聲一片

央視都看好的《金關(guān)》,觀眾卻強烈要求下架,為什么罵聲一片

曉徙娛樂
2026-04-15 21:10:03
那晚我住女朋友家,她媽說你倆今晚敢睡一個被窩,我就掀你們被子

那晚我住女朋友家,她媽說你倆今晚敢睡一個被窩,我就掀你們被子

千秋文化
2026-04-16 20:08:23
離譜!24歲中國薩娃忘記報名+從資格賽打起 對手崩潰:虐菜很爽嗎

離譜!24歲中國薩娃忘記報名+從資格賽打起 對手崩潰:虐菜很爽嗎

風過鄉(xiāng)
2026-04-16 13:17:51
救星來了!山東真大腿確認復出戰(zhàn)北京,球迷:快回來救救涼指導吧

救星來了!山東真大腿確認復出戰(zhàn)北京,球迷:快回來救救涼指導吧

弄月公子
2026-04-16 23:38:16
伊100萬大軍到位,還有一大國要參戰(zhàn)!關(guān)鍵時刻,中俄緊急對表

伊100萬大軍到位,還有一大國要參戰(zhàn)!關(guān)鍵時刻,中俄緊急對表

誤落風塵
2026-04-15 21:32:11
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
探路“一人公司”?程序員“Yapie”炒股虧130萬后 搭建出估值3000萬AI社交+音樂平臺

探路“一人公司”?程序員“Yapie”炒股虧130萬后 搭建出估值3000萬AI社交+音樂平臺

中國經(jīng)營報
2026-04-16 13:36:12
全新寶馬 X5 國內(nèi)曝光,“絕美顏值”很帥氣!

全新寶馬 X5 國內(nèi)曝光,“絕美顏值”很帥氣!

新浪財經(jīng)
2026-04-14 18:56:49
發(fā)明NBA附加賽的人,真是個天才!

發(fā)明NBA附加賽的人,真是個天才!

湖報體育
2026-04-16 19:32:36
專家:建議拆除毛主席紀念堂雕像,士兵:你拆一下試試

專家:建議拆除毛主席紀念堂雕像,士兵:你拆一下試試

古今閑談
2026-04-14 22:49:01
全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

譚老師地理大課堂
2026-04-12 20:21:47
陪玩陪睡還不夠?繼注射不明物體后,內(nèi)娛又傳大瓜,王陽太可憐

陪玩陪睡還不夠?繼注射不明物體后,內(nèi)娛又傳大瓜,王陽太可憐

小冠說娛
2026-04-17 00:19:00
這個社會是怎么讓所有人都活得這么難的?

這個社會是怎么讓所有人都活得這么難的?

黯泉
2026-04-16 22:05:50
湖南省原長沙市建設(shè)發(fā)展集團有限公司黨委書記、董事長鄧子維接受審查調(diào)查

湖南省原長沙市建設(shè)發(fā)展集團有限公司黨委書記、董事長鄧子維接受審查調(diào)查

環(huán)球網(wǎng)資訊
2026-04-16 16:16:53
歐冠4強誕生,金球獎6選1!頭號熱門42場50球,姆巴佩押寶世界杯

歐冠4強誕生,金球獎6選1!頭號熱門42場50球,姆巴佩押寶世界杯

球場沒跑道
2026-04-16 09:07:50
張倫碩節(jié)目直言要親生孩子,無視鐘麗緹高齡,張泉靈當場翻白眼

張倫碩節(jié)目直言要親生孩子,無視鐘麗緹高齡,張泉靈當場翻白眼

明星爆料客
2026-04-14 20:55:07
重磅加盟!NBA首輪秀登陸CBA,或改變爭冠格局

重磅加盟!NBA首輪秀登陸CBA,或改變爭冠格局

寒律
2026-04-17 02:51:41
輸不起?皇馬眾將賽后情緒失控圍堵裁判 9000萬紅星追著怒噴染紅

輸不起?皇馬眾將賽后情緒失控圍堵裁判 9000萬紅星追著怒噴染紅

我愛英超
2026-04-16 06:06:26
虎狼饑渴?為何一些女性會“欲望”特別強烈?可能存在這幾點原因

虎狼饑渴?為何一些女性會“欲望”特別強烈?可能存在這幾點原因

醫(yī)者榮耀
2026-03-13 12:10:12
2026-04-17 03:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14988文章數(shù) 66773關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

旅游
手機
親子
教育
藝術(shù)

旅游要聞

社評:讀懂“China Travel”持續(xù)圈粉的邏輯

手機要聞

OPPO Find X10:8000mAh超大電池+雙2億影像,中屏機皇實錘!

親子要聞

兒子認字還可以吧? 董路的微博視頻

教育要聞

網(wǎng)傳建鄴區(qū)即將迎來大動作?多校學區(qū)要變?

藝術(shù)要聞

你絕對想不到!這幅油畫背后的美麗故事!

無障礙瀏覽 進入關(guān)懷版