无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

告別云端依賴!字節開源新作DreamLite讓手機秒變 AI 畫板

0
分享至



近日,字節跳動智能創作部門(Intelligent Creation Lab)提出新作 DreamLite,一個主干網絡僅有 0.39B 參數的輕量級統一擴散模型,在單一網絡內同時支持文生圖(Text-to-Image) 和圖像編輯(Text-guided Image Editing)兩個任務,是目前已知首個實現這一能力的端側模型。



DreamLite 在 iPhone 17 Pro 上實現了約 3 秒生成或編輯一張 1024×1024 圖像,完全在設備端運行,無需云端。在 GenEval、DPG、ImgEdit 等主流基準上,DreamLite 全面超越現有端側模型,并與參數量大 10-30 倍的服務端模型表現相當。

目前,DreamLite 論文與推理代碼已開源。



  • 論文鏈接:https://arxiv.org/abs/2603.28713
  • 項目主頁:https://carlofkl.github.io/dreamlite/
  • GitHub 鏈接:https://github.com/ByteVisionLab/DreamLite
  • 在線 Demo:https://huggingface.co/spaces/carlofkl/DreamLite

當擴散模型想 "搬進手機":兩大痛點亟待解決

在使用 FLUX、HunyuanImage、Qwen-Image 這類大模型創作或修圖時,用戶正在習慣 "提詞即生圖、一句話改圖" 的體驗。但當這些能力想真正走進手機、走向離線場景時,卻遇到兩個現實的攔路虎:

痛點一:生成與編輯,要裝兩個模型

現有方案中,文生圖和圖像編輯往往依賴兩個獨立的 pipeline: 一個負責 "從零生成",一個負責 "看圖改圖"。對本就內存緊張、存儲有限的移動設備而言,同時裝下兩套數十億參數的模型,幾乎不可承受。

痛點二:質量和速度,難以兼得

把大模型壓縮到端側可用的體量后,生成質量往往斷崖式下跌;而如果追求畫質和指令跟隨能力,推理延遲又會退回到 "按下按鈕等待十幾秒",徹底喪失實時交互的意義。

更關鍵的是,真實產品場景里,用戶需要的是同一套應用里無縫切換 "生成一張圖片" 和 "修改這張圖片"。兩個模型意味著兩份顯存占用、兩份下載流量、兩份維護成本,這在端側尤其奢侈。

DreamLite:一個模型,兩種能力



DreamLite 的核心思想非常直接:將把 "生成" 和 "編輯" 統一壓進一個輕量級網絡里,而不是分別訓練兩個模型。圍繞這個思路,團隊做了三項關鍵設計。

1. In-Context 空間拼接:用 "占位符" 統一兩類任務

DreamLite 在剪枝后的 SDXL U-Net 主干上,引入了一種空間維度的 in-context 條件注入機制。具體而言,模型的輸入始終是一對左右拼接的潛變量。對于文生圖,輸入的右側參考圖為全黑占位圖,相當于 "沒有視覺條件";對于編輯,輸入的參考圖為待編輯的原圖。

在此之上,團隊還在文本 prompt 前插入顯式任務 token([Generate] 或 [Edit]),作為一種零參數的任務路由信號。這樣一來,同一個 U-Net 就能根據輸入自動分辨當下是 "文生圖" 還是 "編輯",無需新增任何分支、適配器或額外模塊,天然適配緊湊主干。

2. Task-Progressive Joint Pretraining(漸進式聯合預訓練)

直接聯合訓練生成和編輯任務會導致小模型的訓練不穩定。團隊提出了分階段的漸進式策略:

  • 階段一|T2I 預訓練:用大規模圖文數據,以及經典的文生圖范式,訓練模型的生成能力;
  • 階段二|編輯預訓練:激活 in-context 條件,讓模型在保留原圖結構的前提下,學會 "指令編輯";
  • 階段三|統一聯合預訓練:在同一 in-context 范式下繼續聯合優化生成與編輯。

這種分階段的策略,讓一個 0.39B 的小模型也能穩定習得 "生成 + 編輯" 雙重能力。

3. RLHF 對齊 + DMD2 步數蒸餾

預訓練之后,DreamLite 還經歷兩輪 "打磨":

  • 高質量 SFT + RLHF 對齊:在精選高質量數據上監督微調,再通過強化學習做偏好對齊。生成任務以 HPSv3 作為 reward model,編輯任務以 EditReward 作為 reward model,并采用 ReFL 完成擴散模型的偏好優化。這一步顯著提升了美學質量和指令跟隨能力。
  • DMD2 步數蒸餾:通過 Distribution Matching Distillation 2,將采樣步數從數十步壓縮到僅 4 步。

兩者疊加,DreamLite 真正具備了 "端側實時" 的現實可行性。最后通過量化和部署,實現在手機端生成 / 編輯(如下圖)。



實驗結果:躋身輕量化模型第一梯隊

1. 指標:同級壓制,越級對標



在文生圖側,DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8;在圖像編輯側,在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一眾基線的對比中,DreamLite 作為端側模型,不僅領先于 SnapGen、SANA 等輕量級的單任務模型,與參數量高出其 10–30 倍的服務端統一模型(如 FLUX、OmniGen2)相比,也展現出了極具競爭力的表現。

2. 手機實機演示:全程離線、無需聯網

在 iPhone 17 Pro 的實機演示中,DreamLite 可穩定支持以下典型工作流:

  • 人像生成 + 風格遷移:先生成人像寫真,再一鍵轉換為油畫風格;



視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

  • 風景生成 + 背景替換:先生成自然風景,再完成冬夏的季節切換;



視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

  • 商品場景 + 增刪替換:生成日常桌面場景,靈活替換物體。



視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

完整流程全程端側運行、無需聯網、用戶數據不出設備,對隱私敏感場景尤其友好。

意義與展望

DreamLite 給端側生成式 AI 的落地,提供了一條相當工程化、也相當有說服力的路徑:

  • 一個模型替代兩個:統一生成與編輯,直接砍掉端側 "雙模型部署" 的內存、存儲與調度開銷;
  • 4 步出圖、秒級可用:DMD2 步數蒸餾讓實時交互成為可能,真正貼合 App 級別的產品體驗;
  • 完全端側、零數據外傳:所有計算在設備本地完成,既降低云端推理成本,又從根本上規避了用戶數據上傳帶來的隱私風險;
  • 硬件門檻大幅降低:0.39B 主干意味著在更廣泛的中低端設備上,也有機會享受到擴散模型級別的創作能力。

DreamLite 的意義,不只是 "在手機上又能跑一個擴散模型"。它更像是在回答一個更根本的問題:當擴散模型進入生產級的移動端時代,"生成" 和 "編輯" 能否作為同一個能力、由同一個小模型來承擔?

隨著端側算力的持續提升、模型組件的持續輕量化,像 DreamLite 這樣的輕量統一模型,很可能成為 AI 創作工具走向大規模、人人可用的關鍵一步 —— 把生成式 AI 從 "云端算力密集型服務",變成 "口袋里隨時可用的畫板"。

作者介紹

Kailai Feng 為字節跳動實習生,Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均為字節跳動研究員

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女生索要13天工資被老板辱罵“傻不拉幾”,街道辦回應:已告知單位離職5日內結清

女生索要13天工資被老板辱罵“傻不拉幾”,街道辦回應:已告知單位離職5日內結清

瀟湘晨報
2026-05-12 19:43:44
尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

快科技
2026-05-12 15:00:24
林浩:汶川地震9歲小英雄,被姚明抱上奧運,發誓考清華,現狀如何

林浩:汶川地震9歲小英雄,被姚明抱上奧運,發誓考清華,現狀如何

阿傖說事
2026-05-12 12:24:10
創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

界面新聞
2026-05-12 11:58:06
女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

李晚書
2026-05-12 18:54:35
復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

芹姐說生活
2026-05-12 15:38:02
打破常規 國內航線燃油附加費5月16日起再上調

打破常規 國內航線燃油附加費5月16日起再上調

財聯社
2026-05-12 16:55:15
廣州文記壹心雞創始人逝世

廣州文記壹心雞創始人逝世

南方都市報
2026-05-12 21:22:40
記者:39歲蘇亞雷斯落選烏拉圭世界杯初選名單

記者:39歲蘇亞雷斯落選烏拉圭世界杯初選名單

懂球帝
2026-05-12 20:57:09
懵了!東契奇突然退出球隊!

懵了!東契奇突然退出球隊!

柚子說球
2026-05-12 20:50:09
才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

雷科技
2026-05-11 18:05:22
歐美為什么希望我們也不要加班?

歐美為什么希望我們也不要加班?

羅sir財話
2026-05-11 17:35:24
A股:今天4214.49點,尾盤很明顯,明天,5月13日,很可能這樣走

A股:今天4214.49點,尾盤很明顯,明天,5月13日,很可能這樣走

虎哥閑聊
2026-05-12 15:02:03
突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

每日經濟新聞
2026-05-12 17:45:51
23歲男子自帶挖掘機為社區修路墜崖身亡 家屬與社區就“工亡”認定未達一致 律師解讀分歧

23歲男子自帶挖掘機為社區修路墜崖身亡 家屬與社區就“工亡”認定未達一致 律師解讀分歧

封面新聞
2026-05-12 20:32:02
世乒賽結束第2天,林詩棟處罰懸念揭曉 國際乒聯發文,日球迷破防

世乒賽結束第2天,林詩棟處罰懸念揭曉 國際乒聯發文,日球迷破防

大秦壁虎白話體育
2026-05-12 09:27:57
曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

羅說NBA
2026-05-12 21:43:19
美媒披露:阿聯酋秘密對伊朗發動軍事打擊

美媒披露:阿聯酋秘密對伊朗發動軍事打擊

參考消息
2026-05-12 20:36:12
黃仁勛真是被白宮徹底封殺了

黃仁勛真是被白宮徹底封殺了

大貓財經Pro
2026-05-12 14:04:28
震驚!理查德·費曼IQ只有125,卻被物理學家譽為20世紀最偉大頭腦

震驚!理查德·費曼IQ只有125,卻被物理學家譽為20世紀最偉大頭腦

知識圈
2026-05-12 20:33:37
2026-05-12 22:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12979文章數 142648關注度
往期回顧 全部

科技要聞

宇樹發布載人變形機甲,定價390萬元起

頭條要聞

新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

頭條要聞

新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

體育要聞

總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

娛樂要聞

白鹿風波升級!掉粉20萬評論區淪陷

財經要聞

黃仁勛真是被白宮徹底封殺了

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

教育
本地
親子
旅游
公開課

教育要聞

想進深圳體制內的中小學校?看完這3092人名單,我勸你先考研

本地新聞

用蘇繡的方式,打開江西婺源

親子要聞

amh值0.95怎么調理?吃什么可以讓卵泡長得好又大又圓?

旅游要聞

藏在南京新街口的老巷子,你知道哪幾條

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版