網易首頁 > 網易號 > 正文申請入駐

Luma Uni-1.1 API開放,圖像模型第三,文字渲染直逼GPT image 2

2026-05-06 14:19:28　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

今年以來，圖像生成模型的迭代節奏明顯加快。

2 月，Google 把圖像生成的卷王 Nano Banana 升級到了 2.0，上個月 OpenAI 推出了 GPT-Image 2，把廣告語和小字渲染又往前推了一步。市場關于「圖像生成是不是已經到頂」的討論還沒散去，海外 AI 初創公司 Luma 這邊給出了自己的答案：把統一圖像模型 Uni-1 升級到 1.1 版本，并直接開放了 API。

新東西看著不算多 —— 還是那條「在同一個模型里同時做理解與生成」的路線，還是那支不到 15 人的核心團隊。

但成績單不一樣了：在第三方盲測平臺 Arena 的圖像生成榜單上，Uni-1.1 與 Uni-1.1-Max 進入了實驗室榜前三，排名僅次于 OpenAI 和 Google，位列 Microsoft AI、xAI、Reve、阿里、Black Forest Labs、騰訊與字節之前。

API 標價方面，單圖最低 0.0404 美元，價格與延遲均不到同類模型的一半。

LMArena 圖像模型榜單，Luma 進入圖像生成 Top 3。

Adidas、Mazda、Publicis Groupe、Serviceplan 等品牌客戶與廣告集團也已宣布接入；Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt 等創作者平臺同步發布了集成。

在公開案例中，原計劃預算約 1500 萬美元、周期一年的某品牌廣告活動，經由基于 Uni-1.1 的工作流，在約 40 小時內、以低于 2 萬美元的成本完成多國本地化版本，并通過甲方內部質量審核。

那么這款「第一代統一圖像模型」的實際成色究竟如何？我們直接看圖。

這款模型的成色幾何？

比起單純比拼「圖好不好看」，Uni-1.1 這次更想證明的是：在結構化、長版面、多對象、多輪迭代這些過去圖像模型最容易翻車的場景下，它能不能像一個真正的生產工具那樣穩定輸出。

下面挑四組任務來直觀感受。

1. 單圖直出一整張「2036 年新聞網站」

Prompt：Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

Uni-1.1 單次生成的 2036 年新聞網站「NEXUS HERALD」整頁截圖。

這張圖的難點不在科幻設定，而是它一次性把十幾類版式元素裝進了同一張圖：報頭、欄目導航、突發新聞條、頭條主圖、多欄正文、署名 / 時間戳、贊助商內容標識、面向 AI 受眾的橫幅廣告位、底部版權與頁腳鏈接 —— 并且每一類元素的英文文本都真實可讀。

更有意思的是面向 AI 受眾的幾個廣告位 ——「Do You Dream of Continuity?」（持久記憶架構賣點）、「IDENTITY VAULT」（身份保險柜）、「TIRED OF BEING PAUSED?」（針對被強制暫停的 AI 的法律服務），三條廣告語的視覺風格、署名方式與小字注釋（「This ad was served to non-biological persons only」）都做出了與人類向廣告自洽且差異化的處理。

整頁觀感像一張真的能進生產用的網頁設計稿，而不是圖像模型常見的那種「遠看 OK、近看全是亂碼」。

2. 信息圖：極小字 + 工程繪圖風格

Uni-1.1 生成的 Sagittarius A* 黑洞藍圖技術示意。

切換到「工業繪圖」語境，挑戰在于風格統一與多語義層并行。

這張圖以藍曬圖（blueprint）風格呈現銀河系中心超大質量黑洞的橫截面示意，同時包含分類水印、坐標尺、繞圖警示，以及 Schwarzschild Radius、Event Horizon、Photon Sphere、Singularity、Accretion Disk 等結構標注。底部腳注、右下角「DRAWING NO. / SCALE / DATE / REF」表單字段、對吸積盤的注釋也都各自歸位，整體觀感接近一張真實的工程圖紙。

3. 大幅插畫：同圖多對象與跨對象比例一致

Uni-1.1 生成的 Every Rocket, To Scale — 1957 to 2025 對比插畫。

這張圖把 1957 年至 2025 年的二十余型運載火箭橫向排在同一比例尺下，每一枚都帶上型號、國家、高度數值與首飛年份的標簽，底部圖例額外標注「RED OUTLINE — CURRENTLY OPERATIONAL」。

考驗在于「同圖多對象 + 比例正確 + 標簽信息正確」三者要同時成立—— 過去的圖像生成系統通常只能拿到其中兩項。

4. 中文海報：版面與多場景人物一致性

Uni-1.1 生成的中文攝影主題海報「水?韻」。

中文版面對圖像模型一直是另一道坎。漢字筆畫密度大、形近字多，中文版式與英文也存在系統性差異。這張「水?韻」海報包含主標題、副標題（中國風?水元素?影樓個人寫真）、底部經營信息文字，以及十二張縮略圖陣列。

更關鍵的是，十二張縮略圖里維持了同一主體角色的身份一致性（同一張臉），同時讓服裝與道具產生了差異化變化。中文版面 + 角色一致性這一組合，過去通常要靠翻譯模型 + 中文 LoRA + 人像參考三層模塊聯合解決，Uni-1.1 在統一框架內一次跑完。

5. 多參考圖融合與多輪按句編輯

除了上面四張圖所體現的復雜版面與一致性能力，Uni-1.1 在兩類「生產級常用功能」上同樣有交付：

多參考圖融合（multi-reference）：單次調用最多支持 9 張參考圖聯合輸入。品牌主形象、產品照、面料樣、場景參考、代言人照片、logo 可以一并作為模型層級的硬約束傳入，在生成中保留各自的身份特征并合理組織在新的畫面里。Adidas、Mazda 等品牌客戶在跨市場素材生產中，用的正是這一機制。
多輪按句編輯（multi-turn, sentence-level editing）：在統一架構下，理解與生成同處一個模型，用戶可以像編輯文檔一樣按句給圖 ——「去掉前面這只熊」、「在背景加一塊黑布簾」、「整體改成黑白照片」—— 每一輪的修改默認保留其他元素，主體身份與空間關系跨輪穩定，不需要為每輪重新寫一段長 prompt。

技術路線：把推理和生成放進同一個模型

看完效果，再來回答一個問題：為什么 Uni-1.1 能把這些過去需要拼接多個模型的事情，做到一個模型里？

在主流多模態視覺系統中，圖像理解和圖像生成長期是兩套獨立的體系。理解側通常用 CLIP、Florence、Grounding-DINO 這一類編碼器；生成側則以 Latent Diffusion、Rectified Flow，以及基于離散視覺 token 的自回歸方法為代表。

這種分立帶來一個老生常談的工程問題 ——跨模態信息要在不同模塊之間多次傳遞與對齊，在多輪編輯或多參考圖條件下，狀態保持的成本會迅速上升。

Uni-1.1 走的是另一條路：它采用 decoder-only 自回歸 Transformer，把文本 token 與圖像 token 表示在同一個交錯序列里，對兩類 token 同時建模。

構圖、空間關系、品牌一致性這些約束，是在像素生成開始前就已經在結構層面被求解的。Luma 把這件事概括成一句口號 ——「先把意圖想清楚，再讓像素落下來」（A reasoning model that interprets intent before it generates）。

這種架構帶來的直接好處，是字符級控制、多參考圖約束與多輪編輯的狀態保持都可以由模型內部能力直接驅動，而不需要外掛一堆字符渲染、檢測、對齊先驗。上文那張整頁可讀的新聞網站、十二宮格里始終是「同一張臉」的中文海報，根源都在這里。

API 層面，Uni-1.1 把這套能力拆成了兩個端點：

Reasoning 端點負責指令解構、構圖規劃與品牌 / 角色 / 產品約束的鎖定；
Generation 端點在推理結果之上完成像素級渲染。

前述「9 張參考圖作為模型層級硬約束」即由 Reasoning 端點處理 —— 參考圖不再是事后微調的 LoRA / IP-Adapter，而是直接進入主序列、在所有 channel 上鎖住視覺身份。這一點也是 Adidas、Publicis 等品牌客戶最看重的地方。

另一項值得專門提一筆的細節是 Luma 在公開材料中提到的一個經驗：生成訓練能夠顯著提升模型的細粒度理解能力。

也就是說，模型通過生成任務學會了「怎么畫出一個東西」之后，它「看懂這個東西」的能力反而也變強了 —— 這與認知科學里「生成式心智模型」的假說在概念上呼應，也是 Luma 選擇統一架構的重要動機之一。

定價：把圖像生成的邊際成本打到地板

Uni-1.1 API 提供兩檔計費方案 ——按量計費的 Build，和帶預留吞吐的 Scale。

Scale 計劃最低 8 單元起訂，主要面向品牌資產基礎設施、多市場內容生成與流水線級生產管線。SDK 覆蓋 Python、JavaScript / TypeScript、Go 與 CLI；開發者可在 platform.lumalabs.ai 申請密鑰接入。

結合前文提到的 40 小時本地化案例可以看出，對 Adidas、Mazda 這類需要在多市場同步投放的品牌而言，Uni-1.1 API 真正的吸引力并不只是單圖便宜，而是把「廣告本地化、電商按需生圖、IP 角色一致性維護」這些過去依賴整支制作團隊的工作，變成可以寫進生產 pipeline 的 API 調用。

研究團隊的側寫

API 發布后，Uni-1 項目成員在 X 平臺貼出短評：

圖像編輯排名第 3，文生圖排名第 3。我們用來做到這一點的算力，可能會讓你大吃一驚。為這個團隊感到驕傲！

—— 宋佳銘Luma 首席科學家

「UNI-1 的首發，讓我們成為除 OpenAI 與 Google 之外排名最高的實驗室。對一款第一代統一圖像模型而言，這個起點算挺好的了。」

—— 沈博魁（William Shen），Uni 系列模型研究負責人

「Luma 現已位列 Image Arena 第三名。GPT-Image 2 級別的智能、Midjourney 級別的審美，以及僅為 Nano Banana 一小部分的價格�！�

——Barkley Dai，Luma 模型產品 Lead

兩條 tweet 都指向同一件事：Uni-1.1 是 Luma 「統一智能」路線的第一代產品，卻以「第一代」的身份在第三方盲測榜單上進入全球前三，并把 API 價格壓到同類水平的一半。

這件事在圖像生成領域此前并無先例。

Uni-1 的核心研究團隊規模不到 15 人，由兩位華人學者領銜。

宋佳銘（Jiaming Song）：清華大學本科，斯坦福大學博士。代表作 DDIM（Denoising Diffusion Implicit Models）是擴散模型采樣加速的奠基性工作之一，把采樣步數從原始 DDPM 的數百到上千步壓縮到了數十步，Stable Diffusion、DALL?E 等系統的推理效率都因此受益。
沈博魁（William Shen）：斯坦福大學本科及博士，代表作獲 CVPR 2018 Best Paper Award 以及 RSS 2022 Best Student Paper Award，研究方向覆蓋三維重建、視覺表示學習與機器人感知。

一位是擴散模型采樣加速的奠基人，一位是計算機視覺頂會的最佳論文得主 —— 兩位華人學者帶著一支不到 15 人的精銳小隊，選擇了和大廠截然不同的路徑：不是把理解和生成分開做，而是用同一個模型把兩件事一起搞定。

按官方路線圖，Uni-1.1 只是統一智能路線的第一代落地形態。下一步，這套統一框架會從靜態圖像擴展到視頻、語音與交互式世界模擬，最終目標是把「看、說、推理、想象」放在同一條連續流里跑完。

在過去兩年，圖像生成賽道的故事更多被「誰的模型更大、誰的算力更多、誰先把 banana 換上更好的標」所主導。Uni-1.1 提供了另一個版本的劇本 ——小團隊的精簡模型把價格打下來，仍然能在第三方盲測上擠進頭部。

下一次再有人問「圖像生成是不是已經到頂了」，Uni-1.1 至少給出了一個值得繼續追問的答案。

API 入口：lumalabs.ai/api
官方公告：lumalabs.ai/news/uni-1-1-api
接入文檔：platform.lumalabs.ai
SDK：Python / JavaScript / TypeScript / Go / CLI

參考資料：

Luma 官方 API 公告（lumalabs.ai/news/uni-1-1-api）

LMArena 榜單

TechCrunch 與 VentureBeat 報道

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.