允中 發自 凹非寺
量子位 | 公眾號 QbitAI
這兩天,大家伙朋友圈是不是被GPT-Image-2刷屏了?
文字渲染精準、高密度的信息圖,復雜布局和美學UI一次到位,真實感爆棚。
連社交媒體截圖、高考試卷都能近乎一比一還原,這完全顛覆了曾經以往的文生圖模型,徹底解決了文字、信息圖這些長期以來的痛點問題。
大家看完的第一反應,幾乎都是:設計師真要失業了……
而就在剛剛,兔展智能甩出一張王炸:UniWorld-V2.5,居然直接“重現”了GPT-Image-2的某些驚艷Cases。
不廢話,咱直接上療效。
同樣一套提示詞,我們看看生成結果對比:
提示詞:生成一個篆書碑刻拓片,內容是“由兔展智能首席科學家袁粒領導團隊研發”
![]()
△GPT-Image-2生成
![]()
△Nano-Banana-2生成
![]()
△UniWorld-V2.5生成
可以說,在InfoGraph、文字密集、圖文交錯等此前被公認為“AI生圖天花板”的場景上,UniWorld-V2.5的完成度已經對齊GPT-Image-2,并顯著超越其他國內外主流文生圖模型。
更重要的是,UniWorld-V2.5需要輸入的prompt非常簡短,不需要像之前一樣提供極其復雜和詳細的prompt。
你只需要一句話,即可生成多樣、復雜的視覺信息圖,背后是一整套完整的視覺生成系統在做支撐。
接下來,我們一起見證更多場景奇跡。
高考數學卷:最難的中文測試,它過了
以前,AI生圖最令人崩潰的場景是這樣的:
結構化排版+高密度中文+復雜多樣數學公式+曲線圖+立體圖,同時出現在一張圖里。
幾乎所有文生圖模型,在這個場景下表現都很不穩定,甚至根本無從下手。
UniWorld-V2.5則表示:這只是基本功。
直接上地獄級測試,提示詞:
生成一張2025年高考數學理科試卷。
![]()
△2025年高考數學理科試卷(由UniWorld-V2.5生成)
一張圖里同時包含:選擇題、填空題、解答題、函數圖像、幾何證明……
密密麻麻一整頁,格式規范,字跡清晰,連答題線和頁碼都一個不落。
這已經不是“像不像”的問題,而是“能不能直接拿去給學生考試”的問題。
與此類似的,對中文排布要求很高的場景“簡歷生成”,效果也同樣可圈可點:
![]()
△馬斯克個人中文簡歷(由UniWorld-V2.5生成)
這種?字密集?成能?,此前的主流模型?乎?法做到。
在中文密集文字和復雜排版領域,這是前所未有的降維打擊。
GUI布局:超真實的APP界面生成,也過了
想要AI生成一個真實感的社交媒體APP界面?
傳統模型生成的界面要么布局錯亂,要么文字胡言亂語。
給UniWorld-V2.5布置作業,讓它一句話生成一套完整、可亂真的社交媒體界面及布局。
1、抖音直播帶貨
主播、商品彈窗、價格、實時彈幕、打賞特效,細節真實到“細思極恐”。
![]()
△馬斯克直播賣茅臺(由UniWorld-V2.5生成)
![]()
△直播帶貨界面生成效果(由UniWorld-V2.5生成)
2、小紅書探店
咖啡館照片、店名、推薦指數、評論、點贊、導航欄,一個不落,調性精準。
![]()
△小紅書上海咖啡館探店界面(由UniWorld-V2.5生成)
3、微博熱搜
熱點頭條、熱度值、標簽、按鍵等,全都可以直接生成,直接以假亂真。
![]()
△微博熱搜界面(由UniWorld-V2.5生成)
4、YouTube視頻頁
博主信息、播放量、推薦列表、評論區,UI細節精準到讓人分不清真假。
![]()
△YouTube視頻頁面(由UniWorld-V2.5生成)
這哪里是“生圖”啊?這簡直是“賽博截圖”。
這么看來,UniWorld-V2.5理解的不是像素,而是產品邏輯和用戶場景本身
InfoGraph信息圖:AI生圖的終極考場,很驚喜
高密集、復雜的信息圖是公認的AI生圖“無人區”。
它要求模型同時理解數據、圖表、文字排版和邏輯關系,信息密度越高,難度越大。
讓UniWorld-V2.5嘗試露一手,它交出的作業是這樣的:
人體前側解剖系統全圖:
![]()
太陽系全貌信息圖:
![]()
綠葉解剖信息圖:
![]()
肌肉、骨骼、內臟等細節可視化呈現,中英文混排清晰,數據圖表嚴謹。
它不是在“畫”一張看起來像的圖,而是在理解并構建一個完整的信息體系
這種能力才是模型真正的技術護城河,標志著它從一個“生圖工具”向“會思考、懂設計的視覺生成系統”的跨越。
海報與設計:考察商業級完成度
讓它試著畫一張Air Jordan 1產品宣傳海報。
鞋的質感、中文文案、版式層次、品牌調性……看這商業級完成度:
![]()
△Air Jordan 1產品宣傳海報(由UniWorld-V2.5生成)
來一張蘋果手機的宣傳海報。
字體、排版、風格,專業攝影風格圖片,美學和質感可以說是拉滿了:
![]()
△蘋果手機宣傳海報(由UniWorld-V2.5生成)
國產視覺AI的突圍:在OpenAI與Google的身影前“搶跑”
UniWorld-V2.5的橫空出世絕非偶然,它背后站著一位視覺AI深水區的“領跑者”:
兔展智能
深圳兔展智能科技有限公司,由董少靈北京大學宿舍于2014年發明最早的H5工具而創立。
后來到了2022年,其與北京大學年輕一代視覺AI領軍人才袁粒等二次創業。
公司總部位于深圳,已服務超4100萬家企業?戶。
截至目前,兔展智能已獲深創投、騰訊、龍崗?控、嘉道資本、中國風投、青島人工智能基金、招商局創投等頭部機構投資,完成F輪融資。
它還是國家?新技術企業、國家級專精特新“?巨?”企業、?灣區最具潛?獨角獸、?東省?個“AI國家級?技能?才培訓基地”。
兔展智能的UniWorld系列模型,為什么能做到“理解即生成”
因為它的技術底座早已遙遙領先:
- 自研“兔靈”大模型:廣東省首個完成備案的視覺空間智能大模型,在視覺理解、壓縮重建等核心領域實現多項SOTA(業界最佳) 技術突破;
- 開源第一:其開源的Open-Sora Plan是全球最早的開源視頻生成模型之一,曾連續多日登頂GitHub全球趨勢榜榜首,單模型超過2600萬次下載,2024年視覺大模型代碼引用量全球第一,被字節、騰訊、華為等大廠廣泛采用;
- 架構創新:UniWorld系列是國內最早實現“理解、生成、編輯”統一架構的視覺空間智能模型。其中,UniWorld-V1早于Nano Banana三個月推出,UniWorld-V2在權威評測(GEdit-Bench)中綜合性能超越OpenAI的GPT-Image-1,多項關鍵指標亦一度優于谷歌的Nano Banana系列模型,并入選2025年西麗湖論壇深圳市七大科技關鍵成果、廣東省人工智能與機器人科技進步一等獎第一名;
- 國際領跑:其推出的Video LLaVA模型成為Google Gemini Pro技術報告中作為對比基準的視覺理解模型,標志著技術獲得國際頂級認可。LLaVA-CoT模型則在行業內首次提出視覺慢思考架構,讓模型能夠進行自主、系統化地多階段推理,突破了傳統視覺模型單步響應的局限,該研究成果被ICCV 2025會議收錄(計算機視覺領域的三大頂會之一),獲得同行評審的權威認可;
- 國產生態:與華為昇騰深度合作,是昇騰910C芯片全球首個大規模用戶,打造了行業最早100%基于昇騰架構的視覺生成模型Open-Sora Plan V1.5,突破了算子適配、大規模訓練等一系列“卡脖子”問題。這不僅是一次技術勝利,更是為中國AI基礎設施的自主可控,提供了一個完整的可行范本。
值得?提的,是UniWorld系列發布的歷史時間線:
- UniWorld V1?Nano Banana早發布整整3個?,且同步開源;
- UniWorld V2在Nano Banana Pro發布之前,已是?業第?;
- UniWorld V2.5,是這條路上的最新?站,突破了高密集文字、信息圖、圖文交錯、結構化生成等一系列領域難題。
面向高度結構化且依賴復雜世界知識推理的生成任務,傳統的一句話出圖范式已難以支撐。
區別于傳統prompt-to-image的范式,團隊將超過80%的token預算用于意圖理解、推理與布局規劃,相當于引入資深的“總設計師”來全程指揮和全局控制。
這從源頭上保證了生成的質量,也體現了理解與生成統一的多模態范式優勢。
其中,兔展智能首席科學家、北京大學袁粒老師,及其博士生晏志遠等人,深度參與了核心能力的設計與實現,是V2.5關鍵突破的重要貢獻者。
兔展智能一直圍繞著讓人類敘事更生動高效的使命,投入到最前沿的視覺智能創新。
據悉,兔展智能也將在不久之后,推出視覺空間智能路線為基礎的世界模型
站在世界舞臺的國產模型,等你免費體驗
AI生圖的上限,遠比我們想象的要高。
UniWorld-V2.5的發布,用實力證明了在中文語境和超復雜邏輯場景下,國產模型已經具備了站在世界舞臺中央的底氣。
設計行業的“一句話出圖”,過去是由GPT-Image-2引發的焦慮。
現在,這個能力在國內堅實落地了,而且是以自主可控、可微調、國產算力的形式落地的。
品牌方、內容平臺、電商商家、醫療科普機構、教育出版機構,任何需要大規模生產視覺內容的場景,過去需要設計團隊花數小時完成的工作,現在僅需要一句自然語言。
更重要的是這件事的示范意義:
在多模態圖像生成這條賽道上,中國不再只能是跟跑。
一個從北京大學走出來、深耕視覺大模型4年的團隊,今天交出了這份答卷。
那么,最硬核的來了:
這么強的“怪獸”模型,現在開放免費體驗了!
獨家體驗傳送門,手慢無
UniWorld-V2.5體驗入口:https://uniworld.rabbitpre.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.