天下苦 AI 生圖抽卡久矣。
如果你曾試圖用市面上任何一款主流 AI 繪畫工具,去做一張帶有特定中文口號的海報,你一定對那種亂碼的無力感體會頗深,以至于很長一段時間里,我們都在和復雜提示詞較勁。
![]()
但伴隨著 ChatGPT Images 2.0 的發布,正如奧特曼在發布會上的那句暴論:「這就像從 GPT-3 一步跳到了 GPT-5。」,那個需要你絞盡腦汁去湊提示詞的 AI 盲盒時代,有望畫上句號。
順帶一提,我們昨晚已經用大量實測的案例替奧特曼提前發布了 Images 2.0,感興趣的朋友不妨點擊回看。()
趕時間的朋友,我們也為你準備了一份省流版:
![]()
指令跟隨精度大幅提升:能準確還原復雜構圖、小號文字、圖標、UI 元素等細節,分辨率最高支持 2K(API)
多語言文本渲染:在中文、日文、韓文、印地語、孟加拉語等非拉丁文字的渲染和排版上有顯著改善,文字可融入設計本身
風格還原更準確:寫實攝影、電影質感、像素畫、漫畫等視覺風格的紋理、光影、構圖還原度更高,適合游戲原型、分鏡、營銷素材制作
靈活寬高比支持:支持從 3:1 到 1:3 的寬高比,可直接生成適配橫幅、海報、手機屏、社交媒體等不同場景的尺寸
更新的世界知識:知識截止日期為 2025 年 12 月,在生成信息圖、教育圖表、視覺摘要時更具時效性和準確性
思考模式(Thinking):選用思考型模型時,可聯網搜索實時信息、對輸出進行自我核查,并在單次提示中生成最多 8 張保持角色和對象連貫性的系列圖片
Codex 集成:可在 Codex 工作區內直接生成圖像,用于 UI 方向探索、產品原型設計和應用開發,無需單獨配置
API 開放(gpt-image-2):支持開發者接入,適用于本地化廣告、信息圖、教育內容、設計工具等業務場景
一個拼速度,一個會思考
過去,我們把 AI 畫圖當成一個單向的許愿池。你丟進去一個硬幣(Prompt),它吐出一張圖。至于圖里元素的邏輯關系、背景的合理性,全靠運氣。但 Images 2.0 改變了這種玩法。
![]()
遙遙領先的基準測試成績單
Images 2.0 是 OpenAI 旗下首個具備思考能力的圖像模型。針對不同的使用場景,推出了兩個版本。
![]()
第一個是 Instant 模式。從今天起,它直接覆蓋了 ChatGPT、Codex 和 API 三個入口,向所有用戶開放,主打一個天下武功唯快不破。 OpenAI 研究員 Kenji 在發布會上給它的定性極高:「這是第一個真正有用于日常生活的圖像模型。」
第二個則是 Thinking 模式,需要切換到 ChatGPT Plus、Pro 或 Business 賬戶才能激活。一旦進入這個模式,模型在生成之前,它會停下來自己推演一番:實時搜索網絡信息、規劃圖像的骨架結構,甚至能在輸出前進行自我核查。
![]()
macOS 瀏覽器中 ChatGPT 的截圖。用戶輸入「draw me a dog」,ChatGPT 畫了一只 ASCII 藝術風格的狗。前景窗口是 ChatGPT,桌面很亂,后臺開著一堆隨機窗口(比如終端)。
官方給它的定位是「Visual thought partner(視覺思維伙伴)」。具體來講,一是生成之前有了真正的推理過程,二是在處理復雜信息圖、教育內容這類需要邏輯結構的任務時,它能自行判斷哪些內容需要核實、哪些背景需要補充。
![]()
所以,經過認真思考,Images 2.0 認為 Anthropic 是最好的 AI 公司?
對于開發者來說,API 端的模型名稱是 gpt-image-2,定價則根據你所選的畫質和分辨率豐儉由人。
![]()
根據 APPSO 之前的實測,面對 Images 2.0,你甚至不太需要過于復雜的提示詞就能感受到這種技術進步。我們的測試僅使用一兩句簡單的畫面描述,就能夠生成至少能唬住外行的高水準圖片。
![]()
即便這些初步生成的照片在像素級放大后偶爾經不起死磕,但只要提示詞足夠精細,再搭配上它本身的二次修改功能,就能輕松打造出極其真實且令人驚艷的 AI 圖像。
![]()
一張寫實風格的旅行抓拍:陰天清晨,一個人站在海邊路旁的觀景停車帶,用35mm膠片拍攝。構圖自然、略有瑕疵,顆粒感明顯,環境光漫射,色調低飽和,衣物和發絲隨風飄動,帶著紀錄片式的電影質感,像是某段真實生活留下的影像。
腦子里有干貨,才叫「懂世界」
一個常常被忽視的細節是:AI 畫得好不好,往往取決于它「懂不懂」。
OpenAI 給 Images 2.0 設置的知識截止日期是 2025 年 12 月,這比同期大多數圖像模型都要新。這種知識儲備在日常畫個貓狗時并不顯眼,但在教育、科普和復雜信息圖場景里,簡直是降維打擊。
![]()
在「康托爾對角線證明,信息圖」案例中,換作以前的模型,大概率會給你畫一個胡亂漂浮著數字的抽象畫。但 Images 2.0 卻能直接生成了一張邏輯清晰、視覺結構完整的數學原理圖。
它知道怎么判斷信息真偽,也知道該補充什么背景知識,最后用干凈的排版、舒服的留白和清晰的引導線給你畫出來。本來得讓老師手工排版一個小時的教案素材,現在幾秒鐘就能直接拿去用。
![]()
https://x.com/intheworldofai/status/2046542459983806470
深夜召開的發布會,也著重介紹了戳中創作者痛點的三座大山。
第一是角色的一致性, 同一個人換個角度或換套衣服,AI 往往就認不出來了。 OpenAI 研究員 Kiwan 向我們演示了服裝搭配的案例。
![]()
他上傳了自己的照片,讓模型生成八套夏日穿搭,然后又跟進提示,要求放大第一套并從多個角度展示他穿上這套衣服的樣子。模型在多張圖中保持了他的外貌特征不變,像試衣間一樣呈現不同角度的效果。
![]()
第二是中文與排版。Images 2.0 不僅在英語、日語、韓語上表現出色,更能極其絲滑地拿捏中文排版。比如我就挺喜歡這個中文筆跡。
![]()
用普通人的筆跡抄寫《定風波·莫聽穿林打葉聲》
![]()
文字少了后期強加上去的貼圖感,真正融入成為了視覺設計的核心骨架。而且 OpenAI 官方也在博客圖片中玩起了「穩穩地接住你」的梗。
![]()
在臺上演示的實驗性 4K 接口生成的圖片中,屏幕被無限放大,放大一堆米中一粒米,上面竟然印著「GPT image 2」的微小字樣。
![]()
第三是寬高比。Images 2.0 支持從 3:1 到 1:3 的超寬高比范圍,研究員 Alex 在臺上直接用了一個團隊內部最喜歡的提示詞演示極窄豎圖,生成結果把他自己的脖子拉得奇長無比,他本人也忍不住調侃,這張圖可能不太適合拿去當頭像。
![]()
瑕疵,才是最高級的審美
不知道從什么時候起,我們開始對那種一眼假的「AI 圖片」感到生理性反胃。那種過度平滑、光影完美到失真的「AI 塑料感」,讓我們避之不及。
十分令人感慨的是,Images 2.0 最大的審美進化,恰恰是它學會了保留「不完美」。
電影靜幀、復古膠片快照、時尚攝影,它的風格覆蓋極廣。更重要的是,膠片顆粒感、閃光燈打出的硬陰影、手持拍攝的輕微失焦——這些以前被 AI 算法刻意抹平的瑕疵,現在成了可以主動觸發的風格語言。
![]()
OpenAI 研究員 Alex 透露了一個讓人極度舒適的秘密:想讓輸出最自然,最有效的關鍵詞就是「photorealistic」。只要打出這個詞,模型就會主動規避塑料感,復刻那些讓照片「看起來是照片」的真實特征。
為了證明它對光影邏輯的理解,Alex 甚至用 Codex vibe code 搭了一個全景播放器,讓模型生成了一張月球登陸的 360 度全景圖。甚至在這個全景空間里,太陽的方向和地面的陰影關系,在視覺上保持了嚴絲合縫的一致。
![]()
當然,OpenAI 也坦誠交代了 Images 2.0 的局限之處。
如果你讓它畫折紙步驟圖、魔方復原過程,這類需要極度嚴密三維物理邏輯的任務,它仍然容易翻車。傾斜表面上的微小細節、極度密集的重復紋理,依然會觸碰它的計算邊界涉及精確箭頭的圖表,官方也老老實實建議大家在使用前最好人工核查一下。
![]()
此外,API 端的 2K 以上分辨率目前還在 Beta 階段,偶爾不夠穩定。
但這絲毫不影響行業巨頭們連夜將其接入工作流。目前,Canva、Figma、Adobe 和 OpenArt 已經明確接入 gpt-image-2。對于開發者和企業來說,無論是本地化廣告、教育內容還是創意自動化平臺,都不需要離開現有的工作流,直接調用即可。
從靠運氣抽卡到擁有視覺思考外腦,AI 生圖實實在在地往前邁進了一大步。等你下次點開 ChatGPT 輸入框的時候,也許真的可以把它當成一個坐在對面的設計師來聊聊了。
![]()
生成 OpenAI CEO Sam Altman 在微信朋友圈用中文介紹宣傳 ChatGPT Images 2.0,底下馬斯克評論發「???」,Demis Hassabis 評論稱:「我覺得不如 Nano Banana Pro」,圖片比例為 16:9
*封面由 AI 生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.