網易首頁 > 網易號 > 正文 申請入駐

GPT-Image-2 :隨意做出可作為“證據”的圖片,強到讓人恐慌

0
分享至


作者 | 貓貓頭
郵箱 | cathy@pingwest.com

+242。

這是4月21日GPT-Image-2在Image Arena Text-to-Image排行榜上領先第二名的Elo分差。Arena官方用了一個詞:clean sweep——全榜第一,沒有例外。


OpenAI在這天正式發布了GPT-Image-2。面向所有ChatGPT用戶,API預計5月初跟進。核心參數:最高4096×4096分辨率,生成速度比前代快一倍,文字渲染準確率從前代的90-95%跳到約99%。定價每百萬token $8-$30,折合單張圖片$0.006-$0.211。

模型分兩種模式。Instant是快出圖,所有人可用;Thinking模式集成推理和網頁搜索,單次最多生成8張風格一致的圖片——但鎖在Plus及以上付費層級。

只看參數,這像一次常規迭代。但Arena創始人@ml_angelopoulos 看完Arena榜單后說了一句話:"literally broke the chart——有史以來最大的差距。"


差距背后是一個積攢了三年的問題終于被正面回應了。AI圖像生成最大的笑話,一直是文字。

DALL-E 3拼不對復雜單詞,Midjourney把招牌寫成亂碼,Stable Diffusion在海報上輸出鬼畫符。文字渲染是生圖模型的"手指問題"——不是不重要,而是一做就露餡。99%的準確率如果成立,AI生成的海報、菜單、UI截圖、品牌物料第一次可以跳過人工修正,直接交付。

生圖模型的能力邊界,正在從"視覺"擴展到"信息"。

1

案例:它到底能做什么

發布當天,社區反應幾乎是即時的。

文字渲染是發布當天被驗證最多的能力。VentureBeat的Carl Franzen讓模型生成阿茲特克、瑪雅和印加三大帝國版圖的歷史地圖,附完整圖例。地圖準確、圖例完全可讀,他用的詞是"seemingly flawlessly"。


TechCrunch的Amanda Silberling讓模型生成一份墨西哥餐廳菜單——兩年前DALL-E 3拼不對"enchilada",這次的輸出"可以直接放進餐廳使用,客人不會察覺任何異樣"。


Thumio創始人@corbin_braun 連發幾串thread,做了更直覺的對比:把Google Pro 3和GPT Image 2的縮略圖生成結果并排放出來。他的結論一個詞:"insane。"同一天他還連發數條帖,稱這是"YouTube thumbnail endgame"。



文字之外,角色一致性是另一個被反復提到的點。OpenAI演示了從一張自拍生成三頁漫畫的工作流,角色在多頁間保持一致。美妝博主@jameygannon 把這個能力拉進了商業場景:一條prompt生成一整套品牌kit——logo、配色、排版、多頁應用。



值得注意的是,這些測試全部發生在發布后幾小時內,來自不同人、不同場景、不同訴求。沒有人在精心挑選最佳輸出。

2

技術拆解:為什么這次不一樣

架構重寫。GPT-Image-2不再基于GPT-4o的圖像pipeline。研究負責人Boyuan Chen將其定義為"GPT for images"——一個從頭設計的獨立系統。社區測試者在4月初Arena泄露階段(模型以maskingtape-alpha、gaffertape-alpha、packingtape-alpha三個代號出現)就注意到變化:從兩階段生成轉向單次推理。

用一個類比:過去的模型是"先聽懂你說什么,再動手畫",中間有一次信息壓縮;GPT-Image-2是"邊理解邊畫",語言理解和圖像生成在同一過程中完成。所以文字渲染終于準了——生成每個像素時,模型仍然"知道"自己在寫什么字。

Thinking模式。開啟后,模型在落筆前先規劃構圖,生成后檢查輸出,發現錯誤還會迭代修正。anti gamble創始人@damianplayer 的拆解:"reasoning mid-generation——plans the composition, checks its own output。"推理集成還讓模型可以在生成過程中調用網頁搜索、將文檔轉化為視覺圖表、在8張圖片間維持角色一致性。


世界知識的飛躍。訓練數據明顯偏向真實世界的視覺素材:UI截圖、店面招牌、界面布局。當你要求生成"普通工程師的屏幕",它輸出的是可信的顯示器畫面,不是關鍵詞拼貼。@Yuchenj_UW 試用后的判斷很直接:"It is really good. OpenAI is finally leading the image gen again。"


架構決定了它能"讀懂"文字,Thinking讓它能"檢查"文字,世界知識讓它知道文字應該"長什么樣"。三層能力疊在一起,文字渲染從短板變成了長板。

3

人類必須嚴肅對待這樣的以假亂真能力

StartupFortune在發布日給了一個定位:從"creative novelty"到"production infrastructure"。品牌mockup、廣告設計、信息圖表,過去因為文字不可靠而必須人工介入的場景,開始變成一條prompt可以交付的工作流。

不過StartupFortune自己也加了一句謹慎的提醒:"benchmark performance and production performance often diverge。"99%是實驗室數字,真實世界的多語言、多字體、多排版場景能不能hold住,5月API開放后才會有答案。

我們更關心的是另一個問題。


Jake Handy在發布日的Substack技術拆解中寫了當天最尖銳的一段:讓GPT-Image-2成為最好生產力工具的那組能力——精確的文字渲染、可信的UI布局、真實世界的視覺詞匯——恰好也是制造虛假信息的完美工具集。

假UI截圖、假Bloomberg終端、假法庭文件、假Slack對話,"every one of those is dense text laid over a known visual vocabulary, which is the exact workload OpenAI optimized for。"("這些中的每一個都是在已知視覺詞匯之上疊加的密集文本,而這正是 OpenAI 所優化的工作負載。)

這個觀察之所以刺眼,是因為它不是在說模型有什么"副作用",它在說模型最被贊美的那個能力——把文字精確地嵌入可信的視覺場景——本身就是雙刃的。

過去的生圖模型因為文字太爛,反而天然帶有一層"防偽標記":一眼就能看出是AI做的。GPT-Image-2把這層天然屏障拆掉了。

OpenAI的應對是C2PA元數據水印和溯源分類器。image-2 lauch的直播中,產品負責人Adele Li在發布會上自己承認,元數據"is not a silver bullet"——截圖、裁剪、平臺壓縮,任何一步都讓水印失效。


Jake Handy給出的定性我們認為是準確的:"The model is an excellent problem。"

AI圖像生成確實進入了"文字時代"。但文字可信這件事,在人類的媒介史上,從來就不只是一個技術問題。

這也許才是那個“強到不應該公開發布”的模型,今天之后,每個人都有了隨意生成曾經都會被認作事實證據的圖片,信息的判斷變得前所未有的難,這個強到離譜的模型會在未來很長一段時間給人們帶來恐慌,我們會看到因此而產生的各種沖突和討論,人類必須一起嚴肅應對這種以假亂真的能力了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
反對穆帥回皇馬被批評,古蒂:面對非議,最好方式是微笑致謝

反對穆帥回皇馬被批評,古蒂:面對非議,最好方式是微笑致謝

懂球帝
2026-04-26 07:58:08
雷霆121-109再勝太陽!亞歷山大創34年NBA紀錄,不愧是MVP

雷霆121-109再勝太陽!亞歷山大創34年NBA紀錄,不愧是MVP

籃球大視野
2026-04-26 06:38:32
愛吃西紅柿的要留意,我也后悔沒早點看到,很重要,記得告訴家人

愛吃西紅柿的要留意,我也后悔沒早點看到,很重要,記得告訴家人

江江食研社
2026-04-26 00:00:04
“為錢和我在一起”,44歲女子被丈夫掐死拋尸,前夫是她的代理人

“為錢和我在一起”,44歲女子被丈夫掐死拋尸,前夫是她的代理人

江山揮筆
2026-04-26 11:20:40
公安部172號令:70歲以上駕照免年審!兩件事漏做,駕照可被注銷

公安部172號令:70歲以上駕照免年審!兩件事漏做,駕照可被注銷

沙雕小琳琳
2026-04-24 11:02:52
一個戲劇性的斯諾克時代切片:當39歲的丁俊暉遭遇28歲的趙心童

一個戲劇性的斯諾克時代切片:當39歲的丁俊暉遭遇28歲的趙心童

西門吹灰2020
2026-04-25 09:19:56
湖南一女子凌晨打車說“去哪都可以”,跳橋輕生被出租車司機拼命拽回,司機:人生沒有過不去的坎,千萬不要一時沖動拿生命開玩笑

湖南一女子凌晨打車說“去哪都可以”,跳橋輕生被出租車司機拼命拽回,司機:人生沒有過不去的坎,千萬不要一時沖動拿生命開玩笑

臺州交通廣播
2026-04-26 11:32:20
一天一個價!多款電腦集體漲價,店員透露:27日以后會大幅漲價

一天一個價!多款電腦集體漲價,店員透露:27日以后會大幅漲價

極目新聞
2026-04-24 18:58:46
4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

毅談生肖
2026-04-26 10:11:25
五常中唯一不造航母的國家,實力不輸中國,美國十分忌憚

五常中唯一不造航母的國家,實力不輸中國,美國十分忌憚

趣文說娛
2026-04-23 21:55:50
絕境對決,四川女籃單外援作戰,客場力克山西拿下第三座總冠軍

絕境對決,四川女籃單外援作戰,客場力克山西拿下第三座總冠軍

墨道榮
2026-04-26 10:26:26
張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

麥大人
2025-10-13 15:29:56
親爹都看不下去了!怒噴布倫森,尼克斯找到贏球辦法,早該這么打

親爹都看不下去了!怒噴布倫森,尼克斯找到贏球辦法,早該這么打

你的籃球頻道
2026-04-26 09:53:56
沒得談了?伊朗列出美方罪狀,巴鐵大將致電特朗普,送出一句忠告

沒得談了?伊朗列出美方罪狀,巴鐵大將致電特朗普,送出一句忠告

兵說
2026-04-25 08:30:08
兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

胖胖侃咖
2025-04-03 08:00:11
西裁判工會就貝蒂斯對皇馬爭議發布聲明:適可而止,尊重為先

西裁判工會就貝蒂斯對皇馬爭議發布聲明:適可而止,尊重為先

懂球帝
2026-04-26 10:38:33
伊朗吃不下,朝鮮吐不出!俄羅斯的大陽謀,是豪賭,還是高招?

伊朗吃不下,朝鮮吐不出!俄羅斯的大陽謀,是豪賭,還是高招?

近史談
2026-04-26 11:07:23
7旬富翁斥巨資獵殺野生動物,最近被非洲大象家族踩死!網友:也把他做成標本!

7旬富翁斥巨資獵殺野生動物,最近被非洲大象家族踩死!網友:也把他做成標本!

英國報姐
2026-04-25 20:36:35
心疼!孫穎莎封訓瘦一圈!林鐘勛說王楚欽左手是特例!國乒倫敦世乒賽出征直播!

心疼!孫穎莎封訓瘦一圈!林鐘勛說王楚欽左手是特例!國乒倫敦世乒賽出征直播!

好乒乓
2026-04-26 11:00:00
消息人士:伊朗立場比第一輪談判時更加強硬

消息人士:伊朗立場比第一輪談判時更加強硬

新華社
2026-04-25 19:05:13
2026-04-26 12:11:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

旅游
教育
手機
數碼
家居

旅游要聞

臺兒莊古城國潮文化季正式啟動 五一“入夢臺城”拉開帷幕

教育要聞

壓軸出場的題目,很多小朋友都失分了

手機要聞

姚安娜喜提華為Pura X Max 網友:又美又颯

數碼要聞

華為MatePad Mini迭代版:OLED四等邊、5G、NFC全來了,沒短板了

家居要聞

自然肌理 溫潤美學

無障礙瀏覽 進入關懷版