網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

這一次，OpenAI干掉了90%人類設(shè)計(jì)師

2026-04-23 07:35:00　來(lái)源: 硅基星芒AI

北京舉報(bào)

分享至

Sam Altman那個(gè)著名的梗，這次應(yīng)驗(yàn)在所有人身上了。

去年宣傳GPT-5的時(shí)候，這位OpenAI的CEO說(shuō)了一句后來(lái)被全網(wǎng)玩壞的話：“那種感覺(jué)，就像看到原子彈爆炸，整個(gè)人眩暈癱坐。”此后每逢AI圈發(fā)布新品、配上夸張文案，這個(gè)梗就被拉出來(lái)反復(fù)鞭尸。

但前天深夜，眩暈癱坐的可不是奧特曼。這回成了所有盯著屏幕等OpenAI出牌的用戶。

奧特曼照例故作神秘，發(fā)了一條推文：“我們準(zhǔn)備了一些有趣的東西。”

到了凌晨三點(diǎn)，GPT-Image 2落地。全球AI界直接炸場(chǎng)。

“Images are a language, not decoration.”

這是OpenAI寫(xiě)在發(fā)布頁(yè)上的第一句話。翻譯過(guò)來(lái)就一個(gè)意思：從今天起，圖像不再是裝飾品，它本身就是語(yǔ)言。這是對(duì)整個(gè)計(jì)算機(jī)視覺(jué)行業(yè)發(fā)出的代際躍遷宣言。

過(guò)去一整年，AI繪圖還困在“畫(huà)得像不像”的審美泥潭里。GPT-Image 2一出現(xiàn)，直接按下了切換鍵——AI生圖正式進(jìn)入“邏輯對(duì)不對(duì)”的智力考場(chǎng)。

這款模型的精度，用“恐怖”來(lái)形容不過(guò)分。

在Artificial Analysis的文生圖和圖像編輯排行榜上雙雙登頂，實(shí)戰(zhàn)表現(xiàn)更是碾壓級(jí)的。

那種感覺(jué)，就像視頻生成領(lǐng)域Seedance 2.0降臨時(shí)一樣，它早就不當(dāng)人類的輔助工具了，它在定義新的行業(yè)標(biāo)準(zhǔn)。

注：本文的圖片全部由GPT-Image 2生成，圖片內(nèi)容純屬虛構(gòu)。

思維引擎的覺(jué)醒

過(guò)去，人們?cè)u(píng)判一個(gè)圖像模型好不好，第一標(biāo)準(zhǔn)是像不像真人、像不像參照物。

在GPT-Image 2這個(gè)怪物面前，這套標(biāo)準(zhǔn)過(guò)時(shí)了。徹底過(guò)時(shí)。

新模型最核心的突破點(diǎn)在這兒：它是一個(gè)支持思考模式的圖像模型。

什么意思？用戶輸入提示詞之后，模型不再簡(jiǎn)單去噪、拼接像素。它先在后臺(tái)完成一次思維建模，再動(dòng)筆。

Linux.do社區(qū)流出的一張實(shí)測(cè)圖最能說(shuō)明問(wèn)題。模型模擬了雷軍直播跑步的畫(huà)面：

圖源：https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

這張圖讓不少開(kāi)發(fā)者倒吸一口涼氣。雷總面部特征精準(zhǔn)還原——簡(jiǎn)直像照片——圖中還赫然顯示著：直播目標(biāo)1313km、已跑里程425.7km、剩余里程887.3km。更絕的是，當(dāng)前海拔標(biāo)著3658m。

3658m是什么概念？從北京到拉薩，進(jìn)入藏區(qū)的典型海拔，恰好就是這個(gè)數(shù)。

在人類眼里，這不過(guò)是簡(jiǎn)單的數(shù)學(xué)加減法和地理常識(shí)。但請(qǐng)你想一想：對(duì)于一個(gè)圖像模型來(lái)說(shuō)，數(shù)學(xué)邏輯 + 地理常識(shí) + UI規(guī)范的三重統(tǒng)一，意味著什么？

結(jié)論很直接：在生成第一個(gè)像素之前，GPT-Image 2已經(jīng)完成了一輪推理。它理解了“里程”的含義，理解了加減法的邏輯關(guān)系，也理解了高海拔地區(qū)的視覺(jué)特征。

這哪里是畫(huà)畫(huà)。這是思考。

從玩具到生產(chǎn)力

在這種能力面前，所有人對(duì)圖像模型的態(tài)度，該變一變了。

它早就不是你拿來(lái)畫(huà)頭像、做壁紙的玩具了。一腳邁過(guò)“可用”門檻，直接沖進(jìn)“好用”區(qū)間——一個(gè)能扔進(jìn)商業(yè)場(chǎng)景直接干活的工具。

拿海報(bào)設(shè)計(jì)來(lái)說(shuō)。GPT-Image 2的構(gòu)圖審美、光影處理、對(duì)品牌調(diào)性的拿捏，毫無(wú)疑問(wèn)達(dá)到了絕大多數(shù)普通人類設(shè)計(jì)師難以企及的高度。

圖源：https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人類社會(huì)中，聘請(qǐng)一位高級(jí)美工設(shè)計(jì)一張商業(yè)級(jí)海報(bào)，溝通成本、時(shí)間成本和上千元的設(shè)計(jì)報(bào)酬往往對(duì)中小企業(yè)來(lái)說(shuō)是沉重的負(fù)擔(dān)。

然而，有了GPT-Image 2，即使效果不滿意調(diào)整幾十次，成本也不過(guò)是幾美元的級(jí)別。

在海報(bào)設(shè)計(jì)、營(yíng)銷素材、插畫(huà)配圖這些領(lǐng)域，用戶在乎的根本不是“真不真”，在乎的是“好不好看、準(zhǔn)不準(zhǔn)”。正因如此，AI的替代效率是毀滅性的。

在同步更新的開(kāi)發(fā)者文檔中，還隱藏著一個(gè)令人興奮的細(xì)節(jié)：示例代碼中頻繁出現(xiàn)了model: “gpt-5.4”。

思考模式加上旗艦?zāi)Ｐ停@個(gè)組合暗示了一件事：GPT-Image 2絕非孤立產(chǎn)品。它是為下一代大語(yǔ)言模型而生的視覺(jué)終端。

通過(guò)新的Responses API，生圖過(guò)程會(huì)像和大語(yǔ)言模型聊天一般自然地交互。模型新增了允許多輪對(duì)話修改的功能，首次生圖結(jié)束后，用戶可以提出各種讓乙方頭疼的指令進(jìn)行修改。

通過(guò)新的Responses API，生圖過(guò)程會(huì)像和大語(yǔ)言模型聊天一樣自然交互。模型新增了多輪對(duì)話修改功能，第一版生成后，用戶可以提出各種讓乙方設(shè)計(jì)師血壓飆升的指令：“背景再暗一點(diǎn)。”“Logo往旁邊挪幾個(gè)像素。”

這些交互式實(shí)時(shí)修改需求，恰恰是設(shè)計(jì)師日常工作中最繁瑣、最消耗耐心的部分。現(xiàn)在，迎刃而解。

中文渲染的巔峰

GPT-Image 2雖然是國(guó)外的模型，國(guó)內(nèi)用戶卻一邊倒地叫好。

原因只有一個(gè)：它對(duì)漢字的支持，堪稱完美。

在社區(qū)的實(shí)測(cè)返圖中，你能看到羅永浩和王自如的名場(chǎng)面辯論：

圖源：https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到馬斯克直播帶貨老干媽：

圖源：https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到醫(yī)生寫(xiě)的藥方：

圖源：https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

這些圖片中的文字，早已不再是歪七扭八、胡亂拼湊的“偽漢字”，而是具備書(shū)法韻味、字體層次感和排版藝術(shù)的成熟設(shè)計(jì)稿。

顯然，OpenAI在訓(xùn)練集里灌入了海量中文語(yǔ)料圖像，做了針對(duì)性強(qiáng)訓(xùn)。

和前代模型比起來(lái)，GPT-Image 2的強(qiáng)大得以更加淋漓盡致地體現(xiàn)。

在對(duì)比測(cè)試中，前代模型1.5版本雖然能畫(huà)出像菜譜的東西，但仔細(xì)一看，文字幾乎全是亂碼。

圖源：https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但GPT-Image 2生成的相同菜譜，卻讓人看到了文字清晰度和審美已經(jīng)有了里程碑式的突破。

圖源：https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

對(duì)于上百個(gè)中文字符的提示詞，五個(gè)步驟仍然清晰可見(jiàn)，圖文一致性令人滿意。這不僅是一張圖，還是一套可復(fù)現(xiàn)的實(shí)操方案。

不過(guò)，這里也帶出一個(gè)有趣的技術(shù)問(wèn)題：圖像模型真的徹底解決了亂碼問(wèn)題嗎？

我的判斷是：恐怕沒(méi)有。

大語(yǔ)言模型生成token，靠的是語(yǔ)義邏輯。強(qiáng)化學(xué)習(xí)階段以概率為依據(jù)，高質(zhì)量語(yǔ)料越多，邏輯越合理。但圖像模型的本質(zhì)，終究是像素生成。像素之間的邏輯關(guān)系，跟文字之間的邏輯關(guān)系，根本不是一回事。

換句話說(shuō)，強(qiáng)大如GPT-Image 2，也并沒(méi)有真正“理解”文字的規(guī)律。它只是死記硬背了文字在像素層面上的長(zhǎng)相。

一張與奧特曼談生意的圖暴露了這一點(diǎn)：兩箱飲料包裝上大大的“蒙牛”和“王老吉”寫(xiě)得極其完美，底下的小字卻依然是模糊的色塊。

圖源：https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在現(xiàn)有技術(shù)范式下，生成邏輯還是“按像素排布”，離“按字符渲染”差著本質(zhì)的一步。極細(xì)微處的亂碼，可能永遠(yuǎn)無(wú)法徹底根除。

但話說(shuō)回來(lái)，對(duì)90%以上的商業(yè)應(yīng)用場(chǎng)景而言，這已經(jīng)足夠了。

尚未封神的缺陷與邊界

即便已經(jīng)坐上世界第一的寶座，GPT-Image 2也有它笨拙的一面。

實(shí)測(cè)中發(fā)現(xiàn)，由于思考模式會(huì)調(diào)用聯(lián)網(wǎng)搜索并進(jìn)行邏輯推演，在處理極其復(fù)雜的虛構(gòu)任務(wù)時(shí)，模型偶爾會(huì)陷入邏輯怪圈——思考了接近40分鐘，仍然無(wú)法作答。

與此同時(shí)，API宣稱的支持2K甚至4K分辨率，意味著極高的token消耗和延遲。

對(duì)于普通用戶來(lái)說(shuō)，如何在極致畫(huà)質(zhì)和響應(yīng)速度之間取得平衡，是未來(lái)使用中的必修課。

在技術(shù)領(lǐng)域，強(qiáng)大的能力永遠(yuǎn)是一把雙刃劍。

無(wú)論是圖像模型還是視頻模型，都不可避免地要面對(duì)深度偽造的倫理挑戰(zhàn)。

目前的大部分實(shí)測(cè)案例中，AI生成的都是知名人物，但若是將他們換成各種社交媒體上發(fā)布過(guò)照片的普通人，在不認(rèn)識(shí)本人的情況下已經(jīng)極難分辨出真假。

除了背景中偶爾出現(xiàn)的亂碼可能會(huì)讓AI露餡，人體本身已經(jīng)沒(méi)有任何破綻。

因此，那些曾經(jīng)必須由真人完成的領(lǐng)域，正在面臨著前所未有的信任危機(jī)。

GPT-Image 2的發(fā)布，讓生圖模型從玩具走向了生產(chǎn)力工具。

過(guò)去人們用AI提供靈感，而如今的AI開(kāi)始嘗試接管從構(gòu)思、計(jì)算、排版到成品的全流程。

對(duì)于設(shè)計(jì)從業(yè)者來(lái)說(shuō)，這是一個(gè)充滿FOMO的時(shí)代。

但對(duì)于那些善于利用工具、具備產(chǎn)品審美和邏輯思維的人來(lái)說(shuō)，這又是一個(gè)最好的時(shí)代。

圖像開(kāi)始學(xué)會(huì)思考，文字不再是像素的雜音。

人們距離那個(gè)所思即所得的視覺(jué)奇點(diǎn)，可能真的只有一步之遙了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.