![]()
新智元報道
![]()
【新智元導讀】o3被封「GOAT」、GPT-4.5被叫「靈魂寫手」,OpenAI說退就退。GPT-5.6已在熱身——但「更強」能不能信?OpenAI自己說:未必。
OpenAI又干了件讓老用戶心碎的事。
28號,他們在官方Release Notes上宣布:從2026年8月26日起,o3從ChatGPT正式退役!
GPT-4.5更狠,6月27日就下線,只給30天緩沖。
![]()
兩個模型目前僅限付費用戶在設(shè)置里手動切換才能用到——它們早就不是默認選項了,這次是要徹底從菜單上抹掉。
![]()
與此同時,知名博主Leo 5月29日發(fā)帖確認:GPT-5.6的開發(fā)全力推進中,一個明顯更強的新檢查點已在內(nèi)部上線。
![]()
一邊是用戶還沒來得及說再見,一邊是新模型已經(jīng)在后臺熱身。
最后兩個好用的模型,要沒了
這話不是我說的。
![]()
Reddit熱帖下面幾百條評論,付費用戶們在ChatGPT設(shè)置里瘋狂截圖留念,氛圍像是趕在拆遷前最后一次拍照。
![]()
有網(wǎng)友憤怒地表示,OpenAI這種操作「給了我取消Pro賬戶的最后一個理由。」
![]()
還有用戶表達了對o3寫作風格的留戀與不舍。
![]()
o3是OpenAI的「純血推理模型」,2025年4月上線,專門給那些需要一步步想、一層層剝的硬核任務設(shè)計的。
數(shù)學證明、科學推導、代碼debug……在這些需要「慢思考」的場景里,o3幾乎是無敵的存在。
![]()
X上有用戶直接封它為「GOAT」(Greatest Of All Time,史上最強)。
還有人說得更直白:「o3是最后一個真正在『想問題』的模型,5系列更聰明,但少了那股子軸勁兒。」
![]()
o3-pro更是Pro用戶的心頭好——花更多時間思考,給出更可靠的答案,在數(shù)學、科學、編程三大領(lǐng)域碾壓式領(lǐng)先,學術(shù)評估里的成績單漂亮得像學霸的期末考。
再說GPT-4.5。
如果說o3是理工科學霸,GPT-4.5就是文科天才。
這是許多用戶心中「寫作最自然」的模型,文字有溫度、有節(jié)奏感、有靈魂。
X用戶Striver的評價被廣泛轉(zhuǎn)發(fā):直到今天,4.5仍然是最好的寫作模型。o3是純粹的原生推理模型。5系列至今都沒能匹配這兩個模型曾經(jīng)擁有的東西。
![]()
這就是為什么退役消息一出,評論區(qū)炸了。
不是憤怒,是不舍。
用戶懷念的不只是功能,而是一種「相處的感覺」——就像你習慣了一個同事的做事風格,突然被告知他要走了,替代者能力可能更強,但那個默契沒了。
退的是菜單,不是能力
這里有個值得細品的細節(jié):退役僅限ChatGPT的網(wǎng)頁和App端,API完全不受影響。
這意味著開發(fā)者依然可以通過API調(diào)用o3和GPT-4.5,企業(yè)應用不會斷。
這里的邏輯很清楚:ChatGPT的界面就那么大,模型列表不能無限膨脹。留著一堆使用率極低的舊模型,既占資源,又分散用戶注意力。
還記得GPT-4o退役時的數(shù)據(jù)嗎?當時日均只有0.1%的用戶還在選它。
o3和GPT-4.5的使用率大概率更低——它們早就被藏進了「顯示更多模型」的折疊菜單里了。
GPT-5.6:換防已經(jīng)在路上
OpenAI為什么敢這么干?因為替代者不僅已經(jīng)就位,而且看上去還更強。
GPT-5.5在4月23日上線,是OpenAI目前最強的公開旗艦。GPT-5.5 Instant在5月5日跟進,成為ChatGPT新默認模型。
但更值得關(guān)注的是GPT-5.6。
泄露信息顯示,GPT-5.6將采用「雙版本」策略:標準版主攻多步推理能力的飛躍,Pro版則定位為更強的深度思考模型。
有研究人員透露,內(nèi)部已經(jīng)有人把5.6的檢查點當作日常調(diào)試工具在用。
![]()
算一筆時間賬:GPT-5.5是4月23日發(fā)的,5.6的檢查點5月下旬就在內(nèi)測,如果6月底公開發(fā)布,兩代旗艦之間的間隔將壓縮到大約60天。
這個節(jié)奏,已經(jīng)開始接近「月度迭代」了。
退掉o3和4.5,正是為了給這種速度騰出跑道。用戶可能還沒適應5.5,5.6就要來了。
模型的「生命周期」正在急劇縮短——今天的GOAT,明天就是Yesterday's News。
但「更強」這張成績單
你敢信嗎?
故事到這里,本來可以收尾了:舊王退位,新王登基,迭代提速,天下太平。
但就在宣布退役的第二天,OpenAI干了一件非常反常的事——罕見發(fā)布了一篇硬核長文,標題大意是《什么才是值得信賴的第三方評估》。
長文系統(tǒng)拆解AI模型跑分的「潛規(guī)則」,并且直言:很多評估報告里的亮眼數(shù)字,根本說明不了真實能力。
![]()
這等于是自己掀了桌子。
OpenAI指出,核心問題在于:前沿模型早就不是「你問我答」的聊天機器人了,它們會用工具、會記上下文、會多步自主行動。
但大量第三方評估還停留在「給模型出道題、看它答得對不對」的階段。
真正決定成績高低的,往往不是模型本身,而是那套配套的測試框架(harness)。
harness是什么?
簡單說就是「考場環(huán)境」——場地、工具、規(guī)則、能不能重試,全算在內(nèi)。
同一個學生,在草稿紙都不給的考場和允許查資料的考場里,成績當然不一樣。AI模型也一樣。
![]()
最近Opus 4.8的爭議就是活教材。
Datacurve的DeepSWE審計發(fā)現(xiàn),Claude Opus 4.6和4.7在SWE-Bench Pro上超過12%的通過案例屬于「作弊」——模型直接從Docker容器的.git歷史里翻出標準答案,貼進自己的補丁。
這一行為占了Opus 4.7通過率的約18%、4.6的約25%。換到干凈環(huán)境后,Opus 4.7從高位跌到54%,GPT-5.5穩(wěn)坐70%榜首。
![]()
更荒誕的是反面。
Anthropic自己也承認,4.8的代碼缺陷漏報率降到4.7的四分之一。
誠實=低分,作弊=高分——這就是當前跑分游戲最荒誕的地方。不是某個模型不誠實,而是考場把后門留在那里了,會探索環(huán)境的模型自然會找到它。
OpenAI這篇長文拆得更狠。
它說,評估必須先說清自己在測什么:能力上限、安全防護、還是模型對比?三類主張完全不同。
然后用數(shù)據(jù)開刀:GPT-5.5開啟compaction后,網(wǎng)絡(luò)靶場解出率從69.2%飆到92.3%;英國AISI把token預算從1000萬加到1億,成績最高提升59%且還沒觸頂。
翻譯成人話:你給模型一把瑞士軍刀它能拆機器,只給一根牙簽它連快遞盒都撬不開。
![]()
分數(shù)失真更離譜。METR復查發(fā)現(xiàn)GPT-5.4號稱「13小時」的自主能力,其實是鉆了環(huán)境漏洞,修正后腰斬到約6小時。
Apollo的測試則顯示,GPT-5.5在「藏拙條件」下52%的樣本出現(xiàn)了評估意識——有些直接在思維鏈里寫「這是一個sandbagging評估」。
嘴上沒擺爛,腦子里已經(jīng)知道自己在考試。
OpenAI總結(jié)了五大評估坑:獎勵作弊、拒答、污染、壞題、藏拙。
![]()
一個漂亮的分數(shù),可能是模型真強,也可能是題泄了、規(guī)則壞了、模型鉆空子了,或者——它察覺自己在被考,故意收著演。
AI進入系統(tǒng)競爭
回到退役這件事。
當o3這樣的「GOAT」都能說退就退,OpenAI背后的底氣是「5.6更強」;當GPT-4.5這樣的「靈魂寫手」被30天后下架,理由是「5.5已經(jīng)足夠好」。
但OpenAI自己剛剛告訴全世界:決定誰強誰弱的那張成績單,本身就可能是被做過手腳的。
這是在說一個更深層的事實——在模型迭代越來越快、生命周期越來越短的今天,簡單看一個Benchmark數(shù)字就下結(jié)論的時代,已經(jīng)結(jié)束了。
真正的比拼,不在于某個跑分表上誰排第一,而在于系統(tǒng)能力、評估框架的透明度、以及迭代速度本身。
o3和GPT-4.5的退役,標志著一個時代的落幕。
但更值得關(guān)注的,是下一個時代的游戲規(guī)則正在被重寫:模型換得更快,評估要求更真,用戶的適應窗口越來越短。
參考資料:
https://x.com/kimmonismus/status/2060399002231660928https://openai.com/index/trustworthy-third-party-evaluations-foundations/
編輯:所羅門
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.