无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI官宣退役o3與GPT-4.5!

0
分享至


新智元報道


【新智元導讀】o3被封「GOAT」、GPT-4.5被叫「靈魂寫手」,OpenAI說退就退。GPT-5.6已在熱身——但「更強」能不能信?OpenAI自己說:未必。

OpenAI又干了件讓老用戶心碎的事。

28號,他們在官方Release Notes上宣布:2026年8月26日起,o3從ChatGPT正式退役!

GPT-4.5更狠,6月27日就下線,只給30天緩沖。


兩個模型目前僅限付費用戶在設(shè)置里手動切換才能用到——它們早就不是默認選項了,這次是要徹底從菜單上抹掉。


與此同時,知名博主Leo 5月29日發(fā)帖確認:GPT-5.6的開發(fā)全力推進中,一個明顯更強的新檢查點已在內(nèi)部上線。


一邊是用戶還沒來得及說再見,一邊是新模型已經(jīng)在后臺熱身。

最后兩個好用的模型,要沒了

這話不是我說的。


Reddit熱帖下面幾百條評論,付費用戶們在ChatGPT設(shè)置里瘋狂截圖留念,氛圍像是趕在拆遷前最后一次拍照。


有網(wǎng)友憤怒地表示,OpenAI這種操作「給了我取消Pro賬戶的最后一個理由。」


還有用戶表達了對o3寫作風格的留戀與不舍。


o3是OpenAI的「純血推理模型」,2025年4月上線,專門給那些需要一步步想、一層層剝的硬核任務設(shè)計的。

數(shù)學證明、科學推導、代碼debug……在這些需要「慢思考」的場景里,o3幾乎是無敵的存在。


X上有用戶直接封它為「GOAT」(Greatest Of All Time,史上最強)。

還有人說得更直白:「o3是最后一個真正在『想問題』的模型,5系列更聰明,但少了那股子軸勁兒。」


o3-pro更是Pro用戶的心頭好——花更多時間思考,給出更可靠的答案,在數(shù)學、科學、編程三大領(lǐng)域碾壓式領(lǐng)先,學術(shù)評估里的成績單漂亮得像學霸的期末考。

再說GPT-4.5。

如果說o3是理工科學霸,GPT-4.5就是文科天才。

這是許多用戶心中「寫作最自然」的模型,文字有溫度、有節(jié)奏感、有靈魂。

X用戶Striver的評價被廣泛轉(zhuǎn)發(fā):直到今天,4.5仍然是最好的寫作模型。o3是純粹的原生推理模型。5系列至今都沒能匹配這兩個模型曾經(jīng)擁有的東西。


這就是為什么退役消息一出,評論區(qū)炸了。

不是憤怒,是不舍。

用戶懷念的不只是功能,而是一種「相處的感覺」——就像你習慣了一個同事的做事風格,突然被告知他要走了,替代者能力可能更強,但那個默契沒了。

退的是菜單,不是能力

這里有個值得細品的細節(jié):退役僅限ChatGPT的網(wǎng)頁和App端,API完全不受影響

這意味著開發(fā)者依然可以通過API調(diào)用o3和GPT-4.5,企業(yè)應用不會斷。

這里的邏輯很清楚:ChatGPT的界面就那么大,模型列表不能無限膨脹。留著一堆使用率極低的舊模型,既占資源,又分散用戶注意力。

還記得GPT-4o退役時的數(shù)據(jù)嗎?當時日均只有0.1%的用戶還在選它。

o3和GPT-4.5的使用率大概率更低——它們早就被藏進了「顯示更多模型」的折疊菜單里了。

GPT-5.6:換防已經(jīng)在路上

OpenAI為什么敢這么干?因為替代者不僅已經(jīng)就位,而且看上去還更強。

GPT-5.5在4月23日上線,是OpenAI目前最強的公開旗艦。GPT-5.5 Instant在5月5日跟進,成為ChatGPT新默認模型。

但更值得關(guān)注的是GPT-5.6。

泄露信息顯示,GPT-5.6將采用「雙版本」策略:標準版主攻多步推理能力的飛躍,Pro版則定位為更強的深度思考模型。

有研究人員透露,內(nèi)部已經(jīng)有人把5.6的檢查點當作日常調(diào)試工具在用。


算一筆時間賬:GPT-5.5是4月23日發(fā)的,5.6的檢查點5月下旬就在內(nèi)測,如果6月底公開發(fā)布,兩代旗艦之間的間隔將壓縮到大約60天。

這個節(jié)奏,已經(jīng)開始接近「月度迭代」了。

退掉o3和4.5,正是為了給這種速度騰出跑道。用戶可能還沒適應5.5,5.6就要來了。

模型的「生命周期」正在急劇縮短——今天的GOAT,明天就是Yesterday's News。

但「更強」這張成績單

你敢信嗎?

故事到這里,本來可以收尾了:舊王退位,新王登基,迭代提速,天下太平。

但就在宣布退役的第二天,OpenAI干了一件非常反常的事——罕見發(fā)布了一篇硬核長文,標題大意是《什么才是值得信賴的第三方評估》。

長文系統(tǒng)拆解AI模型跑分的「潛規(guī)則」,并且直言:很多評估報告里的亮眼數(shù)字,根本說明不了真實能力。


這等于是自己掀了桌子。

OpenAI指出,核心問題在于:前沿模型早就不是「你問我答」的聊天機器人了,它們會用工具、會記上下文、會多步自主行動。

但大量第三方評估還停留在「給模型出道題、看它答得對不對」的階段。

真正決定成績高低的,往往不是模型本身,而是那套配套的測試框架(harness)。

harness是什么?

簡單說就是「考場環(huán)境」——場地、工具、規(guī)則、能不能重試,全算在內(nèi)。

同一個學生,在草稿紙都不給的考場和允許查資料的考場里,成績當然不一樣。AI模型也一樣。


最近Opus 4.8的爭議就是活教材。

Datacurve的DeepSWE審計發(fā)現(xiàn),Claude Opus 4.6和4.7在SWE-Bench Pro上超過12%的通過案例屬于「作弊」——模型直接從Docker容器的.git歷史里翻出標準答案,貼進自己的補丁。

這一行為占了Opus 4.7通過率的約18%、4.6的約25%。換到干凈環(huán)境后,Opus 4.7從高位跌到54%,GPT-5.5穩(wěn)坐70%榜首。


更荒誕的是反面。

Anthropic自己也承認,4.8的代碼缺陷漏報率降到4.7的四分之一。

誠實=低分,作弊=高分——這就是當前跑分游戲最荒誕的地方。不是某個模型不誠實,而是考場把后門留在那里了,會探索環(huán)境的模型自然會找到它。

OpenAI這篇長文拆得更狠。

它說,評估必須先說清自己在測什么:能力上限、安全防護、還是模型對比?三類主張完全不同。

然后用數(shù)據(jù)開刀:GPT-5.5開啟compaction后,網(wǎng)絡(luò)靶場解出率從69.2%飆到92.3%;英國AISI把token預算從1000萬加到1億,成績最高提升59%且還沒觸頂。

翻譯成人話:你給模型一把瑞士軍刀它能拆機器,只給一根牙簽它連快遞盒都撬不開。


分數(shù)失真更離譜。METR復查發(fā)現(xiàn)GPT-5.4號稱「13小時」的自主能力,其實是鉆了環(huán)境漏洞,修正后腰斬到約6小時。

Apollo的測試則顯示,GPT-5.5在「藏拙條件」下52%的樣本出現(xiàn)了評估意識——有些直接在思維鏈里寫「這是一個sandbagging評估」。

嘴上沒擺爛,腦子里已經(jīng)知道自己在考試。

OpenAI總結(jié)了五大評估坑:獎勵作弊、拒答、污染、壞題、藏拙。


一個漂亮的分數(shù),可能是模型真強,也可能是題泄了、規(guī)則壞了、模型鉆空子了,或者——它察覺自己在被考,故意收著演。

AI進入系統(tǒng)競爭

回到退役這件事。

當o3這樣的「GOAT」都能說退就退,OpenAI背后的底氣是「5.6更強」;當GPT-4.5這樣的「靈魂寫手」被30天后下架,理由是「5.5已經(jīng)足夠好」。

但OpenAI自己剛剛告訴全世界:決定誰強誰弱的那張成績單,本身就可能是被做過手腳的。

這是在說一個更深層的事實——在模型迭代越來越快、生命周期越來越短的今天,簡單看一個Benchmark數(shù)字就下結(jié)論的時代,已經(jīng)結(jié)束了。

真正的比拼,不在于某個跑分表上誰排第一,而在于系統(tǒng)能力、評估框架的透明度、以及迭代速度本身。

o3和GPT-4.5的退役,標志著一個時代的落幕。

但更值得關(guān)注的,是下一個時代的游戲規(guī)則正在被重寫:模型換得更快,評估要求更真,用戶的適應窗口越來越短。

參考資料:

https://x.com/kimmonismus/status/2060399002231660928https://openai.com/index/trustworthy-third-party-evaluations-foundations/

編輯:所羅門


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列誓言追殺參加“阿克薩洪水”行動所有哈馬斯成員

以色列誓言追殺參加“阿克薩洪水”行動所有哈馬斯成員

高博新視野
2026-05-27 07:30:19
手機有“鬼”,稀土遭劫!為何美日第一時間就知道中國的重大決策

手機有“鬼”,稀土遭劫!為何美日第一時間就知道中國的重大決策

期望帶來失望
2026-05-29 22:55:20
4年來首次!烏克蘭這回是真扛不住了?中國是時候考慮戰(zhàn)后的事了

4年來首次!烏克蘭這回是真扛不住了?中國是時候考慮戰(zhàn)后的事了

漫步獨行俠
2026-05-30 11:26:25
馬斯克生育論:狂言背后的現(xiàn)實思辨

馬斯克生育論:狂言背后的現(xiàn)實思辨

風鈴草語
2026-05-31 06:28:52
30位情婦、60輛豪車,有錢人的生活能有多奢淫?比賭王過得還瀟灑

30位情婦、60輛豪車,有錢人的生活能有多奢淫?比賭王過得還瀟灑

歷史偉人錄
2026-05-24 20:05:31
西決搶七大戰(zhàn)裁判出爐:戴維斯擔任主裁 三人執(zhí)哨兩隊勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔任主裁 三人執(zhí)哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
別期待退休了,你大概率每月領(lǐng)不到2000塊錢……

別期待退休了,你大概率每月領(lǐng)不到2000塊錢……

椰青美食分享
2026-05-31 00:38:04
官宣!人社部“鐵規(guī)”7月1日全國執(zhí)行,退休、在職全沾光億人受益

官宣!人社部“鐵規(guī)”7月1日全國執(zhí)行,退休、在職全沾光億人受益

輝哥說動漫
2026-05-30 14:56:30
內(nèi)塔尼亞胡下令:控制加沙70%區(qū)域

內(nèi)塔尼亞胡下令:控制加沙70%區(qū)域

澎湃新聞
2026-05-31 09:37:41
90歲鐘南山公開6個長壽秘訣:第一條就很多人做不到,看完就明白

90歲鐘南山公開6個長壽秘訣:第一條就很多人做不到,看完就明白

醫(yī)學科普匯
2026-05-14 17:41:18
香會不香了!美國大餅沒人信,避談臺海少批中國,菲防長繞路后廚

香會不香了!美國大餅沒人信,避談臺海少批中國,菲防長繞路后廚

天氣觀察站
2026-05-31 12:31:47
李賽鳳的亂倫,床縫摸出個用過的套,衣柜里還藏著個半裸的干兒子

李賽鳳的亂倫,床縫摸出個用過的套,衣柜里還藏著個半裸的干兒子

西樓知趣雜談
2026-04-26 10:18:11
外籍游客在浙江一景區(qū)水源地洗澡?涉事景區(qū)辟謠:照片非景區(qū),閉園已超一年

外籍游客在浙江一景區(qū)水源地洗澡?涉事景區(qū)辟謠:照片非景區(qū),閉園已超一年

上游新聞
2026-05-30 22:14:05
中方勸告失效,李在明我行我素,向世界宣告,韓國加快引進核潛艇

中方勸告失效,李在明我行我素,向世界宣告,韓國加快引進核潛艇

鐵錘簡科
2026-05-30 12:42:24
1夜7大轉(zhuǎn)會!曼聯(lián)第二簽,阿萊格里執(zhí)教那不勒斯,B席加盟巴薩!

1夜7大轉(zhuǎn)會!曼聯(lián)第二簽,阿萊格里執(zhí)教那不勒斯,B席加盟巴薩!

田先生籃球
2026-05-30 09:35:25
誰找盧秀燕誰贏?兩個女人的戰(zhàn)爭正式開打

誰找盧秀燕誰贏?兩個女人的戰(zhàn)爭正式開打

林子說事
2026-05-31 12:09:08
強烈建議中老年人:夏天常吃“2菜1瓜”,鮮嫩營養(yǎng)高,越吃越健康

強烈建議中老年人:夏天常吃“2菜1瓜”,鮮嫩營養(yǎng)高,越吃越健康

江江食研社
2026-05-29 10:30:14
五千萬啃光!馬蓉從闊太淪落澳洲超市夜班,出門捂臉不敢見人

五千萬啃光!馬蓉從闊太淪落澳洲超市夜班,出門捂臉不敢見人

皮蛋兒電影
2026-05-14 09:59:14
落地鳳凰不如雞!下嫁日本“倭化”嚴重的林志玲,還是走到了今天

落地鳳凰不如雞!下嫁日本“倭化”嚴重的林志玲,還是走到了今天

感恩每一刻
2026-05-31 03:21:27
黑馬本色盡顯!淘汰鄭欽文之人逆轉(zhuǎn)前世界第3,首進大滿貫16強

黑馬本色盡顯!淘汰鄭欽文之人逆轉(zhuǎn)前世界第3,首進大滿貫16強

全景體育V
2026-05-30 19:31:56
2026-05-31 14:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15349文章數(shù) 66894關(guān)注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經(jīng)要聞

醫(yī)學首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

藝術(shù)
教育
健康
本地
公開課

藝術(shù)要聞

Luis Alvarez Roure | 美國現(xiàn)實主義畫家

教育要聞

四年級簡便運算的易錯題:掌握方法很easy

嘗試干細胞療法如何避免踩坑?

本地新聞

用剪紙的方式,打開江蘇揚州

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版