網易首頁 > 網易號 > 正文 申請入駐

Claude變蠢了,新模型發布前的黑暗時刻?

0
分享至

文 | 字母AI

Claude Opus變蠢了。

最近一段時間,越來越多用戶開始有一種很難講的感覺:雖然這個模型沒有明顯出錯,但也不再像以前那樣“聰明”。

回答更快了,推理更短了,有時候看起來像是跳過了某些本該認真完成的步驟,變得敷衍了。

如果這種情況只是個例,用戶可能還會懷疑是不是自己的問題,但當相似的聲音越來越多,這就不再是單純的“感覺不對”了。

網上甚至開始出現一些視頻,調侃現在的Opus就像兇猛的獅子被摘了毛圈,發現原來只是一條狗。

一個更直接的說法開始流傳:Opus被削了!

這是真的嗎?如果是真的,它為什么會被削呢?


推理深度下降67%

一開始只是零星的用戶在吐槽,說 Claude Opus“變懶了”“沒以前聰明了”。

可能只是偶爾犯了一些過去不會犯的低級錯誤,或者在復雜任務里少做了幾步推理。

某種意義上,和模型的協同很像是和真人的交往,一直以來配合得很好的“同事”某天忽然變臉了,擱誰誰都得難受。

碰到這種情況,大多數人的第一反應都是懷疑自己:是不是prompt寫得不夠好?還是任務本來就不適合?這種情況應該只是偶然事件吧?

但很快,在Reddit的Claude社區里,類似的反饋開始密集出現,而且描述高度一致:

有人說它不再仔細讀代碼;有人說它更快給答案,但經常漏掉關鍵步驟;也有人發現,它在長任務中更容易“提前結束”,像是默認事情已經完成。


當不同用戶在不同場景下開始重復同一類問題時,這件事似乎不再是所謂的“感覺不對”,更像是一種行為模式的變化。

換句話說,不是感覺錯了,是模型真的在變。

真正讓討論升級的是這個數字:有人在Claude Code的使用過程中,對歷史交互日志進行對比,發現模型在復雜任務中的推理過程明顯縮短,自2月更新以來,推理深度下降了67%。


(參考鏈接:https://github.com/anthropics/claude-code/issues/42796)

作者坦率地說明,67%是基于簽名長度與思考內容長度的相關估計,而不是直接測量。還提到一月份的日志被刪除了,所以基線對比不太準確。

相比之下,報告里更有說服力的,其實是那些行為層面的變化。比如read:edit(讀取代碼vs修改代碼)的比例,從6.6下降到了2.0;3月8日之后,被stop hook捕捉到的違規行為有173次,而之前是0。


不過數字是否精確并沒有那么重要,重要的是它讓一件原本模糊的體感問題,第一次被量化成一個可以討論的趨勢。

于是,一個新詞在社區里開始流行:“AI shrinkflation”(AI縮水式通脹)

縮水式通脹是一個經濟學術語,指的是商品的大小或數量減少,而價格不變。放在這里的意思也很直接,模型實際給到用戶的能力變少了,但模型看起來還是同一個名字。

敷衍的背后

相比社區的激烈反應,Anthropic并沒有直接承認“模型變弱”。

Claude Code的開發負責人Boris給出的解釋是,這些變化來自系統層的調整:包括工具調用方式、推理策略以及資源分配機制的變化,而不一定是模型本身能力的下降。

他舉了個例子:在Claude Code中,一部分問題被認為源于工具鏈和系統prompt,而不是模型本身;與此同時,在高負載情況下,系統需要對算力、token和請求進行控制,這也會影響用戶體驗。

在最新版本中,Anthropic引入了一種叫“自適應推理”(adaptive thinking)的機制,模型會根據任務復雜度,動態決定是否以及使用多少推理。

也就是說,并不是模型變差了,只是模型開始“自己決定”要使用多少算力。


(參考鏈接:https://news.ycombinator.com/item?id=47660925)

從工程角度看,這是一種很合理的優化,簡單任務少思考,復雜任務多思考,以提升整體效率

但問題在于,效率優化和能力削弱,在用戶體驗上并沒有區別。

當一個模型開始更少閱讀上下文、更快給出答案、更頻繁地提前結束任務,用戶感受到的不會是優化,而是敷衍。

而且這個自適應推理機制,從感性的角度來講,也確實會讓人不太舒服。

還是拿人際交往的那個比喻:憑什么一開始好好的,用到后面就覺得我的事情不重要了?

這種不適感很快被另一個變化放大了:Mythos還未發布就廣受關注,Claude Mythos Preview直接被Anthropic稱為“能力躍遷的一代”,在代碼與安全任務上表現出遠超以往的能力。因此它被限制性地提供給少數機構使用,用來加固“全球最關鍵的軟件系統”。

當“更強的新模型”與“體感變差的舊模型”同時出現,一個在社區中不斷被提起的猜測開始成型:把舊模型削了再抬新模型,一捧一踩,就會顯得新模型有著巨大的升級。

這個邏輯沒有直接證據,但它正在被越來越多用戶相信。


模型不再穩定

實際上,類似的事情對AI來說并不陌生。

早在2023年就有研究對比了GPT-4在不同時間的表現,發現同一個模型在幾個月內,推理方式和輸出行為都發生了明顯變化。這些變化后來被解釋為多種因素疊加的結果:包括推理策略調整、安全策略收緊,以及對成本和響應速度的優化。


把陰謀論拋在一邊,如果確實存在一定程度的資源傾斜,在AI行業其實算是常態:無論是OpenAI還是Google,幾乎所有公司都會優先優化最新一代模型,舊模型則逐漸被邊緣化。

算力是成本,也是生產力。當新模型的能力上限更高、潛在價值更大時,把更多資源投入進去,本身是一種理性的選擇。

在這個過程中,舊模型的狀態自然會發生變化:被“降權”、推理深度被壓縮、資源分配被重新調整……這些都可以理解為一種工程上的取舍。

不過理解歸理解,新模型不開放給大眾使用,舊模型又在毫無征兆的情況下弄成這樣,誰能輕易接受?


從用戶的視角來看,最讓人不滿的并不是模型的“變蠢”,而是它的“不穩定”。

當模型本身從一個穩定的工具變成一個會不斷變化的系統,它自己做出了“更好的調整”,沒有提示,沒有版本說明,也沒有邊界。

作為用戶,你不知道它什么時候變了,不知道它具體變了什么,更不知道這種變化會不會影響你正在做的事情。

你只能感受到它變了,變得沒以前好用了。

這個時候,有一個新模型放在你的面前,看起來比現在這個更穩定、更可靠,或許用起來會更順手。

于是選擇就變得微妙起來:似乎不再是你主動選擇新模型,而是舊模型的變化把你推向更新的那一個。

即使你知道,新模型也可能在某一天變成下一個舊模型,可能還是會猝不及防地“優化”成讓人難受的版本。

但在那一刻,差距已經擺在眼前。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

二胡的歲月如歌
2026-04-26 08:37:16
體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

橙星文娛
2026-04-25 11:14:17
賴清德鬧出大笑話、甩鍋大陸!鄭麗文需明白一件事,要警惕盧秀燕

賴清德鬧出大笑話、甩鍋大陸!鄭麗文需明白一件事,要警惕盧秀燕

野史日記
2026-04-25 09:00:15
東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

懂球帝
2026-04-25 18:30:45
美媒痛哭發現,美國瞎折騰了七八年,中國卻已不可阻擋

美媒痛哭發現,美國瞎折騰了七八年,中國卻已不可阻擋

阿豐聊娛
2026-04-26 08:06:11
中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

林子說事
2026-04-25 17:48:24
與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

鋒芒點兵
2026-04-19 11:50:21
紀實:浙江女教師突然失蹤6年,13歲兒子憑借一個夢找到母親

紀實:浙江女教師突然失蹤6年,13歲兒子憑借一個夢找到母親

紅豆講堂
2024-10-25 09:45:59
福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

新浪財經
2026-04-24 07:10:27
唐家三少從2014年的時候,就已經實現了通過寫網絡小說年入五千萬

唐家三少從2014年的時候,就已經實現了通過寫網絡小說年入五千萬

歲月有情1314
2026-04-25 01:49:33
鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

談古論今歷史有道
2026-04-25 10:55:03
太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

火山詩話
2026-04-25 16:38:17
陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風頭

陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風頭

草莓解說體育
2026-04-26 09:11:29
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說天下
2026-04-25 11:15:04
日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

行者聊官
2026-04-24 20:48:30
央8新劇4.28登陸黃金檔!實力派集結 都市情感劇再出誠意之!

央8新劇4.28登陸黃金檔!實力派集結 都市情感劇再出誠意之!

動物奇奇怪怪
2026-04-26 10:59:22
第一集就全裸出鏡,女神新劇太生猛了

第一集就全裸出鏡,女神新劇太生猛了

來看美劇
2026-04-24 22:03:11
拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

今朝牛馬
2026-04-07 22:43:23
黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

觀魚聽雨
2026-04-24 23:08:32
明查|日本自衛隊坦克炸膛涉“中國制造”?型號搞錯了,且此“中國”非中國

明查|日本自衛隊坦克炸膛涉“中國制造”?型號搞錯了,且此“中國”非中國

澎湃新聞
2026-04-25 07:16:29
2026-04-26 12:03:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
132791文章數 862118關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

游戲
本地
教育
健康
軍事航空

PS5獨占新作外媒打滿分!直言媲美《艾爾登法環》

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

壓軸出場的題目,很多小朋友都失分了

干細胞如何讓燒燙傷皮膚"再生"?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版