網易首頁 > 網易號 > 正文 申請入駐

Claude終于認了!降智坐實,越聊越傻,3個bug全曝光

0
分享至

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

感謝OpenAI(doge)。

就在GPT-5.5發布的前后腳,Claude招了:

模型降智屬實,所有使用額度均已重置。



嘴硬了一個多月,這降智bug終于從A社自己嘴里蹦出來了:

  • 推理等級偷偷從「高」調成「中」
  • 緩存bug導致每輪對話都清空思考記錄
  • 一句25詞限制的提示詞砸了輸出質量

三個bug疊在一起,Claude使用體驗全面拉垮。

只能還好說友商今天及時給上了一波壓力,教育用戶終究不可取。



不過,說歸說,更新bug當然是好事。就是這時間也太巧了,GPT-5.5剛發,Claude就開始「認慫」。

難不成是5.5幫忙debug的?

Dario啊,你該不會真的是故意讓Claude變笨,好在GPT-5.5放出來的時候找畫面的吧?



Bug實錘了,一共三個

先說一句,這已經不是第一次了。

去年8月,Anthropic剛發過一次類似的降智postmortem,當時影響的是Opus 4.0和4.1,官方說辭也是「我們從未有意降低模型質量」。

這次新postmortem的標題叫「A postmortem of three recent issues」。recent,意思也很明白。

不是剛剛,是最近。



之所以「最近」,是因為Claude降智這事兒,社區已經嚷嚷吵了很久了。

十多天前,AMD AI組高級總監Stella Laurenzo就在GitHub上發了一份硬核審計報告,覆蓋6852份會話文件、17871個思考塊、超過23萬次工具調用。



分析結果顯示,從2月份開始,模型的推理深度出現了斷崖式下滑。

更細節的發現是,Claude開始陷入reasoning loops,而且有明顯的傾向去選「最簡單的修復」而不是正確的修復。

BridgeMind的BridgeBench測試也在同期炸鍋,Opus 4.6準確率從83.3%掉到68.3%,排名從第2跌到第10。



雖然后來被研究者批評方法論有問題,前后測試的任務數量根本不一樣,但「Claude變蠢了」的敘事已經傳開了。

網友甚至造了個新詞,AI shrinkflation,AI縮水通脹。同樣的價格,你拿到的是稀釋過的產品。

換句話說,大伙買到了A社的「兒童套餐」。

但沒辦法,當時Claude確實是打遍天下無敵手,不少用戶邊罵邊用,沒啥脾氣。

直到GPT-5.5發了,A社終于坐不住,在官方博客上發了一篇postmortem,把過去兩個月的「降智」拆成三條獨立問題:

偷偷降了推理等級

3月4日,Claude Code的默認推理從high調成了medium,理由是high模式下延遲太高。但界面上還是顯示「high」。用戶以為自己在用滿血版,實際拿到的是降檔貨。一個多月后才回滾。

越聊越傻

3月26日上了個緩存優化,本意是會話空閑超過一小時后清掉舊的思考記錄。結果代碼有bug,清除變成了每一輪都執行。

Claude繼續干活,但逐漸忘了自己為什么要干這件事。健忘、重復、工具調用亂飛,就是這個bug的癥狀。

而且因為思考記錄被反復清,每次請求都緩存未命中,token消耗反而飆升。花了15天才修好。

一句提示詞砸了輸出質量。

4月16日,系統提示里加了一條「工具調用之間文字不超過25個詞,最終回復不超過100個詞」。

Opus 4.6和4.7都掉了3%性能,四天后回滾。

三個問題影響不同用戶群,在不同時間段生效。疊加起來的效果就是整個Claude Code在持續、不均勻地變差,但誰也說不清到底哪里不對。

官方推特上,ClaudeDevs發總結,Claude之父Boris Cherny也親自下場回復,并預告Opus 4.7的bug也正在de了。



但問題是,光有bug不夠解釋這兩個月發生的一切。

四月里,A社的騷操作一籮筐

把時間線拉開看,四月其實是A社連續三拳打在自己臉上。

4月4日,Anthropic封禁了OpenClaw等第三方agentic工具通過Pro/Max訂閱運行。想繼續用?去走API按token付費。

4月21日,官方定價頁悄悄把Pro plan里的Claude Code去掉了,支持文檔也從「Pro或Max plan」改成了「只有Max plan」。

被網友抓包后,Head of Growth Amol Avasare出來說這只是2%新用戶的A/B測試。但問題是公開頁面是全站更新的,口徑完全對不上。幾小時后灰頭土臉地回滾。

連起來算一筆賬。Pro用戶20/月,年費240。要繼續用Claude Code,得升到Max 5x,100/月起步,年費1200。五倍。Max 20x是2400,十倍。中間沒有過渡檔。

注意,這里單位是美元。

4月23日,就是今天,postmortem上線,補償是重置使用額度。

有網友不客氣地指出,上周Opus 4.7發布時就已經重置過一次了,所以這次的「補償」其實就是一次正常的周期重置。

三件事連起來,味道就不是bug了,是成本焦慮全面爆發。

網友不買賬

綜上種種,對于Claude,網友的反應也開始分化。

有人覺得出bug可以理解,postmortem寫得也算透明。Boris在HN一條一條回復,這比大多數公司做得好。



但更多人在算另一筆賬。

這兩個月里,所有正式渠道一聲不吭。

只有幾個員工在X上零星回復用戶,而且被批評為「隨機時間隨機回復」,完全不成體系。



還有人質疑「緩存優化」的真正動機。清除思考記錄的觸發時間恰好卡在緩存過期的節點上,有人覺得這不是為了降延遲,是為了省成本。

同期Anthropic還對一小部分Pro用戶做了A/B測試,悄悄給了不同的產品配置,信任又挨了一刀。



補償措施是重置使用額度。有人不客氣地指出,上周Opus 4.7發布時就已經重置過一次了。

BridgeMind的BridgeBench測試也在這段時間炸了鍋,顯示Opus 4.6準確率從83.3%掉到68.3%,排名從第2跌到第10。

雖然后來被研究者批評方法論有問題,前后測試的任務數量根本不一樣,但「Claude變蠢了」的敘事已經傳開了。

正如一位網友說的,不能把所有雞蛋放在一個模型公司里。



One more thing

HN評論區里一個有意思的現象,不少人在聊自己的「遷移經歷」。

有人說二月份就「下意識地」轉去了Codex,直到現在才意識到大概是被Claude變差給逼的。



也有人說GPT-5.4已經比Opus4.6好了。



還有人在用MiniMax做補充,40美金4500條消息一個5小時周期,還能看到完整思考過程。



半年前「寫代碼就用Claude」幾乎是共識。

現在Codex有400萬活躍用戶,GPT-5.5主打的就是編碼和計算機操作能力,連OpenAI的人都直接說這個模型能當「參謀長」用。

Claude不是變差了。是別人變好了,而它在最不該出問題的時候出了問題。

留給Anthropic修bug和重建信任的窗口,比兩個月前窄了不少。

GPT-5.5已經發布,DeepSeek V4儼然就位。



Gemini快來吧!就差你了。

[1]https://www.anthropic.com/engineering/april-23-postmortem

[2]https://news.ycombinator.com/item?id=47878905

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新款紅旗HS5亮相車展,外觀大氣,內飾豪華,空間寬敞,2.0T動力

新款紅旗HS5亮相車展,外觀大氣,內飾豪華,空間寬敞,2.0T動力

紅濤說車
2026-04-25 16:38:09
激進搶市場“吞惡果”,三一重能凈利潤創上市來新低| 財報異動透視鏡

激進搶市場“吞惡果”,三一重能凈利潤創上市來新低| 財報異動透視鏡

華夏時報
2026-04-25 20:53:12
朝鮮戰爭期間:美軍原來已接近擊敗中國,卻碰上中國決死的指揮官

朝鮮戰爭期間:美軍原來已接近擊敗中國,卻碰上中國決死的指揮官

最美的巧合
2026-04-12 10:36:36
湖人在G3擊敗火箭后,宣布關于勒布朗·詹姆斯的重要消息!

湖人在G3擊敗火箭后,宣布關于勒布朗·詹姆斯的重要消息!

夜白侃球
2026-04-25 23:54:45
《黑夜告白》開播!觀眾要求下架,理由:故弄玄虛、掛羊頭賣狗肉

《黑夜告白》開播!觀眾要求下架,理由:故弄玄虛、掛羊頭賣狗肉

趣味八卦
2026-04-26 16:30:17
拜仁女足總監:球員的頭發都垂到了臀部,拽頭發犯規應該修改

拜仁女足總監:球員的頭發都垂到了臀部,拽頭發犯規應該修改

懂球帝
2026-04-26 13:18:18
約基奇談沖突:停止比賽了他還去得分;這么做不是想激勵隊友

約基奇談沖突:停止比賽了他還去得分;這么做不是想激勵隊友

懂球帝
2026-04-26 13:16:09
一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

川渝視覺
2026-04-25 20:19:24
5月1日新規落地!3項收費正式全面取消,老百姓再也不用亂花錢

5月1日新規落地!3項收費正式全面取消,老百姓再也不用亂花錢

復轉這些年
2026-04-26 17:11:23
四大主播離職,俞敏洪公開致歉

四大主播離職,俞敏洪公開致歉

南方都市報
2026-04-26 12:50:43
烏度卡:不想被橫掃是我們的動力,沒人想在履歷上留下被橫掃

烏度卡:不想被橫掃是我們的動力,沒人想在履歷上留下被橫掃

林子說事
2026-04-26 10:10:55
美國財長放出狠話,只需要4年時間,就能讓中國王牌失效

美國財長放出狠話,只需要4年時間,就能讓中國王牌失效

小蜜情感說
2026-04-26 18:27:36
挑釁!臺記者故意稱賴清德為 “總統”,國臺辦當場糾正仍拒不悔改

挑釁!臺記者故意稱賴清德為 “總統”,國臺辦當場糾正仍拒不悔改

愛看劇的阿峰
2026-04-26 13:13:56
全網尋找鄂WJP928司機!武漢警方:依法不予處罰

全網尋找鄂WJP928司機!武漢警方:依法不予處罰

環球網資訊
2026-04-26 08:19:12
御姐穿搭:氣場不是天生的,是穿出來的

御姐穿搭:氣場不是天生的,是穿出來的

疾跑的小蝸牛
2026-04-25 23:00:21
女子酒店抓獲丈夫出軌,無法容忍不戴避孕套,丈夫:她是我朋友

女子酒店抓獲丈夫出軌,無法容忍不戴避孕套,丈夫:她是我朋友

李晚書
2026-04-24 10:39:33
山東校長崔玉軍被查,巨額回扣損害教育公平,家長心聲引發關注!

山東校長崔玉軍被查,巨額回扣損害教育公平,家長心聲引發關注!

金哥說新能源車
2026-04-26 08:47:09
事態已升級,1.7萬外軍集結,3面圍堵中國,解放軍萬噸戰艦已就位

事態已升級,1.7萬外軍集結,3面圍堵中國,解放軍萬噸戰艦已就位

阿傖說事
2026-04-26 10:44:32
杜月笙救人一命后,對方送來二十根金條,他只留下一個梨

杜月笙救人一命后,對方送來二十根金條,他只留下一個梨

千秋文化
2026-03-31 20:54:38
1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環提出:我想回家

1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環提出:我想回家

華人星光
2026-04-20 09:59:15
2026-04-26 19:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12536文章數 176457關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

本地
數碼
時尚
公開課
軍事航空

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

數碼要聞

一加120W充電寶有多猛?30分鐘充68%

IU的臉,真的有自己的時間線

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版