![]()
機器之心編輯部
今天 AI 圈好不熱鬧,先是 OpenAI 聲勢浩大發布 GPT5.5,接著是盼了又盼的 DeepSeek v4 終于發布。
而就在這狂歡的夾縫中,Anthropic 也在「搞事情」,不過不是發布新模型,而是發了一份鄭重其事的聲明:沒錯,你們說 Claude Code「降智」是真的,不過這都是有原因的……
「在過去一個月里,一些用戶反饋 Claude Code 的質量有所下降。我們對此進行了調查,并發布了一份事后復盤報告,總結了發現的三個問題。」
![]()
具體的故事情節要從今年 3 月開始說起,那時候就有網友陸續在 Hacker News、Reddit 等社區吐槽 Claude Code 正變得越來越慢、越來越笨,直言「Claude Code 甚至已經退化到無法用于復雜工程任務的地步」。
![]()
隨著網友討論聲量的變大,Anthropic 的 Claude Code 工程負責人 Boris Cherny 直接在 GitHub 上回答了網友的疑問,說是做了一些調整,但主要是一些 UI 層面的改動,不應該影響思考本身,也不影響思考預算或擴展推理的底層運作方式啊?
可大家并不買賬,主要原因就在于,你說了等于什么都沒說。模型「降智」是真的不好用是真的,不管什么原因,一直沒給個說法也是真的……
之后,這種討論和吐槽一直還是在繼續,直到今日,官方終于下場了。
Anthropic 表示,其實這些問題源自 Claude Code 和 Agent SDK 的運行框架(Harness),而由于 Cowork 也是基于該 SDK 運行,因此同樣受到了影響。「模型本身并沒有出現能力退化,Claude API 也未受到影響。」
![]()
至于「發現的三個問題」,具體是這樣的:
- 一是「推理努力度調整」未果,反倒讓用戶覺得模型「變笨」
3 月 4 日,Anthropic 將 Claude Code 的默認推理強度從「high」調整為「medium」,以減少部分用戶在高強度模式下遇到的超長延遲(嚴重時甚至會讓界面看起來像「卡死」)。但事實證明這是一個錯誤的權衡。
于是,等到 4 月 7 日,在用戶反饋更希望默認獲得更高智能、僅在簡單任務中再選擇低強度后,Anthropic 撤回了這一改動。但沒想到,此次調整影響了 Sonnet 4.6 和 Opus 4.6 版本。
![]()
- 二是緩存機制出現了 Bug
3 月 26 日,Anthropic 上線了一項改動,出于優化會話閑置時的清理邏輯,對超過一小時未使用的會話,在用戶重新進入時清理舊的「思考」內容,以降低恢復會話時的延遲。
但意外的是,出現了一個 Bug,導致這個清理操作在后續每一輪對話中都會持續觸發,而不是「只執行一次」,從而讓 Claude 看起來「持續失憶、健忘且重復」。
Anthropic 察覺到之后,已于 4 月 10 日修復了該問題,但同樣,又直接影響了 Sonnet 4.6 和 Opus 4.6。
![]()
- 三是系統提示詞變更
4 月 16 日,Anthropic 在系統提示詞中加入了一條「降低冗長度」的指令:
「長度限制:在工具調用之間的文本應控制在不超過 25 個詞。除非任務需要更多細節,最終回復應控制在不超過 100 個詞。」
可在與其他提示詞改動疊加后,這一調整反而損害了代碼任務的表現,限制了模型在處理復雜任務時的思考深度,導致 coding 質量的下降。
于是,Anthropic 在 4 月 20 日撤回這了一變更,但再一次,該問題又影響了 Sonnet 4.6、Opus 4.6 以及 Opus 4.7。
另外,Anthropic 也在「反省」,因為這些改動分別在不同時間、作用于不同用戶流量切片,疊加起來的整體效果表現為「廣泛且不一致」的性能下降。
因此,盡管 Anthropic 從 3 月初就開始調查相關反饋,但最初這些問題很難與正常的用戶反饋波動區分開來,而且內部使用情況和評測也未能第一時間復現這些問題,所以帶給用戶這些困擾。
為了表示歉意,截至 4 月 23 日,Anthropic 將重置所有訂閱用戶的使用限額。
另外,為了以后能夠避免類似問題的再次發生,Anthropic 宣布后續將采取多項改進措施:
- 確保更大比例的內部員工直接使用與用戶一致的 Claude Code 公共版本,而非用于測試新功能的內部版本,避免內部與外部環境脫節;同時,改進內部使用的代碼審查工具,并將升級后的版本提供給用戶。
- 強化「系統提示詞」的評估流程,對其變更施加更嚴格的控制,每一次修改前,將進行更廣泛的「消融實驗」,即逐行測試提示詞的影響;此外,在 CLAUDE.md 中新增了指導,確保模型特定的改動只作用于對應模型。
- 對于可能影響模型智能水平的變更,將引入更長的觀察期和更細致的灰度發布,以便更早發現問題。
不得不說,難得看到「高傲」的 Anthropic 如此正視自己的問題,看來大家的「吐槽」還是有效果的。
那么你呢,覺得此次 Anthropic 的態度如何,給出的理由是否有說服力?歡迎大家留言、交流!
https://x.com/bcherny/status/2047375800945783056
https://news.ycombinator.com/item?id=47878905
https://www.anthropic.com/engineering/april-23-postmortem
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.