網易首頁 > 網易號 > 正文 申請入駐

Claude越更越廢?AMD AI負責人甩出23萬次調用記錄:已“變蠢+擺爛”,復雜工程根本干不了

0
分享至


整理 | 蘇宓

出品 | CSDN(ID:CSDNnews)

“Claude 無法勝任復雜的工程任務。”

近日,曾被視為最強 AI 編碼工具之一的 Claude Code,遭遇了前所未有的信任危機。帶頭提出質疑的,是 AMD 人工智能部門的負責人——她直言吐槽 Claude Code 越更新越差,不僅“變蠢”,還學會了偷懶擺爛。

不僅如此,她更拿出了數萬條實際使用數據進行深度分析,實錘了這一說法。



一則 GitHub issue,引全網熱議

這場爭議的導火索,源于 4 月 2 日一名昵稱為 stellaraccident 的用戶,在 Claude Code 的 GitHub 項目頁面上提交的一個問題反饋(Issue)。

她沒繞任何彎子,直接在 issue 標題中就帶著不滿:“2 月份的更新導致 Claude Code 無法用于復雜的工程任務”。


根據該用戶的 GitHub 個人資料和相關 Linkedln 帖子顯示,這位發帖人正是芯片制造商 AMD 人工智能部門主管 Stella Laurenzo。


她明確列出了更新后 Claude Code 的四大問題,堪稱“四宗罪”:

  1. 無視指令

  2. 聲稱“最簡單的修復方案”,但其實是錯誤的

  3. 執行與要求相反的操作

  4. 在未按要求完成的情況下聲稱已完成

為了證明自己并非隨口吐槽,Stella Laurenzo 還拿出了團隊幾個月的使用日志,里面詳細記錄了 6852 次會話,這些會話包含了 234760 次工具調用和 17871 個思維塊。

所有數據都指向一個結論:2月份之后的 Claude Code,就是在擺爛,稍微復雜一點的工程活,根本信不過。


Claude Code 到底擺爛成什么樣?

通過對會話文件的量化分析,Stella Laurenzo 指出:思考內容脫敏功能(redact-thinking-2026-02-12)的上線,與復雜長會話工程工作流的質量退化,有著精準的對應關系。

數據顯示,擴展思考 token 并非“錦上添花”,而是模型執行多步驟研究、遵守規范、精細修改代碼的核心必要條件。

一旦思考深度降低,模型的工具使用模式就會從“先研究后修改”,明顯轉變為“直接修改”,這也直接引發了用戶反饋的各類質量問題。

Stella Laurenzo 以及其團隊基于以下幾個維度剖析了 Claude Code 這幾個月間的變化:

1.思考內容隱藏時間線與質量回退相吻合

從會話 JSONL 文件中對思考塊的分析結果來看,變化更為直觀:


調查報告顯示,質量退化問題于 3 月 8 日被獨立上報,而這一天,恰好是脫敏思考塊占比突破 50% 的日子。據悉,脫敏功能是分階段部署的,從 1.5% 逐步提升至 25%、58.4%,最終在一周內達到 100%。

2.脫敏前思考深度已大幅下降

1 月份時,Claude Code 每次思考的內容大約有 2200 個字符,能看出是在認真琢磨問題。可到了 2 月底,思考字符數直接暴跌至 720 個,相當于減少了三分之二的思考量,思考深度下降了 67%。


除了思考偷懶,Stella Laurenzo 和 AMD 團隊還檢測了 Claude Code 的多項質量指標。

在思考分析完成前,他們已基于 18000 + 用戶提示詞獨立計算以下指標:


此外,他們也編寫了 stop-phrase-guard.sh 停止鉤子,用于自動檢測推諉、提前停止、請求許可等敷衍行為。

結果顯示,3 月 8 日后的 17 天內,這個鉤子被觸發了 173 次,而在此之前,從未被觸發過。

另外,Claude Code 的工作態度也發生了徹底轉變,最核心的變化就是修改代碼的邏輯:以前它會先認真閱讀相關文件,再動手修改,但對 234760 次工具調用的分析顯示,現在的它,已經不再先閱讀代碼再修改了。

調查數據清晰地呈現了這一退化:1 月份時,Claude Code 改一次代碼平均要讀取 6.6 次文件,生怕出現錯誤。這算是它的“良好期”,會先讀取目標文件、關聯文件,全局檢索用法,查看頭文件與測試用例,再進行精準修改。

可到了 3 月底,它平均只讀 2 次文件就敢直接動手修改,降幅超過 70%。這樣一來,問題自然層出不窮:僅讀取當前文件就直接修改,常常忽略上下文,進而出現亂插代碼、破壞原有注釋、重復編寫邏輯等問題,寫出來的代碼 Bug 滿天飛。

很多程序員反饋,后續修改這些 Bug 的時間,比自己重新寫一段代碼還要久。


除此之外,Claude Code 全新寫入的占比翻倍,模型更傾向于重寫整個文件,而非精準修改。這樣做雖然速度更快,但會丟失精度與上下文感知,反而得不償失。


Stella Laurenzo 還進一部分分析了受影響的工作流,主要包括:

  • 50 + 并發代理會話執行系統編程(C、MLIR、GPU 驅動)
  • 30 分鐘以上自主運行,執行復雜多文件修改
  • 嚴格的項目規范(5000 + 字 CLAUDE.md 文檔)
  • 代碼評審、工單管理、迭代調試
  • 良好期單周末合并 19.1 萬行代碼

其指出,擴展思考是模型實現以下能力的核心機制:

  • 行動前規劃多步驟方案(讀取文件、執行順序)

  • recalling 并遵循項目規范

  • 輸出前自我檢查錯誤

  • 判斷任務是否完成、會話是否繼續

  • 數百次工具調用中保持邏輯連貫

而當思考深度不足時,模型就會選擇最省力的操作:不讀取文件直接修改、未完成任務就停止、推諉責任、用最簡單的方案替代正確方案。

從 2 月到 3 月,Claude Code API 請求量直接暴漲了 80 倍,輸出的 token 也增加了 64 倍。據估算,每月的使用成本從幾百美元,直接飆升到 4 萬多美元。本來想省單次思考的算力,結果因為 Claude Code 反復改錯、需要不斷重試,反而讓整體成本直接失控,簡直是賠本賺吆喝。



訴求:雖然我已換了其他大模型,但還是希望 Anthropic 能修復產品

面對這樣的結果,Stella Laurenzo 表示,這不是她一個人遇到的問題,而且情況已經嚴重到無法在工作環境中繼續使用 Claude Code 的地步。

她說道:“我們的工作環境復雜度高且穩定,通過挖掘數月日志,我們明確了問題的根源——自 2026 年 2 月起,Claude 已無法可靠完成復雜工程任務。團隊所有資深工程師均反饋了類似問題,其中一位工程師擁有可復現的測試流程,我們基于其日志開展實驗與數據分析,且已嘗試所有公開的變通方案。”

在 Stella 看來,自己發布這份反饋,并不是為了抹黑 Anthropic,而是真心希望他們能重視這個問題,拯救 Claude Code 這個曾經的好產品。“我們已切換至其他服務商,其服務質量更優,但 Claude 曾為我們提供良好支持,因此提交此問題,希望 Anthropic 能修復產品。

對此,其提出了四個建議:

  • 關于思考資源分配的透明度:如果思考 token 被減少或設上限,依賴深度推理的用戶需要知情。目前的 redact-thinking header 讓外部無法驗證這一點。

  • “最大思考”等級:執行復雜工程工作流的用戶愿意為保證深度推理付出更高費用。目前的訂閱模式沒有區分需要每次 200 個思考 token 的用戶和需要 20,000 個的用戶。

  • API 響應中的思考 token 指標:即使思考內容被隱藏,如果在使用情況響應中暴露 thinking_tokens,用戶仍可監控自己的請求是否獲得了所需的推理深度。

  • 高階用戶的金絲雀指標:停止鉤子違規率(從 0 → 每天 10 次)是一個可機器讀取的信號,可以在整個用戶群體中監控,作為質量回退的領先指標。


網友吐槽:從“封神”到“勸退”,落差太大

不光 AMD 這位高管,全網的程序員們看到這份反饋后,像是找到了組織,評論區里一片哀嚎。

有人表示,這段時間一直懷疑是自己技術下滑了,寫代碼總被 Claude Code 帶偏,直到看到這份反饋才知道,原來大家都有一樣的困擾。

作為 Claude 曾經的忠實用戶,程序員 bbecausereasonss 在 Reddit 上發帖稱:“我已經無法再心安理得地向客戶推薦 Claude Code 了。”

他表示:“我是 MAX 用戶。剛開始使用 Claude Code 時,我真的被震撼到了。自 2022 年以來我一直在用 AI 做開發,這一次確實讓我感覺像是一個重要的歷史時刻。我曾經把 Claude Code 推薦進客戶的項目和開發流程中,在社交媒體上大力稱贊它,也在私下里不斷安利給身邊的人。”

但他話鋒一轉,吐槽當前版本的模型狀態:“懶惰、無知、能力退化且視野狹隘,在還沒有真正理解整體問題和各種邊界情況之前,就盲目開始‘修復’——而且大多數補丁反而把事情搞得更糟。我已經無法再負責任地繼續推薦它了,因為這只會讓我看起來像個傻子,或者在胡說八道,甚至兩者兼具。”

他還直言:“Claude Opus 在過去幾周簡直是一場災難——甚至還沒提到使用額度的問題。一個很貼切的比喻是,它像是被‘做了腦葉切除手術’,智商從 135–150 直接掉到 90–100,感覺退化成了 Sonnet 3.5。真的很失望。”


還有人追問 Stella Laurenzo 究竟在用什么模型替代 Claude Code:

“Claude 已經退化到無法被信任去完成復雜工程任務的地步。”

差不多,但我覺得更準確的說法是:Claude 已經退化到連任何工程任務都不值得信任的程度了。

它從來沒有一次就把事情做對過,寫出來的代碼充滿 bug 和重復邏輯,而且必須全程盯著,否則它一定會把東西搞壞。

它已經變成了另一個 AI“玩具”。挺可惜的。

能否分享一下你在用的“其他工具”?我也想試試。

不過,Stella Laurenzo 并沒有指出自己用的是哪款模型替代。而是補充說道:「在 6 個月前,Claude 在推理質量和執行能力上幾乎是獨一檔的。但現在,其他競品也需要被非常認真地重新評估。就能力層級而言,Anthropic早已不再是唯一一個處在 Claude Opus 曾經所在水平的玩家。

現在網友們的呼聲其實很一致:對于 AI 編程助手,可以接受它慢一點,但絕對不能接受它變蠢、變懶,更不能接受它敷衍了事。畢竟大家用 AI 編程助手,不是想要一個“快但錯”的打字機,而是想要一個能一起思考、能扛事的隊友,要是連最基本的思考都沒了,那這個工具,也就失去了它存在的意義。

對此,你在使用 Claude Code 有什么樣的感受?

參考:

https://github.com/anthropics/claude-code/issues/42796

https://github.com/stellaraccident

https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/

【活動分享】"48 小時,與 50+ 位大廠技術決策者,共探 AI 落地真路徑。"由 CSDN&奇點智能研究院聯合舉辦的「全球機器學習技術大會」正式升級為「奇點智能技術大會」。2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開,大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊,特邀來自BAT、京東、微軟、小紅書、美團等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論,真正實現 AI 技術的規模化落地與商業價值轉化。這不僅是一場技術的盛宴,更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普5月訪華倒計時,美國連拋3大“救命訂單”,中國態度毫不含糊

特朗普5月訪華倒計時,美國連拋3大“救命訂單”,中國態度毫不含糊

奇思妙想生活家
2026-04-26 20:19:03
申花豪取五連勝!2年第一次,5戰河南全勝,延續6大紀錄

申花豪取五連勝!2年第一次,5戰河南全勝,延續6大紀錄

奧拜爾
2026-04-26 21:56:37
歐爾班宣布退出匈牙利國會

歐爾班宣布退出匈牙利國會

參考消息
2026-04-26 13:18:23
斯諾克世錦賽太殘酷:隨著丁俊暉9-13,11名中國選手已被淘汰9人

斯諾克世錦賽太殘酷:隨著丁俊暉9-13,11名中國選手已被淘汰9人

俯身沖頂
2026-04-26 19:40:14
民進黨提出“譴責大陸案”高票通過,國民黨2重量級人物站隊支持

民進黨提出“譴責大陸案”高票通過,國民黨2重量級人物站隊支持

達文西看世界
2026-04-26 07:26:56
五一前后,盡量不要買這“3菜2果”,販子自己都不吃,看完長見識

五一前后,盡量不要買這“3菜2果”,販子自己都不吃,看完長見識

阿龍美食記
2026-04-25 14:05:22
中超積分榜:川渝繼續領跑,申花第5,津門虎據脫離降級區4分

中超積分榜:川渝繼續領跑,申花第5,津門虎據脫離降級區4分

懂球帝
2026-04-26 21:58:38
世錦賽戰報:吳宜澤4-4,連爆大冷,3位80后大滿貫得主都被逼平了

世錦賽戰報:吳宜澤4-4,連爆大冷,3位80后大滿貫得主都被逼平了

求球不落諦
2026-04-26 20:17:11
天涯神貼之東三省人口持續流出的真正原因

天涯神貼之東三省人口持續流出的真正原因

回旋鏢
2026-04-26 13:42:15
中國拋得太及時,8500億美債沒人接盤。

中國拋得太及時,8500億美債沒人接盤。

流蘇晚晴
2026-04-26 18:32:23
突破極限!人類馬拉松首破2小時大關:31歲名將跑出1小時59分30秒

突破極限!人類馬拉松首破2小時大關:31歲名將跑出1小時59分30秒

風過鄉
2026-04-26 18:55:21
突發!南海055遵義艦實彈亮劍,疑似發射鷹擊-20震懾美日菲艦隊!

突發!南海055遵義艦實彈亮劍,疑似發射鷹擊-20震懾美日菲艦隊!

利刃號
2026-04-26 18:36:56
泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

大象新聞
2026-04-26 13:01:02
還沒解決伊朗,特朗普又盯上了新的目標,對古巴提出一個非分之想

還沒解決伊朗,特朗普又盯上了新的目標,對古巴提出一個非分之想

空天力量
2026-04-25 13:12:48
25歲女孩確診黑色素瘤僅5個月便離世,原本今年要訂婚……生前曾在腹部發現“巨大的腫瘤”

25歲女孩確診黑色素瘤僅5個月便離世,原本今年要訂婚……生前曾在腹部發現“巨大的腫瘤”

都市快報橙柿互動
2026-04-26 19:45:19
真相大白!那臺拉缸的張雪820RR返廠,經拆解后本人公布故障原因

真相大白!那臺拉缸的張雪820RR返廠,經拆解后本人公布故障原因

一盅情懷
2026-04-26 15:32:03
55歲雙上市公司前董事長涉美強奸,27歲女方身份及細節曝光

55歲雙上市公司前董事長涉美強奸,27歲女方身份及細節曝光

老貓觀點
2026-04-26 07:16:17
血虧8億!華晨宇直播崩潰大哭,云南拿地建樂園,臨門一腳被強拆

血虧8億!華晨宇直播崩潰大哭,云南拿地建樂園,臨門一腳被強拆

奇怪的鯊魚們
2026-04-26 16:32:25
全球標準中式進化:“TO YOU”——多元時代的豐田解法

全球標準中式進化:“TO YOU”——多元時代的豐田解法

大話車江湖
2026-04-25 19:37:41
白宮開槍兇手是老師?網傳其剛在洛杉磯拿了“月度優秀教師”獎

白宮開槍兇手是老師?網傳其剛在洛杉磯拿了“月度優秀教師”獎

爆角追蹤
2026-04-26 12:16:15
2026-04-26 22:08:49
CSDN incentive-icons
CSDN
成就一億技術人
26482文章數 242273關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

房產
教育
親子
時尚
軍事航空

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

教育要聞

廣州市一模數學試卷簡析

親子要聞

今天我們來吃整蠱海盜桶糖果食玩

比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版