網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude自述：我的質(zhì)量正在下滑

2026-04-14 21:12:14　來(lái)源: 至頂頭條

北京舉報(bào)

分享至

曾經(jīng)是眾多程序員心目中AI首選的Anthropic旗下Claude，近期在服務(wù)成本與用戶感知質(zhì)量?jī)煞矫婢霈F(xiàn)明顯下滑，就連該模型自己也對(duì)此有所察覺(jué)。

本周一，Claude發(fā)生短暫宕機(jī)，官方將其定性為"重大故障"。此次服務(wù)中斷進(jìn)一步加劇了用戶的不滿情緒，而這些不滿，連AI自身都能感知到。

本次宕機(jī)表現(xiàn)為錯(cuò)誤率異常升高，影響范圍涵蓋Claude.ai與Claude Code，故障時(shí)間為UTC時(shí)間15:31至16:19。

這還不是全部。過(guò)去數(shù)月間，根據(jù)社交媒體上的用戶反饋以及GitHub上提交的問(wèn)題報(bào)告，Claude的回答質(zhì)量正在持續(xù)下降。與此同時(shí)，Anthropic為平衡容量與需求，已采取措施限制用戶在高峰時(shí)段的使用量。

為獲得更客觀的評(píng)估數(shù)據(jù)，我們將Claude Code的GitHub代碼倉(cāng)庫(kù)指向Claude本身，篩選出2026年1月以來(lái)涉及質(zhì)量問(wèn)題的公開(kāi)issue，并輸入以下提示詞："分析并繪制該代碼倉(cāng)庫(kù)中自2026年1月以來(lái)關(guān)于Claude Code質(zhì)量的投訴情況，使用提及質(zhì)量問(wèn)題的公開(kāi)issue，并判斷這些問(wèn)題近期是否有所增加。"

Anthropic的AI模型得出結(jié)論："是的，質(zhì)量方面的投訴已急劇增加——數(shù)據(jù)呈現(xiàn)出一個(gè)相當(dāng)清晰的趨勢(shì)。"

本周一我們要求Claude重新進(jìn)行自我分析，結(jié)果與此前相近。模型輸出的內(nèi)容顯示："增長(zhǎng)速度相當(dāng)顯著：4月份在短短13天內(nèi)已出現(xiàn)20余個(gè)質(zhì)量問(wèn)題，照此速度，有望超過(guò)3月份的18個(gè)——而3月份本身已是1月至2月基線水平的3.5倍。"

當(dāng)然，Claude本身并非可靠的敘述者，某人（或某個(gè)機(jī)器人）向Claude Code代碼倉(cāng)庫(kù)提交的報(bào)告，并不代表該報(bào)告內(nèi)容準(zhǔn)確或有效。目前有跡象表明，大量issue本身就是由AI生成的——這是開(kāi)源開(kāi)發(fā)者社區(qū)中被廣泛關(guān)注的問(wèn)題，可能在一定程度上推高了報(bào)告數(shù)量。

此外，Anthropic的GitHub Actions腳本似乎會(huì)在一段時(shí)間不活躍后自動(dòng)關(guān)閉issue，這或許會(huì)掩蓋部分尚未解決的問(wèn)題。

《The Register》此前曾報(bào)道過(guò)Claude在自我分析中標(biāo)記的部分問(wèn)題，例如緩存異常，以及AMD AI總監(jiān)Stella Laurenzo關(guān)于Claude回答質(zhì)量下滑的說(shuō)法。另一些問(wèn)題尚未得到證實(shí)，例如有報(bào)告稱"Claude自主刪除了屬于某真實(shí)付費(fèi)客戶（JIXEN）的35,254條生產(chǎn)環(huán)境客戶消息記錄以及35,874條賬單交易記錄"。

發(fā)布這一帖子的個(gè)人或機(jī)器人賬號(hào)此前沒(méi)有任何其他發(fā)帖記錄。《The Register》已嘗試聯(lián)系疑似在印度注冊(cè)的私人企業(yè)Jixen Enterprises Private Limited以核實(shí)該說(shuō)法，但截至發(fā)稿尚未收到回復(fù)。有開(kāi)發(fā)者反映曾在使用Claude Code及其他模型時(shí)遭遇數(shù)據(jù)丟失，但即便屬實(shí)，也不排除用戶操作失誤的可能性。

無(wú)論如何，Claude確實(shí)能夠援引GitHub上真實(shí)的issue來(lái)支撐其"推理"，因此質(zhì)量投訴報(bào)告數(shù)量持續(xù)增多這一整體趨勢(shì)是客觀存在的。

該模型援引了多個(gè)issue來(lái)支持其結(jié)論，包括"Claude Code的預(yù)測(cè)優(yōu)先行為在涉及資本風(fēng)險(xiǎn)的項(xiàng)目中存在危險(xiǎn)"（#46212）、"經(jīng)過(guò)2月份更新后，Claude Code已無(wú)法勝任復(fù)雜工程任務(wù)"（#42796，已由Claude Code負(fù)責(zé)人Boris Cherny回應(yīng)）、"針對(duì)付費(fèi)用戶的人為降級(jí)、獲取偏差與不可接受的算力限速"（#46949），以及"Opus 4.6：迭代編碼任務(wù)中出現(xiàn)嚴(yán)重質(zhì)量退化"（#46099）。

然而，來(lái)自Margin Lab的數(shù)據(jù)顯示，Claude Opus 4.6在SWE-Bench-Pro測(cè)試中至少維持了原有得分。自2月份以來(lái)的多次評(píng)估結(jié)果存在一定波動(dòng)，但并無(wú)實(shí)質(zhì)性變化。

截至發(fā)稿，Anthropic尚未就Claude質(zhì)量問(wèn)題作出回應(yīng)。

Q&A

Q1：Claude最近出現(xiàn)了哪些服務(wù)質(zhì)量問(wèn)題？

A：近幾個(gè)月來(lái)，根據(jù)社交媒體反饋和GitHub上的issue報(bào)告，Claude的回答質(zhì)量持續(xù)下滑。Anthropic為平衡容量與需求，已限制高峰時(shí)段的用戶使用量。2026年4月，僅13天內(nèi)就已出現(xiàn)20余個(gè)質(zhì)量相關(guān)issue，預(yù)計(jì)將超過(guò)3月份的18個(gè)，而3月份本身已是1月至2月基線的3.5倍。

Q2：Claude自我評(píng)估質(zhì)量下滑的結(jié)論可信嗎？

A：Claude并非可靠的敘述者，其援引的GitHub issue未必全部準(zhǔn)確或有效。部分issue可能由AI自動(dòng)生成，Anthropic的腳本還會(huì)自動(dòng)關(guān)閉長(zhǎng)期不活躍的issue，可能掩蓋真實(shí)問(wèn)題。不過(guò)，整體趨勢(shì)——質(zhì)量投訴報(bào)告數(shù)量持續(xù)增多——是客觀可見(jiàn)的。

Q3：Claude Opus 4.6在專業(yè)測(cè)試中表現(xiàn)如何？

A：根據(jù)Margin Lab的數(shù)據(jù)，Claude Opus 4.6在SWE-Bench-Pro測(cè)試中的得分基本保持穩(wěn)定，自2月份以來(lái)的多次評(píng)估雖存在一定波動(dòng)，但無(wú)實(shí)質(zhì)性變化，與用戶在實(shí)際使用中的主觀感受存在一定落差。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.