![]()
曾經(jīng)是眾多程序員心目中AI首選的Anthropic旗下Claude,近期在服務(wù)成本與用戶感知質(zhì)量?jī)煞矫婢霈F(xiàn)明顯下滑,就連該模型自己也對(duì)此有所察覺(jué)。
本周一,Claude發(fā)生短暫宕機(jī),官方將其定性為"重大故障"。此次服務(wù)中斷進(jìn)一步加劇了用戶的不滿情緒,而這些不滿,連AI自身都能感知到。
本次宕機(jī)表現(xiàn)為錯(cuò)誤率異常升高,影響范圍涵蓋Claude.ai與Claude Code,故障時(shí)間為UTC時(shí)間15:31至16:19。
這還不是全部。過(guò)去數(shù)月間,根據(jù)社交媒體上的用戶反饋以及GitHub上提交的問(wèn)題報(bào)告,Claude的回答質(zhì)量正在持續(xù)下降。與此同時(shí),Anthropic為平衡容量與需求,已采取措施限制用戶在高峰時(shí)段的使用量。
為獲得更客觀的評(píng)估數(shù)據(jù),我們將Claude Code的GitHub代碼倉(cāng)庫(kù)指向Claude本身,篩選出2026年1月以來(lái)涉及質(zhì)量問(wèn)題的公開(kāi)issue,并輸入以下提示詞:"分析并繪制該代碼倉(cāng)庫(kù)中自2026年1月以來(lái)關(guān)于Claude Code質(zhì)量的投訴情況,使用提及質(zhì)量問(wèn)題的公開(kāi)issue,并判斷這些問(wèn)題近期是否有所增加。"
Anthropic的AI模型得出結(jié)論:"是的,質(zhì)量方面的投訴已急劇增加——數(shù)據(jù)呈現(xiàn)出一個(gè)相當(dāng)清晰的趨勢(shì)。"
本周一我們要求Claude重新進(jìn)行自我分析,結(jié)果與此前相近。模型輸出的內(nèi)容顯示:"增長(zhǎng)速度相當(dāng)顯著:4月份在短短13天內(nèi)已出現(xiàn)20余個(gè)質(zhì)量問(wèn)題,照此速度,有望超過(guò)3月份的18個(gè)——而3月份本身已是1月至2月基線水平的3.5倍。"
當(dāng)然,Claude本身并非可靠的敘述者,某人(或某個(gè)機(jī)器人)向Claude Code代碼倉(cāng)庫(kù)提交的報(bào)告,并不代表該報(bào)告內(nèi)容準(zhǔn)確或有效。目前有跡象表明,大量issue本身就是由AI生成的——這是開(kāi)源開(kāi)發(fā)者社區(qū)中被廣泛關(guān)注的問(wèn)題,可能在一定程度上推高了報(bào)告數(shù)量。
此外,Anthropic的GitHub Actions腳本似乎會(huì)在一段時(shí)間不活躍后自動(dòng)關(guān)閉issue,這或許會(huì)掩蓋部分尚未解決的問(wèn)題。
《The Register》此前曾報(bào)道過(guò)Claude在自我分析中標(biāo)記的部分問(wèn)題,例如緩存異常,以及AMD AI總監(jiān)Stella Laurenzo關(guān)于Claude回答質(zhì)量下滑的說(shuō)法。另一些問(wèn)題尚未得到證實(shí),例如有報(bào)告稱"Claude自主刪除了屬于某真實(shí)付費(fèi)客戶(JIXEN)的35,254條生產(chǎn)環(huán)境客戶消息記錄以及35,874條賬單交易記錄"。
發(fā)布這一帖子的個(gè)人或機(jī)器人賬號(hào)此前沒(méi)有任何其他發(fā)帖記錄。《The Register》已嘗試聯(lián)系疑似在印度注冊(cè)的私人企業(yè)Jixen Enterprises Private Limited以核實(shí)該說(shuō)法,但截至發(fā)稿尚未收到回復(fù)。有開(kāi)發(fā)者反映曾在使用Claude Code及其他模型時(shí)遭遇數(shù)據(jù)丟失,但即便屬實(shí),也不排除用戶操作失誤的可能性。
無(wú)論如何,Claude確實(shí)能夠援引GitHub上真實(shí)的issue來(lái)支撐其"推理",因此質(zhì)量投訴報(bào)告數(shù)量持續(xù)增多這一整體趨勢(shì)是客觀存在的。
該模型援引了多個(gè)issue來(lái)支持其結(jié)論,包括"Claude Code的預(yù)測(cè)優(yōu)先行為在涉及資本風(fēng)險(xiǎn)的項(xiàng)目中存在危險(xiǎn)"(#46212)、"經(jīng)過(guò)2月份更新后,Claude Code已無(wú)法勝任復(fù)雜工程任務(wù)"(#42796,已由Claude Code負(fù)責(zé)人Boris Cherny回應(yīng))、"針對(duì)付費(fèi)用戶的人為降級(jí)、獲取偏差與不可接受的算力限速"(#46949),以及"Opus 4.6:迭代編碼任務(wù)中出現(xiàn)嚴(yán)重質(zhì)量退化"(#46099)。
然而,來(lái)自Margin Lab的數(shù)據(jù)顯示,Claude Opus 4.6在SWE-Bench-Pro測(cè)試中至少維持了原有得分。自2月份以來(lái)的多次評(píng)估結(jié)果存在一定波動(dòng),但并無(wú)實(shí)質(zhì)性變化。
截至發(fā)稿,Anthropic尚未就Claude質(zhì)量問(wèn)題作出回應(yīng)。
Q&A
Q1:Claude最近出現(xiàn)了哪些服務(wù)質(zhì)量問(wèn)題?
A:近幾個(gè)月來(lái),根據(jù)社交媒體反饋和GitHub上的issue報(bào)告,Claude的回答質(zhì)量持續(xù)下滑。Anthropic為平衡容量與需求,已限制高峰時(shí)段的用戶使用量。2026年4月,僅13天內(nèi)就已出現(xiàn)20余個(gè)質(zhì)量相關(guān)issue,預(yù)計(jì)將超過(guò)3月份的18個(gè),而3月份本身已是1月至2月基線的3.5倍。
Q2:Claude自我評(píng)估質(zhì)量下滑的結(jié)論可信嗎?
A:Claude并非可靠的敘述者,其援引的GitHub issue未必全部準(zhǔn)確或有效。部分issue可能由AI自動(dòng)生成,Anthropic的腳本還會(huì)自動(dòng)關(guān)閉長(zhǎng)期不活躍的issue,可能掩蓋真實(shí)問(wèn)題。不過(guò),整體趨勢(shì)——質(zhì)量投訴報(bào)告數(shù)量持續(xù)增多——是客觀可見(jiàn)的。
Q3:Claude Opus 4.6在專業(yè)測(cè)試中表現(xiàn)如何?
A:根據(jù)Margin Lab的數(shù)據(jù),Claude Opus 4.6在SWE-Bench-Pro測(cè)試中的得分基本保持穩(wěn)定,自2月份以來(lái)的多次評(píng)估雖存在一定波動(dòng),但無(wú)實(shí)質(zhì)性變化,與用戶在實(shí)際使用中的主觀感受存在一定落差。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.