![]()
新智元報道
編輯:KingHZ
【新智元導讀】從「緩存蒸發(fā)」到「12倍成本爆炸」,Claude智商一降再降。Anthropic辯解「不是懲罰是架構(gòu)耦合」,但數(shù)據(jù)不會說謊:2月高效緩存讓用戶爽翻,3月靜默回退后人人喊貴。這場隱私與性能的拉鋸戰(zhàn),只有用戶是真正的輸家?
就在4月13日,一條推文在開發(fā)者群體中炸鍋。
開發(fā)者Can Vardar甩出一句:
Claude Code居然因為你關閉遙測而懲罰你?
關閉它,Anthropic就把緩存從1小時砍到5分鐘,隱私讓你多付12倍性能代價……我沒看錯吧?
![]()
轉(zhuǎn)發(fā)量瞬間破萬。
這不是Bug,這是Anthropic用隱私換性能的隱形懲罰。
你以為關掉數(shù)據(jù)收集只是保護自己?
錯!Claude Code直接把你的長上下文會話打回原形。Pro用戶5小時只剩2條prompt,月付200刀的Max訂閱者1.5小時就把額度燒光。
![]()
瘋狂。太瘋狂了。
Claude一降再降!
從「緩存蒸發(fā)」到「12倍成本爆炸」
事實擺在眼前。
開發(fā)者們發(fā)現(xiàn),只要在環(huán)境變量里加一句DISABLE_TELEMETRY=1,Claude Code的prompt cache TTL就從1小時瞬間回退到5分鐘。
數(shù)據(jù)就在這里,緩存直接縮水了12倍。
GitHub里,Claude Code用戶貼出真實日志:開啟telemetry時,ephemeral_1h_input_tokens輕松破3萬;一關telemetry,1h直接歸零,全走5m緩存。同一段代碼,緩存miss率直接飆12倍。
![]()
大上下文會話中,緩存就是命脈。
當你啟用提示詞緩存發(fā)請求時,系統(tǒng)先檢查:從你指定的緩存分隔點往前的提示詞開頭部分,是不是最近請求里已經(jīng)被存過。
如果命中緩存,直接調(diào)用現(xiàn)成版本,時間和成本瞬間砍掉大半。
沒命中?那就完整處理整個提示詞,然后在生成回復那一刻,把開頭部分塞進緩存。
而緩存一旦過期,系統(tǒng)就得全量重建,寫入成本是讀取的12.5倍。5分鐘的TTL意味著你稍微停下來想個思路、泡杯咖啡,回來就是一次全量重建。
更狠的還在后面。
另一位開發(fā)者Sean Swanson貼出了更扎實的證據(jù)。
他分析了從2026年1月11日到4月11日的119,866次API調(diào)用日志,清晰地展示了緩存策略的變遷軌跡:
2月,1小時TTL全面生效,緩存浪費率僅1.1%;
3月6日前后,系統(tǒng)靜默回退到5分鐘TTL,浪費率飆升至25.9%。
結(jié)果呢?同一會話里,cache_create操作頻率暴增5-12倍。
![]()
cache_create寫成本更高,5m寫1.25倍base input,1h寫2倍,但頻繁重建讓總token消耗直接起飛。
![]()
Pro用戶哭了:以前一天輕松跑滿,現(xiàn)在1.5小時就見底。Max計劃200刀/月,修兩個bug、寫個計劃,就把額度干到零。
![]()
![]()
企業(yè)團隊更慘。
Hacker News上有人說,3月底后Claude性能「肉眼可見下滑」,長會話動不動就卡,token額度下降像開了閘的水。
![]()
4月13日,國外科技媒體報道更直接:《Anthropic在削弱Claude嗎?》
![]()
Anthropic的辯護
不是懲罰,是管道斷了
面對排山倒海的質(zhì)疑,Anthropic的回應來自兩個關鍵人物。
Claude Code的創(chuàng)造者Boris Cherny親自在回帖。
他承認遙測關閉確實會導致experiment gates失效,使緩存回退到5分鐘默認值。
機制拆開看,其實就一句話:
1小時緩存是「實驗性」優(yōu)化,通過客戶端experiment gates推送。只有telemetry開著,gates才能拉取最新策略。
但他強調(diào)這不是刻意的懲罰,而是架構(gòu)設計中的耦合問題。
Cherny同時解釋了緩存策略的設計邏輯:Anthropic在后臺持續(xù)測試不同的緩存策略組合,目標是優(yōu)化整體的緩存命中率、Token消耗和延遲表現(xiàn)。
![]()
你一關telemetry,客戶端直接讀默認值——5分鐘。
不是惡意,是「技術副作用」。
5分鐘緩存在某些場景下確實更經(jīng)濟——比如子智能體(subagent)調(diào)用,這類請求通常是一次性的,緩存很少被重復讀取,用1小時TTL反而浪費了2倍的寫入成本。
不過,他也承認:「大量技能(skills)、多個Agent或后臺自動化任務同時運行,token消耗確實大,特別是在使用大量插件時。」
令人驚訝的是,受影響的用戶數(shù)量相當大,Anthropic正在改進:
(a) 優(yōu)化UX,讓用戶更清楚地看到這些情況;
(b) 更智能地截斷、剪枝和調(diào)度非主任務,避免意外的token消耗。
![]()
Anthropic另一位工程師、Bun運行時的創(chuàng)造者Jarred Sumner則回應了3月的TTL回退問題。
他認為5分鐘TTL對整體而言「更便宜而不是更貴」,因為「相當一部分Claude Code請求是一次性調(diào)用,緩存上下文只用一次就不再訪問」。
![]()
坦白講,這個解釋在技術層面說得通,但用戶不買賬。
問題在于,Swanson的數(shù)據(jù)直接打了臉:2月份1小時TTL下的浪費率只有1.1%,如果大多數(shù)請求真的是一次性的,那2月應該出現(xiàn)大量寫入浪費才對。
![]()
真正的行業(yè)問題
AI的Token計價是一個黑箱
把視角拉遠一點,這不僅僅是Anthropic一家公司的問題。
目前,AI編碼工具的按使用量計費純粹是一種信任考驗。
開發(fā)者看不到計費表的跳動,無法審計每個請求的Token用量,無法驗證緩存狀態(tài),無法確認應用了哪個定價層級,也無法檢查高峰期倍數(shù)因子是否生效。
![]()
與其他開發(fā)者付費使用的基礎設施對比一下:
AWS EC2:按秒計費,完整的實例可見性,CloudWatch指標,賬單警報,成本分析工具
Stripe:按交易計費,每筆費用都有日志記錄且可審計,實時儀表盤
Vercel:按調(diào)用計費,函數(shù)級指標,支出限額,自動警報
Claude Code:按Token計費,無單次請求的用量明細,無緩存命中可見性,無支出警報,無實時成本跟蹤
這種信息不對稱令人震驚。在這個價格區(qū)間內(nèi)的所有其他開發(fā)者工具,都能讓用戶詳細了解他們支付的費用。而AI編程助手給用戶的,只是一個限額進度條和一聲祈禱。
這種不對稱在平時有利于服務提供商,一旦出現(xiàn)問題,就會給用戶帶來毀滅性打擊。
AI計費沒有第三方審計,沒有Token用量報告的開源標準,也沒有針對提示詞經(jīng)濟學的云端成本分析工具。
這不是一個計費模式,這是一場把別人的錢包綁在自己身上的信任盲跳。
參考資料:
https://x.com/icanvardar/status/2043652025339023845
https://github.com/anthropics/claude-code/issues/45381
https://x.com/bcherny/status/2043715713551212834
https://platform.claude.com/docs/en/build-with-claude/prompt-caching#pricing
https://www.theregister.com/2026/04/13/claude_code_cache_confusion/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.