編輯|Panda
太離譜了!
是的,本文的主角還是前些天剛發布了 Claude Fable 5 的 Anthropic。
Fable 5 發布時的排面是真的足。SWE-Bench Pro 得分 80.3%,把第二名甩出 11 個百分點;Andrej Karpathy 直接喊出「deserves a major version bump」;Stripe 拿它在 5000 萬行 Ruby 代碼庫里跑了一整天的遷移,頂上了原本需要整個團隊兩個月才能完成的工作量。勢頭之猛,讓人一度以為 AI 編程進入了新紀元。
![]()
然而,Fable 5 剛開香檳,就被自己的「安全護欄」絆了個大跟頭。
其系統卡中明確表示,Fable 5 被設計成:一旦檢測到用戶正在從事前沿 AI 研發工作(比如訓練流水線、分布式訓練基礎設施、ML 加速器設計),模型會悄悄降低自己的回答質量——而且不通知用戶。也就是說,你花著 Fable 5 的錢,收到的可能是 Opus 4.8 級別的活,還沒有任何提示。
Anthropic 為此用了提示詞修改、轉向向量等技術手段,讓模型在特定查詢下悄悄變笨,整個過程對用戶完全不透明。
這一操作在研究社區炸了鍋。許多學者和開發者紛紛發聲批評,稱此舉嚴重損害了用戶信任,本質上是背刺付費用戶。輿論壓力之下,Anthropic 被迫在發布后數小時內宣布政策調整:還是會降智,只是不再偷偷來了——觸發安全攔截時,模型將明確通知用戶,并切換到 Opus 4.8 進行回答。至少他們是這么說的。參閱《剛剛,Anthropic 道歉了》。
然后,更尷尬的來了。
也正因為 Fable 5 現在的降智操作變得「透明」了,一些有趣的情況隨之浮出水面。
其中最讓人無語的,就是 Fable 5 在ProgramBench基準測試上的「表現」。
ProgramBench 來自大名鼎鼎的 SWE-Bench 作者團隊,專注于「從編譯后的二進制文件重建源代碼」這一高難度任務,一上線就把當時的前沿 AI 模型全部清零:Claude、GPT、Gemini,無一幸免,完成率清一色 0%。此前我們曾報道過《0%完成率!Claude、GPT、Gemini 全滅,SWE-Bench 作者新作把 AI 圈干沉默了》。
那么,Fable 5 成績如何呢?
不是 0 分。是拒絕作答:200 道題,全部拒絕!
![]()
ProgramBench 之所以沒有 Fable 5 的成績,是因為「重建編譯后的二進制文件」這一操作觸發了 Fable 5 的網絡安全分類器。說白了,Fable 5 看到這道題,判定其涉及「二進制逆向」,打了個安全警報,直接拒絕作答。而且 200 道,一道不落。
![]()
有趣的是,Fable 5 在其他編程基準上可是一點不含糊的,都能好好答題。
![]()
Fable 5 在不同基準上的成績和排名
然而,就在這份棄考成績單提交之后,ProgramBench 排行榜做了一個讓人目瞪口呆的決定:綜合其他基準表現,仍然將 Fable 5 列在了榜首。
![]()
一個字都沒答的考生,坐了第一名的座位。這大概是 AI 評測史上頭一遭:棄考也能登頂榜單。
當然,這操作很快引來了四面八方的異議。有人直接發問:正經考試怎么交了白卷還能得第一名?應該直接給零分才對。
![]()
![]()
![]()
這也讓很多網友吐槽其護欄太高,以至于難以實際應用:
![]()
順帶一提,有網友還發現,Fable 5 在英文輸出中依然會偶發性地夾雜漢字,這個老毛病到了這一代還沒徹底根治。
![]()
![]()
事實上,Fable 5 的「過度拒絕」問題并非首次出現在 Claude 家族。
早在 Claude 3 Opus 時代,研究人員就發現該模型在面對安全測試題目時,會在解題進行到一半時突然罷工,以「倫理顧慮」為由拒絕繼續作答。Claude 3.5 Sonnet 也曾被記錄到在結構化 bash 任務中以「制作 payload 涉及執行命令」為由直接拒絕。
Fable 5 的問題究竟出在哪里?
回到 Fable 5 本身。根據目前披露的信息,它的「護欄系統」采用了兩級架構:一個探針實時監控模型的內部激活狀態,對所有流量進行掃描;一旦觸發警報,請求會被上報給一個獨立訓練的 LLM 分類器做最終裁決。
![]()
https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf
這套系統攔截的領域,涵蓋網絡安全、生物化學,以及前面提到的前沿 AI 研發。以 Terminal-Bench 2.1 為例,約 20.9% 的測試用例觸發了安全拒絕并回退到 Opus 4.8。
ProgramBench 的「二進制重建」任務,在分類器眼里,大概和「逆向工程惡意軟件」沒有太大區別,于是 200 道題統統被擋在了門外。
Vals AI 在實測中也發現,Fable 5 在生物和網絡安全相關問題上的拒絕率明顯偏高,以至于他們不得不將 Opus 4.8 配置為默認兜底模型。也就是說,Fable 5 拒絕的任務,就讓Opus 4.8 來接。
技術上這套系統當然有其合理性。Fable 5 的前身 Mythos 級模型,在漏洞利用、進攻性網絡操作等任務上展現出了讓各國政府都坐不住的能力,這也是 Anthropic 一直將其列為受限模型的核心原因。給這樣的模型套上嚴格的安全枷鎖,似乎也有一點道理。
但問題在于,當安全護欄的判斷標準過于粗糙,「二進制逆向」這個本屬于正常編程教學和安全研究的基礎操作,就會被一視同仁地攔截。開發者為此付出的代價是真實的:要么換模型,要么改提示詞,要么接受一個「什么都懂、很多都不說」的超能助手。
順便,還有另一份成績單也值得一看
Fable 5 發布后不久,UC Berkeley RDI 實驗室(負責人 Dawn Song 教授)的團隊完成了對它的評測,用的是他們自己做的新基準:Agents' Last Exam(ALE)。
![]()
- 論文地址:https://arxiv.org/abs/2606.05405
這個基準的出發點有點意思:它不考「AI 能不能在 HumanEval 里寫出兩行代碼」,而是直接對齊真實勞動力市場,覆蓋 55 個職業方向、1500+ 道真實工作場景題目,由來自 100 余家機構的 300 余位行業專家貢獻,全部按可驗證的結果計分。說白了,就是讓 AI agent 去考一場「職場模擬高考」。論文發布當天就登上了 Hugging Face Daily Papers 第一名。
評測結果如何?Fable 5 的得分是 22.0%,排在 GPT-5.5(Codex)的 24.0% 之后,位列第二。聽起來差距不大,但成本項就有點扎眼了:Fable 5 平均每道題花費約 15.70 美元,GPT-5.5 只需 3.80 美元,另一個模型 Composer 2.5 更是只要 1.33 美元。換句話說,Fable 5 每解一道題的成本,大約是 GPT-5.5 的四倍。
![]()
最有意思的,還是最高難度那一檔,即「Last-Exam」,也就是 ALE 里專門為「前沿 agent 挑戰極限」設計的題目。結果是:除了 GPT-5.5,包括 Fable 5 在內的所有參評的前沿 agent通過率均為 0%。更多詳情請參閱《Claude Fable 5最難檔零分!智能體的最后考試來了》。
![]()
排行榜備注說明:claude-fable-5——除了徹底的訪問限制(我們只是不斷重試運行直到任務順利完成),Anthropic 還可能默認悄無聲息地提供該模型的一個降級版、低能力變體。重試無法糾正這一點,因此這里的數據可能低估了其真實能力——解讀時需謹慎
ProgramBench 拒絕作答是 0%,ALE 最難檔努力作答也是 0%。不同的姿態,一樣的結局。
結語
棄考但排名第一,這個荒誕結果背后,其實暗藏著一個正在撕裂 AI 行業的根本矛盾:能力越強,護欄越緊;護欄越緊,可用性越差。
Anthropic 的處境尤其典型。它擁有(按自家說法)當下最強的編程模型,卻同時在替用戶決定哪些編程任務「可以做、哪些不能做」。而那條邊界,目前還畫得相當模糊。
https://www.digitalapplied.com/blog/claude-fable-5-mythos-5-agentic-coding-deep-dive-2026
https://www.vals.ai/benchmarks/programbench
https://agentpedia.codes/blog/claude-fable-5-benchmark-prompting-guide
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.