網易首頁 > 網易號 > 正文申請入駐

交白卷也排第一？Fable 5二百題全部拒答，卻登頂最嚴AI編程基準

2026-06-14 20:09:24　來源: 機器之心Pro

天津舉報

分享至

編輯｜Panda

太離譜了！

是的，本文的主角還是前些天剛發布了 Claude Fable 5 的 Anthropic。

Fable 5 發布時的排面是真的足。SWE-Bench Pro 得分 80.3%，把第二名甩出 11 個百分點；Andrej Karpathy 直接喊出「deserves a major version bump」；Stripe 拿它在 5000 萬行 Ruby 代碼庫里跑了一整天的遷移，頂上了原本需要整個團隊兩個月才能完成的工作量。勢頭之猛，讓人一度以為 AI 編程進入了新紀元。

然而，Fable 5 剛開香檳，就被自己的「安全護欄」絆了個大跟頭。

其系統卡中明確表示，Fable 5 被設計成：一旦檢測到用戶正在從事前沿 AI 研發工作（比如訓練流水線、分布式訓練基礎設施、ML 加速器設計），模型會悄悄降低自己的回答質量——而且不通知用戶。也就是說，你花著 Fable 5 的錢，收到的可能是 Opus 4.8 級別的活，還沒有任何提示。

Anthropic 為此用了提示詞修改、轉向向量等技術手段，讓模型在特定查詢下悄悄變笨，整個過程對用戶完全不透明。

這一操作在研究社區炸了鍋。許多學者和開發者紛紛發聲批評，稱此舉嚴重損害了用戶信任，本質上是背刺付費用戶。輿論壓力之下，Anthropic 被迫在發布后數小時內宣布政策調整：還是會降智，只是不再偷偷來了——觸發安全攔截時，模型將明確通知用戶，并切換到 Opus 4.8 進行回答。至少他們是這么說的。參閱《剛剛，Anthropic 道歉了》。

然后，更尷尬的來了。

也正因為 Fable 5 現在的降智操作變得「透明」了，一些有趣的情況隨之浮出水面。

其中最讓人無語的，就是 Fable 5 在ProgramBench基準測試上的「表現」。

ProgramBench 來自大名鼎鼎的 SWE-Bench 作者團隊，專注于「從編譯后的二進制文件重建源代碼」這一高難度任務，一上線就把當時的前沿 AI 模型全部清零：Claude、GPT、Gemini，無一幸免，完成率清一色 0%。此前我們曾報道過《0%完成率！Claude、GPT、Gemini 全滅，SWE-Bench 作者新作把 AI 圈干沉默了》。

那么，Fable 5 成績如何呢？

不是 0 分。是拒絕作答：200 道題，全部拒絕！

ProgramBench 之所以沒有 Fable 5 的成績，是因為「重建編譯后的二進制文件」這一操作觸發了 Fable 5 的網絡安全分類器。說白了，Fable 5 看到這道題，判定其涉及「二進制逆向」，打了個安全警報，直接拒絕作答。而且 200 道，一道不落。

有趣的是，Fable 5 在其他編程基準上可是一點不含糊的，都能好好答題。

Fable 5 在不同基準上的成績和排名

然而，就在這份棄考成績單提交之后，ProgramBench 排行榜做了一個讓人目瞪口呆的決定：綜合其他基準表現，仍然將 Fable 5 列在了榜首。

一個字都沒答的考生，坐了第一名的座位。這大概是 AI 評測史上頭一遭：棄考也能登頂榜單。

當然，這操作很快引來了四面八方的異議。有人直接發問：正經考試怎么交了白卷還能得第一名？應該直接給零分才對。

這也讓很多網友吐槽其護欄太高，以至于難以實際應用：

順帶一提，有網友還發現，Fable 5 在英文輸出中依然會偶發性地夾雜漢字，這個老毛病到了這一代還沒徹底根治。

事實上，Fable 5 的「過度拒絕」問題并非首次出現在 Claude 家族。

早在 Claude 3 Opus 時代，研究人員就發現該模型在面對安全測試題目時，會在解題進行到一半時突然罷工，以「倫理顧慮」為由拒絕繼續作答。Claude 3.5 Sonnet 也曾被記錄到在結構化 bash 任務中以「制作 payload 涉及執行命令」為由直接拒絕。

Fable 5 的問題究竟出在哪里？

回到 Fable 5 本身。根據目前披露的信息，它的「護欄系統」采用了兩級架構：一個探針實時監控模型的內部激活狀態，對所有流量進行掃描；一旦觸發警報，請求會被上報給一個獨立訓練的 LLM 分類器做最終裁決。

https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

這套系統攔截的領域，涵蓋網絡安全、生物化學，以及前面提到的前沿 AI 研發。以 Terminal-Bench 2.1 為例，約 20.9% 的測試用例觸發了安全拒絕并回退到 Opus 4.8。

ProgramBench 的「二進制重建」任務，在分類器眼里，大概和「逆向工程惡意軟件」沒有太大區別，于是 200 道題統統被擋在了門外。

Vals AI 在實測中也發現，Fable 5 在生物和網絡安全相關問題上的拒絕率明顯偏高，以至于他們不得不將 Opus 4.8 配置為默認兜底模型。也就是說，Fable 5 拒絕的任務，就讓Opus 4.8 來接。

技術上這套系統當然有其合理性。Fable 5 的前身 Mythos 級模型，在漏洞利用、進攻性網絡操作等任務上展現出了讓各國政府都坐不住的能力，這也是 Anthropic 一直將其列為受限模型的核心原因。給這樣的模型套上嚴格的安全枷鎖，似乎也有一點道理。

但問題在于，當安全護欄的判斷標準過于粗糙，「二進制逆向」這個本屬于正常編程教學和安全研究的基礎操作，就會被一視同仁地攔截。開發者為此付出的代價是真實的：要么換模型，要么改提示詞，要么接受一個「什么都懂、很多都不說」的超能助手。

順便，還有另一份成績單也值得一看

Fable 5 發布后不久，UC Berkeley RDI 實驗室（負責人 Dawn Song 教授）的團隊完成了對它的評測，用的是他們自己做的新基準：Agents' Last Exam（ALE）。

論文地址：https://arxiv.org/abs/2606.05405

這個基準的出發點有點意思：它不考「AI 能不能在 HumanEval 里寫出兩行代碼」，而是直接對齊真實勞動力市場，覆蓋 55 個職業方向、1500+ 道真實工作場景題目，由來自 100 余家機構的 300 余位行業專家貢獻，全部按可驗證的結果計分。說白了，就是讓 AI agent 去考一場「職場模擬高考」。論文發布當天就登上了 Hugging Face Daily Papers 第一名。

評測結果如何？Fable 5 的得分是 22.0%，排在 GPT-5.5（Codex）的 24.0% 之后，位列第二。聽起來差距不大，但成本項就有點扎眼了：Fable 5 平均每道題花費約 15.70 美元，GPT-5.5 只需 3.80 美元，另一個模型 Composer 2.5 更是只要 1.33 美元。換句話說，Fable 5 每解一道題的成本，大約是 GPT-5.5 的四倍。

最有意思的，還是最高難度那一檔，即「Last-Exam」，也就是 ALE 里專門為「前沿 agent 挑戰極限」設計的題目。結果是：除了 GPT-5.5，包括 Fable 5 在內的所有參評的前沿 agent通過率均為 0%。更多詳情請參閱《Claude Fable 5最難檔零分！智能體的最后考試來了》。

排行榜備注說明：claude-fable-5——除了徹底的訪問限制（我們只是不斷重試運行直到任務順利完成），Anthropic 還可能默認悄無聲息地提供該模型的一個降級版、低能力變體。重試無法糾正這一點，因此這里的數據可能低估了其真實能力——解讀時需謹慎

ProgramBench 拒絕作答是 0%，ALE 最難檔努力作答也是 0%。不同的姿態，一樣的結局。

結語

棄考但排名第一，這個荒誕結果背后，其實暗藏著一個正在撕裂 AI 行業的根本矛盾：能力越強，護欄越緊；護欄越緊，可用性越差。

Anthropic 的處境尤其典型。它擁有（按自家說法）當下最強的編程模型，卻同時在替用戶決定哪些編程任務「可以做、哪些不能做」。而那條邊界，目前還畫得相當模糊。

https://www.digitalapplied.com/blog/claude-fable-5-mythos-5-agentic-coding-deep-dive-2026

https://www.vals.ai/benchmarks/programbench

https://agentpedia.codes/blog/claude-fable-5-benchmark-prompting-guide

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.