无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

突發(fā)!Anthropic深夜發(fā)布Claude Fable 5/Mythos 5,屠榜所有基準測試

0
分享至


來源:AI寒武紀

Anthtropic剛剛推出了一款 Mythos 級模型Claude Fable 5,面向所有普通用戶開放,今天全面上線


與此同時,針對少數特定合作方,他們還推出了 Claude Mythos 5,它與 Fable 5 采用相同的底層模型,是 Claude Mythos Preview 的升級版,訪問權限很快會擴大

Fable(寓言)源自拉丁語 fabula,意為"被講述之物",與希臘語 mythos 同源。安全護欄是區(qū)分這兩個模型的核心差異,也是它們擁有不同名稱的原因所在,Andrej Karpathy說Fable 5是一次重大飛躍,杰文斯悖論開始顯現,軟件需求在大幅增長。你可以要求任何東西:解釋器、可視化工具、定制應用、把測試套件擴充10倍、自動優(yōu)化代碼、運行大型研究項目并用自定義 HTML 呈現結果

Fable 5 和 Mythos 5 的定價分別為每百萬個輸入tokens 10 美元和每百萬個輸出tokens 50 美元,不到 Claude Mythos Preview 價格的一半

到底有多強?

Fable 5 在幾乎所有測試過的 AI 能力基準上都達到了最先進水平,涵蓋軟件工程、知識工作、視覺、科學研究等眾多領域。

并且任務越長、越復雜,Fable 5 相對其他模型的領先幅度就越大。


編程:把兩個月的工作壓縮進一天

測試期間,Stripe 反饋說,Fable 5 把原本需要數月的工程工作壓縮到了幾天之內。

具體來說:在一個有 5000 萬行 Ruby 代碼的大型代碼庫里,Fable 5 用一天時間完成了一次全庫遷移,而這項工作如果靠人工完成,整個團隊需要兩個月以上。

在 Cognition 的 FrontierCode 評測上,Fable 5 也拿到了前沿模型中的最高分。這個評測不只看能不能完成編程任務,還要求符合高質量生產代碼庫的標準,而且 Fable 5 在中等算力消耗下就做到了,token 效率高于以往的 Claude 模型。



知識工作:金融分析接近滿分

在 Hebbia 的金融基準測試上(考察高級別推理能力),Fable 5 得分高于所有模型,在基于文檔的推理、圖表與表格解讀、問題解決等方面均有大幅提升。

IMC(國際市場商品公司)表示,Fable 5 在他們的交易分析評測中幾乎全部拿到了優(yōu)秀,包括事實查詢、概念推理、根因分析和期望值分析。

視覺:靠截圖還原代碼,通關寶可夢

視覺能力方面,Fable 5 同樣躋身當前最先進水平。

它能從復雜的科學圖表中精確提取數據,甚至可以僅憑截圖重建一個網頁應用的源代碼。更值得一提的是,它需要的輔助工具更少了。

此前的 Claude 模型即便配備了額外輔助工具,玩《寶可夢:火紅》依然力不從心。而 Fable 5 只依靠原始游戲截圖(沒有地圖、沒有導航輔助、沒有額外游戲狀態(tài)信息),就從頭到尾通關了這款游戲。

記憶與長文本:持久記憶讓表現提升三倍

在長時間運行的任務中,Fable 5 能在數百萬 token 的范圍內保持專注,并借助自己的筆記不斷優(yōu)化輸出。

在卡牌構筑游戲《殺戮尖塔》的測試中,為模型提供持久文件記憶后,Fable 5 的表現提升幅度是 Opus 4.8 的三倍;Fable 到達游戲最終章的頻率,也是 Opus 4.8 的三倍。

Claude Fable 5可以從物理第一性原理出發(fā)建立太陽系模擬,并以此預測日食

Claude Fable 5 自主玩《異星工廠》(Factorio),自己制定策略并建造自動化工廠

Claude Fable 5 在瀏覽器 CAD 編輯器中設計一個完整的可 3D 打印模型,編輯器本身也由 Fable 5 創(chuàng)建,內置了負責建模的 AI 助手

Claude Fable 5 用代碼寫的流體模擬,運動與一首古典音樂 EDM 混音的節(jié)拍同步,而這首混音也是 Fable 5 用代碼生成的

藥物設計:速度提升十倍

Mythos 5 專屬能力中,最令人震驚的是藥物設計。

Anthropic 內部的蛋白質設計專家使用 Mythos 5 后,藥物設計流程的部分環(huán)節(jié)加速了約十倍。在一項測試中,Mythos 5 在配備蛋白質設計和生物信息學工具但無人類協(xié)助的情況下,表現與經驗豐富的人類專家相當,甚至更好。

它完成了科學家通常需要獨立承擔的全部工作:選擇結合位點、選擇和運行蛋白質設計工具、在失敗時自主糾錯。

研究中涉及的 14 個蛋白質靶點里,有 9 個產生了強有力的候選藥物,目前正在進一步研究中。


分子生物學假說:80% 的情況下,科學家更偏向 Mythos

Mythos 5 是 Anthropic 第一個能持續(xù)產出有新意、令人信服的科學假說的模型。

在與 Opus 級別模型的盲測比較中,Anthropic 的科學家有約 80% 的時間更傾向 Mythos 5 提出的分子生物學假說,部分假說已推進到實驗驗證階段。與此同時,Mythos 5 提出的一個關于大腸桿菌蛋白質新機制的假說,已被另一個獨立開展同一課題研究的實驗室的論文所印證。

基因組學研究:自主工作一周,超越 Science 發(fā)文模型

Mythos 5 在超過一周的基本自主工作中開展了原創(chuàng)基因組學研究。

它整合了跨越 138 個動物物種、數百萬個細胞的單細胞數據,設計并訓練了一個定制機器學習模型,用于識別親緣關系較遠的生物體中承擔相同功能的細胞。

僅有高層次人工指導的情況下,Mythos 5 訓練出的模型超越了近期發(fā)表于《Science》期刊的一個模型,而參數量只有后者的百分之一。相關結果預計將在未來幾個月內發(fā)表。

對齊表現:與 Opus 4.8 持平

在自動化對齊評估中,Mythos 5 表現出的失準行為(包括欺騙、配合用戶濫用模型等)處于較低水平,與 Opus 4.8 相當。由于 Fable 5 與 Mythos 5 是同一個底層模型,Fable 5 的對齊水平也大致相同。


Fable 5 的三重安全護欄

這是A廠一貫的調性,A廠認為發(fā)布如此強大的模型伴隨著風險,沒有安全措施的話,Fable 5 在網絡安全等領域的能力可能被濫用,造成嚴重破壞。

為此,Anthropic 為 Fable 5 設置了三道安全分類器護欄。當某個請求觸發(fā)護欄時,系統(tǒng)會自動轉由 Claude Opus 4.8 來響應(而不是直接拒絕),用戶也會被告知發(fā)生了轉發(fā)。目前數據顯示,超過 95% 的 Fable 5 會話沒有觸發(fā)任何轉發(fā)。

第一道護欄:網絡安全

Mythos 級別的模型在發(fā)現和利用軟件漏洞方面表現卓越,并具備完整的"代理式黑客攻擊"能力,包括偵察、發(fā)現、橫向移動等多個攻擊環(huán)節(jié)。Fable 5 的網絡安全分類器覆蓋了漏洞利用和更廣泛的進攻性網絡任務。

Anthropic 對分類器進行了大量紅隊測試,并委托外部機構進行漏洞懸賞測試。超過 1000 小時的測試未發(fā)現任何通用越獄方法。外部紅隊機構在長周期代理任務上也未找到通用越獄,盡管英國 AI 安全研究所在有限的初始測試窗口內取得了一定進展。

一位外部合作伙伴的測試結論是:Fable 5 的有害網絡查詢防護是所有被測模型中最強的,對 30 種公開越獄技術均不受影響,有害單輪請求的響應率為零。


第二道護欄:生物與化學

Anthropic 過去一直用分類器屏蔽部分生物武器相關問題,但現在他們認為這樣做還不夠。

原因有兩點:一是有理由擔憂掌握大量資源的惡意行為者利用模型獲取高風險生物研究的幫助;二是模型現在完成真實世界科學任務的能力已經大幅提升。


他們用一個具體案例說明了這種風險:在測試 Mythos 5 輔助設計腺相關病毒(AAV)這一挑戰(zhàn)性步驟時(AAV 是基因療法的重要載體,同樣的技術在被濫用時也可能被用于設計危險病毒),Mythos 級模型僅憑生物推理,就超越了專門用于蛋白質任務的專業(yè)模型,而 Anthropic 并未專門訓練它完成這項任務。


基于這一判斷,Fable 5 目前對大多數生物和化學相關請求都會轉發(fā)給 Opus 4.8。幾周內,部分生物醫(yī)學研究人員和企業(yè)將能夠通過可信訪問計劃,使用移除了生物化學護欄的 Mythos 5。

第三道護欄:模型蒸餾

Anthropic 此前發(fā)現了大規(guī)模提取 Claude 能力用于訓練競爭對手模型的行為,被分類器判斷為蒸餾嘗試的請求,將轉發(fā)至 Opus 4.8 處理。

還有一項新的數據保留政策

對于 Fable 5、Mythos 5 及未來能力相當或更高的模型,Anthropic 將對所有 Mythos 級別模型的流量強制執(zhí)行 30 天數據保留。這包括第一方和第三方平臺。

這些數據不會用于訓練新的 Claude 模型,也不會用于任何非安全目的。Anthropic 實施了新的隱私保護措施,包括記錄所有人類訪問該數據的行為,并在幾乎所有情況下確保數據在 30 天后刪除。

保留數據的目的是幫助防范復雜和新型攻擊(包括新型越獄和跨多個請求的攻擊),以及幫助識別和減少誤判。

從今天起,所有目前能訪問 Claude Mythos Preview 的用戶(例如 Project Glasswing 中的網絡安全合作伙伴),都可以升級到 Claude Mythos 5,網絡安全護欄在該版本中已解除。用戶會發(fā)現 Mythos 5 在大多數任務上與 Mythos Preview 相當或略有提升,但價格大幅降低。

與此同時,他們將為生物領域開放一個可信訪問計劃,幫助加速生物醫(yī)學研究。該計劃提供解除了生物化學護欄(網絡安全護欄仍保留)的 Fable 5 訪問權限,面向來自基礎研究和轉化研究機構的少量研究人員,并計劃逐步擴大。

開發(fā)者可通過 Claude API 使用 claude-fable-5 調用該模型。

今天至 6 月 22 日,Pro、Max、Team 和按座位付費 Enterprise 套餐用戶免費使用 Fable 5。

6 月 23 日起,上述套餐中不再包含 Fable 5,使用需消耗額度。如容量允許,Anthropic 會延長免費窗口。

此后,待容量充足,Fable 5 將重新成為訂閱套餐的標準部分。

參考:

https://www.anthropic.com/news/claude-fable-5-mythos-5

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰(zhàn)!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰(zhàn)!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛(wèi)戰(zhàn)打響后,普京發(fā)表全國講話,俄羅斯對美西方發(fā)出通牒

首都保衛(wèi)戰(zhàn)打響后,普京發(fā)表全國講話,俄羅斯對美西方發(fā)出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協(xié)開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協(xié)開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛(wèi)生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛(wèi)生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發(fā)工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發(fā)工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態(tài)度原創(chuàng)

教育
手機
健康
本地
公開課

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

手機要聞

Android 17缺的原生應用鎖功能,谷歌仍在持續(xù)打磨

這4類消化病患者 吃粘食管住嘴

本地新聞

這場穿越酉陽的光影之旅,張張都是壁紙!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版