无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<p id="vlgqp"><ins id="vlgqp"></ins></p>

<noscript id="vlgqp"></noscript>

<td id="vlgqp"></td><small id="vlgqp"></small>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.8實測封神！強到離譜，也貴到肉痛

2026-05-29 13:18:29　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】傳說中的Claude Opus 4.8，性能真的如此強大嗎？有人高呼封神，直言這是Opus 5，有人吐槽太拉了，還不如Opus 4.7，技術大佬也來拆臺。是夯爆了還是拉完了？一文深度看透。

Anthropic王者歸來！

深夜，Anthropic全新發布Claude Opus 4.8，一舉奪回全球AI王座。

Opus 4.8被定位為一款更強大的復雜任務模型，尤其是在編程、智能體任務和長時間推理方面。

更狠的是，神秘的Mythos幾周之內即將面世！

而且，趁著這股東風，Anthropic緊接著宣布好消息——

以9650億美元估值完成650億美元融資，超越62天前OpenAI的8520億美元的估值！

不過，當人們實測過后，整個科技界瞬間分裂成了兩個截然不同的陣營。

一方面，是以知名評測媒體Every和部分硬核生產力用戶為首的「狂熱派」。

他們高呼Opus 4.8已經「封神」，甚至直言Anthropic這次實在是太低調了，「他們完全可以直接叫它Opus 5，根本不會有人有異議。」

他們直言，Opus 4.8是目前市面上「最全面、最接近人類靈魂與頂尖工程師結合體」的模型。

但另一方面，以Ruby on Rails創始人DHH、Redis之父antirez為首的「開發者老炮」，卻在社交網絡上公開拆臺。

他們認為Opus 4.8的跑分雖然險勝老對手GPT-5.5，但實際的「編碼體感」卻依然落后，甚至直指Anthropic在基準測試的宣傳上犯了重大錯誤。

一方面，它的「快速模式」、「動態工作流」看起來都很殺手級，另一方面，桌面端的體驗，似乎又很拉垮。

Opus 4.8用起來的真實體感，究竟如何？

這是一次名不副實的擠牙膏，還是一次真正的大躍遷？

接下來，就讓我們揭開全貌！

這不是Opus 4.8，是Opus 5！

首先，是以Every團隊為代表的正方。

在長達一周的深度測試后，他們得出了震撼結論——這是我們測試過的最強模型，它簡直是個怪物。

甚至可以說，它可以被叫做Opus 5。

暴漲30分的「資深工程師基準」

在極難的「高級工程師基準」測試中，上一代Opus 4.7曾讓無數開發者大失所望，被指責為「難以使用、難以熱愛」。

但Opus 4.8這一次打了一場漂亮的翻身仗。

在「超高強度」模式下，Opus 4.8拿下了63分的高分，不僅比Opus 4.7夸張地暴漲了30分，更是以1分的微弱優勢，險勝了一直霸榜的GPT-5.5（62分）。

團隊試著讓它去徹底重構一個生產級別的代碼庫，結果Opus 4.8真的交付了一個能夠完美運行的系統！

結果說明，Opus 4.8絕不僅僅是一個補全工具，而是一個能在Repo（代碼倉庫）級別進行長線思考的架構師。

79.6分全場最高：擊穿「AI感」的最強寫手

如果說代碼能力是理科生的浪漫，那么寫作能力則是衡量模型EQ的終極標準。

在Every的寫作基準測試中（涵蓋論文、推廣郵件、長篇敘事等真實場景），Opus 4.8直接艷壓一眾模型。

Opus 4.8跑出了79.6的絕對高分，遠遠甩開了自家兄弟Sonnet 4.6（74.5）、老對手GPT-5.5（73）以及前代Opus 4.7（63）。

「這是一種非常奇妙的體驗。」多位創作者反饋。Opus 4.8極大地減少了令人不適的「AI味」。

當你給它一份風格指南后，它能異常精準地模仿你的語氣。

它甚至展現出了極高的心理學和人際交往洞察力，當你試圖和它探討一些深刻的心理問題時，它的回答毫不敷衍，而是會「質疑你的預設框架」，提供豐富、動態且極其具有深度的思考過程。

100萬Token的統治力，企業級應用一把過

除了跑分，Opus 4.8在復雜知識工作中的表現堪稱怪獸。

它依然保持了100萬Token的超大上下文窗口，這意味著你可以把一整本書的手稿、幾周的會議記錄，甚至一個完整的企業代碼庫一口氣塞給它。

最讓商業咨詢圈震驚的是，在企業級PPT生成測試中，Opus 4.8在Zero-shot的情況下，產出了一份結構清晰、設計合理、敘事邏輯堪稱完美的PPT。這是過去所有模型都無法做到的。

知名云存儲服務商Box，也在第一時間將Opus 4.8接入了其Box AI Agent并在真實企業數據上進行了測試，結果呈現出碾壓態勢。

· 報告起草：在工業品報告任務中，4.8得分87%（對比4.7的77%）；消費品發布評估任務中，得分高達90%。

· 法律審查：Opus 4.8能夠極其精準地抓取合規標準，找出潛在的合同漏洞，并在多次獨立測試中保持近乎完美的穩定性。

· 財務數據分析：在復雜的銀團貸款與雙邊貸款結構對比中，從繁雜的源文檔中提取準確財務指標的能力，比上一代提升了近8個百分點。

沃頓商學院教授Ethan Mollick的實測更是令人拍案叫絕。

他把幾年前數百份去匿名化的研究文件扔進Claude Code中的Opus 4.8。

結果，Opus 4.8自主完成了提前提出假設、數據清洗、尋找參考文獻、進行深度分析、穩健性檢驗，最后直接用LaTeX格式排版輸出了一篇高度專業的小型學術論文！

有趣的是，Mollick教授用GPT-5.5 Pro作為這篇論文的「審稿人」，GPT-5.5挑出了一個幻覺錯誤和幾個小問題，隨后Opus 4.8立刻虛心接受，完美修正。

或許這就是為什么Every的CEO Dan Shipper激動地將Opus 4.8稱為自己的「心頭好」。

一個不可思議的軟件工程師，同時又是一個擁有深度和同理心的近乎人類的作家，二者完美相融。

沃頓商學院教授實測的一個Opus 4.8驚艷案例

被群嘲的桌面端與「高智商稅」

如此強大的模型，為何沒有在全網形成絕對的碾壓之勢？

因為Opus 4.8身上背負著兩個沉重的枷鎖。

「大力出奇跡」的代價，是被智商分級綁架

評測機構很快發現了一個尷尬的事實：Opus 4.8的「神級表現」，可以說是病態地依賴于你給它設定的推理強度（Effort Level）。

在/effort的設定中，只有當檔位拉到「Extra-High」時，Opus 4.8才是那個得分63的資深工程師；一旦降級到「High」，它的編碼得分會瞬間暴跌至42，秒變平庸碼農。

在寫作上也是如此。High檔位下的Opus 4.8文筆優雅、邏輯嚴密；但一旦切到Medium，它就會瞬間原形畢露，暴露出AI最糟糕的套路化寫作惡習。

網友Haider尖銳地指出了這背后的技術退步：

我注意到了一個現象，4.8在低強度下消耗的Token，幾乎和4.6在高強度下一樣多。

GPT-5.5傾向于用更少的Token拿到更高的分數；而4.8似乎走向了反面，它在用海量的Token堆砌智能。

這就導致了Opus系列一直被詬病的硬傷——Rate Limits。

由于高強度模式極度消耗資源，大量訂閱了$200/月Max套餐的高端用戶反饋，在運行復雜Agent任務時，常常幾個小時就會撞上額度墻。

網友BridgeMind直言，自己為了測試連續燒穿了兩個200美元的賬號。

顯然，相較于OpenAI龐大算力支撐下的寬容生態，Anthropic顯得過于摳門了。

混亂的UI設計

如果說模型是引擎，那么客戶端應用就是底盤。而Claude的底盤，正在嚴重拖累這臺跑車。

多位深度評測者指出，Claude桌面端的設計簡直是一場災難。

Chat、Code、Cowork三個獨立標簽頁的分割，被指責為「混亂不堪」。

這種割裂的UI設計，被戲稱是「帶著時間推移的傷疤和Anthropic內部組織架構圖的縮影」。（太亮了）

相比之下，OpenAI的Codex桌面端應用被公認為是「干凈、快速，讓人感覺這就是未來」。

Opus 4.8的硬核實力確實讓很多人想回歸Claude，但糟糕的軟件交互體驗，最終還是讓很多人把GPT-5.5+Codex作為日常主力，只在處理復雜任務時，才會捏著鼻子切回Claude。

極其糟糕的「籠子」

大牛工程師Anthony Koeger是這樣評價的：最近流行的這句話實在太對了，「一個模型的好壞，取決于套在它外面的那層殼（A model is only as good as its harness）。」

而Opus這次有些拉跨。

是關于「誠實」的營銷，還是「跑分陷阱」下的戰略失誤？

伴隨著Opus 4.8的發布，全網也爆發了一場關于大模型「跑分意義的空前激辯。

這場爭論的導火索，就是一張Anthropic自己制作的官方發布圖。

眼尖的網友Aakash Gupta發現了一個極不尋常的細節——

在Anthropic發布的各模型能力對比圖中，在TerminalCoding這一項上，GPT-5.5的成績是78.2%，而Opus 4.8只有74.6%。

正常情況下，任何一家大廠的公關部，都會把輸掉的測試項悄悄從PPT上抹去。

但Anthropic沒有，他們不僅把失敗留在了圖表上，甚至還主動把GPT-5.5那代表勝利的78.2%做了加粗處理。

Aakash對此大加贊賞，認為這顯示出Opus4.8的核心賣點——誠實。

在大型Agent任務中，模型最昂貴、最致命的失敗模式，就是「過度自信」。

而Opus 4.8最大的隱性升級，就是它更愿意承認自己不確定。官方數據顯示，4.8在代碼中留下缺陷卻不聲張的概率，比4.7降低了驚人的4倍。

這次，Anthropic賣的不是跑分，而是誠實。

在Vending Bench測試中，Claude Opus 4.8的表現也遠遜于Opus 4.7和GPT 5.5

然而，業界大佬們并不買賬。

Ruby on Rails創始人和Redis之父，這兩位在開發者社區擁有極高話語權的大神，直接對Anthropic開炮。

DHH坦言，自從用了GPT-5.5之后，他經歷了無數次震撼時刻，這是他在Claude陣營很久沒有體會到的了。

antirez更是尖銳地指出，Anthropic這次把GPT-5.5放在同一張圖里對比，犯了一個「重大的戰略錯誤」。

過去的廠商比拼，往往是拿新一代模型和自己的上一代比。

但這次，Anthropic非要和GPT-5.5比。問題在于，現在全網的「體感」是，GPT-5.5的寫代碼能力非常、非常強悍。

當你Anthropic拿著一張圖表，告訴大家你的Opus4.8跑分比GPT-5.5還要高。

但我們用起來卻覺得并非如此時，你不僅不能證明你更強，反而會讓用戶覺得你們的基準測試是在自娛自樂，徹底失去公信力。

網友aditya的吐槽更是直擊靈魂：

用了快一個小時的Opus 4.8，它根本不值得炒作。

幾個很普通的工程任務，它全搞砸了。

在前端領域，網友也感到失落：「用了幾個小時4.8，感覺還不如4.7順手。」

這一現象印證了AI大V Chubby的觀察：Anthropic現在仿佛在拼命追趕OpenAI，而不是以前那樣在引領整個行業了。

面對即將到來的GPT-5.6，Anthropic的王座顯得搖搖欲墜。

有人做了一個速查表，結論是GPT 5.5和Opus 4.8的勝負取決于推理能力和獲得第一個token的時間

6周的趕工，Anthropic這次急了

為什么Opus 4.8 會呈現出如此復雜、矛盾的評價？

一個不容忽視的數據是：Opus 4.8距離上一代4.7的發布，僅僅隔了6個星期。

這是Anthropic歷史上最快的一次大版本迭代（此前每個Opus版本的間隔至少在10周以上）。

資深觀察家BridgeMind一針見血地指出了真相：「這完全是一次倉促的發布，因為GPT-5.5正在瘋狂蠶食市場份額。」

那么，真正的殺招在哪里？

據多方消息證實，Anthropic真正的下一代旗艦模型，代號為Mythos，幾周內就會面世。

「Opus 4.8只是一個過渡的創可貼，它修補了4.7的一些毛病，去幾個Agent榜單上刷了存在感。」業內人士指出，「如果你在期待真正的智能質變，請屏息等待Mythos。」

網友Machina的一段話，或許是對Opus 4.8發布最貼切的解讀。

我們已經跨過了那條線——現在的旗艦模型，已經超出了絕大多數普通人分辨其優劣的能力上限。所以，現在世界上只剩下唯一一個真實的Benchmark，那就是你自己的工作流。

如果連你在自己最爛熟于心的工作上都感覺不出差異，那么這些跑分對你來說，就沒有任何意義。」

Opus 4.8到底是神作，還是一次倉促的公關手段？

調出你最難啃的那個項目，讓實測給你答案吧。

參考資料：

https://every.to/vibe-check/opus-4-8-vibecheck

https://x.com/bridgemindai/status/2060107380159852900

https://x.com/danshipper/status/2060043738752422304?s=20

編輯：Aeneas 大衛

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
451 跟貼 451
中方代表香會講話當場向日方提出兩個問題

環球網資訊 2026-05-30 19:36:11
8413 跟貼 8413

房主將自家住宅變“網約房” 鄰居有權說“不”嗎？

北青網-北京青年報 2026-05-30 21:06:09
5954 跟貼 5954

熱聞|阿森納夢碎十二碼！巴黎圣日耳曼蟬聯歐冠冠軍

齊魯壹點 2026-05-31 06:48:50
178 跟貼 178
人民直擊｜三問張家口風電項目1.9億“天價”補償后續

人民資訊 2026-05-31 09:15:09
929 跟貼 929

今晚，上海男籃迎來最嚴峻考驗！

新民晚報 2026-05-31 11:02:21
33 跟貼 33

鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1866 跟貼 1866
中超上半程收官戰，泰山隊輸得不難看

齊魯壹點 2026-05-30 23:33:13
127 跟貼 127

國泰航班降落滑行時有幼童哭鬧，男乘客高聲怒斥！航司回應

南方都市報 2026-05-30 20:52:09
611 跟貼 611
6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
227 跟貼 227
NBA｜西部決賽搶七大戰，馬刺擊敗雷霆奪得總決賽門票

澎湃新聞 2026-05-31 10:50:28
205 跟貼 205
梁實第30次參加高考：我覺得有把握

極目新聞 2026-05-30 16:28:58
1758 跟貼 1758
話題｜陳濤率隊兩連勝后下課，新鵬城此時換帥為哪般？

北青網-北京青年報 2026-05-31 11:55:16
4 跟貼 4
總臺報道有反饋丨內蒙古呼和浩特一藥店高價銷售集采藥當地約談主要負責人

央視新聞客戶端 2026-05-30 15:45:02
166 跟貼 166
美防長“香會”溫和表態引關注專家解讀

環球時報 2026-05-31 07:34:49
31 跟貼 31
國家醫保局發布2026年國家醫保目錄調整工作方案

央視新聞客戶端 2026-05-31 09:28:55
898 跟貼 898
空氣炸鍋紙、蒸籠紙致癌、咖啡濾紙含熒光劑？實測結果公布

澎湃新聞 2026-05-30 22:09:03
296 跟貼 296
夜空中最亮的星

國際在線 2026-05-29 08:57:49
1456 跟貼 1456
險資密集加倉紅利股

證券時報 2026-05-31 07:54:03
37 跟貼 37
以軍：已奪取黎南部重要戰略地點

界面新聞 2026-05-31 14:11:04
112 跟貼 112
胖東來調整營業時間

界面新聞 2026-05-31 10:21:42
0 跟貼 0
人民日報 | 汕頭如何實現日均百億詞元“出海”？

人民網-人民日報 2026-05-31 11:34:54
3 跟貼 3
云南會澤發生私挖盜采礦產資源垮塌事故致5死1傷

澎湃新聞 2026-05-31 15:17:17
0 跟貼 0
2026年最寒心的“農夫與蛇”：恩將仇報連狗都不如

紅色少女主播 2026-05-31 15:18:01
0 跟貼 0
上海游客自駕摩托車穿越青海哈拉湖無人區被困！救援細節披露

南方都市報 2026-05-31 15:15:18
0 跟貼 0
特寫｜終獲賠40萬！罕見病“銅娃娃”的漫漫起訴路

21世紀經濟報道 2026-05-31 15:20:27
0 跟貼 0
這是一個騙子橫行、傻子遍地的時代

土家鐵拳 2026-05-31 15:12:48
0 跟貼 0

寧波知名法餐廳老板娘吳優琴去世，年僅39歲，嫁老外定居中國11年

寧波知名法餐廳老板娘吳優琴去世，年僅39歲，嫁老外定居中國11年

裕豐娛間說

2026-05-30 18:31:41

文班談挺進總決賽：這是一生一次的機會，幾乎是我生命的意義

文班談挺進總決賽：這是一生一次的機會，幾乎是我生命的意義

懂球帝

2026-05-31 13:20:12

快訊！關于鄭麗文的消息！

故事終將光明磊落

2026-05-31 10:59:46

杰拉德：不理解為什么埃澤要搞這些花樣，點球直接用力踢就行

杰拉德：不理解為什么埃澤要搞這些花樣，點球直接用力踢就行

懂球帝

2026-05-31 10:40:08

“沒穿幾次壞到離譜！”知名品牌淘寶旗艦店，上海消費者質疑買到“陳年老鞋”，客服：庫存信息屬店鋪隱私，無法提供

“沒穿幾次壞到離譜！”知名品牌淘寶旗艦店，上海消費者質疑買到“陳年老鞋”，客服：庫存信息屬店鋪隱私，無法提供

新民晚報

2026-05-31 11:03:40

"香會"期間英美澳官宣為無人潛航器研制新武器

"香會"期間英美澳官宣為無人潛航器研制新武器

看看新聞Knews

2026-05-31 12:16:11

金融危機要來了？專家預測：未來12到18個月，世界將爆發金融風暴

金融危機要來了？專家預測：未來12到18個月，世界將爆發金融風暴

別人都叫我阿腈

2026-05-30 20:32:28

隨著雷霆3-4出局，NBA總決賽確定：馬刺vs尼克斯！總冠軍預測如下

隨著雷霆3-4出局，NBA總決賽確定：馬刺vs尼克斯！總冠軍預測如下

小火箭愛體育

2026-05-31 11:29:29

央媒調查稻城亞丁“道路設卡擺渡收費”：收的什么費？景區有權設卡嗎？

央媒調查稻城亞丁“道路設卡擺渡收費”：收的什么費？景區有權設卡嗎？

澎湃新聞

2026-05-31 07:54:04

你慶幸自己看過哪本含金量極高的書?網友：顛覆了認知，再不內耗

你慶幸自己看過哪本含金量極高的書?網友：顛覆了認知，再不內耗

夜深愛雜談

2026-05-30 08:34:39

香會現場反差拉滿：美國不敢提臺灣，我方直接點名敲打日本

香會現場反差拉滿：美國不敢提臺灣，我方直接點名敲打日本

南宗歷史

2026-05-31 06:51:48

阿斯利姆，遇襲身亡

極目新聞

2026-05-31 10:30:10

一男子家中被盜10萬，嫌狗不叫把它賣了300元，誰料，3天后警察上門，說出一句話，男子瘋了一樣沖出去...

一男子家中被盜10萬，嫌狗不叫把它賣了300元，誰料，3天后警察上門，說出一句話，男子瘋了一樣沖出去...

背包旅行

2026-05-31 11:50:15

哈珀：文班做到了作為偉大領袖的一切，無論如何我們都跟隨他

哈珀：文班做到了作為偉大領袖的一切，無論如何我們都跟隨他

懂球帝

2026-05-31 15:17:08

50歲后才懂，夏天的熱是最好的補藥

50歲后才懂，夏天的熱是最好的補藥

詩詞天地

2026-05-30 06:00:13

法學博士牛學輝被執行死刑，新婚12天殺害妻子，行刑前拒見親人

法學博士牛學輝被執行死刑，新婚12天殺害妻子，行刑前拒見親人

深夜探案館

2026-05-30 12:00:12

我國最大遺憾！1994年將領土劃給俄羅斯，如今還能再收回來嗎？

我國最大遺憾！1994年將領土劃給俄羅斯，如今還能再收回來嗎？

涼州辭

2026-05-30 10:15:03

萬萬沒想到：李連杰主演的《少林寺》，絕大多數鏡頭居然都不是在“少林寺”拍的！

萬萬沒想到：李連杰主演的《少林寺》，絕大多數鏡頭居然都不是在“少林寺”拍的！

良有方

2026-05-31 05:38:41

哺乳期選手參賽隱私被直播，萬人圍觀無人管，賽事方的敷衍太離譜

哺乳期選手參賽隱私被直播，萬人圍觀無人管，賽事方的敷衍太離譜

老特有話說

2026-05-30 16:48:20

單親媽媽蹬三輪賣粽子孩子車斗里寫作業，這一幕感動全網，當事媽媽拒絕網友捐款

單親媽媽蹬三輪賣粽子孩子車斗里寫作業，這一幕感動全網，當事媽媽拒絕網友捐款

瀟湘晨報

2026-05-31 02:42:18

AI產業主平臺領航智能+時代

15349文章數 66894關注度

往期回顧全部

科技要聞

戴爾諾基亞又回來了！AI重估老牌科技公司

頭條要聞

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式，成就了巴黎王朝

娛樂要聞

賈玲最新動作！侯明昊給虞書欣抬轎！

財經要聞

醫學首席轉崗搞科技，A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數碼

健康

藝術

家居

本地新聞

用剪紙的方式，打開江蘇揚州

數碼要聞

小米米家無線吸塵器4 Pro開啟預售，以舊換新1219元

嘗試干細胞療法如何避免踩坑？

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

家居要聞

云棲舒展如流云

蜂鳥餐椅線面交錯
古老而持久石影扶手椅
生與命相依舊公寓改造

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<source id="nviwx"></source>

<object id="nviwx"><option id="nviwx"></option></object>