![]()
新智元報道
![]()
【新智元導讀】傳說中的Claude Opus 4.8,性能真的如此強大嗎?有人高呼封神,直言這是Opus 5,有人吐槽太拉了,還不如Opus 4.7,技術大佬也來拆臺。是夯爆了還是拉完了?一文深度看透。
Anthropic王者歸來!
深夜,Anthropic全新發布Claude Opus 4.8,一舉奪回全球AI王座。
Opus 4.8被定位為一款更強大的復雜任務模型,尤其是在編程、智能體任務和長時間推理方面。
更狠的是,神秘的Mythos幾周之內即將面世!
![]()
而且,趁著這股東風,Anthropic緊接著宣布好消息——
以9650億美元估值完成650億美元融資,超越62天前OpenAI的8520億美元的估值!
![]()
不過,當人們實測過后,整個科技界瞬間分裂成了兩個截然不同的陣營。
![]()
一方面,是以知名評測媒體Every和部分硬核生產力用戶為首的「狂熱派」。
他們高呼Opus 4.8已經「封神」,甚至直言Anthropic這次實在是太低調了,「他們完全可以直接叫它Opus 5,根本不會有人有異議。」
他們直言,Opus 4.8是目前市面上「最全面、最接近人類靈魂與頂尖工程師結合體」的模型。
![]()
但另一方面,以Ruby on Rails創始人DHH、Redis之父antirez為首的「開發者老炮」,卻在社交網絡上公開拆臺。
他們認為Opus 4.8的跑分雖然險勝老對手GPT-5.5,但實際的「編碼體感」卻依然落后,甚至直指Anthropic在基準測試的宣傳上犯了重大錯誤。
一方面,它的「快速模式」、「動態工作流」看起來都很殺手級,另一方面,桌面端的體驗,似乎又很拉垮。
![]()
Opus 4.8用起來的真實體感,究竟如何?
這是一次名不副實的擠牙膏,還是一次真正的大躍遷?
接下來,就讓我們揭開全貌!
![]()
這不是Opus 4.8,是Opus 5!
首先,是以Every團隊為代表的正方。
在長達一周的深度測試后,他們得出了震撼結論——這是我們測試過的最強模型,它簡直是個怪物。
甚至可以說,它可以被叫做Opus 5。
![]()
![]()
暴漲30分的「資深工程師基準」
在極難的「高級工程師基準」測試中,上一代Opus 4.7曾讓無數開發者大失所望,被指責為「難以使用、難以熱愛」。
但Opus 4.8這一次打了一場漂亮的翻身仗。
在「超高強度」模式下,Opus 4.8拿下了63分的高分,不僅比Opus 4.7夸張地暴漲了30分,更是以1分的微弱優勢,險勝了一直霸榜的GPT-5.5(62分)。
![]()
團隊試著讓它去徹底重構一個生產級別的代碼庫,結果Opus 4.8真的交付了一個能夠完美運行的系統!
![]()
結果說明,Opus 4.8絕不僅僅是一個補全工具,而是一個能在Repo(代碼倉庫)級別進行長線思考的架構師。
79.6分全場最高:擊穿「AI感」的最強寫手
如果說代碼能力是理科生的浪漫,那么寫作能力則是衡量模型EQ的終極標準。
在Every的寫作基準測試中(涵蓋論文、推廣郵件、長篇敘事等真實場景),Opus 4.8直接艷壓一眾模型。
![]()
Opus 4.8跑出了79.6的絕對高分,遠遠甩開了自家兄弟Sonnet 4.6(74.5)、老對手GPT-5.5(73)以及前代Opus 4.7(63)。
「這是一種非常奇妙的體驗。」多位創作者反饋。Opus 4.8極大地減少了令人不適的「AI味」。
![]()
當你給它一份風格指南后,它能異常精準地模仿你的語氣。
它甚至展現出了極高的心理學和人際交往洞察力,當你試圖和它探討一些深刻的心理問題時,它的回答毫不敷衍,而是會「質疑你的預設框架」,提供豐富、動態且極其具有深度的思考過程。
100萬Token的統治力,企業級應用一把過
除了跑分,Opus 4.8在復雜知識工作中的表現堪稱怪獸。
它依然保持了100萬Token的超大上下文窗口,這意味著你可以把一整本書的手稿、幾周的會議記錄,甚至一個完整的企業代碼庫一口氣塞給它。
![]()
最讓商業咨詢圈震驚的是,在企業級PPT生成測試中,Opus 4.8在Zero-shot的情況下,產出了一份結構清晰、設計合理、敘事邏輯堪稱完美的PPT。這是過去所有模型都無法做到的。
知名云存儲服務商Box,也在第一時間將Opus 4.8接入了其Box AI Agent并在真實企業數據上進行了測試,結果呈現出碾壓態勢。
![]()
![]()
· 報告起草:在工業品報告任務中,4.8得分87%(對比4.7的77%);消費品發布評估任務中,得分高達90%。
· 法律審查:Opus 4.8能夠極其精準地抓取合規標準,找出潛在的合同漏洞,并在多次獨立測試中保持近乎完美的穩定性。
· 財務數據分析:在復雜的銀團貸款與雙邊貸款結構對比中,從繁雜的源文檔中提取準確財務指標的能力,比上一代提升了近8個百分點。
![]()
![]()
沃頓商學院教授Ethan Mollick的實測更是令人拍案叫絕。
他把幾年前數百份去匿名化的研究文件扔進Claude Code中的Opus 4.8。
結果,Opus 4.8自主完成了提前提出假設、數據清洗、尋找參考文獻、進行深度分析、穩健性檢驗,最后直接用LaTeX格式排版輸出了一篇高度專業的小型學術論文!
![]()
有趣的是,Mollick教授用GPT-5.5 Pro作為這篇論文的「審稿人」,GPT-5.5挑出了一個幻覺錯誤和幾個小問題,隨后Opus 4.8立刻虛心接受,完美修正。
![]()
或許這就是為什么Every的CEO Dan Shipper激動地將Opus 4.8稱為自己的「心頭好」。
一個不可思議的軟件工程師,同時又是一個擁有深度和同理心的近乎人類的作家,二者完美相融。
![]()
沃頓商學院教授實測的一個Opus 4.8驚艷案例
被群嘲的桌面端與「高智商稅」
如此強大的模型,為何沒有在全網形成絕對的碾壓之勢?
因為Opus 4.8身上背負著兩個沉重的枷鎖。
「大力出奇跡」的代價,是被智商分級綁架
評測機構很快發現了一個尷尬的事實:Opus 4.8的「神級表現」,可以說是病態地依賴于你給它設定的推理強度(Effort Level)。
在/effort的設定中,只有當檔位拉到「Extra-High」時,Opus 4.8才是那個得分63的資深工程師;一旦降級到「High」,它的編碼得分會瞬間暴跌至42,秒變平庸碼農。
在寫作上也是如此。High檔位下的Opus 4.8文筆優雅、邏輯嚴密;但一旦切到Medium,它就會瞬間原形畢露,暴露出AI最糟糕的套路化寫作惡習。
![]()
網友Haider尖銳地指出了這背后的技術退步:
我注意到了一個現象,4.8在低強度下消耗的Token,幾乎和4.6在高強度下一樣多。
GPT-5.5傾向于用更少的Token拿到更高的分數;而4.8似乎走向了反面,它在用海量的Token堆砌智能。
![]()
這就導致了Opus系列一直被詬病的硬傷——Rate Limits。
由于高強度模式極度消耗資源,大量訂閱了$200/月Max套餐的高端用戶反饋,在運行復雜Agent任務時,常常幾個小時就會撞上額度墻。
![]()
網友BridgeMind直言,自己為了測試連續燒穿了兩個200美元的賬號。
![]()
顯然,相較于OpenAI龐大算力支撐下的寬容生態,Anthropic顯得過于摳門了。
混亂的UI設計
如果說模型是引擎,那么客戶端應用就是底盤。而Claude的底盤,正在嚴重拖累這臺跑車。
多位深度評測者指出,Claude桌面端的設計簡直是一場災難。
Chat、Code、Cowork三個獨立標簽頁的分割,被指責為「混亂不堪」。
![]()
這種割裂的UI設計,被戲稱是「帶著時間推移的傷疤和Anthropic內部組織架構圖的縮影」。(太亮了)
相比之下,OpenAI的Codex桌面端應用被公認為是「干凈、快速,讓人感覺這就是未來」。
Opus 4.8的硬核實力確實讓很多人想回歸Claude,但糟糕的軟件交互體驗,最終還是讓很多人把GPT-5.5+Codex作為日常主力,只在處理復雜任務時,才會捏著鼻子切回Claude。
![]()
極其糟糕的「籠子」
大牛工程師Anthony Koeger是這樣評價的:最近流行的這句話實在太對了,「一個模型的好壞,取決于套在它外面的那層殼(A model is only as good as its harness)。」
![]()
而Opus這次有些拉跨。
![]()
是關于「誠實」的營銷,還是「跑分陷阱」下的戰略失誤?
伴隨著Opus 4.8的發布,全網也爆發了一場關于大模型「跑分意義的空前激辯。
這場爭論的導火索,就是一張Anthropic自己制作的官方發布圖。
眼尖的網友Aakash Gupta發現了一個極不尋常的細節——
在Anthropic發布的各模型能力對比圖中,在TerminalCoding這一項上,GPT-5.5的成績是78.2%,而Opus 4.8只有74.6%。
![]()
正常情況下,任何一家大廠的公關部,都會把輸掉的測試項悄悄從PPT上抹去。
但Anthropic沒有,他們不僅把失敗留在了圖表上,甚至還主動把GPT-5.5那代表勝利的78.2%做了加粗處理。
Aakash對此大加贊賞,認為這顯示出Opus4.8的核心賣點——誠實。
![]()
在大型Agent任務中,模型最昂貴、最致命的失敗模式,就是「過度自信」。
而Opus 4.8最大的隱性升級,就是它更愿意承認自己不確定。官方數據顯示,4.8在代碼中留下缺陷卻不聲張的概率,比4.7降低了驚人的4倍。
這次,Anthropic賣的不是跑分,而是誠實。
![]()
![]()
在Vending Bench測試中,Claude Opus 4.8的表現也遠遜于Opus 4.7和GPT 5.5
然而,業界大佬們并不買賬。
Ruby on Rails創始人和Redis之父,這兩位在開發者社區擁有極高話語權的大神,直接對Anthropic開炮。
DHH坦言,自從用了GPT-5.5之后,他經歷了無數次震撼時刻,這是他在Claude陣營很久沒有體會到的了。
antirez更是尖銳地指出,Anthropic這次把GPT-5.5放在同一張圖里對比,犯了一個「重大的戰略錯誤」。
![]()
過去的廠商比拼,往往是拿新一代模型和自己的上一代比。
但這次,Anthropic非要和GPT-5.5比。問題在于,現在全網的「體感」是,GPT-5.5的寫代碼能力非常、非常強悍。
當你Anthropic拿著一張圖表,告訴大家你的Opus4.8跑分比GPT-5.5還要高。
但我們用起來卻覺得并非如此時,你不僅不能證明你更強,反而會讓用戶覺得你們的基準測試是在自娛自樂,徹底失去公信力。
![]()
網友aditya的吐槽更是直擊靈魂:
用了快一個小時的Opus 4.8,它根本不值得炒作。
幾個很普通的工程任務,它全搞砸了。
![]()
在前端領域,網友也感到失落:「用了幾個小時4.8,感覺還不如4.7順手。」
![]()
這一現象印證了AI大V Chubby的觀察:Anthropic現在仿佛在拼命追趕OpenAI,而不是以前那樣在引領整個行業了。
![]()
面對即將到來的GPT-5.6,Anthropic的王座顯得搖搖欲墜。
![]()
![]()
有人做了一個速查表,結論是GPT 5.5和Opus 4.8的勝負取決于推理能力和獲得第一個token的時間
![]()
![]()
6周的趕工,Anthropic這次急了
為什么Opus 4.8 會呈現出如此復雜、矛盾的評價?
一個不容忽視的數據是:Opus 4.8距離上一代4.7的發布,僅僅隔了6個星期。
這是Anthropic歷史上最快的一次大版本迭代(此前每個Opus版本的間隔至少在10周以上)。
資深觀察家BridgeMind一針見血地指出了真相:「這完全是一次倉促的發布,因為GPT-5.5正在瘋狂蠶食市場份額。」
![]()
那么,真正的殺招在哪里?
據多方消息證實,Anthropic真正的下一代旗艦模型,代號為Mythos,幾周內就會面世。
「Opus 4.8只是一個過渡的創可貼,它修補了4.7的一些毛病,去幾個Agent榜單上刷了存在感。」業內人士指出,「如果你在期待真正的智能質變,請屏息等待Mythos。」
網友Machina的一段話,或許是對Opus 4.8發布最貼切的解讀。
我們已經跨過了那條線——現在的旗艦模型,已經超出了絕大多數普通人分辨其優劣的能力上限。所以,現在世界上只剩下唯一一個真實的Benchmark,那就是你自己的工作流。
如果連你在自己最爛熟于心的工作上都感覺不出差異,那么這些跑分對你來說,就沒有任何意義。」
![]()
Opus 4.8到底是神作,還是一次倉促的公關手段?
調出你最難啃的那個項目,讓實測給你答案吧。
參考資料:
https://every.to/vibe-check/opus-4-8-vibecheck
https://x.com/bridgemindai/status/2060107380159852900
https://x.com/danshipper/status/2060043738752422304?s=20
編輯:Aeneas 大衛
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.