无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.8實測封神!強到離譜,也貴到肉痛

0
分享至


新智元報道


【新智元導讀】傳說中的Claude Opus 4.8,性能真的如此強大嗎?有人高呼封神,直言這是Opus 5,有人吐槽太拉了,還不如Opus 4.7,技術大佬也來拆臺。是夯爆了還是拉完了?一文深度看透。

Anthropic王者歸來!

深夜,Anthropic全新發布Claude Opus 4.8,一舉奪回全球AI王座。

Opus 4.8被定位為一款更強大的復雜任務模型,尤其是在編程、智能體任務和長時間推理方面。

更狠的是,神秘的Mythos幾周之內即將面世!


而且,趁著這股東風,Anthropic緊接著宣布好消息——

以9650億美元估值完成650億美元融資,超越62天前OpenAI的8520億美元的估值!


不過,當人們實測過后,整個科技界瞬間分裂成了兩個截然不同的陣營。


一方面,是以知名評測媒體Every和部分硬核生產力用戶為首的「狂熱派」。

他們高呼Opus 4.8已經「封神」,甚至直言Anthropic這次實在是太低調了,他們完全可以直接叫它Opus 5,根本不會有人有異議。

他們直言,Opus 4.8是目前市面上「最全面、最接近人類靈魂與頂尖工程師結合體」的模型。


但另一方面,以Ruby on Rails創始人DHH、Redis之父antirez為首的「開發者老炮」,卻在社交網絡上公開拆臺。

他們認為Opus 4.8的跑分雖然險勝老對手GPT-5.5,但實際的「編碼體感」卻依然落后,甚至直指Anthropic在基準測試的宣傳上犯了重大錯誤。

一方面,它的「快速模式」、「動態工作流」看起來都很殺手級,另一方面,桌面端的體驗,似乎又很拉垮。


Opus 4.8用起來的真實體感,究竟如何?

這是一次名不副實的擠牙膏,還是一次真正的大躍遷?

接下來,就讓我們揭開全貌!


這不是Opus 4.8,是Opus 5!

首先,是以Every團隊為代表的正方。

在長達一周的深度測試后,他們得出了震撼結論——這是我們測試過的最強模型,它簡直是個怪物。

甚至可以說,它可以被叫做Opus 5。



暴漲30分的資深工程師基準

在極難的「高級工程師基準」測試中,上一代Opus 4.7曾讓無數開發者大失所望,被指責為「難以使用、難以熱愛」。

但Opus 4.8這一次打了一場漂亮的翻身仗。

在「超高強度」模式下,Opus 4.8拿下了63分的高分,不僅比Opus 4.7夸張地暴漲了30分,更是以1分的微弱優勢,險勝了一直霸榜的GPT-5.5(62分)。


團隊試著讓它去徹底重構一個生產級別的代碼庫,結果Opus 4.8真的交付了一個能夠完美運行的系統!


結果說明,Opus 4.8絕不僅僅是一個補全工具,而是一個能在Repo(代碼倉庫)級別進行長線思考的架構師。

79.6分全場最高:擊穿AI感的最強寫手

如果說代碼能力是理科生的浪漫,那么寫作能力則是衡量模型EQ的終極標準。

在Every的寫作基準測試中(涵蓋論文、推廣郵件、長篇敘事等真實場景),Opus 4.8直接艷壓一眾模型。


Opus 4.8跑出了79.6的絕對高分,遠遠甩開了自家兄弟Sonnet 4.6(74.5)、老對手GPT-5.5(73)以及前代Opus 4.7(63)。

「這是一種非常奇妙的體驗。」多位創作者反饋。Opus 4.8極大地減少了令人不適的「AI味」。


當你給它一份風格指南后,它能異常精準地模仿你的語氣。

它甚至展現出了極高的心理學和人際交往洞察力,當你試圖和它探討一些深刻的心理問題時,它的回答毫不敷衍,而是會「質疑你的預設框架」,提供豐富、動態且極其具有深度的思考過程。

100萬Token的統治力,企業級應用一把過

除了跑分,Opus 4.8在復雜知識工作中的表現堪稱怪獸。

它依然保持了100萬Token的超大上下文窗口,這意味著你可以把一整本書的手稿、幾周的會議記錄,甚至一個完整的企業代碼庫一口氣塞給它。


最讓商業咨詢圈震驚的是,在企業級PPT生成測試中,Opus 4.8在Zero-shot的情況下,產出了一份結構清晰、設計合理、敘事邏輯堪稱完美的PPT。這是過去所有模型都無法做到的。

知名云存儲服務商Box,也在第一時間將Opus 4.8接入了其Box AI Agent并在真實企業數據上進行了測試,結果呈現出碾壓態勢。



· 報告起草:在工業品報告任務中,4.8得分87%(對比4.7的77%);消費品發布評估任務中,得分高達90%。

· 法律審查:Opus 4.8能夠極其精準地抓取合規標準,找出潛在的合同漏洞,并在多次獨立測試中保持近乎完美的穩定性。

· 財務數據分析:在復雜的銀團貸款與雙邊貸款結構對比中,從繁雜的源文檔中提取準確財務指標的能力,比上一代提升了近8個百分點。



沃頓商學院教授Ethan Mollick的實測更是令人拍案叫絕。

他把幾年前數百份去匿名化的研究文件扔進Claude Code中的Opus 4.8。

結果,Opus 4.8自主完成了提前提出假設、數據清洗、尋找參考文獻、進行深度分析、穩健性檢驗,最后直接用LaTeX格式排版輸出了一篇高度專業的小型學術論文!


有趣的是,Mollick教授用GPT-5.5 Pro作為這篇論文的「審稿人」,GPT-5.5挑出了一個幻覺錯誤和幾個小問題,隨后Opus 4.8立刻虛心接受,完美修正。


或許這就是為什么Every的CEO Dan Shipper激動地將Opus 4.8稱為自己的「心頭好」。

一個不可思議的軟件工程師,同時又是一個擁有深度和同理心的近乎人類的作家,二者完美相融。


沃頓商學院教授實測的一個Opus 4.8驚艷案例

被群嘲的桌面端與「高智商稅」

如此強大的模型,為何沒有在全網形成絕對的碾壓之勢?

因為Opus 4.8身上背負著兩個沉重的枷鎖。

「大力出奇跡」的代價,是被智商分級綁架

評測機構很快發現了一個尷尬的事實:Opus 4.8的「神級表現」,可以說是病態地依賴于你給它設定的推理強度(Effort Level)。

在/effort的設定中,只有當檔位拉到「Extra-High」時,Opus 4.8才是那個得分63的資深工程師;一旦降級到「High」,它的編碼得分會瞬間暴跌至42,秒變平庸碼農。

在寫作上也是如此。High檔位下的Opus 4.8文筆優雅、邏輯嚴密;但一旦切到Medium,它就會瞬間原形畢露,暴露出AI最糟糕的套路化寫作惡習。


網友Haider尖銳地指出了這背后的技術退步:

我注意到了一個現象,4.8在低強度下消耗的Token,幾乎和4.6在高強度下一樣多。

GPT-5.5傾向于用更少的Token拿到更高的分數;而4.8似乎走向了反面,它在用海量的Token堆砌智能。


這就導致了Opus系列一直被詬病的硬傷——Rate Limits。

由于高強度模式極度消耗資源,大量訂閱了$200/月Max套餐的高端用戶反饋,在運行復雜Agent任務時,常常幾個小時就會撞上額度墻。


網友BridgeMind直言,自己為了測試連續燒穿了兩個200美元的賬號。


顯然,相較于OpenAI龐大算力支撐下的寬容生態,Anthropic顯得過于摳門了。

混亂的UI設計

如果說模型是引擎,那么客戶端應用就是底盤。而Claude的底盤,正在嚴重拖累這臺跑車。

多位深度評測者指出,Claude桌面端的設計簡直是一場災難。

Chat、Code、Cowork三個獨立標簽頁的分割,被指責為「混亂不堪」。


這種割裂的UI設計,被戲稱是「帶著時間推移的傷疤和Anthropic內部組織架構圖的縮影」。(太亮了)

相比之下,OpenAI的Codex桌面端應用被公認為是「干凈、快速,讓人感覺這就是未來」。

Opus 4.8的硬核實力確實讓很多人想回歸Claude,但糟糕的軟件交互體驗,最終還是讓很多人把GPT-5.5+Codex作為日常主力,只在處理復雜任務時,才會捏著鼻子切回Claude。


極其糟糕的「籠子」

大牛工程師Anthony Koeger是這樣評價的:最近流行的這句話實在太對了,「一個模型的好壞,取決于套在它外面的那層殼(A model is only as good as its harness)。」


而Opus這次有些拉跨。


是關于「誠實」的營銷,還是「跑分陷阱」下的戰略失誤?

伴隨著Opus 4.8的發布,全網也爆發了一場關于大模型「跑分意義的空前激辯。

這場爭論的導火索,就是一張Anthropic自己制作的官方發布圖。

眼尖的網友Aakash Gupta發現了一個極不尋常的細節——

在Anthropic發布的各模型能力對比圖中,在TerminalCoding這一項上,GPT-5.5的成績是78.2%,而Opus 4.8只有74.6%。


正常情況下,任何一家大廠的公關部,都會把輸掉的測試項悄悄從PPT上抹去。

但Anthropic沒有,他們不僅把失敗留在了圖表上,甚至還主動把GPT-5.5那代表勝利的78.2%做了加粗處理。

Aakash對此大加贊賞,認為這顯示出Opus4.8的核心賣點——誠實。


在大型Agent任務中,模型最昂貴、最致命的失敗模式,就是「過度自信」。

而Opus 4.8最大的隱性升級,就是它更愿意承認自己不確定。官方數據顯示,4.8在代碼中留下缺陷卻不聲張的概率,比4.7降低了驚人的4倍。

這次,Anthropic賣的不是跑分,而是誠實。



在Vending Bench測試中,Claude Opus 4.8的表現也遠遜于Opus 4.7和GPT 5.5

然而,業界大佬們并不買賬。

Ruby on Rails創始人和Redis之父,這兩位在開發者社區擁有極高話語權的大神,直接對Anthropic開炮。

DHH坦言,自從用了GPT-5.5之后,他經歷了無數次震撼時刻,這是他在Claude陣營很久沒有體會到的了。

antirez更是尖銳地指出,Anthropic這次把GPT-5.5放在同一張圖里對比,犯了一個「重大的戰略錯誤」。


過去的廠商比拼,往往是拿新一代模型和自己的上一代比。

但這次,Anthropic非要和GPT-5.5比。問題在于,現在全網的「體感」是,GPT-5.5的寫代碼能力非常、非常強悍。

當你Anthropic拿著一張圖表,告訴大家你的Opus4.8跑分比GPT-5.5還要高。

但我們用起來卻覺得并非如此時,你不僅不能證明你更強,反而會讓用戶覺得你們的基準測試是在自娛自樂,徹底失去公信力。


網友aditya的吐槽更是直擊靈魂:

用了快一個小時的Opus 4.8,它根本不值得炒作。

幾個很普通的工程任務,它全搞砸了。


在前端領域,網友也感到失落:「用了幾個小時4.8,感覺還不如4.7順手。」


這一現象印證了AI大V Chubby的觀察:Anthropic現在仿佛在拼命追趕OpenAI,而不是以前那樣在引領整個行業了。


面對即將到來的GPT-5.6,Anthropic的王座顯得搖搖欲墜。



有人做了一個速查表,結論是GPT 5.5和Opus 4.8的勝負取決于推理能力和獲得第一個token的時間



6周的趕工,Anthropic這次急了

為什么Opus 4.8 會呈現出如此復雜、矛盾的評價?

一個不容忽視的數據是:Opus 4.8距離上一代4.7的發布,僅僅隔了6個星期。

這是Anthropic歷史上最快的一次大版本迭代(此前每個Opus版本的間隔至少在10周以上)。

資深觀察家BridgeMind一針見血地指出了真相:「這完全是一次倉促的發布,因為GPT-5.5正在瘋狂蠶食市場份額。」


那么,真正的殺招在哪里?

據多方消息證實,Anthropic真正的下一代旗艦模型,代號為Mythos,幾周內就會面世。

「Opus 4.8只是一個過渡的創可貼,它修補了4.7的一些毛病,去幾個Agent榜單上刷了存在感。」業內人士指出,「如果你在期待真正的智能質變,請屏息等待Mythos。」

網友Machina的一段話,或許是對Opus 4.8發布最貼切的解讀。

我們已經跨過了那條線——現在的旗艦模型,已經超出了絕大多數普通人分辨其優劣的能力上限。所以,現在世界上只剩下唯一一個真實的Benchmark,那就是你自己的工作流。

如果連你在自己最爛熟于心的工作上都感覺不出差異,那么這些跑分對你來說,就沒有任何意義。


Opus 4.8到底是神作,還是一次倉促的公關手段?

調出你最難啃的那個項目,讓實測給你答案吧。

參考資料:

https://every.to/vibe-check/opus-4-8-vibecheck

https://x.com/bridgemindai/status/2060107380159852900

https://x.com/danshipper/status/2060043738752422304?s=20

編輯:Aeneas 大衛


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
寧波知名法餐廳老板娘吳優琴去世,年僅39歲,嫁老外定居中國11年

寧波知名法餐廳老板娘吳優琴去世,年僅39歲,嫁老外定居中國11年

裕豐娛間說
2026-05-30 18:31:41
文班談挺進總決賽:這是一生一次的機會,幾乎是我生命的意義

文班談挺進總決賽:這是一生一次的機會,幾乎是我生命的意義

懂球帝
2026-05-31 13:20:12
快訊!關于鄭麗文的消息!

快訊!關于鄭麗文的消息!

故事終將光明磊落
2026-05-31 10:59:46
杰拉德:不理解為什么埃澤要搞這些花樣,點球直接用力踢就行

杰拉德:不理解為什么埃澤要搞這些花樣,點球直接用力踢就行

懂球帝
2026-05-31 10:40:08
“沒穿幾次壞到離譜!”知名品牌淘寶旗艦店,上海消費者質疑買到“陳年老鞋”,客服:庫存信息屬店鋪隱私,無法提供

“沒穿幾次壞到離譜!”知名品牌淘寶旗艦店,上海消費者質疑買到“陳年老鞋”,客服:庫存信息屬店鋪隱私,無法提供

新民晚報
2026-05-31 11:03:40
"香會"期間 英美澳官宣為無人潛航器研制新武器

"香會"期間 英美澳官宣為無人潛航器研制新武器

看看新聞Knews
2026-05-31 12:16:11
金融危機要來了?專家預測:未來12到18個月,世界將爆發金融風暴

金融危機要來了?專家預測:未來12到18個月,世界將爆發金融風暴

別人都叫我阿腈
2026-05-30 20:32:28
隨著雷霆3-4出局,NBA總決賽確定:馬刺vs尼克斯!總冠軍預測如下

隨著雷霆3-4出局,NBA總決賽確定:馬刺vs尼克斯!總冠軍預測如下

小火箭愛體育
2026-05-31 11:29:29
央媒調查稻城亞丁“道路設卡擺渡收費”:收的什么費?景區有權設卡嗎?

央媒調查稻城亞丁“道路設卡擺渡收費”:收的什么費?景區有權設卡嗎?

澎湃新聞
2026-05-31 07:54:04
你慶幸自己看過哪本含金量極高的書?網友:顛覆了認知,再不內耗

你慶幸自己看過哪本含金量極高的書?網友:顛覆了認知,再不內耗

夜深愛雜談
2026-05-30 08:34:39
香會現場反差拉滿:美國不敢提臺灣,我方直接點名敲打日本

香會現場反差拉滿:美國不敢提臺灣,我方直接點名敲打日本

南宗歷史
2026-05-31 06:51:48
阿斯利姆,遇襲身亡

阿斯利姆,遇襲身亡

極目新聞
2026-05-31 10:30:10
一男子家中被盜10萬,嫌狗不叫把它賣了300元,誰料,3天后警察上門,說出一句話,男子瘋了一樣沖出去...

一男子家中被盜10萬,嫌狗不叫把它賣了300元,誰料,3天后警察上門,說出一句話,男子瘋了一樣沖出去...

背包旅行
2026-05-31 11:50:15
哈珀:文班做到了作為偉大領袖的一切,無論如何我們都跟隨他

哈珀:文班做到了作為偉大領袖的一切,無論如何我們都跟隨他

懂球帝
2026-05-31 15:17:08
50歲后才懂,夏天的熱是最好的補藥

50歲后才懂,夏天的熱是最好的補藥

詩詞天地
2026-05-30 06:00:13
法學博士牛學輝被執行死刑,新婚12天殺害妻子,行刑前拒見親人

法學博士牛學輝被執行死刑,新婚12天殺害妻子,行刑前拒見親人

深夜探案館
2026-05-30 12:00:12
我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

涼州辭
2026-05-30 10:15:03
萬萬沒想到:李連杰主演的《少林寺》,絕大多數鏡頭居然都不是在“少林寺”拍的!

萬萬沒想到:李連杰主演的《少林寺》,絕大多數鏡頭居然都不是在“少林寺”拍的!

良有方
2026-05-31 05:38:41
哺乳期選手參賽隱私被直播,萬人圍觀無人管,賽事方的敷衍太離譜

哺乳期選手參賽隱私被直播,萬人圍觀無人管,賽事方的敷衍太離譜

老特有話說
2026-05-30 16:48:20
單親媽媽蹬三輪賣粽子孩子車斗里寫作業,這一幕感動全網,當事媽媽拒絕網友捐款

單親媽媽蹬三輪賣粽子孩子車斗里寫作業,這一幕感動全網,當事媽媽拒絕網友捐款

瀟湘晨報
2026-05-31 02:42:18
2026-05-31 15:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

本地
數碼
健康
藝術
家居

本地新聞

用剪紙的方式,打開江蘇揚州

數碼要聞

小米米家無線吸塵器4 Pro開啟預售,以舊換新1219元

嘗試干細胞療法如何避免踩坑?

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

家居要聞

云棲 舒展如流云

無障礙瀏覽 進入關懷版