无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Opus 4.8 發布,但最值錢的升級不在跑分榜上

0
分享至

AI范兒 · 產品拆解? 6 分鐘

AI 圈這兩周太消停了,都沒啥新東西發布,所以這兩周我基本上也沒寫什么。

但昨天晚上就看到 X 上說 Claude Opus 要發 4.8,沒想到一早起來真的發布了。

這確實很讓我意外。距離 Opus 4.7 發布也就一個月多一點點,這么短的時間內又發一個新版本,Anthropic 還是太強了。

然后我的時間線同時蹦出兩條消息:Mythos 級模型會在未來幾個星期之內,向所有客戶推出。Anthropic 在 H 輪融資里融了 650 億美元,融完估值將近一萬億(具體是 9650 億美元)。

這家公司著實瘋了。

言歸正傳,這次的 Opus 4.8 到底咋樣,一起來看看。

01先看參數:唯一輸的那項

老規矩,先看跑分對比。

這樣的跑分我們已經看膩了,基本上肯定是新模型在各維度領先市面上其他模型,這次也不例外。

不過我看到有網友嘲笑 Anthropic,把 GPT-5.5 放進來一起對比,這下全世界都知道 GPT-5.5 的編碼能力跟 Opus 有得一比了。

事實也是如此,最近已經不少朋友從 Claude Code 遷到了 Codex。


這里確實有一項指標,居然比 GPT-5.5 差,那就是Terminal-Bench 2.1,它代表啥?

簡單說,它是一個衡量 AI 在真實命令行環境里獨立完成任務能力的評測基準。把 AI 丟進一個真實的 Linux 終端,給它一堆只能靠敲命令解決的活兒,看它能不能自己搞定。

活兒都是終端原生的:編譯代碼、配置環境、調試報錯、跑腳本、修系統問題這類。AI 要像個工程師一樣自己敲命令、看輸出、再決定下一步,不是答個題就行。

它考的是 agentic(智能體)能力,也就是自主多步操作。一個任務往往要幾十步,中間出錯還得自己排查糾正,而不是一次問答。分數越高,越能當那個「會自己動手的命令行助手」。

有意思的地方來了。Opus 4.8 在這項上從 4.7 的 66.1% 漲到了 74.6%,漲了 8.5 個點,是它這次所有項目里漲幅最大的一項。

漲了這么多,結果還是輸了。GPT-5.5 在同一項上是 78.2%。

4.7 → 4.8 漲幅榜(部分項目) Terminal-Bench 2.1 +8.5 66.1 → 74.6 SWE-bench Pro +4.9 64.3 → 69.2 Finance Agent v2 +2.4 SWE-bench Verified +1.0 已近天花板 注:Terminal-Bench 漲幅最大,卻仍輸給 GPT-5.5(78.2%)

▲ 圖:4.7 到 4.8 進步最猛的,恰恰是那項輸掉的

一家公司發新模型還主動把自己輸的那項標出來,這事兒本身就挺 Anthropic 的。畢竟在 AI 圈,能承認自己有項目打不過對手,比模型本身聰明還稀罕。

02會說「我不確定」的模型

但跑分這點事,看完也就看完了。這次發布稿里花了最大篇幅講的,其實是一個你在跑分表上根本看不到的東西:誠實。

這事得從 AI 的一個老毛病說起。

所有大模型都有一個通病:愛給自己臉上貼金。你讓它寫段代碼、做個分析,它經常一臉自信地告訴你「搞定了,完美」,但實際上里頭埋著雷,它自己也沒真驗過,只是「感覺應該沒問題」。

這種證據明明很薄、卻敢拍胸脯下結論的毛病,是用 AI 干正經活兒時最讓人頭疼的地方。因為它騙的不是別人,是信任它的你。

Anthropic 說,4.8 在這件事上明顯改了。它更愿意主動告訴你「這塊我不太確定」,更少做那些沒根據的斷言。

具體到一個能量化的數字:在它自己寫的代碼里,4.8 讓缺陷悄悄溜過去、不吭一聲的概率,是 4.7 的大約四分之一

四分之一是什么概念?以前它寫完代碼,四個雷里能幫你指出一個;現在四個雷它能幫你點出三個,剩下那個才輪到你自己踩。

這個升級聽著不性感,沒有「跑分屠榜」那么唬人。

但凡是真拿 AI 干過活的人都知道,一個會主動說「這里我沒把握」的助手,比一個永遠信誓旦旦、關鍵時刻給你挖坑的助手,值錢太多了。

聰明不稀罕,靠譜才稀罕。

03能放它單飛干大活了

第二個我覺得真正有分量的,是跟 4.8 一起發的新功能:動態工作流(Dynamic Workflows),目前在 Claude Code 里做研究預覽。

一句話說清它干嘛的:以前你給 AI 派個大活兒,它是一步一步串著干,你得在旁邊盯著。

現在它能自己先把活兒拆開,一口氣拉起幾百個分身(subagent)并行去做,做完還會自己先驗一遍貨,確認沒問題了再回來跟你匯報。


Anthropic 舉的例子挺猛:用 Opus 4.8 跑 Claude Code,能把一個幾十萬行代碼的項目,從動工到合并,整套大規模遷移自己干完。驗收標準就是現有的測試用例,跑得過才算數。

這是什么意思呢?意思是 AI 干活的形態,正在從「你問一句它答一句」的助手,變成「你交代一個目標,它自己組隊把活兒包圓」的工頭。

?? 先潑盆冷水這功能我還沒上手試過。幾十萬行遷移這種活兒聽著很美,真實可靠性如何,得真跑過才知道。AI 圈的 demo 和你自己電腦上的實際效果,中間隔著的距離,通常比發布會 PPT 上畫的要遠一點。

但方向是清楚的:模型本身聰明多少分,已經不是這次的重點。重點是它能不能放出去單飛、長時間無人值守地干完一整攤事。

04幾個順手的小更新

除了上面兩個大的,這次還塞了幾個小禮包。

一個是「努力程度」控制,現在普通用戶在 claude.ai 上也能調了。調高,它想得更深、答得更好;調低,它回得更快、也更省你的額度。

說人話就是:以前是它替你決定花多少力氣,現在你能自己擰這個旋鈕了。急活兒調低,硬活兒調高。


這個設置估計是被之前的 4.6 降智給整怕了,因為之前他們默認調低了這個參數。結果雖然反應快了,但也降智了,導致很多用戶抱怨。

另一個是 Fast 模式(快速模式)。Opus 4.8 的快速模式能跑出 2.5 倍速度,而且價格比上一代的快速模式便宜了整整三倍。

又快又便宜,這種好事在 AI 圈不常有。

價格方面,常規使用一分錢沒漲,還是每百萬輸入 token 5 美元、輸出 25 美元,跟 4.7 一模一樣。


05那到底值不值得換

把話說回來。

如果你指望 4.8 是那種「用一次就回不去」的代際飛躍,那它不是,Anthropic 自己都沒這么吹,開口就說這是「不大,但摸得著」的升級。

但如果你是真拿 Claude 干活的人,尤其是寫代碼、跑 agent、做長鏈條任務的,那這次該換。

理由不在那張跑分表上,而在兩件事:它更愿意跟你說實話了,它能放出去干更大的活了。

回到開頭那兩條消息。41 天就發一版、Mythos 未來幾周開放、估值沖到近萬億,這三件事其實是一回事:Anthropic 在拼命往前趕。

所以 4.8 與其說是一次大升級,不如說是個過渡。是它在掏出真家伙(Mythos)之前,先遞過來的一杯水。

水不解渴,但它告訴你,正菜快上了,至少也可以安慰一下大家對 Opus 4.7 失望的心情。

你是已經換上 4.8 了,還是打算憋著等 Mythos?順便聊聊:你最近是 Claude Code 黨,還是已經投奔 Codex 了?評論區見。覺得有用 → 點個 ??在看 轉給還在糾結要不要換的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
94歲原中央保健局局長王敏清:50年沒感冒,無三高,靠的就是這幾招

94歲原中央保健局局長王敏清:50年沒感冒,無三高,靠的就是這幾招

新浪財經
2026-06-24 02:28:33
iPhone 18 Pro Max曝光:靈動島暴瘦35,蘋果正面設計四年首變

iPhone 18 Pro Max曝光:靈動島暴瘦35,蘋果正面設計四年首變

小柱解說游戲
2026-06-25 02:56:49
女人一進澡堂,才看懂了什么叫人間真實

女人一進澡堂,才看懂了什么叫人間真實

小陸搞笑日常
2026-06-25 18:12:30
男子鉆車底檢修后續:妻子啟動險些被碾死,丈夫曝妻子買巨額保險

男子鉆車底檢修后續:妻子啟動險些被碾死,丈夫曝妻子買巨額保險

小蜜情感說
2026-06-26 00:57:44
中共特工潛伏敵營15年,官職大到自己都慌,中央領導:大膽往上爬

中共特工潛伏敵營15年,官職大到自己都慌,中央領導:大膽往上爬

兵卒史
2026-06-26 06:34:56
世界杯小組賽遭厄瓜多爾爆冷逆轉,德國隊主帥、隊長發聲

世界杯小組賽遭厄瓜多爾爆冷逆轉,德國隊主帥、隊長發聲

環球網資訊
2026-06-26 10:48:11
情況不正常,美航母9次闖南海,中國高調亮劍東風,結果早已注定

情況不正常,美航母9次闖南海,中國高調亮劍東風,結果早已注定

小小科普員
2026-06-26 15:15:00
原來他就是田曦薇背后的男人,身家上億娛樂老總,難怪只捧她一人

原來他就是田曦薇背后的男人,身家上億娛樂老總,難怪只捧她一人

鄉野小珥
2026-06-26 01:57:35
中業島被占數十載,臺當局束手無策?大陸強勢出手:一寸不讓!

中業島被占數十載,臺當局束手無策?大陸強勢出手:一寸不讓!

米師傅安裝
2026-06-20 01:04:16
羅體:德布勞內世界杯后決定未來,阿萊格里認為他是體系關鍵

羅體:德布勞內世界杯后決定未來,阿萊格里認為他是體系關鍵

懂球帝
2026-06-26 15:35:29
震驚!廣東物理類全省前10屏蔽生里,深中占5人,斷層領跑引熱議

震驚!廣東物理類全省前10屏蔽生里,深中占5人,斷層領跑引熱議

火山詩話
2026-06-25 05:18:05
火箭軍黨委發表署名文章

火箭軍黨委發表署名文章

政知新媒體
2026-06-26 08:52:28
震驚了!坐飛機,發現了一名超像豆包的空姐

震驚了!坐飛機,發現了一名超像豆包的空姐

微微熱評
2026-06-25 12:35:51
8000多輛軍車成了廢鐵,克里米亞徹底斷供!

8000多輛軍車成了廢鐵,克里米亞徹底斷供!

果媽聊娛樂
2026-06-13 15:24:53
瞞不住了!國家在北京布下驚天大局,北京真正的王牌正在悄悄崛起

瞞不住了!國家在北京布下驚天大局,北京真正的王牌正在悄悄崛起

吃貨的分享
2026-06-26 14:01:04
中國電影完蛋了?胡錫進怒斥:你這人心理挺陰暗的

中國電影完蛋了?胡錫進怒斥:你這人心理挺陰暗的

映射生活的身影
2026-06-26 12:51:12
胡錫進為韓紅馮小剛發聲:電影非常好看,呼吁大家走個面錯哪了?

胡錫進為韓紅馮小剛發聲:電影非常好看,呼吁大家走個面錯哪了?

映射生活的身影
2026-06-25 20:00:42
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
拿什么救市?6月前三周車市快報,大盤再降23%,燃油車暴跌39%

拿什么救市?6月前三周車市快報,大盤再降23%,燃油車暴跌39%

購車前線
2026-06-24 22:11:18
吃“春藥”后,是什么感覺?醫生說的2個案例,告訴你真實感受

吃“春藥”后,是什么感覺?醫生說的2個案例,告訴你真實感受

醫學科普匯
2026-06-23 17:16:20
2026-06-26 16:20:49
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
772文章數 679關注度
往期回顧 全部

科技要聞

美國政府要求OpenAI分批發布GPT-5.6

頭條要聞

男子20多年前考入大學后不滿專業輟學 在山林中被發現

頭條要聞

男子20多年前考入大學后不滿專業輟學 在山林中被發現

體育要聞

三球換里德:森林狼和黃蜂誰更癲?!

娛樂要聞

劉嘉玲想放棄梁朝偉,沒有自理能力

財經要聞

懸在科技頭上的達摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預訂

態度原創

家居
健康
游戲
手機
教育

家居要聞

綠意盎然 自然之境

醫生如何快速診斷腦梗和腦出血?

2026情懷紀實!KK對戰平臺社區調研:仙劍奇俠傳影響了幾代中國玩家?

手機要聞

618最后一周排名:華為奪冠,蘋果第二,vivo、OPPO、小米呢?

教育要聞

天工大、暨南、西南交大等招生政策解讀,山東考生報考位次大公開

無障礙瀏覽 進入關懷版