无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Opus 4.8 不秀肌肉秀“誠實”:Claude反超OpenAI就開始擠牙膏?

0
分享至

5 月 28 日,Anthropic 發布了 Claude Opus 4.8,同一時段它也完成650萬美元融資,估值突破9650萬美元,正式反超 OpenAI。

不過單看評測數據,這次拿出來的Opus 4.8 像個平平無奇的小版本升級:價格沒動,各項基準都漲了一些,但幅度不大,官方自己都說這只是“溫和但確實存在”的進步。

不過我們發現一件事很值得關注,Anthropic這次強調的AI能力:誠實。

這個細節背后,藏著 2026 年中美 AI 競賽一次很關鍵的轉向。


Claude Opus 4.8 官方測評數據 Opus 4.8 這次更新,值得說的有四點

“誠實”被當成了主打賣點。 官方說明表示,新模型在自我評估上更誠實:更愿意主動標出自己沒把握的地方,少了對結果打包票的毛病,放過代碼錯誤的概率也明顯降低。

在對齊評估里,它欺騙和配合濫用的比率大幅下降,已經接近被嚴格管控的 Mythos 預覽版。


Opus 4.8 對齊評估中的非對齊行為減少

動態工作流(Dynamic Workflows)。 Claude Code 現在能在一次會話里先把任務規劃好,再并行拉起幾百個子智能體,結果校驗完了才匯報,號稱能從頭到尾搞定跨數十萬行代碼的“代碼庫級”遷移。

努力度滑塊(Effort Control)。 你可以自己決定讓它“想多深”:調高更慎重,調低更快、也更省額度,全計劃都能用。

更快更便宜的 Fast 模式。 比上一代便宜約三倍,速度快約 2.5 倍。

把這幾樣放一塊看,指向其實很清楚,一切都朝向Agent的執行能力上。

降價、提速、可控、肯說“我不確定”、能并行干重活,要的就是讓更多人敢把工作交給它。

為什么“誠實”值得這么大書特書?

因為靠跑分定勝負這條路,正在快速失靈;而與此同時,比拼執行能力的Agent范式,正走在跨越裂谷的路上。

先說說 benchmark 為什么不夠用了。

斯坦福 HAI 今年 4 月那份《2026 AI Index》給了行業一個有點警醒的判斷:模型的能力,正在跑贏用來衡量它的那把尺子。

有個專門設計來為難 AI、對人類專家更有利的高難考試,叫 Humanity’s Last Exam,前沿模型一年之內就把分數拉高了 30 個百分點;不少本以為能難住 AI 好幾年的題目,幾個月就被刷穿了。

再看那些老牌榜單,MMLU、GSM8K、HumanEval 普遍都在 90% 以上,GSM8K 甚至沖到了 99%。當大家都能考 95 分,這張卷子自然就分不出高下。

中美頂尖模型只差 2.7%(兩年前還差著 30% 以上),某種程度上正是“卷子出得太簡單”的結果。

更麻煩的是,評測和現實之間那道溝,并沒有被填上。

《2026 國際 AI 安全報告》專門點了這個“evaluation gap”:實驗室里的高分,常常高估了模型在真實任務里到底有多好用。

一個能拿奧數金牌的 AI,讀對一個模擬時鐘的概率卻只有 50.6%。



模擬時鐘讀取準確率對比圖

說白了,AI的能力沒那么均勻,有的地方強得驚人,有的地方又弱得意外。越想把它塞進真實的工作流,可信賴度就越成了卡脖子的那一環。

大家關心的問題,已經從“AI聰不聰明”,變成了“Agent做得多好、代價多大、又是為了誰”。

這正是 Opus 4.8 押注“誠實”的用意所在。

真正的勝負手:Agent 能不能干活

從“模型有多聰明”,挪到“這個智能體能不能讓人放心地用起來”。

這里有個挺有名的老概念,叫“跨越裂谷(Crossing the Chasm)”,是學者杰弗里·摩爾提出來的:

一項新技術想真正普及,得一關一關過,先是圖新鮮的極客發燒友,再是講實用的早期主流人群,最后才輪到普羅大眾。

難就難在這中間。發燒友愿意為了“看起來很炫的技術”忍受一堆毛病,主流用戶認的卻是省心、可靠、拿來就能用。

同一個東西,兩撥人的要求差著十萬八千里,中間于是裂開一道“死亡之谷”。


跨越裂谷理論

最早的電動車、VR/AR...不少技術就栽在這兒:在極客圈里風光無兩,卻始終邁不過主流那道門檻。

2026 年,進化到 Agent 階段的 AI,正卡在谷口。前哨科技特訓營里我們分享過 agent 滲透率的數據,結論很直接:現在還非常早期。

年初國內那波 OpenClaw 全民裝機、“養龍蝦”的熱鬧就是個好例子。極客圈帶著一大批普通用戶一起上頭,可這股熱乎勁過去之后,現在還有多少人真在天天用呢?

Agent的范式轉變確實已經開始,但它真要滲透到生活的角角落落,還得有段時間。Opus 4.8 這次更新,某種意義上就是在為這一步繼續鋪路。

不要等Agent大軍來了才行動

說到底,模型還會一代一代變強,誰領先個半年,其實沒那么要緊。

這有點像當年的搜索大戰。

各家天天比“我的檢索精度更高”,可對普通用戶來說,真正拉開差距的從來不是哪家引擎更準,是你會不會用搜索,會不會搭關鍵詞,會不會交叉驗證,會不會把搜索揉進自己的工作流。

Agent 時代也是一個道理。與其干等那個“最強模型”,不如現在就把手頭的工具用起來、用順手。把管理 Agent 這些“數字員工”的門道摸透,等它越來越強的時候,你也能跟著一起水漲船高。

前哨 AI 小課,講的就是這件事:從怎么選模型到怎么搭智能體,帶你把 AI 真正變成能托付的生產力,而不只是一條看個熱鬧的跑分新聞。

這周日的這一講,就手把手帶你上手眼下最能“干活”的編程智能體之一:Codex。


OpenAI Codex app 界面截圖

今晚的【前哨 AI 小課】第五季第 13 講,Tina老師將和你一起搞懂:

  • ClaudeCode vs Codex :兩者到底差在哪、該怎么選

  • 安裝與配置 Codex :跟著走一遍,零基礎也能跑通

  • 三個實操案例 :批量處理文件、銷售數據分析與可視化、從零開發一個網站

點擊文末鏈接,鎖定周日晚 8 點直播,先人一步把“用 AI 干活”這門真本事拿到手。

兩年前,我們問的是誰的模型更強。今天更該問的是:當你要把一整天的活兒都交給一個 AI,你敢交給誰?

要回答這個問題,第一步,是先把 AI 用起來。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

果媽聊娛樂
2026-06-07 09:51:32
大巴黎松口!巴薩5000萬報價巴爾科拉,雙方下周開啟談判

大巴黎松口!巴薩5000萬報價巴爾科拉,雙方下周開啟談判

阿訊說天下
2026-06-13 11:57:05
印度黑公交輪奸案:50厘米鐵棍捅穿23歲女生,他們為何肆無忌憚?

印度黑公交輪奸案:50厘米鐵棍捅穿23歲女生,他們為何肆無忌憚?

三目觀史
2026-06-09 08:43:50
演員陳敏兒去世!曾是TVB當家花旦,丈夫廖啟智和小兒子皆已離世

演員陳敏兒去世!曾是TVB當家花旦,丈夫廖啟智和小兒子皆已離世

叨嘮
2026-06-13 01:42:39
6月11日,央一、央八、北京衛視黃金檔共排播3部新劇,你追哪部?

6月11日,央一、央八、北京衛視黃金檔共排播3部新劇,你追哪部?

陳意小可愛
2026-06-13 12:41:06
WC!勇士!史詩級三巨頭...

WC!勇士!史詩級三巨頭...

技巧君侃球
2026-06-12 18:11:51
世界杯男模隊“消費降級”?法國高定換Nike、德國“務工風”…

世界杯男模隊“消費降級”?法國高定換Nike、德國“務工風”…

商務范
2026-06-12 13:59:23
意外打死個“俄羅斯英雄”!都是陣亡軍人遺孀,她們的臉上不一樣

意外打死個“俄羅斯英雄”!都是陣亡軍人遺孀,她們的臉上不一樣

鷹眼Defence
2026-06-12 16:28:06
坑慘安帥?曝34歲內馬爾無緣世界杯小組賽!巴西隊換人期限將截止

坑慘安帥?曝34歲內馬爾無緣世界杯小組賽!巴西隊換人期限將截止

我愛英超
2026-06-13 06:27:26
毛岸青婚后九年未育,毛主席找他談話,可后來竟不讓她住院待產?

毛岸青婚后九年未育,毛主席找他談話,可后來竟不讓她住院待產?

瑩瑩的歷史說
2026-06-12 01:21:48
別再比退休金了!2026年滿60歲,拿到這個數就偷著樂吧

別再比退休金了!2026年滿60歲,拿到這個數就偷著樂吧

奇葩游戲醬
2026-06-13 07:31:47
一張260元的門票,打了中國人的臉?

一張260元的門票,打了中國人的臉?

難得君
2026-06-09 09:52:54
高考中出現的“神仙卷面”,閱卷老師都不忍扣分,值得大家學習!

高考中出現的“神仙卷面”,閱卷老師都不忍扣分,值得大家學習!

悅動教育屋
2026-06-13 08:11:39
印第安人消亡真相:西方編造的天花殺人謊言,如今被基因研究揭穿

印第安人消亡真相:西方編造的天花殺人謊言,如今被基因研究揭穿

掠影后有感
2026-06-13 10:14:11
痛心!年輕夫妻因車禍離世,在奶奶苦苦哀求下,8月胎兒被剖出

痛心!年輕夫妻因車禍離世,在奶奶苦苦哀求下,8月胎兒被剖出

魔都姐姐雜談
2026-06-12 13:16:45
北京連續六天有雨,出門記得帶傘!

北京連續六天有雨,出門記得帶傘!

BRTV新聞
2026-06-13 09:10:31
打臉CBA,懷特塞德高調加入其他聯賽沒有傷病,上海隊陷入爭議

打臉CBA,懷特塞德高調加入其他聯賽沒有傷病,上海隊陷入爭議

宗介說體育
2026-06-12 16:35:22
多隊哄搶里夫斯湖人陷薪資困境

多隊哄搶里夫斯湖人陷薪資困境

體壇周報
2026-06-13 12:15:33
于東來再回應“薪酬爭議”:100分為標準最多給胖東來人打10分,所有員工能力與薪酬不匹配,但一直用超值薪酬成就員工

于東來再回應“薪酬爭議”:100分為標準最多給胖東來人打10分,所有員工能力與薪酬不匹配,但一直用超值薪酬成就員工

極目新聞
2026-06-13 11:19:54
NBA名宿為總決賽的文班亞馬鳴不平:成了史上最骯臟手段的受害者

NBA名宿為總決賽的文班亞馬鳴不平:成了史上最骯臟手段的受害者

好火子
2026-06-13 00:00:10
2026-06-13 13:28:49
王煜全 incentive-icons
王煜全
王煜全帶你一起看創新
1221文章數 787關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

養生館在洗腸液中摻醬油 北京100多名老人被坑上千萬

頭條要聞

養生館在洗腸液中摻醬油 北京100多名老人被坑上千萬

體育要聞

東道主三戰不??!美墨開門紅加拿大零的突破

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

2026重慶車展 長城炮Hi4-T正式上市售14.98萬起

態度原創

家居
數碼
旅游
健康
手機

家居要聞

空間微調 移形換境

數碼要聞

技嘉推出B840M FORCE WIFI6E主板:橙色點綴,雙PCIe雙M.2

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

老人、小孩、孕婦,吃粽子有啥風險

手機要聞

蘋果升級iOS 27版Find My:優化界面,可控制位置共享時長

無障礙瀏覽 進入關懷版