克勞德旗艦4.8發(fā)布：誠實(shí)度4倍升，代理全通關(guān)

2026-05-30 04:30:38　來源: 我是一個粉刷匠2

北京舉報

分享至

Scott Wu在社交平臺上的一句話，把Claude Opus 4.7時代的憋屈抖了出來：注釋冗余、工具調(diào)用抽風(fēng)，這些他點(diǎn)名吐槽的毛病，在Opus 4.8里全都消失了。這位Devin的CEO算是給新模型蓋了個“踏實(shí)”的戳。

2026年5月28日，Anthropic一邊宣布完成650億美元的H輪融資、估值沖上9650億美元，一邊不動聲色地放出了Claude Opus 4.8。巨額融資的光環(huán)下，模型發(fā)布很容易被淹沒在喧囂里，但這款新旗艦不該被忽略——它帶來的提升扎實(shí)、克制，而且方向選得很巧。

Opus 4.8繼續(xù)站在Claude家族的金字塔尖，定位比Sonnet和Haiku更高，專啃硬骨頭：大規(guī)模編程、自主工作流、長上下文推理、專業(yè)級知識任務(wù)。API模型標(biāo)識是 claude-opus-4-8，即刻在Claude平臺、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry上線，不過得是Pro、Max、Team或Enterprise計劃才用得上。

價格牌打得務(wù)實(shí)。常規(guī)模式延續(xù)了Opus 4.7的定價：每百萬輸入token5美元，每百萬輸出token25美元。快速模式輸入10美元、輸出50美元，速度大約是常規(guī)模式的2.5倍。關(guān)鍵在這里——Anthropic說，快速模式現(xiàn)在比前代Opus的快速模式便宜了整整三倍。對延遲敏感的生產(chǎn)環(huán)境來說，這一刀切得相當(dāng)疼，但也有誠意。

這次更新的真正主角是“誠實(shí)”和“自我糾正”。Anthropic給出了一組可量化的數(shù)據(jù)：Opus 4.8在自己的代碼里漏掉缺陷不吭聲的概率，只有Opus 4.7的四分之一。它更愛主動標(biāo)出自己沒把握的地方，也少了很多硬撐的斷言。這在實(shí)際工作中比跑分重要得多。以往在智能體場景里，大模型最常見的翻車姿勢就是靜悄悄地犯錯，然后一臉篤定地匯報“搞定了”。能喊一句“這里好像不對勁”的模型，比悶聲交爛代碼的同伴，價值差了不止一個等級。

安全方面，Anthropic同步拉低了不當(dāng)行為的概率。欺騙、配合濫用等偏差，Opus 4.8都比Opus 4.7大幅減少，水準(zhǔn)已經(jīng)向Claude Mythos Preview看齊——那是公司目前最強(qiáng)的模型，只不過還圈在網(wǎng)絡(luò)安全研究的私人聯(lián)盟里，沒對外放。

代理可靠性是另一個重點(diǎn)打磨區(qū)。多步驟、跨服務(wù)的任務(wù)里，Opus 4.8顯示出了更穩(wěn)的判斷力：工具調(diào)度更高效，漫長對話里的上下文粘性更好，還把Opus 4.7那讓人頭疼的啰嗦注釋和工具調(diào)用問題給修了。第三個基準(zhǔn)來自合作伙伴的實(shí)測：Convergence的Super-Agent評測里，Opus 4.8是唯一從端到端跑通所有案例的模型，表現(xiàn)壓過GPT-5.5，而成本打個平手。Manus在Online-Mind2Web上測出了84%的成績，這個瀏覽器智能體基準(zhǔn)考查的是現(xiàn)實(shí)中的電腦操作能力，他們用“一次性通關(guān)”來形容整個過程。

沒必要把所有亮眼標(biāo)簽都往自家腦門上貼，但Opus 4.8確實(shí)抓住了實(shí)用主義者的那條暗線：別騙我，別在背后偷懶，把任務(wù)從頭跟到尾。這幾條做到位了，再談別的參數(shù)都來得及。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.