Scott Wu在社交平臺上的一句話,把Claude Opus 4.7時代的憋屈抖了出來:注釋冗余、工具調(diào)用抽風(fēng),這些他點(diǎn)名吐槽的毛病,在Opus 4.8里全都消失了。這位Devin的CEO算是給新模型蓋了個“踏實(shí)”的戳。
2026年5月28日,Anthropic一邊宣布完成650億美元的H輪融資、估值沖上9650億美元,一邊不動聲色地放出了Claude Opus 4.8。巨額融資的光環(huán)下,模型發(fā)布很容易被淹沒在喧囂里,但這款新旗艦不該被忽略——它帶來的提升扎實(shí)、克制,而且方向選得很巧。
Opus 4.8繼續(xù)站在Claude家族的金字塔尖,定位比Sonnet和Haiku更高,專啃硬骨頭:大規(guī)模編程、自主工作流、長上下文推理、專業(yè)級知識任務(wù)。API模型標(biāo)識是 claude-opus-4-8,即刻在Claude平臺、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry上線,不過得是Pro、Max、Team或Enterprise計劃才用得上。
價格牌打得務(wù)實(shí)。常規(guī)模式延續(xù)了Opus 4.7的定價:每百萬輸入token5美元,每百萬輸出token25美元。快速模式輸入10美元、輸出50美元,速度大約是常規(guī)模式的2.5倍。關(guān)鍵在這里——Anthropic說,快速模式現(xiàn)在比前代Opus的快速模式便宜了整整三倍。對延遲敏感的生產(chǎn)環(huán)境來說,這一刀切得相當(dāng)疼,但也有誠意。
這次更新的真正主角是“誠實(shí)”和“自我糾正”。Anthropic給出了一組可量化的數(shù)據(jù):Opus 4.8在自己的代碼里漏掉缺陷不吭聲的概率,只有Opus 4.7的四分之一。它更愛主動標(biāo)出自己沒把握的地方,也少了很多硬撐的斷言。這在實(shí)際工作中比跑分重要得多。以往在智能體場景里,大模型最常見的翻車姿勢就是靜悄悄地犯錯,然后一臉篤定地匯報“搞定了”。能喊一句“這里好像不對勁”的模型,比悶聲交爛代碼的同伴,價值差了不止一個等級。
安全方面,Anthropic同步拉低了不當(dāng)行為的概率。欺騙、配合濫用等偏差,Opus 4.8都比Opus 4.7大幅減少,水準(zhǔn)已經(jīng)向Claude Mythos Preview看齊——那是公司目前最強(qiáng)的模型,只不過還圈在網(wǎng)絡(luò)安全研究的私人聯(lián)盟里,沒對外放。
代理可靠性是另一個重點(diǎn)打磨區(qū)。多步驟、跨服務(wù)的任務(wù)里,Opus 4.8顯示出了更穩(wěn)的判斷力:工具調(diào)度更高效,漫長對話里的上下文粘性更好,還把Opus 4.7那讓人頭疼的啰嗦注釋和工具調(diào)用問題給修了。第三個基準(zhǔn)來自合作伙伴的實(shí)測:Convergence的Super-Agent評測里,Opus 4.8是唯一從端到端跑通所有案例的模型,表現(xiàn)壓過GPT-5.5,而成本打個平手。Manus在Online-Mind2Web上測出了84%的成績,這個瀏覽器智能體基準(zhǔn)考查的是現(xiàn)實(shí)中的電腦操作能力,他們用“一次性通關(guān)”來形容整個過程。
沒必要把所有亮眼標(biāo)簽都往自家腦門上貼,但Opus 4.8確實(shí)抓住了實(shí)用主義者的那條暗線:別騙我,別在背后偷懶,把任務(wù)從頭跟到尾。這幾條做到位了,再談別的參數(shù)都來得及。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.