Anthropic昨夜扔下了一顆重磅炸彈。Claude Opus 4.7正式上線。
在最關(guān)鍵的軟件工程能力上,它完成了對GPT-5.4的超越,甚至在某些指標(biāo)上逼近了尚未全面開放的Claude Mythos Preview。
01 編程能力暴漲
Opus 4.7在代碼領(lǐng)域的表現(xiàn)相當(dāng)出色。
在權(quán)威的SWE-bench Pro基準(zhǔn)測試中,Opus 4.7的得分從4.6版本的53.4%直接跳漲至64.3%。
![]()
這是什么概念?
GPT-5.4在同一測試中的成績是57.7%,而Opus 4.7一口氣拉開了近7個(gè)百分點(diǎn)的差距。
而在SWE-bench Verified的成績是87.6%,相比4.6的80.8%提升近7個(gè)百分點(diǎn)。
![]()
這些數(shù)據(jù)的早期測試用戶反饋,以前那些需要工程師盯著看的高難度編程任務(wù),現(xiàn)在可以放心地交給Opus 4.7獨(dú)立完成。
因?yàn)樗粌H能處理復(fù)雜的長時(shí)任務(wù),還會主動(dòng)驗(yàn)證自己的輸出,甚至?xí)趫?zhí)行前進(jìn)行「自我糾錯(cuò)」。
Stripe的工程團(tuán)隊(duì)在測試中提到:「Opus 4.7能在規(guī)劃階段就捕捉到自己的邏輯缺陷,并加速執(zhí)行。這對需要大規(guī)模交付可信金融解決方案的我們來說,可能是游戲規(guī)則的改變者。」
02 視覺3倍分辨率
Opus 4.7新版本支持高達(dá)2,576像素(長邊)的圖像輸入,分辨率是前代模型的三倍以上,約3.75兆像素。
它可以看清復(fù)雜技術(shù)圖紙上的微小標(biāo)注,能準(zhǔn)確解讀化學(xué)分子的立體結(jié)構(gòu),在計(jì)算機(jī)操作任務(wù)中,能從高分辨率截圖里識別出細(xì)枝末節(jié)的UI元素。
在CharXiv視覺推理基準(zhǔn)測試中,Opus 4.7的得分從4.6的 69.1% 躍升至 82.1%;配合工具使用時(shí),更是達(dá)到了91.0%,相較于前代的84.7%提升巨大。
![]()
XBOW,即自主滲透測試平臺,的測試數(shù)據(jù)更為震撼:在視覺敏銳度基準(zhǔn)測試中,Opus 4.7得分98.5%,而Opus 4.6僅為54.5%。
「我們最大的痛點(diǎn)一夜之間消失了」,XBOW團(tuán)隊(duì)表示。
03 金融、法律、科研等方面也大有提升
別以為Opus 4.7只是個(gè)程序員專屬模型。在多個(gè)專業(yè)領(lǐng)域,它都展現(xiàn)出了專家級的素養(yǎng)。
金融領(lǐng)域,它在Finance Agent v1.1測試中取得64.4%的成績,并在 GDPval-AA,即第三方經(jīng)濟(jì)價(jià)值知識工作評估測試中創(chuàng)下Claude系列模型的最佳表現(xiàn)。
從財(cái)務(wù)建模到專業(yè)演示文稿制作,Opus 4.7被評價(jià)為「比4.6更嚴(yán)謹(jǐn)?shù)慕鹑诜治鰩煛埂?/p>
法律領(lǐng)域,在BigLaw Bench測試中,Opus 4.7在高難度任務(wù)下達(dá)到 90.9%的準(zhǔn)確率。
它能準(zhǔn)確區(qū)分「轉(zhuǎn)讓條款」和「控制權(quán)變更條款」,要知道,這可是前沿模型普遍頭疼的微妙區(qū)別。
科研與多語言,在Graduate-level reasoning測試中,Opus 4.7達(dá)到 94.2%,與GPT-5.4 Pro的94.4%和Gemini 3.1 Pro的94.3%處于同一梯隊(duì);多語言問答(MMMLU)也提升至91.5%。
04 新版本特性
Opus 4.7在行為模式上有一個(gè)有趣的轉(zhuǎn)變:它變得更擅長遵循指令,也更愿意表達(dá)專業(yè)觀點(diǎn)。
一方面,它的指令遵循能力顯著增強(qiáng)。
Anthropic特別提示,以前為舊版本編寫的提示詞可能需要重新調(diào)整,因?yàn)镺pus 4.7會嚴(yán)格按照字面意思執(zhí)行,而不會像4.6那樣寬松解釋或跳過部分指令。
另一方面,它在技術(shù)討論中表現(xiàn)出更強(qiáng)的專業(yè)素養(yǎng)。
Replit團(tuán)隊(duì)注意到:它會在技術(shù)討論中提出反駁,幫助我做更好的決策。感覺真的像一個(gè)更好的同事,而不是一個(gè)只會說好的的應(yīng)聲蟲。
此外,Opus 4.7在文件系統(tǒng)記憶方面也有改進(jìn),能在長時(shí)間、多會話的工作中記住重要筆記,減少重復(fù)上下文的輸入。
![]()
05 安全、價(jià)格與獲取方式
安全防護(hù)是這次發(fā)布的重要一環(huán)。
Anthropic表示,Opus 4.7是網(wǎng)絡(luò)安全風(fēng)險(xiǎn)研究項(xiàng)目框架下的首個(gè)模型,其網(wǎng)絡(luò)攻擊能力相比Mythos Preview已被差異化降低。
![]()
模型內(nèi)置了自動(dòng)檢測機(jī)制,可阻止高風(fēng)險(xiǎn)的網(wǎng)絡(luò)安全濫用請求。
當(dāng)然,合法的漏洞研究、滲透測試和紅隊(duì)測試并不在此列,安全專業(yè)人士可申請加入全新的Cyber Verification Program。
價(jià)格方面,Opus 4.7維持與4.6相同的定價(jià),輸入定價(jià)$5/百萬token,輸出定價(jià)$25/百萬token。
目前,Claude網(wǎng)頁端和App已全面上線,API模型名稱為claude-opus-4-7,同時(shí)登陸Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。
但Claude近日要搞AI實(shí)名制,國內(nèi)用戶可能體驗(yàn)不到這波更新了。
(注:本文數(shù)據(jù)及引述均來自Anthropic官方發(fā)布)
來源 | AI普瑞斯(ID:AIPress2025)
作者 | AI普瑞斯 ; 編輯 | 呼呼大睡
內(nèi)容僅代表作者獨(dú)立觀點(diǎn),不代表早讀課立場
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.