網易首頁 > 網易號 > 正文 申請入駐

Claude Sonnet 4.5 上手:一個未來 Agent 的雛形出現了

0
分享至

作者 | 董道力
郵箱 | dongdaoli@pingwest.com

9月30日,Anthropic 發布了新的編程模型 Claude Sonnet 4.5,在新聞稿的第一句就寫到:Claude Sonnet 4.5 is the best coding model in the world.

換做別的公司我們可能會吐槽“又瘋一個”,但 Anthropic 在 AI 編程上的能力大家有目共睹,無論是大家搶著用的 Claude Sonnet 4 還是引領編程 Agent 的 Claude Code,換句話說 AI 編程的上限全靠 Anthropic 來突破。

那 Claude Sonnet 4.5 到底更新了什么東西,值不值得best coding model的稱號?

提高跑分不是最大的變化

在最新的基準測試中,Claude Sonnet 4.5 展現了全面領先的實力。

具體來看,Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%,成為最會“用電腦”的 AI。在工具調用上,Claude Sonnet 4.5 的表現尤為突出,它能真正調動系統與工具,智能體能力更進一步。它在金融、法律、醫學和STEM等專業領域的知識與推理上,遠超此前的 Opus 4.1。

然而,相比前一代,它最大的變化不在于跑分,而是功能上的全面升級。

開發體驗上,Claude Code 增加了檢查點功能,支持隨時保存和回滾,降低出錯成本;同時推出原生 VS Code 插件和全新終端界面,把模型能力直接嵌入工程師最常用的環境。在長任務處理上,它引入上下文編輯和記憶工具,能保持長時間連貫思路,據稱可穩定執行超過 30 小時的復雜任務。

辦公應用上,它通過 Chrome 插件完成網頁導航、表格填寫和文檔處理,并在 Claude 應用中直接運行代碼、生成表格、幻燈片和文檔,讓對話真正成為工作的入口。而對開發者來說,最重磅的更新是Claude Agent SDK,Anthropic 首次開放自家底層基礎設施,讓外部開發者也能基于 Claude 構建屬于自己的 Agent。

實測Claude Sonnet 4.5 編程能力,新特征想要 AI IDE 的命?

Devin 團隊在測試 Claude Sonnet 4.5 時,概括了三個明顯變化:一是更快更穩,運行速度提升約兩倍,“初級開發者評估”得分提高 12%。二是出現了外化記憶的傾向,模型會主動生成總結或筆記文件來維持長任務的連貫性;三是更積極地自我驗證,會寫小腳本或抓取頁面 HTML 來測試和修正方案。

不過,冷靜來看,這些特征其實在許多 AI IDE 中早已有跡可循:Cursor、Windsurf、Replit Ghostwriter 早就能幫用戶生成文檔、維護項目記憶,甚至在改動后自動運行測試。

差別在于,IDE 的功能是工程師預設的“外掛模塊”,而在 Claude Sonnet 4.5 身上,這些行為更像是模型自發形成的工作習慣,它會主動寫 SUMMARY.md 給自己留后路,也會在必要時自動生成小腳本來驗證結果。換句話說,區別不在“有沒有”,而在于是外掛功能,還是模型的內驅習慣。

從長遠來看,這種差別可能會決定未來開發體驗的走向:是繼續依賴 IDE 提供的功能拼裝,還是讓大模型 Agent 自己演化出工作風格。如果后者不斷成熟,Cursor 等 AI IDE 的優勢,或許真的會逐漸被大模型侵蝕。

我們讓 Claude Sonnet 4.5 寫個小游戲項目。

prompts:基于Three.js制作一個3d賽車游戲

最直觀的感受就是快,生成網頁游戲時間不超過1分鐘。其次,Claude 不僅能聽懂非常粗糙的指令,在第一輪對話中就生成一個可以直接運行的游戲原型。后續的修改也非常順暢,只需一句簡單的提示,比如調整速度、賽道寬度或添加箭頭標識,它都能迅速完成。而同樣的提示詞放在 Codex 中,初始階段并沒有直接生成完整的游戲框架。

首先是第一輪對話,Claude 輸出了一個基礎版本:玩家可以操控賽車前進、后退和轉向,但車輛很容易沖出畫面。

經過幾輪微調如控制轉彎幅度等,我進一步要求 Claude 參考 F1 賽車的風格,讓賽道更復雜。這是一個比較大幅度的修改,而 Claude 不僅增加了彎道,還在指示牌上進行了美化,并且之前修改的內容都沒有崩。

最后,為了提升可玩性,我提出希望在賽道上增加箭頭指示方向。Claude 起初生成的箭頭方向有些混亂,但只經過一輪對話,它就完成了修正,使箭頭方向與跑道完美貼合。

Claude Sonnet 4.5 項目預覽:https://claude.ai/public/artifacts/037aac3a-c790-4dfa-bf69-baf3825d97d7

從這次小游戲實驗可以看出,Claude Sonnet 4.5 的強大并不只體現在基準測試的分數上,而在于它能把自然語言轉換成可運行項目的過程變得前所未有的流暢。

在以往,提示詞生成游戲代碼通常意味著大量返工:模型給出一個半成品,用戶要反復調試,甚至需要具備相當的編程基礎。但在 Claude Sonnet 4.5 這里,非常流暢。

然而,上面的實測案例只是一個小玩具,真正的生產力還是要看具體的生產環境。

在 Reddit 上,一位開發者用同樣的復雜前端 Bug 并排測試 Claude Sonnet 4.5 與 Codex,結果顯示:Codex 更善于定位根因,而 Claude Sonnet 4.5 經常跑偏,甚至修復“已經好的部分”。

評論區觀點分化,有人認同 Claude Sonnet 4.5 在復雜調試里容易迷路,并沒有宣傳的那么好。也有人強調它在前端問題上比 Codex 更快。還有人認為 Codex 更深度,但代價是更慢、更貴。

唯一的共識是:把 Claude 當高產起草者,把 Codex 當審校者,再配合日志和可觀測性工具,才是當前更穩妥的用法。

除了編程能力,Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%,這一點對于普通用戶來說,比編程能力更加有吸引力。

打開桌面端 Claude(Mac),可以看到它有非常多的功能,控制谷歌瀏覽器、讀取記事本、操作Mac、Figma、PDF、Spotify等。

我們先用 Claude 來操控一下瀏覽器。

prompts:在chrome中打開谷歌主頁,搜索china daily,采集9月30日的最新新聞

Claude Sonnet 4.5 在控制 Chrome 時,并非直接“跳到答案”,而是像用戶一樣逐步操作、并調用工具完成鏈路:先用 Open URL 打開 Google 首頁,再用 Execute JavaScript 在搜索框輸入“china daily”并進入官網;隨后調用 Get Page Content 提取頁面內容,若遇到報錯則切換至官網 Latest News 作為容錯路徑,確保數據可得;最后通過內部整理流程做時間過濾(僅保留 9 月 30 日)與版塊分類(政治/經濟/社會/國際)。

在詳情頁中可以看到,Claude Sonnet 4.5 為 Chrome 提供了一整套工具:既能打開或關閉網頁,也能刷新、后退、前進;還可以執行 JavaScript 代碼來完成點擊、滑動等操作,并直接提取網頁內容。

我們再來實踐一個與電腦文件交互的案例。

prompts:在桌面搜索名字里帶Claude的文件夾,看看里面有哪些png文件,并把他們的文件名列出來

在配置好權限和路徑后,和控制 Chrome 一樣,Claude Sonnet 4.5 會調用擁有的文件處理工具,像人類一樣思考一步一步完成上述的任務。

Claude 先從桌面路徑 /Users/ddlpc/Desktop 開始,搜索所有名字里包含Claude的文件夾,一共找到四個。隨后逐一檢查這些文件夾的內容。

從詳情頁中可以看到,該工具既能讀取單個或多個文件內容,也能新建、編輯和寫入文件,還可以創建目錄、列出目錄、查看目錄樹結構,甚至移動文件、搜索文件、獲取文件信息,并管理可訪問的目錄范圍。

而這樣的工具,Claude 還有很多。

Claude Sonnet 4.5 的出現,不只是跑分上的勝利。它正在模糊一條界限:大模型到底是一個生成器,還是一個能動的智能體?檢查點、長程記憶、Agent SDK、對 Chrome 的直接操控,這些都讓它越來越像一個能自己處理任務的數字同事。

當然,它依舊不完美:調試會迷路,執行會跑偏。但這恰恰說明,它不是一把無所不能的工具,而是一個需要協作、需要工程化約束的伙伴。而且過幾個月,Anthropic 會不會偷偷砍 Claude Sonnet 4.5 一刀,強行降智,誰也不知道。

但有一點可以肯定,這可能是我們最后一次用這些曾經難以想象但今天正變得“小兒科”的測試案例來評測Claude以及緊追它其后的各種模型。這就是今天AI Coding從模型到產品的狂奔速度,接下來只會更瘋狂。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
反對穆帥回皇馬被批評,古蒂:面對非議,最好方式是微笑致謝

反對穆帥回皇馬被批評,古蒂:面對非議,最好方式是微笑致謝

懂球帝
2026-04-26 07:58:08
雷霆121-109再勝太陽!亞歷山大創34年NBA紀錄,不愧是MVP

雷霆121-109再勝太陽!亞歷山大創34年NBA紀錄,不愧是MVP

籃球大視野
2026-04-26 06:38:32
愛吃西紅柿的要留意,我也后悔沒早點看到,很重要,記得告訴家人

愛吃西紅柿的要留意,我也后悔沒早點看到,很重要,記得告訴家人

江江食研社
2026-04-26 00:00:04
“為錢和我在一起”,44歲女子被丈夫掐死拋尸,前夫是她的代理人

“為錢和我在一起”,44歲女子被丈夫掐死拋尸,前夫是她的代理人

江山揮筆
2026-04-26 11:20:40
公安部172號令:70歲以上駕照免年審!兩件事漏做,駕照可被注銷

公安部172號令:70歲以上駕照免年審!兩件事漏做,駕照可被注銷

沙雕小琳琳
2026-04-24 11:02:52
一個戲劇性的斯諾克時代切片:當39歲的丁俊暉遭遇28歲的趙心童

一個戲劇性的斯諾克時代切片:當39歲的丁俊暉遭遇28歲的趙心童

西門吹灰2020
2026-04-25 09:19:56
湖南一女子凌晨打車說“去哪都可以”,跳橋輕生被出租車司機拼命拽回,司機:人生沒有過不去的坎,千萬不要一時沖動拿生命開玩笑

湖南一女子凌晨打車說“去哪都可以”,跳橋輕生被出租車司機拼命拽回,司機:人生沒有過不去的坎,千萬不要一時沖動拿生命開玩笑

臺州交通廣播
2026-04-26 11:32:20
一天一個價!多款電腦集體漲價,店員透露:27日以后會大幅漲價

一天一個價!多款電腦集體漲價,店員透露:27日以后會大幅漲價

極目新聞
2026-04-24 18:58:46
4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

毅談生肖
2026-04-26 10:11:25
五常中唯一不造航母的國家,實力不輸中國,美國十分忌憚

五常中唯一不造航母的國家,實力不輸中國,美國十分忌憚

趣文說娛
2026-04-23 21:55:50
絕境對決,四川女籃單外援作戰,客場力克山西拿下第三座總冠軍

絕境對決,四川女籃單外援作戰,客場力克山西拿下第三座總冠軍

墨道榮
2026-04-26 10:26:26
張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

麥大人
2025-10-13 15:29:56
親爹都看不下去了!怒噴布倫森,尼克斯找到贏球辦法,早該這么打

親爹都看不下去了!怒噴布倫森,尼克斯找到贏球辦法,早該這么打

你的籃球頻道
2026-04-26 09:53:56
沒得談了?伊朗列出美方罪狀,巴鐵大將致電特朗普,送出一句忠告

沒得談了?伊朗列出美方罪狀,巴鐵大將致電特朗普,送出一句忠告

兵說
2026-04-25 08:30:08
兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

胖胖侃咖
2025-04-03 08:00:11
西裁判工會就貝蒂斯對皇馬爭議發布聲明:適可而止,尊重為先

西裁判工會就貝蒂斯對皇馬爭議發布聲明:適可而止,尊重為先

懂球帝
2026-04-26 10:38:33
伊朗吃不下,朝鮮吐不出!俄羅斯的大陽謀,是豪賭,還是高招?

伊朗吃不下,朝鮮吐不出!俄羅斯的大陽謀,是豪賭,還是高招?

近史談
2026-04-26 11:07:23
7旬富翁斥巨資獵殺野生動物,最近被非洲大象家族踩死!網友:也把他做成標本!

7旬富翁斥巨資獵殺野生動物,最近被非洲大象家族踩死!網友:也把他做成標本!

英國報姐
2026-04-25 20:36:35
心疼!孫穎莎封訓瘦一圈!林鐘勛說王楚欽左手是特例!國乒倫敦世乒賽出征直播!

心疼!孫穎莎封訓瘦一圈!林鐘勛說王楚欽左手是特例!國乒倫敦世乒賽出征直播!

好乒乓
2026-04-26 11:00:00
消息人士:伊朗立場比第一輪談判時更加強硬

消息人士:伊朗立場比第一輪談判時更加強硬

新華社
2026-04-25 19:05:13
2026-04-26 12:11:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

房產
教育
藝術
數碼
公開課

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

教育要聞

壓軸出場的題目,很多小朋友都失分了

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

數碼要聞

華為MatePad Mini迭代版:OLED四等邊、5G、NFC全來了,沒短板了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版