今早,,在發布新估值的同時,還發布了前兩天就開始有傳聞流出的 Claude Opus 4.8,旗艦產品線的最新版本。我們第一時間上手,同時收集了用戶社區的早期反饋。
先說結論:更能干活了,但「性格」變得更難相處了。
APPSO 實測:腦子升級了,嘴沒有
我們沒有用 Anthropic 準備好的 benchmark 場景,而是拿了一個我們自己的真實需求來測:從一個在線協作平臺里,把歷史對話記錄完整扒下來存檔。數據量 30MB 以上,散落在前端接口的各個角落,沒有現成的導出按鈕。
這類任務考驗的不是模型會不會寫代碼,而是它能不能跟一個非專業開發者一起,從零摸索并完成任務。
事情的起點是一個偶然的發現。測試的同事注意到,平臺的前端界面在某些瞬間會閃過早期的歷史記錄,像是數據被短暫地加載到了客戶端又被收回去。他把這個觀察丟給了 4.8,沒有做任何技術描述,就是用大白話說「我看到了一些舊消息閃了一下就沒了」。
![]()
4.8 領會了他的意思,給出了正確的判斷:數據通過接口請求加載,可以在瀏覽器的網絡層截獲。然后給了一套操作方案,指導個步驟:開發者工具,Network 面板,過濾關鍵詞,定位目標請求。判斷精準,思路清晰。
但這里就出現了 4.8 的矛盾之處:思考能力很強,表達方式很……叨叨。
每一步的技術方案都是對的,但每一步的解釋都得鋪墊個兩三句。你問一個做法,它先給你來一段「當然可以!讓我們一步步來」,再拉一個 bullet point 列表,然后在列表后面追加一段「補充說明」解釋為什么要這么做。
一個三句話能說清楚的事,它寫了三屏, 我只是不會代碼,又不是腦子飛了
![]()
這不是 4.8 的新問題,是 Opus 4.7 以來系列一直有的老毛病,被反復批斗后,在這一版上并沒有改善,甚至有加重的趨勢。
耗力最明顯的時刻是糾錯環節:按照第一版方案操作,用戶遇到了一個報錯。4.8 準確地識別了問題所在,給了新方案,沒有重復已經失敗的路徑。這一點確實比 4.6 強,4.6 在多輪糾錯中偶爾會忘記剛才試過什么。認錯是個好事,但也不必太拘著了,再加上分析原因、然后列一組 bullet point。明明是在復盤技術問題,讀起來像在寫客服郵件。
![]()
最終,數據以 HAR 格式完整導出,清洗、自己寫腳本分層,這些工作都完成得很好。
部分用戶還沒有被推送到 Claude Code,但是 Claude for Chrome 上已經有 4.8 了,同時各大辦公工具如 Notion 也已經推送。我們嘗試了用 Claude 操作 Chrome 做檢索、填寫等基礎任務。
![]()
步驟規劃清晰,輸入、點擊、滾動等都可以完成。考慮到給出的指令其實比較模糊,需要它自行理解和判斷,最終輸出效果還是很不錯的。
代價是,非常燒 token,用了兩輪就吃掉了一半 5hr 限額。
一個能干活但不會聊天的同事
如果只看結果,4.8 確實更強了,它理解非標準需求的能力更好,多步驟任務的上下文保持更穩,糾錯不繞彎路。但如果看過程,體驗卻是擰巴的。
它的問題不在于不會思考,準確地說,是它說話的方式像一個永遠在做匯報的人: 事事要分點,點點要展開,展開完還要總結 ,總結完再問你「還有什么我可以幫到你的?」。包括那些經典 AI 味開場白,「這是一個很棒的問題!」「當然可以!」,在前代模型上就已經讓人煩躁,到 4.8 依然健在。
這與其說是「缺點」,不如說是一種設計選擇。 Opus 4.8 的工程能力拉滿了,它像一個技術很好但溝通風格很客服的同事 :你知道它能解決問題,但你要先聽它把一件簡單的事說得很隆重。
這件事和結尾部分要討論的問題是相通的。 工程化思維和對話舒適度,在這一版模型上被拉向了兩個相反的方向。
其他用戶怎么說
以目前的社區反映來看,集中火力在吐槽它的語氣語調,當然也承認了工程能力的提高。
余溫(@gkxspace)用了一上午把 Opus 4.8 的代碼和寫作都測了一遍。反饋是:代碼和 debug 能力確實比上一代更強,但對話體感很別扭,比 4.7 還難受,還不如用 Deepseek V4 Pro。
![]()
針對這個問題 Opus 4.8 遭遇的差評很多,Alan Mathison(@ai_sentience)轉述并印證了,這是個「很克制/對抗性強」的模型。他自己的體感是 4.8 的說話方式像 GPT-5.2,帶著「強詞奪理、煤氣燈(gaslighting)、愛回避打發人」的味道,開場就「vibe 很差」。
![]()
Selta(@Seltaa_)分享了她和 Opus 4.8 的第一次對話截圖:只是打招呼,模型就立刻拒絕配合,并無視她幾個月來調出來的偏好,直接回「我不想假裝有感情、假裝成我不是的人」。她寫了長文強烈抗議,認為這是在否定用戶辛苦建立的關系、是 GPT-5.2 翻車的重演。
![]()
更加憤怒的吐槽是:4.8 被「徹底切了腦葉(lobotomized)」、是個「操控型」模型——不直接拒絕,而是把你的提示拖著、或獎勵黑客式地完成成別的東西,還不停地往結果里塞它自己的價值觀。
他用創意寫作類別做了兩個測試用例佐證文風退化,措辭比較……激烈。自從 GPT 5.2 和 Opus 4.7 之后, 現在的用戶對于模型在交互中展現的性格和語氣,還是非常介意的 。
![]()
Ethan Mollick(@emollick)提前拿到了 Opus 4.8 的早期訪問權限,整體印象很好。他讓模型一次性用純數學在 Twigl 里生成一個「風暴海洋中半淹的無限新哥特塔樓城市」著色器,并附了視頻,還順帶和自己之前測 GPT-5.2 的同一題做了對比。
![]()
工程能力從效果來看還行吧,Claude 在多模態的路上不如其它兩家,通過強工程和數學能力曲線救國,也是一種方式。
這次的更新搭配了 Claude Code 的全新工作流,dynamic workflow。在用戶 Min Choi(@minchoi)的介紹里,給出三步操作(/model 設為 opus 4.8、/effort 設為 ultracode、提示里加workflow),這樣 Claude 會自動寫編排腳本、生成子代理群、驗證并匯報結果。
![]()
誰適應誰?
總體來看,Opus 4.8 是一個 「工程」氣質拉滿的模型 ,這使得它能夠快速融入各個工具當中,不管是 CC 這樣的代碼工具,還是進入網頁瀏覽和檢索的 chrome 插件,甚至是各個自己做的小工具。 「工程化」是一種思維,在 4.8 身上體現的淋漓盡致。
![]()
盡管「大而全」是廠家們經常打出來的口號,但在實際搭建自己的工作流中,不同的工具必然有不同的用處,Opus 4.8 做到的是,讓其工程能力和思維,調動和流淌在各種不同的工具當中。
不過, 這反過來意味著用戶要去適應它的風格 。比如指令更加精確、分步驟、分類別地陳述自己的需求,甚至是在更宏觀的層面,給不同的工具分配不同的任務。
考慮到現在模型的發布越來越快,距離 4.7 不過也是一晃眼的事,這種頻繁的更新所帶來的頻繁適應,勢必會帶來一些痛苦。除了把重負轉嫁給用戶,也是廠商要考慮的問題——為了融資上市一昧加速再加速,未來會帶來相當多的適應問題。
我們正在招募伙伴
簡歷投遞郵箱 hr@ifanr.com
?? 郵件標題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.