![]()
就在今天凌晨,Anthropic 掏出來了他們最新的 Claude Opus 4.8。
距離 Opus 4.7 才過去一個多月,不得不說,Claude 上新的速度是越來越快了。
本來吧,4.8 注定只是大伙兒眼里的小版本更新。但世超發現,這次事情并沒有那么簡單。
因為不少人懷疑,Opus 4.8 似乎蒸了,蒸的還是 DeepSeek 和千問。。。
很多人通過 API 詢問 Opus 4.8,你是什么模型,你背后的公司是什么,結果他一會兒說自己是通義千問,一會兒來自深度求索。
![]()
之前無證據亂錘中國模型蒸餾 Claude,現在反而被揪住小辮子,Anthropic,你小子怎么回事嗯?
當然,蒸沒蒸是一回事,好不好用是另一回事。只不過在大伙兒試用之前,Opus 4.8 已經先上了一層懷疑的濾鏡。
根據官方的博客,這回 Opus 4.8 改動并不大。最顯著的改進之一,就是更誠實了。
換句話講,那種莫名自信,嘴硬之后 “ 對不起,我之前說錯了 ” 的情況,Opus 4.8 身上發生的概率會大大減小。
![]()
另外,據說它在做 Agent 任務時會更可靠,判斷力更強,能自己發現問題,提出異議,用最終最好的答案穩穩接住你。
而從性能表上來看,Opus 4.8 只能說各方面小有提升,但沒啥特別出彩的,其中一個 coding 指標還打不過兩個月前的 GPT-5.5。
![]()
從用戶實際反饋來看,Opus 4.8 褒貶不一。有人表示它確實變誠實了,不會輕易不查資料亂講,經常自我反思,干活主動穩定,安全性也有了明顯的提升。
來源:小紅書 @on99
![]()
但也有人說它依然不如白月光 Opus 4.6,語言表達的人味兒還沒回來,token 消耗還飛快,甚至還有不少人發現它依然在 coding 的時候亂講,比起 Opus 4.7 沒啥變化。
![]()
世超親自上手試了試以后,感覺倒也不是 Opus 4.8 不好,但代價是什么呢?
就說它的 “ 誠實 ” 特性,Opus 4.8 在一些比較危險的問題上,確實考慮周到不亂講,但也變得極其保守。
面對一些風險較高的決策,比如世超給它一張毒蘑菇照片,問它能不能吃,它的思考過程相當客觀冷靜。
![]()
不過,在一些安全項里,Opus 4.8 表現得過度謹慎。即使它覺得大概率沒毛病,也只會說 “ 我的顧慮小了很多,這也可能是劇毒菌撞臉 ”。
![]()
這當然是負責任的。畢竟真有人照著 AI 的話去吃蘑菇,那可不是鬧著玩的。
但從用戶體驗上來說,這可能會導致很多問題得不到確定的答復,句句都是 AI 給自己疊的甲,相當難受。
另外,如果想要 Opus 4.8 保持水準,最好不要嘗試 High 以下的性能(effort)。高消耗,才有好表現。
比如下面這種新聞總結的活兒,很基礎吧。但 Opus 4.8 Low 給出的第一條新聞就是錯的,Sholto Douglas 發那條動態已經是三天前的事兒了,怎么能連自家的新聞都搞錯。。。
![]()
想讓它做事實核查,還得再追問一遍,說好的主動檢查發現問題提出異議,用最準確的答案穩穩接住我呢?
![]()
接下來世超又試了試它的代碼能力,這回它的能力強,還是用時間和 token 換的。
常規的 leetcode 困難算法題,對 Opus 4.8 來說已經不成問題了。而當我找了一個超難題 LCP 82 丟給 Opus 4.8,即使開 Extra 模式,123 行代碼,它也足足思考了二十多分鐘。
結果的確是相當不錯,Opus 4.8 一遍就過,思考出了第一版代碼還復查優化了一遍,現在能做到這種程度的模型并不多。
![]()
但作為對比,GPT-5.5 思考了兩分鐘,就給出了一個測試案例通過 99% 的答案。唯一一個案例失敗的原因,是時間超限,其實也不算答錯。這明顯比 Opus 4.8 要省得多。
![]()
世超又嘗試讓 Opus 4.8 獨立制作一個日式校園 galgame,不得不說現在 AI 寫的項目代碼層次分明,框架清楚。
![]()
這意味著,在它的基礎上,如果你想改立繪,加劇情,把游戲做大做強是很容易的。
世超淺玩了一下,所有功能包括存檔,自動播放,CG 畫廊等等,沒有任何 bug。
![]()
但是 Claude 斷斷續續,做了足足一個多小時。下面 GPT-5.5 這個雖然簡陋很多,該有的功能一樣不差,只用了五分鐘。
![]()
所以,花更多的錢和時間換來的答案值不值得?可能也只有大伙兒自己心里清楚了。
總的來說,Opus 4.8 繼承了 Claude 過往的強項,沒有特別出色的表現,平平常常普普通通。
而在測試之后,世超最想說的卻不是這個模型本身到底咋樣,而是現在用個 Claude,也太小心翼翼了。
作為業界價格的巔峰,用 Claude 最好的模型,不舍得開最好的性能;開最高的性能,不舍得用最好的模型。處處是陷阱,在你不注意的時候,無關緊要的小問題已經把 token 燒光了。
而且讓用戶自己選性能,只有 low 和 high 也就算了,這次,Opus 4.8 一口氣推出了 5 種檔位,Low、Medium、High、Extra 和 Max,普通人真搞不明白什么時候用哪個,很容易造成浪費。
![]()
現在,Opus 4.8 相關的評論區里,世超看到不少人陷入了 Opus 4.6 下架的恐慌。
大伙兒別擔心,在更多模型里,老模型還在,想用還能用到。
![]()
但坦白講,這種負優化不僅僅是 Anthropic 一家的困境,不少廠商都透著一股新不如舊的無奈。
雖然交出的參數答卷越來越漂亮,可那些曾經讓用戶感到驚艷的極致體驗,又要什么時候才能回來呢?
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
X、小紅書、領英、Anthropic 官網
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.