无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

說實話,我覺得 Claude 4.8 有點拉。

0
分享至


就在今天凌晨,Anthropic 掏出來了他們最新的 Claude Opus 4.8。

距離 Opus 4.7 才過去一個多月,不得不說,Claude 上新的速度是越來越快了。

本來吧,4.8 注定只是大伙兒眼里的小版本更新。但世超發現,這次事情并沒有那么簡單。


因為不少人懷疑,Opus 4.8 似乎蒸了,蒸的還是 DeepSeek 和千問。。。

很多人通過 API 詢問 Opus 4.8,你是什么模型,你背后的公司是什么,結果他一會兒說自己是通義千問,一會兒來自深度求索。


之前無證據亂錘中國模型蒸餾 Claude,現在反而被揪住小辮子,Anthropic,你小子怎么回事嗯?

當然,蒸沒蒸是一回事,好不好用是另一回事。只不過在大伙兒試用之前,Opus 4.8 已經先上了一層懷疑的濾鏡。

根據官方的博客,這回 Opus 4.8 改動并不大。最顯著的改進之一,就是更誠實了。

換句話講,那種莫名自信,嘴硬之后 “ 對不起,我之前說錯了 ” 的情況,Opus 4.8 身上發生的概率會大大減小。


另外,據說它在做 Agent 任務時會更可靠,判斷力更強,能自己發現問題,提出異議,用最終最好的答案穩穩接住你。

而從性能表上來看,Opus 4.8 只能說各方面小有提升,但沒啥特別出彩的,其中一個 coding 指標還打不過兩個月前的 GPT-5.5。


從用戶實際反饋來看,Opus 4.8 褒貶不一。有人表示它確實變誠實了,不會輕易不查資料亂講,經常自我反思,干活主動穩定,安全性也有了明顯的提升。

來源:小紅書 @on99


但也有人說它依然不如白月光 Opus 4.6,語言表達的人味兒還沒回來,token 消耗還飛快,甚至還有不少人發現它依然在 coding 的時候亂講,比起 Opus 4.7 沒啥變化。


世超親自上手試了試以后,感覺倒也不是 Opus 4.8 不好,但代價是什么呢?

就說它的 “ 誠實 ” 特性,Opus 4.8 在一些比較危險的問題上,確實考慮周到不亂講,但也變得極其保守。

面對一些風險較高的決策,比如世超給它一張毒蘑菇照片,問它能不能吃,它的思考過程相當客觀冷靜。


不過,在一些安全項里,Opus 4.8 表現得過度謹慎。即使它覺得大概率沒毛病,也只會說 “ 我的顧慮小了很多,這也可能是劇毒菌撞臉 ”。


這當然是負責任的。畢竟真有人照著 AI 的話去吃蘑菇,那可不是鬧著玩的。

但從用戶體驗上來說,這可能會導致很多問題得不到確定的答復,句句都是 AI 給自己疊的甲,相當難受。

另外,如果想要 Opus 4.8 保持水準,最好不要嘗試 High 以下的性能(effort)。高消耗,才有好表現。

比如下面這種新聞總結的活兒,很基礎吧。但 Opus 4.8 Low 給出的第一條新聞就是錯的,Sholto Douglas 發那條動態已經是三天前的事兒了,怎么能連自家的新聞都搞錯。。。


想讓它做事實核查,還得再追問一遍,說好的主動檢查發現問題提出異議,用最準確的答案穩穩接住我呢?


接下來世超又試了試它的代碼能力,這回它的能力強,還是用時間和 token 換的。

常規的 leetcode 困難算法題,對 Opus 4.8 來說已經不成問題了。而當我找了一個超難題 LCP 82 丟給 Opus 4.8,即使開 Extra 模式,123 行代碼,它也足足思考了二十多分鐘。

結果的確是相當不錯,Opus 4.8 一遍就過,思考出了第一版代碼還復查優化了一遍,現在能做到這種程度的模型并不多。


但作為對比,GPT-5.5 思考了兩分鐘,就給出了一個測試案例通過 99% 的答案。唯一一個案例失敗的原因,是時間超限,其實也不算答錯。這明顯比 Opus 4.8 要省得多。


世超又嘗試讓 Opus 4.8 獨立制作一個日式校園 galgame,不得不說現在 AI 寫的項目代碼層次分明,框架清楚。


這意味著,在它的基礎上,如果你想改立繪,加劇情,把游戲做大做強是很容易的。

世超淺玩了一下,所有功能包括存檔,自動播放,CG 畫廊等等,沒有任何 bug。


但是 Claude 斷斷續續,做了足足一個多小時。下面 GPT-5.5 這個雖然簡陋很多,該有的功能一樣不差,只用了五分鐘。


所以,花更多的錢和時間換來的答案值不值得?可能也只有大伙兒自己心里清楚了。

總的來說,Opus 4.8 繼承了 Claude 過往的強項,沒有特別出色的表現,平平常常普普通通。

而在測試之后,世超最想說的卻不是這個模型本身到底咋樣,而是現在用個 Claude,也太小心翼翼了。

作為業界價格的巔峰,用 Claude 最好的模型,不舍得開最好的性能;開最高的性能,不舍得用最好的模型。處處是陷阱,在你不注意的時候,無關緊要的小問題已經把 token 燒光了。

而且讓用戶自己選性能,只有 low 和 high 也就算了,這次,Opus 4.8 一口氣推出了 5 種檔位,Low、Medium、High、Extra 和 Max,普通人真搞不明白什么時候用哪個,很容易造成浪費。


現在,Opus 4.8 相關的評論區里,世超看到不少人陷入了 Opus 4.6 下架的恐慌。

大伙兒別擔心,在更多模型里,老模型還在,想用還能用到。


但坦白講,這種負優化不僅僅是 Anthropic 一家的困境,不少廠商都透著一股新不如舊的無奈。

雖然交出的參數答卷越來越漂亮,可那些曾經讓用戶感到驚艷的極致體驗,又要什么時候才能回來呢?

撰文:莫莫莫甜甜

編輯:江江 & 面線

美編:煥妍

圖片、資料來源:

X、小紅書、領英、Anthropic 官網


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
朱楊柱二次飛天!農村放羊娃成為航天英雄,他還是幸福的二胎爸爸

朱楊柱二次飛天!農村放羊娃成為航天英雄,他還是幸福的二胎爸爸

細品名人
2026-05-30 09:55:41
前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

揚子晚報
2026-05-07 07:43:31
母親將聾啞女兒丟在懸崖,20年后其兒子上山砍柴,看見姐姐后傻眼

母親將聾啞女兒丟在懸崖,20年后其兒子上山砍柴,看見姐姐后傻眼

古怪奇談錄
2025-08-30 11:50:18
宇航員拍下國際空間站窗外極光,半人馬座星系入鏡

宇航員拍下國際空間站窗外極光,半人馬座星系入鏡

閃存獵手
2026-05-29 01:09:08
中國裁判組出征2026美加墨世界杯

中國裁判組出征2026美加墨世界杯

大象新聞
2026-05-30 20:55:03
2026國家教學成果獎評審啟動:沒有領導掛名就報不了獎?教育部:那就讓獎項空著

2026國家教學成果獎評審啟動:沒有領導掛名就報不了獎?教育部:那就讓獎項空著

教育放大鏡
2026-05-29 22:41:16
高市正實質侵害中國這項權益!另其轉移12萬人令人想起沖繩島戰役……

高市正實質侵害中國這項權益!另其轉移12萬人令人想起沖繩島戰役……

新民周刊
2026-05-30 09:14:14
鄭麗文訪美團曝光,三大美女非常亮眼,李德維在列,蕭旭岑不隨行

鄭麗文訪美團曝光,三大美女非常亮眼,李德維在列,蕭旭岑不隨行

娛樂小可愛蛙
2026-05-31 00:54:28
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
去醫院時,千萬別做這幾種檢查,不僅對身體沒有好處,還會產生這些影響!

去醫院時,千萬別做這幾種檢查,不僅對身體沒有好處,還會產生這些影響!

新時代的兩性情感
2026-05-30 00:07:03
純電汽車能用幾年?答案竟然讓你大吃一驚!

純電汽車能用幾年?答案竟然讓你大吃一驚!

侃故事的阿慶
2026-05-21 10:01:58
時隔40年!伊拉克2-1擊退玻利維亞,搭上世界杯末班車

時隔40年!伊拉克2-1擊退玻利維亞,搭上世界杯末班車

仰臥撐FTUer
2026-04-01 16:37:08
討論對華新限制措施,內部多國持謹慎態度,歐盟這次會議暴露深層次焦慮

討論對華新限制措施,內部多國持謹慎態度,歐盟這次會議暴露深層次焦慮

環球網資訊
2026-05-30 06:40:11
穆里尼奧封神第一簽!900 萬挖新克羅斯,全皇馬反對他偏要硬來

穆里尼奧封神第一簽!900 萬挖新克羅斯,全皇馬反對他偏要硬來

瀾歸序
2026-05-30 06:40:36
PCB巨頭漲超500%暫停IPO,全球長線資金“輪番上門”

PCB巨頭漲超500%暫停IPO,全球長線資金“輪番上門”

阿爾法工場
2026-05-30 18:23:04
39歲劉詩詩九寨溝生圖曝光,臉僵疲態盡顯

39歲劉詩詩九寨溝生圖曝光,臉僵疲態盡顯

牛油果生活觀
2026-05-30 17:35:04
成都“牽手門”事件女主現今狀況曝光,太慘了......

成都“牽手門”事件女主現今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
“被遺忘的”全球最安全純電MPV,沃爾沃EM90從81.8萬降到46萬多

“被遺忘的”全球最安全純電MPV,沃爾沃EM90從81.8萬降到46萬多

隔壁說車老王
2026-05-30 07:23:39
晚到卻是全球第一!續航2000km,比亞迪唐擁有50萬檔次僅售15萬多

晚到卻是全球第一!續航2000km,比亞迪唐擁有50萬檔次僅售15萬多

隔壁說車老王
2026-05-28 07:56:40
恭喜!TVB小生宣布當爸爸!凌晨四點半才收工后趕到醫院!豪門妻子產下7.7斤胖女寶

恭喜!TVB小生宣布當爸爸!凌晨四點半才收工后趕到醫院!豪門妻子產下7.7斤胖女寶

我愛追港劇
2026-05-16 19:16:51
2026-05-31 02:32:49
差評XPIN incentive-icons
差評XPIN
用知識和觀點Debug the world!
10859文章數 489653關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

健康
教育
時尚
旅游
數碼

嘗試干細胞療法如何避免踩坑?

教育要聞

四大名著怎么選?Young媽按年齡給大家整理好進階路線啦

美回巔峰的她們,帶火的這些爆款真的好用嗎

旅游要聞

伊利亮相2026“跟著品牌去旅行”對接交流活動 以工業文旅融合彰顯中國品牌力量

數碼要聞

沒等到Arc G3!華碩ROG Ally 2026新掌機曝光: 仍用AMD銳龍Z2 Extreme

無障礙瀏覽 進入關懷版