无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

說實話,我覺得 Claude 4.8 有點拉。

0
分享至


就在今天凌晨,Anthropic 掏出來了他們最新的 Claude Opus 4.8。

距離 Opus 4.7 才過去一個多月,不得不說,Claude 上新的速度是越來越快了。

本來吧,4.8 注定只是大伙兒眼里的小版本更新。但世超發(fā)現(xiàn),這次事情并沒有那么簡單。


因為不少人懷疑,Opus 4.8 似乎蒸了,蒸的還是 DeepSeek 和千問。。。

很多人通過 API 詢問 Opus 4.8,你是什么模型,你背后的公司是什么,結(jié)果他一會兒說自己是通義千問,一會兒來自深度求索。


之前無證據(jù)亂錘中國模型蒸餾 Claude,現(xiàn)在反而被揪住小辮子,Anthropic,你小子怎么回事嗯?

當(dāng)然,蒸沒蒸是一回事,好不好用是另一回事。只不過在大伙兒試用之前,Opus 4.8 已經(jīng)先上了一層懷疑的濾鏡。

根據(jù)官方的博客,這回 Opus 4.8 改動并不大。最顯著的改進之一,就是更誠實了。

換句話講,那種莫名自信,嘴硬之后 “ 對不起,我之前說錯了 ” 的情況,Opus 4.8 身上發(fā)生的概率會大大減小。


另外,據(jù)說它在做 Agent 任務(wù)時會更可靠,判斷力更強,能自己發(fā)現(xiàn)問題,提出異議,用最終最好的答案穩(wěn)穩(wěn)接住你。

而從性能表上來看,Opus 4.8 只能說各方面小有提升,但沒啥特別出彩的,其中一個 coding 指標(biāo)還打不過兩個月前的 GPT-5.5。


從用戶實際反饋來看,Opus 4.8 褒貶不一。有人表示它確實變誠實了,不會輕易不查資料亂講,經(jīng)常自我反思,干活主動穩(wěn)定,安全性也有了明顯的提升。

來源:小紅書 @on99


但也有人說它依然不如白月光 Opus 4.6,語言表達的人味兒還沒回來,token 消耗還飛快,甚至還有不少人發(fā)現(xiàn)它依然在 coding 的時候亂講,比起 Opus 4.7 沒啥變化。


世超親自上手試了試以后,感覺倒也不是 Opus 4.8 不好,但代價是什么呢?

就說它的 “ 誠實 ” 特性,Opus 4.8 在一些比較危險的問題上,確實考慮周到不亂講,但也變得極其保守。

面對一些風(fēng)險較高的決策,比如世超給它一張毒蘑菇照片,問它能不能吃,它的思考過程相當(dāng)客觀冷靜。


不過,在一些安全項里,Opus 4.8 表現(xiàn)得過度謹(jǐn)慎。即使它覺得大概率沒毛病,也只會說 “ 我的顧慮小了很多,這也可能是劇毒菌撞臉 ”。


這當(dāng)然是負(fù)責(zé)任的。畢竟真有人照著 AI 的話去吃蘑菇,那可不是鬧著玩的。

但從用戶體驗上來說,這可能會導(dǎo)致很多問題得不到確定的答復(fù),句句都是 AI 給自己疊的甲,相當(dāng)難受。

另外,如果想要 Opus 4.8 保持水準(zhǔn),最好不要嘗試 High 以下的性能(effort)。高消耗,才有好表現(xiàn)。

比如下面這種新聞總結(jié)的活兒,很基礎(chǔ)吧。但 Opus 4.8 Low 給出的第一條新聞就是錯的,Sholto Douglas 發(fā)那條動態(tài)已經(jīng)是三天前的事兒了,怎么能連自家的新聞都搞錯。。。


想讓它做事實核查,還得再追問一遍,說好的主動檢查發(fā)現(xiàn)問題提出異議,用最準(zhǔn)確的答案穩(wěn)穩(wěn)接住我呢?


接下來世超又試了試它的代碼能力,這回它的能力強,還是用時間和 token 換的。

常規(guī)的 leetcode 困難算法題,對 Opus 4.8 來說已經(jīng)不成問題了。而當(dāng)我找了一個超難題 LCP 82 丟給 Opus 4.8,即使開 Extra 模式,123 行代碼,它也足足思考了二十多分鐘。

結(jié)果的確是相當(dāng)不錯,Opus 4.8 一遍就過,思考出了第一版代碼還復(fù)查優(yōu)化了一遍,現(xiàn)在能做到這種程度的模型并不多。


但作為對比,GPT-5.5 思考了兩分鐘,就給出了一個測試案例通過 99% 的答案。唯一一個案例失敗的原因,是時間超限,其實也不算答錯。這明顯比 Opus 4.8 要省得多。


世超又嘗試讓 Opus 4.8 獨立制作一個日式校園 galgame,不得不說現(xiàn)在 AI 寫的項目代碼層次分明,框架清楚。


這意味著,在它的基礎(chǔ)上,如果你想改立繪,加劇情,把游戲做大做強是很容易的。

世超淺玩了一下,所有功能包括存檔,自動播放,CG 畫廊等等,沒有任何 bug。


但是 Claude 斷斷續(xù)續(xù),做了足足一個多小時。下面 GPT-5.5 這個雖然簡陋很多,該有的功能一樣不差,只用了五分鐘。


所以,花更多的錢和時間換來的答案值不值得?可能也只有大伙兒自己心里清楚了。

總的來說,Opus 4.8 繼承了 Claude 過往的強項,沒有特別出色的表現(xiàn),平平常常普普通通。

而在測試之后,世超最想說的卻不是這個模型本身到底咋樣,而是現(xiàn)在用個 Claude,也太小心翼翼了。

作為業(yè)界價格的巔峰,用 Claude 最好的模型,不舍得開最好的性能;開最高的性能,不舍得用最好的模型。處處是陷阱,在你不注意的時候,無關(guān)緊要的小問題已經(jīng)把 token 燒光了。

而且讓用戶自己選性能,只有 low 和 high 也就算了,這次,Opus 4.8 一口氣推出了 5 種檔位,Low、Medium、High、Extra 和 Max,普通人真搞不明白什么時候用哪個,很容易造成浪費。


現(xiàn)在,Opus 4.8 相關(guān)的評論區(qū)里,世超看到不少人陷入了 Opus 4.6 下架的恐慌。

大伙兒別擔(dān)心,在更多模型里,老模型還在,想用還能用到。


但坦白講,這種負(fù)優(yōu)化不僅僅是 Anthropic 一家的困境,不少廠商都透著一股新不如舊的無奈。

雖然交出的參數(shù)答卷越來越漂亮,可那些曾經(jīng)讓用戶感到驚艷的極致體驗,又要什么時候才能回來呢?

撰文:莫莫莫甜甜

編輯:江江 & 面線

美編:煥妍

圖片、資料來源:

X、小紅書、領(lǐng)英、Anthropic 官網(wǎng)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
紀(jì)委已明確!黨員干部這10種行為將從重或加重處分,碰不得!

紀(jì)委已明確!黨員干部這10種行為將從重或加重處分,碰不得!

細(xì)說職場
2026-05-30 09:21:26
咪咕發(fā)布2026世界杯全場景觀賽方案

咪咕發(fā)布2026世界杯全場景觀賽方案

中國青年報
2026-05-29 15:08:12
回顧:上海殺妻案朱曉東被處死刑,獄中對妻子的評價,讓人膽寒

回顧:上海殺妻案朱曉東被處死刑,獄中對妻子的評價,讓人膽寒

莫地方
2026-05-19 01:55:03
本屆將誕生新科大滿貫,德約2-3遭豐塞卡逆轉(zhuǎn)止步法網(wǎng)第三輪

本屆將誕生新科大滿貫,德約2-3遭豐塞卡逆轉(zhuǎn)止步法網(wǎng)第三輪

懂球帝
2026-05-30 03:06:43
全球僅剩兩千多只!老外斷言20年內(nèi)滅絕,卻在云南深山首次亮相

全球僅剩兩千多只!老外斷言20年內(nèi)滅絕,卻在云南深山首次亮相

甜到你心坎
2026-05-29 21:57:17
停止“降房價”?國家一錘定音,2026年起,房地產(chǎn)全“這樣”處理

停止“降房價”?國家一錘定音,2026年起,房地產(chǎn)全“這樣”處理

巢客HOME
2026-04-09 09:10:08
1974年,林青霞臺北的居家照徐克曾說五十年才能出一個林青霞

1974年,林青霞臺北的居家照徐克曾說五十年才能出一個林青霞

老吳教育課堂
2026-05-28 13:20:09
如果中國繼續(xù)在俄烏沖突中中立,俄羅斯可能要 “重新考慮方向”

如果中國繼續(xù)在俄烏沖突中中立,俄羅斯可能要 “重新考慮方向”

回京歷史夢
2026-05-29 18:32:40
關(guān)志鷗任湖北省委書記,王忠林另有任用

關(guān)志鷗任湖北省委書記,王忠林另有任用

農(nóng)民日報
2026-05-30 09:51:23
1969年許世友為王近山求情,毛主席打趣:放虎歸山,哪個軍區(qū)敢要

1969年許世友為王近山求情,毛主席打趣:放虎歸山,哪個軍區(qū)敢要

磊子講史
2026-05-26 18:56:24
浙江一女子利用“僅退款”規(guī)則“薅羊毛”70余次,稱自己最多算“占小便宜”且“僅退款”都經(jīng)商家同意;警方:該女子因涉嫌詐騙罪已被刑拘

浙江一女子利用“僅退款”規(guī)則“薅羊毛”70余次,稱自己最多算“占小便宜”且“僅退款”都經(jīng)商家同意;警方:該女子因涉嫌詐騙罪已被刑拘

揚子晚報
2026-05-30 14:43:20
5700億方淡水白白流走?中方砸萬億截彎取直,把西北“喂成”江南

5700億方淡水白白流走?中方砸萬億截彎取直,把西北“喂成”江南

古事尋蹤記
2026-05-25 07:07:29
2026新加坡羽毛球公開賽:大馬雙打全軍覆沒,多支國羽組合晉級四強

2026新加坡羽毛球公開賽:大馬雙打全軍覆沒,多支國羽組合晉級四強

劉哥談體育
2026-05-30 15:56:39
為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

老特有話說
2026-05-12 15:41:08
艾司唑侖立大功!老人吃艾司唑侖,不止助眠,還有5大獲益

艾司唑侖立大功!老人吃艾司唑侖,不止助眠,還有5大獲益

健康之光
2026-05-19 16:58:40
54:45!美國投票結(jié)果出爐,一個時代已結(jié)束,中國加速減持美債

54:45!美國投票結(jié)果出爐,一個時代已結(jié)束,中國加速減持美債

潮鹿逐夢
2026-05-30 04:10:27
汪雨一家六口同框亮相,崔璨孕32周狀態(tài)好,女兒高挑漂亮

汪雨一家六口同框亮相,崔璨孕32周狀態(tài)好,女兒高挑漂亮

賞心悅目的我
2026-05-28 21:11:41
41歲王珞丹現(xiàn)狀:住河北深山,不結(jié)婚不生子,放棄榮華富貴圖啥?

41歲王珞丹現(xiàn)狀:住河北深山,不結(jié)婚不生子,放棄榮華富貴圖啥?

白面書誏
2026-04-20 15:26:26
賴清德,極有可能是1949年以來,唯一在任上出事的臺灣地區(qū)領(lǐng)導(dǎo)人

賴清德,極有可能是1949年以來,唯一在任上出事的臺灣地區(qū)領(lǐng)導(dǎo)人

混沌錄
2026-05-19 19:56:10
工齡32.42年,個人賬戶7.7萬,2026.5退休,穩(wěn)穩(wěn)當(dāng)當(dāng)現(xiàn)金流來了!

工齡32.42年,個人賬戶7.7萬,2026.5退休,穩(wěn)穩(wěn)當(dāng)當(dāng)現(xiàn)金流來了!

樂天果果
2026-05-29 14:52:39
2026-05-30 17:20:49
差評XPIN incentive-icons
差評XPIN
用知識和觀點Debug the world!
10854文章數(shù) 489652關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價格戰(zhàn)遠去,但競爭仍殘酷

頭條要聞

普京稱俄烏沖突臨近收尾同日空襲基輔 媒體:并行不悖

頭條要聞

普京稱俄烏沖突臨近收尾同日空襲基輔 媒體:并行不悖

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時拼到嘔吐

娛樂要聞

向太曝黃曉明曾當(dāng)眾給她下跪

財經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

教育
游戲
時尚
藝術(shù)
手機

教育要聞

大語文時代,語文考試知識面非常靈活,一定要幫孩子多積累這..

《地平線6》神秘玩家被全網(wǎng)追殺!殺手47都出動了

2026夏天最新5款發(fā)型合集,每一款都超心動!

藝術(shù)要聞

王文生 2026風(fēng)景寫生新作

手機要聞

REDMI K90賣爆,中屏機逆襲了?

無障礙瀏覽 進入關(guān)懷版