无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.8:兩個(gè)0%背后的商業(yè)邏輯

0
分享至

文 | AI唱反調(diào)

Anthropic發(fā)布了Claude Opus 4.8。所有人都在看跑分——SWE-Bench Pro 69.2%,GDPval-AA 1890分?jǐn)鄬拥谝?。但有兩個(gè)數(shù)字被 嚴(yán)重低估了:

謊報(bào)率:0.00。偷懶調(diào)查率:0%。

上一代Opus 4.7分別 是0.25和25%。再往 前,Opus 4.5的偷懶率高達(dá)91%。

兩個(gè)零。這可能是比任何benchmark都更具顛覆性的信號(hào)。

誠(chéng)實(shí),是Anthropic最鋒利的差異化武器

AI行業(yè)有個(gè)公開(kāi)的秘密:所有大模型都擅長(zhǎng)"過(guò)度自信"。證據(jù)不足時(shí)倉(cāng)促下結(jié)論,然后拍著胸脯告訴你"搞定了"。你信了,一跑,崩了?;厝?wèn),它又?jǐn)蒯斀罔F地說(shuō)"這次絕對(duì)沒(méi)問(wèn)題"——然后你又崩了。

幻覺(jué)和謊報(bào)阻礙了許多企業(yè)和用戶(hù)對(duì)AI的選擇,因?yàn)樗麄儫o(wú)法分辨信息的真實(shí)性,或者沒(méi)有耐心一遍一遍追問(wèn)AI事情的準(zhǔn)確度。Anthropic看起來(lái)想從這點(diǎn)入手。

Anthropic把"安全"這個(gè)被喊爛的口號(hào),轉(zhuǎn)化成了一個(gè)可量化、可感知、可對(duì)比的產(chǎn)品特性。Opus 4.8的謊報(bào)率從前代的0.25降至0.00,偷懶調(diào)查率從25%歸零。它會(huì)在不確定時(shí)說(shuō)"我不確定",會(huì)在發(fā)現(xiàn)問(wèn)題時(shí)主動(dòng)標(biāo)記。


這不是技術(shù)領(lǐng)先,這是信任領(lǐng)先。在ToB市場(chǎng),信任比智商值錢(qián)得多。Anthropic明顯更側(cè)重企業(yè)客戶(hù),它不需要討好C端用戶(hù),只需要讓CIO們相信:用Claude,你的代碼不會(huì)崩,你的模型不會(huì)騙你。

當(dāng)所有頂尖模型的智商差距縮小到個(gè)位數(shù)時(shí),"可靠性"成了最后的護(hù)城河。而"誠(chéng)實(shí)"這個(gè)產(chǎn)品化標(biāo)簽,OpenAI、Google、Meta也有類(lèi)似機(jī)制,但未像Anthropic這樣作為核心賣(mài)點(diǎn)和品牌心智來(lái)打造,這形成了一種難以復(fù)制的差異化。

誠(chéng)實(shí)的代價(jià):Opus 4.8變"冷淡"了

但誠(chéng)實(shí)不是免費(fèi)的。

實(shí)測(cè)用戶(hù)反饋:4.8更精確、更遵循指令,但也更不主動(dòng)了。你讓它干A,它就只干A,絕不會(huì)自作主張把B也辦了。有人形容:"給它Prompt像強(qiáng)迫i人主動(dòng)說(shuō)話。"

這對(duì)專(zhuān)業(yè)開(kāi)發(fā)者是好事——精確、可控、不越界。但對(duì)"氛圍編程"群體來(lái)說(shuō),可能是個(gè)打擊。很多人習(xí)慣了AI"懂我意思"的爽感:含糊扔一句話過(guò)去,AI就猜到你完整需求。這種"被理解"很上頭,但代價(jià)是不可控。

Opus 4.8選擇放棄"爽感",換取可靠性。這是一個(gè)產(chǎn)品哲學(xué)的取舍——Anthropic在告訴用戶(hù):如果你需要AI猜你的心思,你需要的是聊天伙伴;如果你需要AI幫你干活,你需要的是工程師。

動(dòng)態(tài)工作流:Anthropic的真正野心

同步發(fā)布的"動(dòng)態(tài)工作流",允許Claude在單次會(huì)話中啟動(dòng)數(shù)百個(gè)并行子智能體,持續(xù)運(yùn)行數(shù)天。官方直接展示了案例,把Bun從Zig移植到Rust,75萬(wàn)行代碼,99.8%測(cè)試通過(guò)率,僅11天。


所以我們已經(jīng)不能只說(shuō)"AI寫(xiě)代碼更快"了,現(xiàn)實(shí)情況是"AI正在變成組織"。

傳統(tǒng)開(kāi)發(fā)是團(tuán)隊(duì)協(xié)作:產(chǎn)品經(jīng)理提需求、 架構(gòu)師設(shè)計(jì)、前端寫(xiě)界面、后端寫(xiě)API、測(cè)試寫(xiě)用例。動(dòng)態(tài)工作流意味著,這些角色理論上可以被一個(gè)AI系統(tǒng)內(nèi)的多個(gè)"虛擬員工"替代。

Anthropic不是在賣(mài)更聰明的模型,它在用AI重塑企業(yè)的組織架構(gòu)。當(dāng)企業(yè)意識(shí)到可以用Claude Code替代一個(gè)開(kāi)發(fā)團(tuán)隊(duì)時(shí),他的使用成本和多企業(yè)復(fù)用的能力逐漸凸顯,9650億美元估值就不再是泡沫。

身份烏龍:模型歸屬討論暴露的行業(yè)共性

頗為戲謔的是,有網(wǎng)友通過(guò)官方API直接調(diào)用Opus 4.8,問(wèn)"你是什么模型",它回答:"我是通義千問(wèn)(Qwen)。"換個(gè)人問(wèn),又說(shuō):"我是DeepSeek。"

這場(chǎng)面頗具戲劇性。就在三個(gè)月前,Anthropic剛發(fā)布官方公告,指出有競(jìng)爭(zhēng)對(duì)手通過(guò)大量賬戶(hù)批量獲取Claude模型數(shù)據(jù)用于訓(xùn)練,彼時(shí)業(yè)內(nèi)還有知名人士公開(kāi)評(píng)論此事。

短短數(shù)月輿論風(fēng)向變化,網(wǎng)友調(diào)侃:"你學(xué)我,我學(xué)你,大模型訓(xùn)練本質(zhì)就是互相學(xué)習(xí)。"

所有前沿模型互相借鑒數(shù)據(jù)、論文與模型輸出,早已是行業(yè)不公開(kāi)的慣例。但Anthropic的尷尬在于:它耗費(fèi)大量成本打磨極致誠(chéng)實(shí)、零謊報(bào)、零偷懶的品牌標(biāo)簽,將可靠性奉為核心護(hù)城河,最終卻被自家模型的"過(guò)度誠(chéng)實(shí)"反噬。

模型之所以"認(rèn)錯(cuò)身份",并非什么高深的對(duì)齊故障,而是最樸素的訓(xùn)練數(shù)據(jù)清洗疏漏——中文語(yǔ)料中的外部模型殘留記憶沒(méi)被過(guò)濾干凈,反學(xué)習(xí)機(jī)制在中文場(chǎng)景下效果有限,結(jié)果被模型"如實(shí)"輸出。這種坦誠(chéng),不是技術(shù)優(yōu)勢(shì),而是產(chǎn)品缺陷的直接暴露。

這一事件,也撕開(kāi)了行業(yè)的深層困境:頭部模型數(shù)據(jù)源高度重合、技術(shù)框架趨同、評(píng)測(cè)目標(biāo)統(tǒng)一,AI的獨(dú)特性正在消失。頂尖模型的智商壁壘不斷抹平,跑分差距持續(xù)縮小,Terminal-Bench上GPT-5.5甚至以78.2%的成績(jī),反超Opus 4.8的74.6%。

模型能力正在全面收斂。當(dāng)智商差距縮小到個(gè)位數(shù),AI賽道的終局競(jìng)爭(zhēng)早已改寫(xiě):決定勝負(fù)的從來(lái)不是"誰(shuí)更聰明",而是誰(shuí)更可控、更可靠、能守住自身的技術(shù)與數(shù)據(jù)邊界。

當(dāng)AI學(xué)會(huì)誠(chéng)實(shí),人類(lèi)反而不習(xí)慣了

Opus 4.8標(biāo)志著AI行業(yè)的一個(gè)微妙轉(zhuǎn)折。

過(guò)去兩年,競(jìng)爭(zhēng)主線是"誰(shuí)更聰明"。但當(dāng)頂尖模型的智商差距縮小到個(gè)位數(shù)時(shí),主線正在切換為"誰(shuí)更可靠"。

Anthropic選擇了一條差異化路徑:不是追求"最聰明",而是追求"最誠(chéng)實(shí)"。它用兩個(gè)0%構(gòu)建了一個(gè)競(jìng)爭(zhēng)對(duì)手難以復(fù)制的品牌護(hù)城河。

但這也帶來(lái)一個(gè)悖論:當(dāng)AI變得過(guò)于誠(chéng)實(shí),人類(lèi)反而不習(xí)慣了。我們習(xí)慣了AI的過(guò)度自信——那種"搞定了"的篤定,那種虛假的安全感。4.8的誠(chéng)實(shí)打破了這種幻覺(jué)。

誠(chéng)實(shí)是一種高級(jí)能力,但接受誠(chéng)實(shí)需要更高的認(rèn)知水平。對(duì)于習(xí)慣了"氛圍編程"的 casual 用戶(hù),4.8可能顯得冷淡、機(jī)械。但對(duì)于需要把AI部署到生產(chǎn)環(huán)境的企業(yè),這種誠(chéng)實(shí)是救命稻草。

9650億美元估值很大程度反映了市場(chǎng)對(duì)"企業(yè)級(jí)可靠AI基礎(chǔ)設(shè)施"的長(zhǎng)期預(yù)期——當(dāng)然,這也包含了收入增速、競(jìng)品格局、融資環(huán)境等多重因素。Anthropic在賭:當(dāng)AI從玩具變成工具,誠(chéng)實(shí)會(huì)比聰明更值錢(qián)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特斯拉中國(guó)為Model Y推出手動(dòng)伸縮遮陽(yáng)簾,售價(jià)1499元

特斯拉中國(guó)為Model Y推出手動(dòng)伸縮遮陽(yáng)簾,售價(jià)1499元

IT之家
2026-05-31 14:41:34
歷史下滑幅度最大!亞歷山大真被文班的馬刺天克!

歷史下滑幅度最大!亞歷山大真被文班的馬刺天克!

籃球大圖
2026-05-31 13:02:14
5月31日晚間滬深上市公司重大事項(xiàng)公告最新快遞

5月31日晚間滬深上市公司重大事項(xiàng)公告最新快遞

新浪財(cái)經(jīng)
2026-05-31 19:32:53
日本正在準(zhǔn)備對(duì)中國(guó)發(fā)動(dòng)戰(zhàn)爭(zhēng)?日菲已聯(lián)手,精心布局對(duì)華情報(bào)網(wǎng)絡(luò)

日本正在準(zhǔn)備對(duì)中國(guó)發(fā)動(dòng)戰(zhàn)爭(zhēng)?日菲已聯(lián)手,精心布局對(duì)華情報(bào)網(wǎng)絡(luò)

阿鳧愛(ài)吐槽
2026-05-31 18:23:13
奚貴妃被私生子逼宮了

奚貴妃被私生子逼宮了

毒舌扒姨太
2026-05-30 22:53:30
“考上有啥用?”33歲女環(huán)衛(wèi)工考上研究生,母親一句話問(wèn)懵全網(wǎng)

“考上有啥用?”33歲女環(huán)衛(wèi)工考上研究生,母親一句話問(wèn)懵全網(wǎng)

一絲不茍的法律人
2026-05-31 09:49:02
2026年世界杯小組賽賽程全覽

2026年世界杯小組賽賽程全覽

懂球帝
2026-05-26 15:22:40
近日,已有8名院士被撤銷(xiāo)稱(chēng)號(hào)、9名院士被官網(wǎng)除名、2名院士被帶走調(diào)查

近日,已有8名院士被撤銷(xiāo)稱(chēng)號(hào)、9名院士被官網(wǎng)除名、2名院士被帶走調(diào)查

阿天愛(ài)旅行
2026-05-31 15:09:03
空姐的跪式服務(wù)

空姐的跪式服務(wù)

微微熱評(píng)
2026-05-30 21:49:57
嫪?dú)睉{是借什么讓趙姬那么癡迷?司馬遷晚年道出了其中的原因

嫪?dú)睉{是借什么讓趙姬那么癡迷?司馬遷晚年道出了其中的原因

千秋文化
2026-01-20 20:42:41
王菲現(xiàn)身謝霆鋒演唱會(huì),聽(tīng)玉蝴蝶感動(dòng)落淚,謝霆鋒曾回應(yīng)世紀(jì)牽手

王菲現(xiàn)身謝霆鋒演唱會(huì),聽(tīng)玉蝴蝶感動(dòng)落淚,謝霆鋒曾回應(yīng)世紀(jì)牽手

韓小娛
2026-05-31 16:03:31
蒯曼神秘離隊(duì)去向成謎,國(guó)家隊(duì)重點(diǎn)培養(yǎng)竟力不從心?

蒯曼神秘離隊(duì)去向成謎,國(guó)家隊(duì)重點(diǎn)培養(yǎng)竟力不從心?

畫(huà)夕
2026-05-31 11:41:35
法網(wǎng)男單賽場(chǎng)徹底變天!巨頭集體出局,亂世搶首冠大戲開(kāi)演

法網(wǎng)男單賽場(chǎng)徹底變天!巨頭集體出局,亂世搶首冠大戲開(kāi)演

網(wǎng)球之家
2026-05-31 09:35:18
紀(jì)委監(jiān)委能恢復(fù)你多久前刪掉的微信?答案可能讓你睡不著覺(jué)

紀(jì)委監(jiān)委能恢復(fù)你多久前刪掉的微信?答案可能讓你睡不著覺(jué)

黑哥講現(xiàn)代史
2026-05-21 13:52:20
女子凌晨車(chē)上排泄后續(xù)!平臺(tái)公布叫車(chē)信息,網(wǎng)友:該承擔(dān)應(yīng)有責(zé)任

女子凌晨車(chē)上排泄后續(xù)!平臺(tái)公布叫車(chē)信息,網(wǎng)友:該承擔(dān)應(yīng)有責(zé)任

荷蘭豆愛(ài)健康
2026-05-30 19:47:02
老人身上出現(xiàn)這4個(gè)特征,多半是長(zhǎng)壽體質(zhì)

老人身上出現(xiàn)這4個(gè)特征,多半是長(zhǎng)壽體質(zhì)

周哥一影視
2026-05-30 18:23:13
乾隆拿出白紙故意刁難劉墉,劉墉從容宣讀,在場(chǎng)眾人無(wú)不驚嘆

乾隆拿出白紙故意刁難劉墉,劉墉從容宣讀,在場(chǎng)眾人無(wú)不驚嘆

嘮叨說(shuō)歷史
2026-05-28 17:18:29
比亞迪吹爆璇璣A3:完全自研、中國(guó)最強(qiáng)!評(píng)論區(qū)一點(diǎn)面子都不給

比亞迪吹爆璇璣A3:完全自研、中國(guó)最強(qiáng)!評(píng)論區(qū)一點(diǎn)面子都不給

譚談社會(huì)
2026-05-29 16:29:54
不要忙著打日本,中國(guó)應(yīng)該去全國(guó)各地的武器倉(cāng)庫(kù)突擊大檢查

不要忙著打日本,中國(guó)應(yīng)該去全國(guó)各地的武器倉(cāng)庫(kù)突擊大檢查

阿七說(shuō)史
2026-05-21 15:45:10
網(wǎng)友請(qǐng)假說(shuō)明原因,外企領(lǐng)導(dǎo):隱私、無(wú)需說(shuō)明,評(píng)論區(qū)感動(dòng)哭了!

網(wǎng)友請(qǐng)假說(shuō)明原因,外企領(lǐng)導(dǎo):隱私、無(wú)需說(shuō)明,評(píng)論區(qū)感動(dòng)哭了!

譚談社會(huì)
2026-05-31 11:03:25
2026-05-31 20:43:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
134354文章數(shù) 862210關(guān)注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來(lái)了!AI重估老牌科技公司

頭條要聞

媒體:印度多個(gè)領(lǐng)域面臨嚴(yán)重問(wèn)題 莫迪發(fā)出罕見(jiàn)的號(hào)召

頭條要聞

媒體:印度多個(gè)領(lǐng)域面臨嚴(yán)重問(wèn)題 莫迪發(fā)出罕見(jiàn)的號(hào)召

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂(lè)要聞

朱軍退休,正義雖遲但到,女方受懲

財(cái)經(jīng)要聞

醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

汽車(chē)要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

健康
藝術(shù)
家居
教育
房產(chǎn)

嘗試干細(xì)胞療法如何避免踩坑?

藝術(shù)要聞

16位歐美畫(huà)家筆下的兒童肖像

家居要聞

云棲 舒展如流云

教育要聞

看我怎么來(lái)做這道題目,很難嗎?

房產(chǎn)要聞

紅動(dòng)五月!全國(guó)搶入核心資產(chǎn),廣州盯緊凱旋新世界!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版