无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.8引發(fā)測評分歧,AI實戰(zhàn)部署兩條新賽道浮出水面

0
分享至

5月28日,AI工程師社區(qū)的氣氛有些微妙。一條是關(guān)于基準(zhǔn)測試的爭論:Anthropic的新模型Claude Opus 4.8究竟算不算一次顯著升級?另一條是AI Engineer(AIE)突然拋出的兩項新計劃——前沿部署工程師(Forward Deployed Engineer)賽道和創(chuàng)始人孵化器,背后站著OpenAI與Anthropic各自的DeployCo部門,還有Y Combinator的Garry Tan與Howie Lu的千萬美元級Hyperagent挑戰(zhàn)賽。兩件事看似獨立,卻在同一天把“模型能力”與“實際部署”這對老伙計重新推到了臺前。

先看模型測評的混戰(zhàn)。Opus 4.8落地后,多家獨立評測機(jī)構(gòu)給出的結(jié)論近乎統(tǒng)一:“增量式改進(jìn),未到統(tǒng)治級。”@arena用超過200個前端與代碼測試,把它和之前的Opus版本、Gemini、GLM放在一起對比,發(fā)現(xiàn)優(yōu)勢有限。@theo借助CursorBench得出的結(jié)論更具體:Opus 4.8比4.7更高效,但分?jǐn)?shù)略低,差距落在誤差范圍內(nèi)。@jerryjliu0和llama_index團(tuán)隊在文檔解析場景里看到了表格和布局處理的微弱提升,同時卻發(fā)現(xiàn)內(nèi)容忠實度和圖表理解出現(xiàn)了退步。最不留情面的評價來自@scaling01——ALE-Bench上毫無進(jìn)展,LisanBench上甚至暴露出一些此前未被注意的失敗模式。


不過也有幾位開發(fā)者的實際體感與基準(zhǔn)測評方向不同。@jeremyphoward描述了一個細(xì)節(jié):在輔助編程時,Opus 4.8的表現(xiàn)比4.7和GPT-5.5更“克制”,不像前代那樣容易產(chǎn)生過度自主的行動,合作感更強(qiáng)。他將這看作一次生活質(zhì)量式的改進(jìn)。@leo_linsky也認(rèn)為,縱使基準(zhǔn)數(shù)據(jù)不夠驚艷,把它放到日常產(chǎn)品環(huán)境里,能感受到明顯優(yōu)于Anthropic此前發(fā)布的版本。這些聲音讓Opus 4.8的面貌變得復(fù)雜起來:它更像一次面向?qū)嶋H使用體驗的務(wù)實更新,而不是用來刷榜的標(biāo)桿重置。

在這個略顯混沌的測評底色之上,Anthropic的平臺級調(diào)整反而獲得了更清晰的肯定。@ClaudeDevs宣布了兩項更新:支持在對話中途插入系統(tǒng)指令,且不會破壞提示緩存;同時允許在長對話中對系統(tǒng)角色進(jìn)行權(quán)威性更新。這對長時間運行的智能體會話和成本控制頗有價值。但價格始終是開發(fā)者繞不開的芒刺。@jeremyphoward就直言,Anthropic在應(yīng)用程序接口(API)性價比上幾乎沒有動作,他傾向使用GPT-5.5的部分原因,正是訂閱和API的經(jīng)濟(jì)賬更好算。換言之,Opus 4.8單憑模型能力還不夠,平臺層的成本優(yōu)化才是下一輪競爭的關(guān)鍵一環(huán)。

就在模型之爭尚未消散時,AIE在官網(wǎng)高亮了兩條新賽道。第一條是前沿部署工程師計劃,直接對標(biāo)OpenAI DeployCo與Anthropic DeployCo的推進(jìn)方向,目標(biāo)是把一批頂尖的AI實戰(zhàn)工程師納入一個更體系化的協(xié)作網(wǎng)絡(luò)。第二條則更接近創(chuàng)業(yè)者生態(tài):AIE推出的創(chuàng)始人項目,效仿Startup Battlefield,通過一場帶有競賽性質(zhì)的路演篩選項目,并且有雙重錨點——Y Combinator的Garry Tan以及Howie Lu設(shè)立的1000萬美元Hyperagent挑戰(zhàn)。兩項計劃都要求參與者盡快注冊,官網(wǎng)甚至提醒“順便把酒店訂了”。這種緊促的招募節(jié)奏,似乎也從側(cè)面說明,在模型能力日漸逼近當(dāng)下瓶頸的時期,能把技術(shù)推進(jìn)真實場景的人,才是最稀缺的資源。

同期的另一則技術(shù)通報,為這種“實戰(zhàn)優(yōu)先”的趨勢加了一個耐人尋味的注腳。Hugging Face的@ClementDelangue轉(zhuǎn)發(fā)了一篇深度分析,指出許多工具調(diào)用、多輪強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練循環(huán)存在一個隱蔽但影響廣泛的缺陷:解碼模型輸出、解析工具調(diào)用之后,再對更新后的對話重新進(jìn)行分詞,會改變分詞序列,導(dǎo)致梯度施加在模型從未真正采樣過的序列上。修復(fù)方案被歸納為一條嚴(yán)格的“Token-In, Token-Out”規(guī)則——絕不重新編碼已采樣的分詞,而是跨輪次維護(hù)單一的分詞緩沖區(qū)。@johnschulman2進(jìn)一步強(qiáng)調(diào),渲染器(renderers)正逐漸成為基礎(chǔ)性基礎(chǔ)設(shè)施。這意味著,從模型測評的精細(xì)度之爭,到部署人才與基礎(chǔ)設(shè)施的新一波整合,整個行業(yè)正在把注意力從“參數(shù)多少”轉(zhuǎn)向“誰能更穩(wěn)、更省地跑起來”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
破大防!荷蘭大臣曾向全球承認(rèn)誤判:沒想到中國真敢叫停芯片出口

破大防!荷蘭大臣曾向全球承認(rèn)誤判:沒想到中國真敢叫停芯片出口

老鵜愛說事
2026-06-01 02:53:38
太可怕了!江蘇女生哭訴侍候父親的至暗時刻,字里行間恐懼與絕望

太可怕了!江蘇女生哭訴侍候父親的至暗時刻,字里行間恐懼與絕望

火山詩話
2026-05-30 17:59:42
性生活是不是人的剛需?

性生活是不是人的剛需?

宇宙時空
2026-05-31 12:30:18
央視曝光特大網(wǎng)絡(luò)交友詐騙案:“聊手”偽裝成女性,要求男性用戶通過仿制外賣小程序下單;涉案資金330余萬元

央視曝光特大網(wǎng)絡(luò)交友詐騙案:“聊手”偽裝成女性,要求男性用戶通過仿制外賣小程序下單;涉案資金330余萬元

新民周刊
2026-05-31 16:12:53
俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

混沌錄
2026-05-29 23:26:12
洋蔥立大功!醫(yī)生發(fā)現(xiàn):洋蔥或?qū)?種慢性病有好處!可以常吃

洋蔥立大功!醫(yī)生發(fā)現(xiàn):洋蔥或?qū)?種慢性病有好處!可以常吃

芹姐說生活
2026-05-25 14:19:45
5月31日晚間滬深上市公司重大事項公告最新快遞

5月31日晚間滬深上市公司重大事項公告最新快遞

新浪財經(jīng)
2026-05-31 19:32:53
歷史不會重演,但會驚人相似:中國樓市極大可能重走2015年老路?

歷史不會重演,但會驚人相似:中國樓市極大可能重走2015年老路?

專業(yè)聊房君
2026-05-29 08:37:43
保級成功之后,托特納姆的新生計劃開始!報價曼城邊鋒利物浦老臣

保級成功之后,托特納姆的新生計劃開始!報價曼城邊鋒利物浦老臣

里芃芃體育
2026-06-01 03:00:05
小伙自駕西藏,遇徒步女學(xué)生搭車,同行2天后,才知自己躲過一劫

小伙自駕西藏,遇徒步女學(xué)生搭車,同行2天后,才知自己躲過一劫

五元講堂
2025-10-16 14:41:16
華為徐直軍“感謝”美國制裁,稱我們國家半導(dǎo)體產(chǎn)業(yè)鏈勢頭好得很

華為徐直軍“感謝”美國制裁,稱我們國家半導(dǎo)體產(chǎn)業(yè)鏈勢頭好得很

IT之家
2026-05-31 10:36:17
新華社消息|商務(wù)部:中歐雙方正探討建立貿(mào)易投資磋商機(jī)制

新華社消息|商務(wù)部:中歐雙方正探討建立貿(mào)易投資磋商機(jī)制

新華社
2026-05-30 21:22:59
下周一A股會不會大漲甚至暴漲,我直接跟你說,結(jié)果不用等

下周一A股會不會大漲甚至暴漲,我直接跟你說,結(jié)果不用等

風(fēng)風(fēng)順
2026-05-31 16:57:50
馬斯克生育論:狂言背后的現(xiàn)實思辨

馬斯克生育論:狂言背后的現(xiàn)實思辨

風(fēng)鈴草語
2026-05-31 06:28:52
特斯拉突然宣布六月份降價優(yōu)惠!

特斯拉突然宣布六月份降價優(yōu)惠!

XCiOS俱樂部
2026-05-31 14:55:11
紅土女王出局!斯瓦泰克0-2止步16強(qiáng),法網(wǎng)女單將決出新冠軍

紅土女王出局!斯瓦泰克0-2止步16強(qiáng),法網(wǎng)女單將決出新冠軍

全景體育V
2026-05-31 19:00:21
雷霆被淘汰4將身價下跌!2內(nèi)線無影響力,卡魯索連崩,多特副作用

雷霆被淘汰4將身價下跌!2內(nèi)線無影響力,卡魯索連崩,多特副作用

籃球資訊達(dá)人
2026-05-31 12:14:30
戰(zhàn)局徹底翻盤!俄軍擒賊擒王,北約徹底慌了!

戰(zhàn)局徹底翻盤!俄軍擒賊擒王,北約徹底慌了!

大嘴說天下
2026-05-31 22:30:03
德布勞內(nèi):我沒有踢過自己最擅長的位置,很高興孔蒂能離開

德布勞內(nèi):我沒有踢過自己最擅長的位置,很高興孔蒂能離開

懂球帝
2026-05-31 08:00:11
賽前邀吳彥祖現(xiàn)場見證!宋亞東降服菲格雷多拿下澳門格斗之夜中國隊首勝

賽前邀吳彥祖現(xiàn)場見證!宋亞東降服菲格雷多拿下澳門格斗之夜中國隊首勝

封面新聞
2026-05-31 10:03:23
2026-06-01 04:27:00
我是一個養(yǎng)蝦人
我是一個養(yǎng)蝦人
有態(tài)度網(wǎng)友ytd
4254文章數(shù) 40關(guān)注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

特朗普生日白宮辦格斗賽 近距離觀賽花超100萬美元

頭條要聞

特朗普生日白宮辦格斗賽 近距離觀賽花超100萬美元

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

朱軍退休,正義雖遲但到,女方受懲

財經(jīng)要聞

醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

藝術(shù)
親子
數(shù)碼
游戲
公開課

藝術(shù)要聞

耗資約24億!新美術(shù)館正式開放,深圳人沸騰!

親子要聞

飛鶴聯(lián)手中標(biāo)院定義“鮮活”新標(biāo)準(zhǔn):奶粉“生日”從原料算起

數(shù)碼要聞

蘋果眼鏡最新爆料:多款式設(shè)計,內(nèi)部代號N50,延期2027年底發(fā)布

《巫師3》資料片“血與酒”發(fā)售十周年 紀(jì)念賀圖發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版