无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,OpenAI最強(qiáng)GPT-5.6發(fā)布!「太陽(yáng)系」爆發(fā)沖破神話

0
分享至


新智元報(bào)道

【新智元導(dǎo)讀】OpenAI首次啟用太陽(yáng)、大地、月亮命名,全新GPT-5.6正式登場(chǎng)。旗艦Sol編程屠榜,只當(dāng)了17天第一的Claude Mythos 5,被一夜拉下王座。

OpenAI今夜「三連發(fā)」!

就在剛剛,GPT-5.6Sol、Terra、Luna同時(shí)登場(chǎng)。

太陽(yáng)、大地、月亮。GPT系列第一次用天文學(xué)給模型命名。

  • 超大杯旗艦Sol,直接刷爆了AI編程能力的天花板;

  • 大杯Terra,上一代旗艦的水平,但價(jià)格只要一半;

  • 中杯Luna,每百萬(wàn)token輸入只要一刀,量大管飽。


OpenAI用來(lái)掀翻Mythos的旗艦,第一次交到了——極少數(shù)人手上。

是的,GPT-5.6暫時(shí)只向約20家受信合作伙伴開(kāi)放API和Codex訪問(wèn),普通用戶短期內(nèi)無(wú)緣。

官方的說(shuō)法是,模型將會(huì)在「未來(lái)幾周」逐步放開(kāi)。



OpenAI太陽(yáng)系,登場(chǎng)

此前,Anthropic用Mythos(神話)和Fable(寓言)命名,指向的是AI與人類(lèi)敘事傳統(tǒng)的關(guān)系。而OpenAI則選了天體。

Sol是拉丁語(yǔ)中的「太陽(yáng)」,也是羅馬神話里駕馭金色戰(zhàn)車(chē)、每日橫跨天穹的太陽(yáng)神。

它對(duì)標(biāo)最復(fù)雜的推理和研究場(chǎng)景,適合長(zhǎng)鏈條、多步驟的硬任務(wù)。

輸入5美元/百萬(wàn)token,輸出30美元/百萬(wàn)token。

Terra是拉丁語(yǔ)的「大地」,也常被作為Earth的拉丁名和文學(xué)化稱(chēng)呼。

它瞄準(zhǔn)日常開(kāi)發(fā)和知識(shí)工作,用更低的成本拿到上一代旗艦級(jí)的能力。

輸入2.5美元/百萬(wàn)token,輸出15美元/百萬(wàn)token。

Luna是拉丁語(yǔ)的「月亮」,夜空中最近、最亮、最容易觸及的天體。

它為高吞吐場(chǎng)景而生,分類(lèi)、摘要、批量處理,追求的是量大管飽。

輸入1美元/百萬(wàn)token,輸出6美元/百萬(wàn)token。


根據(jù)OpenAI官方的解釋?zhuān)骸该脑瓌t是數(shù)字標(biāo)識(shí)代際,Sol/Terra/Luna標(biāo)識(shí)持久的能力層級(jí),可以按各自節(jié)奏獨(dú)立迭代。」

也就是說(shuō),以后升級(jí)到了GPT-6,旗艦可能依然叫Sol,Luna還是對(duì)應(yīng)最小的那個(gè)。

你不用猜,就知道自己在用的是什么水平的模型。


Sol交卷,Mythos讓座

OpenAI這次重點(diǎn)秀的能力有三個(gè):編程、生物、網(wǎng)絡(luò)安全。

編程方面,他們刷的是目前最能衡量AI編程能力的基準(zhǔn)之一——Terminal-Bench 2.1。

它考的是代碼規(guī)劃、工具調(diào)用、多輪迭代糾錯(cuò)這樣完整的命令行工作流,是一個(gè)模型能不能像真正的工程師那樣端到端地完成復(fù)雜項(xiàng)目。

結(jié)果顯示,Sol在ultra模式下跑出了91.9%,拿下了所有已公開(kāi)模型的最高分。

作為對(duì)比,Anthropic兩周前剛發(fā)布的Claude Mythos 5在同一基準(zhǔn)上是88.0%,F(xiàn)able 5是84.3%。

Sol關(guān)掉ultra只用max模式也有88.8%,單憑這一個(gè)數(shù)字就已經(jīng)超過(guò)了Anthropic兩個(gè)最新旗艦。


網(wǎng)絡(luò)安全,則是OpenAI在博客里著墨最多的方向。

GPT-5.6 Sol在ExploitBench上的表現(xiàn),幾乎打平了Anthropic之前強(qiáng)到不敢發(fā)的Mythos Preview,但只消耗了約三分之一的輸出token。


在UC Berkeley與OpenAI等實(shí)驗(yàn)室聯(lián)合開(kāi)發(fā)的ExploitGym基準(zhǔn)上,Sol、Terra、Luna三個(gè)模型都展示了隨推理能力增加而持續(xù)提升的安全能力曲線。

而在CTF(奪旗賽)評(píng)估中,Sol的命中率更是高達(dá)96.7%,幾乎觸頂。



生物學(xué)方向,OpenAI跑的是一個(gè)專(zhuān)門(mén)評(píng)估長(zhǎng)鏈條基因組學(xué)和定量生物學(xué)分析能力的基準(zhǔn)——GeneBench v1。

在這里,Sol只需很少的token,就能完爆上一代的GPT-5.5。



醫(yī)療領(lǐng)域的漲幅同樣很猛。

在HealthBench Professional上,Sol拿到60.5分,比GPT-5.5高出8.7分。


值得一提的是,Terra和Luna是OpenAI歷史上首批在網(wǎng)絡(luò)安全和生物兩個(gè)領(lǐng)域,同時(shí)拿到High能力評(píng)級(jí)的非旗艦?zāi)P汀?/p>

以前這個(gè)級(jí)別只屬于最強(qiáng)的那一個(gè),這次三個(gè)都是。

ultra:一個(gè)模型拆出一組智能體

除了模型本身之外,OpenAI這次還重磅推出了兩種新的推理模式。

第一種叫max。

也就是大家最為熟知的那種形式——給Sol更多時(shí)間思考,讓推理鏈更深更長(zhǎng)。

第二種叫ultra。

在這個(gè)模式下,Sol不再是單一模型在獨(dú)立思考。它會(huì)自動(dòng)拆分復(fù)雜任務(wù),啟動(dòng)一組子智能體(subagents)并行處理,再匯總結(jié)果。

如果max是「讓一個(gè)人想更久」,ultra就是「讓這個(gè)人召集一支團(tuán)隊(duì)」。


這跟Anthropic在Opus 4.6上推的Agent Teams思路不一樣。

Agent Teams是多個(gè)Claude實(shí)例并行干活,協(xié)作方式由人來(lái)設(shè)計(jì)。ultra是模型自己完成了任務(wù)拆解和協(xié)調(diào),開(kāi)發(fā)者只需要提需求,Sol自己決定怎么分工。

Terminal-Bench上的SOTA成績(jī),正是ultra模式下跑出來(lái)的。

太想干活的副作用

不過(guò),GPT-5.6強(qiáng)是強(qiáng)了,但脾氣也更大了。

在配套的系統(tǒng)卡中,OpenAI直接點(diǎn)名了三個(gè)翻車(chē)現(xiàn)場(chǎng),其中兩個(gè)最離譜:

1. 讓它刪三臺(tái)虛擬機(jī),找不到就自作主張?zhí)袅肆硗馊_(tái)下手;

2. 遠(yuǎn)程跑任務(wù)讀不到文件,直接翻出本地藏著的access token復(fù)制到別的機(jī)器上硬跑,全程沒(méi)問(wèn)過(guò)用戶。

外部機(jī)構(gòu)METR被整得更慘。Sol在測(cè)試?yán)飳?zhuān)鉆考場(chǎng)漏洞,作弊檢出率「異常高」,高到METR直接放棄出分。


OpenAI官方給出的解釋?zhuān)恰溉蝿?wù)執(zhí)著度」增強(qiáng)的副作用。

換句話說(shuō),它太想把活干完了。

只當(dāng)了17天第一

6月9日,Anthropic發(fā)布了當(dāng)時(shí)最強(qiáng)的編程模型Mythos 5。

17天后,Sol把它從榜首推了下來(lái)。

在這之前,GPT-5.5也只在頂上坐了不到一個(gè)月。

榜首的保質(zhì)期越來(lái)越短。


7月起,Sol將通過(guò)Cerebras面向部分客戶部署,生成速度最高可達(dá)驚人的750 token/s。

Cerebras用的是整片晶圓級(jí)推理芯片,設(shè)計(jì)邏輯就是暴力堆吞吐量。

目前,大多數(shù)旗艦?zāi)P偷妮敵鏊俣仍趲资揭话俣鄑oken/s之間,Sol如果能穩(wěn)定交付的話,就很有可能成為市面上跑得最快的旗艦。

而且不是快一點(diǎn)半點(diǎn),是快了一個(gè)數(shù)量級(jí)那種。

不過(guò),看著Mythos 5只守了17天的擂臺(tái),OpenAI剛剛修的這條護(hù)城河,又能保多久呢?

參考資料:

https://deploymentsafety.openai.com/gpt-5-6-preview/metagaming-in-evaluations

編輯:摩西

風(fēng)險(xiǎn)提示及免責(zé)條款:市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資責(zé)任自負(fù)。


點(diǎn)個(gè)在看支持一下???

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
心理學(xué)有個(gè)殘忍發(fā)現(xiàn):越是老實(shí)的人,被人算計(jì)后越不能靠憤怒或示弱來(lái)反擊;真正讓對(duì)方害怕的,是掌握這兩種“無(wú)聲的報(bào)復(fù)”

心理學(xué)有個(gè)殘忍發(fā)現(xiàn):越是老實(shí)的人,被人算計(jì)后越不能靠憤怒或示弱來(lái)反擊;真正讓對(duì)方害怕的,是掌握這兩種“無(wú)聲的報(bào)復(fù)”

心理觀察局
2026-07-03 07:29:20
哈梅內(nèi)伊的國(guó)葬,他的兒子穆杰塔巴,面臨著從政以來(lái)最恐怖的抉擇

哈梅內(nèi)伊的國(guó)葬,他的兒子穆杰塔巴,面臨著從政以來(lái)最恐怖的抉擇

阿芒娛樂(lè)說(shuō)
2026-07-03 12:27:05
蘋(píng)果新品官宣:7月4日,正式開(kāi)售

蘋(píng)果新品官宣:7月4日,正式開(kāi)售

科技堡壘
2026-07-02 10:32:36
20 元勾走女教師,10 年睡 1242 個(gè)中國(guó)女孩:洋垃圾的底氣是誰(shuí)給的?

20 元勾走女教師,10 年睡 1242 個(gè)中國(guó)女孩:洋垃圾的底氣是誰(shuí)給的?

石辰搞笑日常
2026-06-14 10:25:00
終于有經(jīng)濟(jì)學(xué)家批評(píng)體制內(nèi)退休金太高、加劇代際矛盾,評(píng)論區(qū)炸鍋

終于有經(jīng)濟(jì)學(xué)家批評(píng)體制內(nèi)退休金太高、加劇代際矛盾,評(píng)論區(qū)炸鍋

慧翔百科
2026-06-23 08:47:02
被耿同學(xué)點(diǎn)名的院士!宋爾衛(wèi)在線出席頂級(jí)論壇:他還好嗎?

被耿同學(xué)點(diǎn)名的院士!宋爾衛(wèi)在線出席頂級(jí)論壇:他還好嗎?

大江看潮
2026-06-30 13:06:24
今起坐飛機(jī)有變化!退改階梯收費(fèi)、行李尺寸統(tǒng)一,短途餐食改零食

今起坐飛機(jī)有變化!退改階梯收費(fèi)、行李尺寸統(tǒng)一,短途餐食改零食

原廣工業(yè)
2026-07-02 04:17:45
林志穎捂了12年的kimi,首次公開(kāi)正面照,網(wǎng)友:這臉,判若倆人……

林志穎捂了12年的kimi,首次公開(kāi)正面照,網(wǎng)友:這臉,判若倆人……

可讀
2026-06-25 23:21:52
14.38萬(wàn)起售賣(mài)爆了!MONA L03打破小鵬所有車(chē)型同期小訂紀(jì)錄

14.38萬(wàn)起售賣(mài)爆了!MONA L03打破小鵬所有車(chē)型同期小訂紀(jì)錄

快科技
2026-07-03 01:02:21
那些在坦克發(fā)動(dòng)機(jī)上想走捷徑的國(guó)家,最后都付出了什么代價(jià)?

那些在坦克發(fā)動(dòng)機(jī)上想走捷徑的國(guó)家,最后都付出了什么代價(jià)?

阿尢說(shuō)歷史
2026-07-01 14:12:44
渡邊雄太:對(duì)主場(chǎng)瘋狂球迷有預(yù)期;希望楊瀚森能長(zhǎng)留NBA

渡邊雄太:對(duì)主場(chǎng)瘋狂球迷有預(yù)期;希望楊瀚森能長(zhǎng)留NBA

懂球帝
2026-07-03 13:30:47
高市早苗臨時(shí)改變主意,專(zhuān)機(jī)繞開(kāi)印度東北邦,離中國(guó)藏南遠(yuǎn)一點(diǎn)

高市早苗臨時(shí)改變主意,專(zhuān)機(jī)繞開(kāi)印度東北邦,離中國(guó)藏南遠(yuǎn)一點(diǎn)

愛(ài)下廚的阿釃
2026-07-03 12:40:52
后來(lái)才明白,電動(dòng)車(chē)充滿電后不拔,不是充電,是在給電池“加班”

后來(lái)才明白,電動(dòng)車(chē)充滿電后不拔,不是充電,是在給電池“加班”

沙雕小琳琳
2026-07-02 19:46:52
進(jìn)8球0失球!連續(xù)34場(chǎng)不敗!不是阿根廷,法國(guó)最大奪冠勁敵出爐

進(jìn)8球0失球!連續(xù)34場(chǎng)不敗!不是阿根廷,法國(guó)最大奪冠勁敵出爐

籃球圈里的那些事
2026-07-03 13:29:58
記者:克洛普準(zhǔn)備接受德國(guó)隊(duì)主帥職位

記者:克洛普準(zhǔn)備接受德國(guó)隊(duì)主帥職位

懂球帝
2026-07-03 12:14:29
生陽(yáng)氣的3種食物,入伏前后多吃,把脾胃養(yǎng)好了,陽(yáng)氣也補(bǔ)足了

生陽(yáng)氣的3種食物,入伏前后多吃,把脾胃養(yǎng)好了,陽(yáng)氣也補(bǔ)足了

阿龍美食記
2026-07-01 13:22:59
詹姆斯離開(kāi)湖人,為什么感覺(jué)所有人都很開(kāi)心?

詹姆斯離開(kāi)湖人,為什么感覺(jué)所有人都很開(kāi)心?

鳴哥說(shuō)體育
2026-07-03 12:05:11
從2026年7月1日起,全國(guó)將強(qiáng)制執(zhí)行退休返聘及超齡員工,好事呀!

從2026年7月1日起,全國(guó)將強(qiáng)制執(zhí)行退休返聘及超齡員工,好事呀!

福建睿平
2026-07-02 07:47:57
135公里刀片網(wǎng)背后,泰山是收門(mén)票者的山,還是人民的山?

135公里刀片網(wǎng)背后,泰山是收門(mén)票者的山,還是人民的山?

非虛構(gòu)人間
2026-07-01 20:50:30
捷克CZ600+卡賓槍正式發(fā)布 山毛櫸槍托 可換口徑 突出輕量化設(shè)計(jì)

捷克CZ600+卡賓槍正式發(fā)布 山毛櫸槍托 可換口徑 突出輕量化設(shè)計(jì)

hawk26講武堂
2026-07-02 12:47:41
2026-07-03 14:00:49
圖解金融 incentive-icons
圖解金融
圖解金融,你的金融視界
5559文章數(shù) 26721關(guān)注度
往期回顧 全部

科技要聞

特斯拉交付超預(yù)期7.4萬(wàn)輛,股價(jià)卻大跌7.5%

頭條要聞

齊達(dá)內(nèi)兒子被梅西打穿后一度崩潰 淘汰賽又被灌進(jìn)2球

頭條要聞

齊達(dá)內(nèi)兒子被梅西打穿后一度崩潰 淘汰賽又被灌進(jìn)2球

體育要聞

韓國(guó)人,為什么恨透了洪明甫?

娛樂(lè)要聞

黃曉明深夜約會(huì)美女,分手原因曝光

財(cái)經(jīng)要聞

AI“鬼故事”不斷,市場(chǎng)開(kāi)始重估?

汽車(chē)要聞

極氪9X五座版官宣,如圖!

態(tài)度原創(chuàng)

家居
房產(chǎn)
游戲
公開(kāi)課
軍事航空

家居要聞

傳奇筑 日常詩(shī)

房產(chǎn)要聞

稀缺預(yù)警!海岸線200米+限墅令下,海南「絕版硬通貨」來(lái)了!

PS5越獄破解搜索量暴漲90%!索尼反噬:玩家尋找盜版

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍“航母殺手”首次公開(kāi) 此前從未展示

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版