網易首頁 > 網易科技 > 網易科技 > 正文

GPT-5.6凌晨炸場，強到能取代八成工作，但普通人用不了！Claude Mythos 5也放行了

2026-06-27 11:36:59　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 小小

編輯 | 王鳳枝

6月27日凌晨，OpenAI發布了迄今為止最強的模型系列GPT-5.6，三款模型分別叫Sol、Terra和Luna。

其中，旗艦模型Sol在命令行、漏洞研究、生物分析等多個基準測試上刷新紀錄，效率比前代大幅提升，甚至只用三分之一的token輸出量就與Anthropic的Claude Mythos Preview打成平手。

有提前試用的知名博主說，這模型直接取代了他八成的工作任務，叫GPT-6也不過分。

但這么強的模型，普通人現在卻用不了。OpenAI只把它開放給了大約20個經過政府審查的合作方，全面發布被推遲到未來幾周。

OpenAI CEO山姆·奧特曼（Sam Altman）在社交媒體上無奈地表示：模型很強，但我們也沒辦法，這是美國政府的要求。

OpenAI官方博客說得更直白，他們認為這種政府接入流程不應成為長期默認做法，它讓最好工具到不了需要的用戶手里，但眼下采取這個短期步驟，是相信這能讓模型最快到達更多人手中。

這種分階段的做法，既回應了特朗普總統6月2日簽署的行政命令中關于模型安全評估的要求，也避免了像Anthropic那樣在發布后被政府強制叫停的尷尬。

同一天下午，另一家明星公司Anthropic等來了初步解禁令。

美國政府解除了對Claude Mythos 5長達兩周的出口管制，允許其向超過100家美國機構發布。商務部長霍華德·拉特尼克（Howard Lutnick）在給Anthropic的正式信函中寫道，已確定采取了適當的保障措施。

但Mythos的姊妹模型Fable 5仍被關著，解禁時間表不明。

這兩件事放在一起，信號再清楚不過：美國政府正在把前沿AI模型的發布權牢牢攥在自己手里，誰能第一時間拿到最強模型，誰得排隊等著，是華盛頓說了算，不是硅谷。

換句話說，OpenAI這次走的是另一條更穩妥的路線，在全面開放前主動向政府預覽發布計劃和模型能力，并按要求啟動有限預覽。這不是看到Anthropic被罰之后的臨時反應，而是提前布局。

可以說，GPT-5.6這次發布，在產品能力和發布節奏上都踩在了監管的節拍上。

01 Sol有多強？只用對手三分之一的力氣就掰了手腕

這次GPT-5.6系列一共分為三款模型，包括Sol（太陽）、Terra（大地）和Luna（月亮）。

命名方式徹底換了，不再用過去那種nano、mini的后綴，而是用持久的能力層級來區分。Sol是旗艦，Terra是平衡款，Luna主打快速和便宜。

OpenAI解釋稱，這給開發者和用戶提供了一個關于智能、速度和成本的更清晰選擇。

據VentureBeat援引了解OpenAI內部運作的人士透露，新名字也有從宇宙和自然元素里尋找靈感的考慮，而且Sol剛好跟公司一項叫Daybreak的網絡防御計劃很搭。

Sol到底強在哪？

最直觀的進步體現在效率上。OpenAI官方公布的數據顯示：在ExploitBench基準測試上，GPT-5.6 Sol只用大約三分之一的輸出token，就跟Anthropic的Claude Mythos Preview打成了平手。

美國知名AI博主@swyx在試用之后說，這是一句信息量巨大的描述。他解釋，這說明OpenAI的后訓練團隊大幅推進了推理的帕累托前沿，而這是目前企業級智能體模型競爭里最重要的一項優勢，團隊沒有透露具體怎么做到的，完全可以理解。

在衡量命令行自動化能力的TerminalBench 2.1上，Sol開了“超極模式”之后拿到了91.91%的分數，刷新了行業記錄。不開超極模式也有88.76%，超過了GPT-5.5的83.4%和Claude Mythos 5的88%。中端的Terra拿了82.5%，接近前代旗艦模型水平。

在另一個評估專業工作流的Agent's Last Exam里，Sol是唯一一個在代碼模式下完成超過一半任務的模型，得分50.9%。連最便宜的Luna，在這個測試里也勉強超過了GPT-5.5。

@swyx還分享了他的實際體驗。

他說自己已經測試5.6一段時間了，這不是一個所謂的網絡版模型，而是新的頂尖工作模型，直接取代了他80%任務里的Claude Opus。他甚至覺得，這次改進幅度遠超從5.4到5.5的跳躍，而5.5本身就是自4o和o1以來OpenAI最成功的發布，團隊在這個版本上全力以赴了，直接叫GPT-6也不過分。

02不只是會寫代碼生物和基因分析也更強了

OpenAI新模型的能力不局限在編程和網絡安全上。

在評估基因組學和定量生物學分析的GeneBench v1上，Sol和Terra都比GPT-5.5的準確率更高，而且Sol用的輸出token更少，效率提升很明顯。

OpenAI在博客里說，GPT-5.6 Sol是他們迄今為止在網絡安防方面最有能力的模型，改變了長期安全任務中性能和效率的邊界。

不過有意思的是，能力越強，安全上的自我約束也越多。

Sol在針對Chromium和Firefox代碼庫的測試里，能夠識別出漏洞和利用原語，但在測試條件下還無法自己拼出一套功能完整的全鏈利用程序。OpenAI強調，這個模型更擅長幫助防御者發現和修復漏洞，而不是可靠地執行端到端攻擊。定位很清楚，就是給做安全研究的人當高效助手。

03安全審查拖慢發布首批只給20家

這次發布最讓人意外的是發售方式。

按照OpenAI原本的計劃，GPT-5.6應該直接開放訪問。但特朗普總統6月2日簽署的行政命令要求聯邦機構制定新的AI模型能力基準和評估流程，截止日期是7月2日，整個框架還在搭。

于是美國政府要求OpenAI先別全面鋪開，只向一小批可信賴合作伙伴開放有限預覽。

OpenAI照做了。他們在博客里說，已經在發布前向政府預覽了計劃和模型能力，應政府要求先向合作方開放，這些合作方的詳細信息也共享給了政府。合作方大約20個，具體名單沒有公布。全面公開發布被推到未來幾周，具體時間要看跟政府的溝通進展。

奧特曼在社交媒體上發帖解釋了這種情況。他說好消息是Sol聰明、高效，是個重要的進步，價格跟GPT-5.5一樣。壞消息是應美國政府要求，今天只能以有限預覽形式推出，不是原本計劃的開放訪問。

奧特曼認為，以這種方式推出模型是合理的，符合公司長期堅持的迭代部署策略，但這并不是他認為最優化的流程。他還說了一句意味深長的話：我相信政府與我們分享大部分目標，而且他們在這樣一個非常困難的局面中總體上做得很好。

OpenAI官方博客的措辭則沒有那么客氣。他們明確寫道，我們認為這種政府接入流程不應成為長期的默認做法，它使最佳工具無法觸及其需要的用戶、開發者、企業、網絡防御者和全球合作伙伴。但緊接著又說，采取這一短期步驟，是因為我們相信這是在未來幾周內實現更廣泛可用性的最有力途徑。

在安全方面，OpenAI這次花了大力氣。

官方透露，他們投入了超過70萬個A100等效GPU小時，專門對GPT-5.6進行自動化紅隊測試。目標不是找出單個提示的變通方法，而是找出通用越獄方法，也就是能在不同上下文里反復起作用的系統性攻擊向量。

防護體系分了好幾層。模型本身被訓練去拒絕提供被禁止的網絡幫助，包括有人試圖掩飾意圖或者越獄。還有實時的濫用篩查分類器，獨立監控網絡和生物方面的輸出內容。

對于Sol和Terra這兩個能力更強的版本，OpenAI還加了一層在推理過程中監控內部信號的激活分類器。一旦檢測到風險模式，輸出流可以暫停，由另一個更大的推理系統審查內容和上下文，判定違規的話答案在到達用戶之前就會被攔下來。

但這套嚴密的防護也有副作用。

OpenAI在系統卡里承認，因為合法的防御性工作跟攻擊行為在代碼原語上常常一樣，分類器可能定期出現誤報。

數據顯示，監控棧在生物安全評估上的整體召回率是94.8%，網絡安全上是81.6%，說明它不是滴水不漏，既可能漏掉風險，也可能攔住合法工作。

被持續標記的活動還可能觸發跨歷史對話的賬戶級自動審查。OpenAI表示正在跟企業客戶談長期的安全合規控制方案，包括客戶自己操作的安全覆蓋和能保護企業數據不被人工審查看到的隱私檢測機制。

04 AI圈炸了政府在挑選贏家嗎？

OpenAI模型的新發布方式很快引發了爭論。

獨立研究員約書亞·克拉托奇維爾（Joshua Kratochvil）公開表達了擔憂。他認為將訪問權限對公眾設限、只授予企業和機構，開了一個危險的先例，這會延續社會目前已經在滋生的很多問題，聽起來像賽博朋克式的反烏托邦，政府和企業掌控一切。

他進一步批評說，這限制了小企業的機會，阻礙初創公司獲取最佳工具，現有巨頭從中獲益最大，而有潛力的初創公司卻被懲罰。他提議，以后或許可以設計一個表單，也允許小企業、美國公民和小型實驗室申請訪問權限。

X平臺用戶KevinOffScript說得更直接。他評論說，這實際上是政府在決定誰能獲得最寶貴的資源，他不希望政府來挑選和決定贏家。他認為AI公司應該實施自己的“Know Your Customer”政策，只限美國公司，除此之外，政府別擋道。

但也有人持相對平衡的看法。AI博主swyx也覺得，為擴展紅隊測試設置一個強制預覽期本身并不是個壞主意，真正讓人不舒服的只是政府來挑選客戶這個環節。

ID為HaiyuWu1的X用戶則提出了另一種質疑。他說奇怪的是OpenAI有這么多方面可以宣傳他們的新模型，卻選擇突出一個基準測試結果和一些花哨的名字，實用性距離在單一基準測試上表現良好還差得遠。

05三款怎么選？價格差五倍，定位各不同

三款模型的定價差異很清晰。

Sol每百萬輸入token 5美元，輸出30美元，跟GPT-5.5持平。Terra是Sol的一半，每百萬輸入token 2.5美元，輸出15美元。Luna最便宜，輸入1美元，輸出6美元。從Sol到Luna，輸出價格差了五倍。

OpenAI說，Terra的性能跟GPT-5.5相當，但成本只有一半。Luna定位最快最低成本，在多項測試中表現接近GPT-5.5的水平。換句話說，不追求最頂級能力的話，便宜的選擇已經夠用了。

在成本控制上，OpenAI還有個新動作。

GPT-5.6 API引入了更可預測的提示緩存機制。開發者可以設置顯式緩存斷點，系統保證至少30分鐘的最小緩存生命周期。首次緩存寫入時費用是標準未緩存輸入費率的1.25倍，之后再讀取就能享受90%的折扣。

對于反復把大量上下文或代碼庫傳回模型的系統，這提供了一個財務上的護欄。

速度方面，OpenAI計劃今年7月在Cerebras硬件上推出GPT-5.6 Sol，聲稱處理速度達到每秒750個token，面向那些對延遲敏感又需要前沿推理能力的專業企業應用。

結語，接下來會發生什么？

GPT-5.6發布當天，Anthropic也等來了一份政府信函。

商務部長拉特尼克正式通知Anthropic，解除對Mythos 5長達兩周的出口管制，但Fable 5仍在禁閉中。

至此，美國政府的新角色徹底明朗了。商務部發言人本諾·卡斯（Benno Kass）表示，在短短兩周內政府勤奮工作，確保美國在保障安全的同時保持全球AI領導者地位。拉特尼克在信中則說得更直白，他稱這標志著一個新監管制度的開端，政府從此掌握了前沿AI模型發布的控制權。

行業里對此早有微詞。許多AI分析師批評白宮正在選擇贏家和輸家，并且讓過去跟Anthropic的爭執影響了決策。另一邊，OpenAI和政府在對Anthropic下禁令之前，就一直在討論GPT-5.6的發布，奧特曼和拉特尼克在周三還專門碰過頭。

商務部下面有個叫AI標準與創新中心的部門，簡稱CAISI，一直在審查GPT-5.6。知情人士說，最近的行政命令讓網絡安全和國安官員在模型評估中發揮了更大作用，這讓一直推動CAISI保持重要存在的公司感到擔憂，OpenAI就是其中之一。

GPT-5.6全面公開發布的時間還沒定，OpenAI的說法是未來幾周。奧特曼發帖說，現在他們要和政府合作，嘗試建立一個透明、可靠的早期訪問流程，確保只要安全措施按預期運作就能廣泛發布。他希望成為可靠、可信賴的合作伙伴，同時堅守造福全人類的使命。

對普通用戶來說，GPT-5.6還用不了。對開發者和小企業來說，能不能拿到訪問權限、什么時候拿到，都是未知數。而對整個行業來說，這次發布的意義可能超出了模型本身。

這一切指向同一個事實：最先進的AI模型發布，已經從硅谷的董事會會議室搬到了華盛頓的談判桌上，而且短期內看不到回頭的跡象。

本文來源：網易智能責任編輯：王鳳枝_NT2541

相關推薦

熱點推薦

OpenAI曝作弊門！GPT-5.6創史上最高作弊率

新智元 2026-06-27 12:50:47
31 跟貼 31
中國“避暑神器”在歐洲賣爆了

第一財經資訊 2026-06-27 07:44:23
24205 跟貼 24205

剛剛，Claude 5局部解禁！

新智元 2026-06-27 16:14:26
22 跟貼 22

兄弟倆開貨車跑貨運，在高速上偶遇許久未見同為貨車司機的老爸。網友：希望天下所有的爸爸都平平安安！

環球網資訊 2026-06-27 14:04:20
143 跟貼 143
深度解讀網游政策緣由，為何不全面禁網游，看完就懂整篇要義！

男人吻女人是一種口福 2026-06-27 04:33:54
1 跟貼 1

蘋果又一高層出走：Vision Pro負責人轉投OpenAI 將組建硬件部門

財聯社 2026-06-27 19:37:20
1 跟貼 1

微軟年度AI職場報告：員工已經準備好了，公司還沒有

量子位 2026-06-27 12:49:55
2 跟貼 2
Claude Fable 5省錢秘訣來了：調成Low檔比Opus更便宜

量子位 2026-06-11 16:23:55
3 跟貼 3

實錘：Claude Opus 4.8「偷答案」！63%靠抄，AI斷網后成績雪崩

新智元 2026-06-26 18:49:50
86 跟貼 86
GPT-5.6：最強的模型，最窄的門

鈦媒體APP 2026-06-27 18:00:08
1 跟貼 1
花68元，我們讓豆包干完了一個小團隊的活

雷科技 2026-06-27 21:18:19
0 跟貼 0
Karpathy內部Claude.md泄露！親手終結提示詞時代

新智元 2026-06-27 16:12:15
1 跟貼 1
GPT新模型發布

新智元 2026-06-27 13:37:20
0 跟貼 0
演員王安宇發布登報聲明：本人王安宇，不慎遺失中國傳媒大學本科畢業證書和學位證書，現聲明作廢

都市快報橙柿互動 2026-06-27 16:07:41
774 跟貼 774
小姑娘上一次哭得眼眶通紅，下一場直接颯爽過樁。最后的回眸驚艷眾人！

學申論的談妹 2026-06-27 20:52:49
93 跟貼 93
盧卡申科“突然”飛抵俄羅斯

上觀新聞 2026-06-27 13:05:52
693 跟貼 693
麥肯錫預言：未來5年最值錢的5種人

固件更新中 2026-06-28 01:05:17
0 跟貼 0
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
瓜導憂AI重塑世界《Artificial》有望上映

自愈小日子 2026-06-28 00:39:15
0 跟貼 0
最新：河南省內外高校在豫招生預估分數線匯總

大象新聞 2026-06-27 11:02:16
201 跟貼 201
BrowserBC：克隆人類點擊，讓一次網頁操作轉化為所有Agent的能力

量子位 2026-06-27 20:34:19
8 跟貼 8
小組第三排名跌至第8位韓國隊已命懸一線

封面新聞 2026-06-27 13:54:11
2550 跟貼 2550
名記：倫納德已表明他不愿意與活塞簽下續約合同

北青網-北京青年報 2026-06-27 12:56:20
177 跟貼 177
全員限購！排名前十基金全都“閉門謝客”，釋放什么信號？

證券時報 2026-06-27 11:02:14
151 跟貼 151
山姆，又出事了！“蠕動的蟲子！”

今晚報 2026-06-27 17:03:00
788 跟貼 788
我國核聚變堆超導磁體研發取得重要突破

新京報 2026-06-27 10:12:23
2128 跟貼 2128
趕山街學知識！臨滄網絡舉報、網絡辟謠宣傳進鄉村

新浪財經 2026-06-27 03:47:11
0 跟貼 0
中國代表：絕不允許“新型軍國主義”成勢為患

新華社 2026-06-27 14:25:20
652 跟貼 652
“一天一個價”！有網友曬單：去年不到7千，今年1.2萬了

中國經濟網 2026-06-26 15:53:04
81 跟貼 81
成渝巴士正式開通運營：單程50元/人，每日7:00至18:00發班

封面新聞 2026-06-27 15:53:12
203 跟貼 203
中國反制裁工具箱將增添"新利器"

澎湃新聞 2026-06-27 16:21:28
62 跟貼 62
Siegel：湖人不會在自由球員市場上不惜一切代價留住詹姆斯

北青網-北京青年報 2026-06-27 12:56:07
299 跟貼 299
歐洲熱浪已致上百人死亡，為什么不開空調？

中國能源網 2026-06-25 10:05:41
1093 跟貼 1093
AI眼鏡仍處 “黑莓時代”：封閉生態VS開放體系誰能率先跑出行業“iPhone時刻”？

每日經濟新聞 2026-06-27 22:55:11
0 跟貼 0
中俄空軍在日本海等空域聯合巡航

新京報 2026-06-27 17:49:52
306 跟貼 306
CVPR 2026最熱方向，被一家杭州團隊率先跑進了端側！

量子位 2026-06-27 20:13:02
0 跟貼 0
【2026 CVPR】不用訓模型就能讓AI自動寫高級GPU代碼？

機器之心Pro 2026-06-05 20:12:13
0 跟貼 0
段永平坐不住了，曬圖直夸 “蠻可愛的”！新品發售遇冷，罕見“破發”，泡泡瑪特股價巨震

都市快報橙柿互動 2026-06-27 08:02:12
176 跟貼 176
比亞迪榮膺可持續發展國際大獎，閃充技術賦能馬可波羅新絲路

大象新聞 2026-06-27 19:18:03
64 跟貼 64
名導新片突遭下架！他怒揭背后真相：AI正在改變世界身份

影視情報室 2026-06-28 00:41:15
0 跟貼 0

網易新聞

iOS

Android

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

手機

旅游

本地

軍事航空

手機 / 數碼

房產 / 家居

GPT-5.6凌晨炸場，強到能取代八成工作，但普通人用不了！Claude Mythos 5也放行了

GPT-5.6發布，你暫時用不了！Mythos也放行

美以黎框架協議被指"簽了個寂寞" 以高官：重大錯誤

美以黎框架協議被指"簽了個寂寞" 以高官：重大錯誤

世界杯最火門將，站到了阿根廷和梅西面前

四提白玉蘭終封后，楊紫：仍覺不真實

OpenAI推遲IPO重創軟銀！

搭載華為乾崑ADS 5 全新猛士M817上市售29.99萬起

態度原創

伊姐周六熱推：電視劇《昨夜將至》；電影《蝴蝶樓·驚魂》......

iPhone 18或配備罕見的9GB內存，蘋果刀法依舊！

不止是花海！昆明人的青春記憶，都藏在這座老牌5A景區里

世界杯球迷節：比球賽更好玩的派對

黎以美達成三方框架協議