出品 | 網易智能
作者 | 小小
編輯 | 王鳳枝
6月27日凌晨,OpenAI發布了迄今為止最強的模型系列GPT-5.6,三款模型分別叫Sol、Terra和Luna。
其中,旗艦模型Sol在命令行、漏洞研究、生物分析等多個基準測試上刷新紀錄,效率比前代大幅提升,甚至只用三分之一的token輸出量就與Anthropic的Claude Mythos Preview打成平手。
![]()
有提前試用的知名博主說,這模型直接取代了他八成的工作任務,叫GPT-6也不過分。
但這么強的模型,普通人現在卻用不了。OpenAI只把它開放給了大約20個經過政府審查的合作方,全面發布被推遲到未來幾周。
OpenAI CEO山姆·奧特曼(Sam Altman)在社交媒體上無奈地表示:模型很強,但我們也沒辦法,這是美國政府的要求。
![]()
OpenAI官方博客說得更直白,他們認為這種政府接入流程不應成為長期默認做法,它讓最好工具到不了需要的用戶手里,但眼下采取這個短期步驟,是相信這能讓模型最快到達更多人手中。
這種分階段的做法,既回應了特朗普總統6月2日簽署的行政命令中關于模型安全評估的要求,也避免了像Anthropic那樣在發布后被政府強制叫停的尷尬。
同一天下午,另一家明星公司Anthropic等來了初步解禁令。
美國政府解除了對Claude Mythos 5長達兩周的出口管制,允許其向超過100家美國機構發布。商務部長霍華德·拉特尼克(Howard Lutnick)在給Anthropic的正式信函中寫道,已確定采取了適當的保障措施。
但Mythos的姊妹模型Fable 5仍被關著,解禁時間表不明。
![]()
這兩件事放在一起,信號再清楚不過:美國政府正在把前沿AI模型的發布權牢牢攥在自己手里,誰能第一時間拿到最強模型,誰得排隊等著,是華盛頓說了算,不是硅谷。
換句話說,OpenAI這次走的是另一條更穩妥的路線,在全面開放前主動向政府預覽發布計劃和模型能力,并按要求啟動有限預覽。這不是看到Anthropic被罰之后的臨時反應,而是提前布局。
可以說,GPT-5.6這次發布,在產品能力和發布節奏上都踩在了監管的節拍上。
01 Sol有多強? 只用對手三分之一的力氣就掰了手腕
這次GPT-5.6系列一共分為三款模型,包括Sol(太陽)、Terra(大地)和Luna(月亮)。
命名方式徹底換了,不再用過去那種nano、mini的后綴,而是用持久的能力層級來區分。Sol是旗艦,Terra是平衡款,Luna主打快速和便宜。
OpenAI解釋稱,這給開發者和用戶提供了一個關于智能、速度和成本的更清晰選擇。
據VentureBeat援引了解OpenAI內部運作的人士透露,新名字也有從宇宙和自然元素里尋找靈感的考慮,而且Sol剛好跟公司一項叫Daybreak的網絡防御計劃很搭。
Sol到底強在哪?
最直觀的進步體現在效率上。OpenAI官方公布的數據顯示:在ExploitBench基準測試上,GPT-5.6 Sol只用大約三分之一的輸出token,就跟Anthropic的Claude Mythos Preview打成了平手。
![]()
美國知名AI博主@swyx在試用之后說,這是一句信息量巨大的描述。他解釋,這說明OpenAI的后訓練團隊大幅推進了推理的帕累托前沿,而這是目前企業級智能體模型競爭里最重要的一項優勢,團隊沒有透露具體怎么做到的,完全可以理解。
在衡量命令行自動化能力的TerminalBench 2.1上,Sol開了“超極模式”之后拿到了91.91%的分數,刷新了行業記錄。不開超極模式也有88.76%,超過了GPT-5.5的83.4%和Claude Mythos 5的88%。中端的Terra拿了82.5%,接近前代旗艦模型水平。
![]()
在另一個評估專業工作流的Agent's Last Exam里,Sol是唯一一個在代碼模式下完成超過一半任務的模型,得分50.9%。連最便宜的Luna,在這個測試里也勉強超過了GPT-5.5。
@swyx還分享了他的實際體驗。
![]()
他說自己已經測試5.6一段時間了,這不是一個所謂的網絡版模型,而是新的頂尖工作模型,直接取代了他80%任務里的Claude Opus。他甚至覺得,這次改進幅度遠超從5.4到5.5的跳躍,而5.5本身就是自4o和o1以來OpenAI最成功的發布,團隊在這個版本上全力以赴了,直接叫GPT-6也不過分。
02不只是會寫代碼 生物和基因分析也更強了
OpenAI新模型的能力不局限在編程和網絡安全上。
在評估基因組學和定量生物學分析的GeneBench v1上,Sol和Terra都比GPT-5.5的準確率更高,而且Sol用的輸出token更少,效率提升很明顯。
![]()
OpenAI在博客里說,GPT-5.6 Sol是他們迄今為止在網絡安防方面最有能力的模型,改變了長期安全任務中性能和效率的邊界。
不過有意思的是,能力越強,安全上的自我約束也越多。
Sol在針對Chromium和Firefox代碼庫的測試里,能夠識別出漏洞和利用原語,但在測試條件下還無法自己拼出一套功能完整的全鏈利用程序。OpenAI強調,這個模型更擅長幫助防御者發現和修復漏洞,而不是可靠地執行端到端攻擊。定位很清楚,就是給做安全研究的人當高效助手。
03安全審查拖慢發布 首批只給20家
這次發布最讓人意外的是發售方式。
按照OpenAI原本的計劃,GPT-5.6應該直接開放訪問。但特朗普總統6月2日簽署的行政命令要求聯邦機構制定新的AI模型能力基準和評估流程,截止日期是7月2日,整個框架還在搭。
于是美國政府要求OpenAI先別全面鋪開,只向一小批可信賴合作伙伴開放有限預覽。
OpenAI照做了。他們在博客里說,已經在發布前向政府預覽了計劃和模型能力,應政府要求先向合作方開放,這些合作方的詳細信息也共享給了政府。合作方大約20個,具體名單沒有公布。全面公開發布被推到未來幾周,具體時間要看跟政府的溝通進展。
奧特曼在社交媒體上發帖解釋了這種情況。他說好消息是Sol聰明、高效,是個重要的進步,價格跟GPT-5.5一樣。壞消息是應美國政府要求,今天只能以有限預覽形式推出,不是原本計劃的開放訪問。
奧特曼認為,以這種方式推出模型是合理的,符合公司長期堅持的迭代部署策略,但這并不是他認為最優化的流程。他還說了一句意味深長的話:我相信政府與我們分享大部分目標,而且他們在這樣一個非常困難的局面中總體上做得很好。
OpenAI官方博客的措辭則沒有那么客氣。他們明確寫道,我們認為這種政府接入流程不應成為長期的默認做法,它使最佳工具無法觸及其需要的用戶、開發者、企業、網絡防御者和全球合作伙伴。但緊接著又說,采取這一短期步驟,是因為我們相信這是在未來幾周內實現更廣泛可用性的最有力途徑。
在安全方面,OpenAI這次花了大力氣。
官方透露,他們投入了超過70萬個A100等效GPU小時,專門對GPT-5.6進行自動化紅隊測試。目標不是找出單個提示的變通方法,而是找出通用越獄方法,也就是能在不同上下文里反復起作用的系統性攻擊向量。
防護體系分了好幾層。模型本身被訓練去拒絕提供被禁止的網絡幫助,包括有人試圖掩飾意圖或者越獄。還有實時的濫用篩查分類器,獨立監控網絡和生物方面的輸出內容。
對于Sol和Terra這兩個能力更強的版本,OpenAI還加了一層在推理過程中監控內部信號的激活分類器。一旦檢測到風險模式,輸出流可以暫停,由另一個更大的推理系統審查內容和上下文,判定違規的話答案在到達用戶之前就會被攔下來。
但這套嚴密的防護也有副作用。
OpenAI在系統卡里承認,因為合法的防御性工作跟攻擊行為在代碼原語上常常一樣,分類器可能定期出現誤報。
數據顯示,監控棧在生物安全評估上的整體召回率是94.8%,網絡安全上是81.6%,說明它不是滴水不漏,既可能漏掉風險,也可能攔住合法工作。
被持續標記的活動還可能觸發跨歷史對話的賬戶級自動審查。OpenAI表示正在跟企業客戶談長期的安全合規控制方案,包括客戶自己操作的安全覆蓋和能保護企業數據不被人工審查看到的隱私檢測機制。
04 AI圈炸了 政府在挑選贏家嗎?
OpenAI模型的新發布方式很快引發了爭論。
獨立研究員約書亞·克拉托奇維爾(Joshua Kratochvil)公開表達了擔憂。他認為將訪問權限對公眾設限、只授予企業和機構,開了一個危險的先例,這會延續社會目前已經在滋生的很多問題,聽起來像賽博朋克式的反烏托邦,政府和企業掌控一切。
![]()
他進一步批評說,這限制了小企業的機會,阻礙初創公司獲取最佳工具,現有巨頭從中獲益最大,而有潛力的初創公司卻被懲罰。他提議,以后或許可以設計一個表單,也允許小企業、美國公民和小型實驗室申請訪問權限。
X平臺用戶KevinOffScript說得更直接。他評論說,這實際上是政府在決定誰能獲得最寶貴的資源,他不希望政府來挑選和決定贏家。他認為AI公司應該實施自己的“Know Your Customer”政策,只限美國公司,除此之外,政府別擋道。
![]()
但也有人持相對平衡的看法。AI博主swyx也覺得,為擴展紅隊測試設置一個強制預覽期本身并不是個壞主意,真正讓人不舒服的只是政府來挑選客戶這個環節。
ID為HaiyuWu1的X用戶則提出了另一種質疑。他說奇怪的是OpenAI有這么多方面可以宣傳他們的新模型,卻選擇突出一個基準測試結果和一些花哨的名字,實用性距離在單一基準測試上表現良好還差得遠。
![]()
05三款怎么選? 價格差五倍,定位各不同
三款模型的定價差異很清晰。
Sol每百萬輸入token 5美元,輸出30美元,跟GPT-5.5持平。Terra是Sol的一半,每百萬輸入token 2.5美元,輸出15美元。Luna最便宜,輸入1美元,輸出6美元。從Sol到Luna,輸出價格差了五倍。
OpenAI說,Terra的性能跟GPT-5.5相當,但成本只有一半。Luna定位最快最低成本,在多項測試中表現接近GPT-5.5的水平。換句話說,不追求最頂級能力的話,便宜的選擇已經夠用了。
![]()
在成本控制上,OpenAI還有個新動作。
GPT-5.6 API引入了更可預測的提示緩存機制。開發者可以設置顯式緩存斷點,系統保證至少30分鐘的最小緩存生命周期。首次緩存寫入時費用是標準未緩存輸入費率的1.25倍,之后再讀取就能享受90%的折扣。
對于反復把大量上下文或代碼庫傳回模型的系統,這提供了一個財務上的護欄。
速度方面,OpenAI計劃今年7月在Cerebras硬件上推出GPT-5.6 Sol,聲稱處理速度達到每秒750個token,面向那些對延遲敏感又需要前沿推理能力的專業企業應用。
結語,接下來會發生什么?
GPT-5.6發布當天,Anthropic也等來了一份政府信函。
商務部長拉特尼克正式通知Anthropic,解除對Mythos 5長達兩周的出口管制,但Fable 5仍在禁閉中。
至此,美國政府的新角色徹底明朗了。商務部發言人本諾·卡斯(Benno Kass)表示,在短短兩周內政府勤奮工作,確保美國在保障安全的同時保持全球AI領導者地位。拉特尼克在信中則說得更直白,他稱這標志著一個新監管制度的開端,政府從此掌握了前沿AI模型發布的控制權。
行業里對此早有微詞。許多AI分析師批評白宮正在選擇贏家和輸家,并且讓過去跟Anthropic的爭執影響了決策。另一邊,OpenAI和政府在對Anthropic下禁令之前,就一直在討論GPT-5.6的發布,奧特曼和拉特尼克在周三還專門碰過頭。
商務部下面有個叫AI標準與創新中心的部門,簡稱CAISI,一直在審查GPT-5.6。知情人士說,最近的行政命令讓網絡安全和國安官員在模型評估中發揮了更大作用,這讓一直推動CAISI保持重要存在的公司感到擔憂,OpenAI就是其中之一。
GPT-5.6全面公開發布的時間還沒定,OpenAI的說法是未來幾周。奧特曼發帖說,現在他們要和政府合作,嘗試建立一個透明、可靠的早期訪問流程,確保只要安全措施按預期運作就能廣泛發布。他希望成為可靠、可信賴的合作伙伴,同時堅守造福全人類的使命。
對普通用戶來說,GPT-5.6還用不了。對開發者和小企業來說,能不能拿到訪問權限、什么時候拿到,都是未知數。而對整個行業來說,這次發布的意義可能超出了模型本身。
這一切指向同一個事實:最先進的AI模型發布,已經從硅谷的董事會會議室搬到了華盛頓的談判桌上,而且短期內看不到回頭的跡象。
