GPT-5.6來了,但……這是個什么型號?
![]()
這次OpenAI沒有沿用過去大家熟悉的Pro、Mini、Instant這類命名,而是一次性端出了三個名字:GPT-5.6 Sol、GPT-5.6 Terra、GPT-5.6 Luna。
Sol是太陽,Terra是地球,Luna是月亮。
聽起來很花哨,像一個新的模型宇宙。但它其實還是我們熟悉的那套產品分層:一個最強的旗艦模型,一個日常使用的均衡模型,一個便宜、快速、適合大規模調用的輕量模型。
OpenAI官方說法是:GPT-5.6系列會在未來幾周全面開放,但目前先應美國政府要求,在Codex和API中向一小群“值得信賴的合作伙伴”進行有限預覽。
讓我們先來了解一下已公開的情報。
01
最高檔和GPT 5.5同價
OpenAI這次給GPT-5.6分了三檔:Sol、Terra、Luna。
按照官方說法,Sol是旗艦模型,Terra是面向日常工作的均衡模型,Luna則是快速、便宜的輕量模型。
三檔模型一口氣全放了出來,基本對應大模型產品里最常見的三層結構:最強模型負責能力上限,中間模型負責大多數日常任務,輕量模型負責速度、成本和高并發調用。
從價格就能看出三者的層級。
按照OpenAI公布的API價格,GPT-5.6按每100萬token計費:Sol是輸入5美元、輸出30美元;Terra是輸入2.5美元、輸出15美元;Luna是輸入1美元、輸出6美元。
![]()
相信大家可能注意到了:GPT-5.6 Sol雖然是新一代旗艦模型,但價格對齊的是GPT-5.5標準版,而不是GPT-5.5 Pro。
Terra則直接降到GPT-5.5的一半,Luna只有GPT-5.5的五分之一。
GPT-5.5 Pro依然是當前OpenAI最貴的模型,價格是輸入30美元/百萬token,輸出180美元/百萬token,價格是GPT-5.5標準版和GPT-5.6 Sol的6倍。也不知道之后會不會再出一個“更適合專業任務”的GPT-5.6 Universe(只是開玩笑)。
Sol是這次GPT-5.6系列里的最高檔,也是官方公告里花最多篇幅介紹的模型。
OpenAI把GPT-5.6 Sol稱為目前最強模型,重點展示了它在寫代碼、生物研究和網絡安全上的能力。
簡單說,Sol的定位是“最會干活的模型”,它對應的不是普通聊天場景,是更復雜、更接近真實工作的任務。
比如在代碼場景里,它可以圍繞一個目標持續推進:先理解問題,再拆步驟,然后調用工具、運行命令、檢查結果,出錯了再改,直到任務完成。
為了支撐Sol處理更難的任務,OpenAI給GPT-5.6引入了兩個新機制。
第一個叫max reasoning effort,可以翻譯成“最大推理強度”。
通俗理解,就是讓Sol有更多時間想清楚問題、花更長時間進行深度推理,適合那些不能靠第一反應解決的復雜任務。
第二個叫ultra mode,可以理解為“超強模式”。
這個模式的重點是讓多個子智能體一起參與復雜任務,可以理解為:過去是一個AI助手自己干活,現在是一個“AI經理”帶著幾個小助手分頭處理問題,從而加快復雜工作的推進。
![]()
Terminal-Bench 2.1就是一個更接近真實開發流程的測試,考的是模型能不能在命令行環境里一步步解決問題。GPT-5.6 Sol在該測試中拿到了88.8%的高分,Ultra模式下得分更高。
OpenAI特別提到,等模型更廣泛開放時,還會公布一套更完整的評測結果。
Terra是中間檔。
OpenAI對Terra的介紹沒有那么長,但定位很清楚:它是面向日常工作的均衡模型。
也就是說,它不一定追求最強,但要在效果、速度和成本之間取得平衡。官方強調,Terra的能力接近GPT-5.5,但價格便宜一半。
在OpenAI的設想中,Terra很可能才是GPT-5.6系列里最常用的那一檔。普通辦公任務很多時候不需要Sol那樣的最高能力,但需要穩定、便宜、好用。
在Terminal-Bench 2.1測試中,GPT-5.6 Terra拿到了84.3%,和Claude Fable 5持平。
Luna則是最低成本檔。
OpenAI對Luna的定位也很簡單:快,便宜,它適合大量、高頻、對成本敏感的任務。
比如批量摘要、文本分類、信息抽取、簡單問答等等,這些任務本身不一定復雜,但調用量可能非常大。Luna的作用,就是把這些輕量任務用更低成本跑起來。
這三檔模型,Sol負責最高能力,Terra負責日常工作,Luna負責速度和成本,聽起來花哨,但OpenAI只是把大模型行業已經很成熟的分層重新包裝了一遍。
不過我覺得名字什么的并不重要,便宜好用就行。
02
性價比這一塊兒
只看官方公告,GPT-5.6 Sol這次放出的benchmark并不算多。OpenAI自己也說,現在只是為了讓外界提前了解模型性能,所以先分享一組評估結果。
但放出來的這組benchmark方向很明確,集中展示了三個領域:代碼、生物學和網絡安全。
前面提到的Terminal-Bench 2.1就屬于代碼方向,它考的是模型能不能在命令行環境里完成真實開發流程,包括規劃、反復修改、調用工具和驗證結果。
除了代碼,OpenAI還重點提到了一個生物學benchmark:GeneBench v1。
![]()
GeneBench v1評估的是長周期的基因組學和定量生物學分析任務,重點看模型能不能處理更接近真實科研流程的分析問題。
按照OpenAI的說法,GPT-5.6 Sol在GeneBench v1上比GPT-5.5表現更強,而且使用的token更少。
第三個重點方向是網絡安全。OpenAI稱,GPT-5.6 Sol是它目前最強的網絡安全模型,尤其是在長周期安全任務上(包括漏洞研究和漏洞利用相關任務)。
這里有一個benchmark叫 ExploitBench——它不是一般的安全問答,是更接近漏洞利用場景的評估。
OpenAI稱,在ExploitBench上,GPT-5.6 Sol的表現可以和Mythos Preview媲美,但只用了大約三分之一的輸出token。
雖然,官方給出的這張圖上還有一定差距。
![]()
可以看出,OpenAI這次反復強調:他們在能力強的同時,效率也特高。
更少的輸出token,意味著模型完成同類任務時可能更簡潔、更少繞路,也可能意味著實際調用成本更可控。
OpenAI還提到了另一個網絡安全benchmark:ExploitGym。
這個benchmark是UC Berkeley研究人員與OpenAI以及其他前沿實驗室合作創建的。OpenAI說,在ExploitGym上,GPT-5.6 Sol、Terra、Luna三檔模型都顯示出明顯的網絡安全能力提升,而且隨著推理強度提高,表現也會變強。
意思是,GPT-5.6的提升不只是模型本體變強,也和推理方式有關。給模型更多時間思考、讓它做更長鏈條的推理,結果就會更好。
![]()
03
關于有限預覽
如果說Sol、Terra、Luna是GPT-5.6表面上的變化,那么更值得關注的事情是,OpenAI這次沒有直接全面開放。
按照官方公告,目前GPT-5.6只會先在Codex和API中,向一小群“值得信賴的合作伙伴”進行有限預覽。
并且,這次有限預覽是“應美國政府要求”進行的,參與預覽的合作伙伴名單已經和美國政府共享。
最近一段時間,美國政府正在明顯加強對前沿AI模型的介入,尤其是那些具備更強代碼、網絡安全和agent能力的模型。
今年6月,美國政府發布了新的AI網絡安全相關行政令,提出要建立一個自愿框架,讓前沿模型開發者在模型更廣泛發布前,與政府進行接觸和評估。
法律界對這份行政令的解讀是:它名義上不是強制許可、也不是正式審批制度,但已經搭起了一個政府參與模型發布前評估的制度框架。
GPT-5.6 Sol“先小范圍預覽、名單與政府共享”的發布模式,可以看做前沿模型的發布流程里,第一次出現了清晰的政府介入痕跡。
OpenAI自己也在公告里解釋,之所以采取這種方式,是為了和政府一起探索一個可重復的流程,用來支持未來的模型發布。
政府介入背后,核心原因是網絡安全。
官方公告里,網絡安全占了非常大的篇幅:OpenAI一邊強調GPT-5.6 Sol是它目前最強的網絡安全模型,能在漏洞研究、漏洞分析、安全防御等長周期任務上提供更強幫助;另一邊又花了大量篇幅解釋,它沒有跨過自己的Cyber Critical門檻。
OpenAI的準備框架里,把高風險能力分成不同等級。達到High,意味著模型可能放大已有的嚴重風險;達到Critical,則意味著模型可能帶來前所未有的新型嚴重風險。
OpenAI反復強調GPT-5.6 Sol沒有達到Cyber Critical,其實是在告訴政府、客戶和公眾:這個模型很強,尤其在網絡安全任務上很強,但還沒有強到可以自主完成最危險的網絡攻擊鏈。
網絡安全能力就像一把雙刃劍,它越強,越能幫防御者找漏洞、寫補丁、做安全測試;但也正因為它很強,政府也會擔心它被濫用。
雖然OpenAI承認這次發布需要和政府一起摸索流程,但它也在官方公告里明確說明,他們不認為這種政府訪問流程應該成為長期默認機制。
理由是:如果最強工具總是被拖延開放,用戶、開發者、企業、網絡防御者和全球合作伙伴都會更晚拿到最好的工具。
某種意義上,前沿模型正在進入一個新的發布階段。
當大模型的能力集中到代碼、生物、網絡安全和智能體執行這些領域,它就會開始被當成一種可能影響現實世界安全的技術。
而一旦技術被這樣看待,發布權就很難再完全留在公司自己手里。(作者/袁心玥)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.