ChatGPT三歲生日這天,DeepSeek正式發(fā)布了V3.2及其增強(qiáng)版V3.2-Speciale,新版本在架構(gòu)效率、推理能力和智能體性能三個(gè)維度實(shí)現(xiàn)突破,同時(shí)API價(jià)格維持了此前的大幅降價(jià),輸入token降至每百萬1元,輸出token降至2元。
相比DeepSeek-V3.1,DeepSeek-V3.2唯一的架構(gòu)修改是通過繼續(xù)訓(xùn)練引入了DeepSeek Sparse Attention(DSA)。傳統(tǒng)Transformer的注意力計(jì)算復(fù)雜度為O(L2),DSA通過“閃電索引器”和細(xì)粒度token選擇,將復(fù)雜度降至O(Lk),其中k為2048。在H800集群實(shí)測中,處理128K上下文時(shí),V3.2的推理成本僅為V3.1-Terminus的三分之一左右。關(guān)鍵是這種效率提升幾乎沒有損失性能,在MMLU-Pro、GPQA Diamond等標(biāo)準(zhǔn)測試中,兩者得分基本持平。
推理能力方面,V3.2通過超過預(yù)訓(xùn)練成本10%的強(qiáng)化學(xué)習(xí)投入,在AIME 2025數(shù)學(xué)競賽中達(dá)到93.1%通過率,HMMT二月賽92.5%,Codeforces編程評級2386分,整體水平與GPT-5相當(dāng)。相比Kimi K2 Thinking,V3.2在保持相近準(zhǔn)確率的同時(shí),平均輸出長度減少約30%,顯著降低了實(shí)際使用成本。強(qiáng)化學(xué)習(xí)框架引入了“無偏KL估計(jì)”和“離策略序列掩碼”等技術(shù),有效解決了大規(guī)模RL訓(xùn)練的穩(wěn)定性問題。
V3.2-Speciale則專注于極限推理能力。該版本在2025年國際數(shù)學(xué)奧林匹克(IMO)中解決六題中的五題獲得金牌,在國際信息學(xué)奧林匹克(IOI)得分492分(滿分600)同樣獲得金牌,在ICPC世界總決賽中解決12題中的10題排名第二。這是首個(gè)在多項(xiàng)國際頂級競賽中達(dá)到金牌水平的開源通用模型。
智能體能力是另一大亮點(diǎn)。DeepSeek開發(fā)了大規(guī)模任務(wù)合成系統(tǒng),自動(dòng)生成1827個(gè)環(huán)境和85000個(gè)任務(wù),涵蓋代碼工程、搜索增強(qiáng)、通用問題解決等場景。在SWE-Verified代碼修復(fù)測試中,V3.2解決了73.1%的真實(shí)GitHub問題;在Tool-Decathlon工具使用測試中達(dá)到35.2%通過率,領(lǐng)先于其他開源模型。特別設(shè)計(jì)的上下文管理策略,讓模型在工具調(diào)用過程中保留推理歷史,避免重復(fù)計(jì)算。
目前,相關(guān)模型權(quán)重、推理代碼等已在社區(qū)開源。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.