DeepSeek-V3.2正式發(fā)布，推理性能逼近GPT-5

2025-12-01 23:17:02　來源: 問芯

北京舉報(bào)

分享至

ChatGPT三歲生日這天，DeepSeek正式發(fā)布了V3.2及其增強(qiáng)版V3.2-Speciale，新版本在架構(gòu)效率、推理能力和智能體性能三個(gè)維度實(shí)現(xiàn)突破，同時(shí)API價(jià)格維持了此前的大幅降價(jià)，輸入token降至每百萬1元，輸出token降至2元。

相比DeepSeek-V3.1，DeepSeek-V3.2唯一的架構(gòu)修改是通過繼續(xù)訓(xùn)練引入了DeepSeek Sparse Attention（DSA）。傳統(tǒng)Transformer的注意力計(jì)算復(fù)雜度為O（L2），DSA通過“閃電索引器”和細(xì)粒度token選擇，將復(fù)雜度降至O（Lk），其中k為2048。在H800集群實(shí)測中，處理128K上下文時(shí)，V3.2的推理成本僅為V3.1-Terminus的三分之一左右。關(guān)鍵是這種效率提升幾乎沒有損失性能，在MMLU-Pro、GPQA Diamond等標(biāo)準(zhǔn)測試中，兩者得分基本持平。

推理能力方面，V3.2通過超過預(yù)訓(xùn)練成本10%的強(qiáng)化學(xué)習(xí)投入，在AIME 2025數(shù)學(xué)競賽中達(dá)到93.1%通過率，HMMT二月賽92.5%，Codeforces編程評級2386分，整體水平與GPT-5相當(dāng)。相比Kimi K2 Thinking，V3.2在保持相近準(zhǔn)確率的同時(shí)，平均輸出長度減少約30%，顯著降低了實(shí)際使用成本。強(qiáng)化學(xué)習(xí)框架引入了“無偏KL估計(jì)”和“離策略序列掩碼”等技術(shù)，有效解決了大規(guī)模RL訓(xùn)練的穩(wěn)定性問題。

V3.2-Speciale則專注于極限推理能力。該版本在2025年國際數(shù)學(xué)奧林匹克（IMO）中解決六題中的五題獲得金牌，在國際信息學(xué)奧林匹克（IOI）得分492分（滿分600）同樣獲得金牌，在ICPC世界總決賽中解決12題中的10題排名第二。這是首個(gè)在多項(xiàng)國際頂級競賽中達(dá)到金牌水平的開源通用模型。

智能體能力是另一大亮點(diǎn)。DeepSeek開發(fā)了大規(guī)模任務(wù)合成系統(tǒng)，自動(dòng)生成1827個(gè)環(huán)境和85000個(gè)任務(wù)，涵蓋代碼工程、搜索增強(qiáng)、通用問題解決等場景。在SWE-Verified代碼修復(fù)測試中，V3.2解決了73.1%的真實(shí)GitHub問題；在Tool-Decathlon工具使用測試中達(dá)到35.2%通過率，領(lǐng)先于其他開源模型。特別設(shè)計(jì)的上下文管理策略，讓模型在工具調(diào)用過程中保留推理歷史，避免重復(fù)計(jì)算。

目前，相關(guān)模型權(quán)重、推理代碼等已在社區(qū)開源。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.