大模型這周瘋狂的更新沒有結束,最重磅的 DeepSeek V4 突然發布了
剛剛,DeepSeek 正式推出 V4 系列預覽版,包含 DeepSeek-V4-Pro(1.6T 總參數 / 49B 激活)與 DeepSeek-V4-Flash(284B 總參數 / 13B 激活)兩款模型,均支持 100 萬 Token 超長上下文。
架構層面,V4 實現三項關鍵突破。
混合注意力機制(CSA+HCA)將百萬 Token 場景下的推理 FLOPs 降至 V3.2 的 27%,KV Cache 僅需 10%;
流形約束超連接(mHC)解決了超大規模 MoE 的訓練不穩定性問題;其三,引入 Muon 優化器加速收斂。模型基于 32T+ 高質量 Token 預訓練,并采用"領域專家培養 + 統一模型整合"的兩階段后訓練策略。
性能方面,V4-Pro-Max 模式(最大推理檔位)在多項基準上刷新開源模型紀錄。 LiveCodeBench 達到 93.5%,Codeforces 評分 3206(超越 Gemini-3.1-Pro 與 Claude Opus-4.6);
數學推理 IMO-AnswerBench 89.8%、HMMT 2026 達 95.2%;軟件工程 SWE-bench Verified 80.6%;百萬 Token 長上下文測試 MRCR 83.5%。
模型同時提供 Non-Think、Think High、Think Max 三檔推理模式,兼顧響應速度與推理深度。
DeepSeek 官方表示,V4-Pro-Max 已「firmly establishing itself as the best open-source model available today 」,在編程基準上達到頂級水平,并在推理與 Agentic 任務上顯著縮小與領先閉源模型的差距。
V4-Flash-Max 則在給予充足思考預算時,可實現與 Pro 版本相當的推理表現。
目前,V4 系列模型權重已在 Hugging Face 和 ModelScope 上架,技術報告同步公開。
APPSO 馬上會帶來更詳細的解讀,敬請留意。
模型調用與參數調整方法請參考 API 文檔:
https://api-docs.deepseek.com/zh-cn/guides/thinking_mode
DeepSeek-V4 模型開源鏈接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技術報告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.