无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-V4終于更新了!一百萬超長上下文,Agent能力大幅增強,能力接近Opus 4.6

0
分享至

剛剛,期待已久的DeepSeek-V4 終于更新了。

DeepSeek 正式上線并開源了 DeepSeek-V4 的預覽版,分為 Pro 和 Flash 兩個版本。DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。

這次的更新力度不小,有兩個核心變化:一是,V4 擁有 1M 的超長上下文,1M 上下文已經成為了標配;二是,Agent 能力大幅的增強。

DeepSeek 官方提到,V4-Pro 在 Agentic Coding 評測中已經達到了當前開源模型最佳水平,也是公司內部員工日常在使用的 Agentic Coding 模型。據內部員工評測,V4-Pro 的反饋體驗優于 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式。

目前,DeepSeek-V4 已經在官網、官方 App 中上線,用戶可以直接體驗。同時,API 也已同步上線,model_name 改為 deepseek-v4-pro 或 deepseek-v4-flash 即可調用。

??關注 Founder Park,最及時最干貨的創業分享

Founder Park 正在持續尋找值得被看見的 AI 團隊與項目。

我們將通過「AI 產品市集」、內容報道、社群分發等方式,幫你觸達早期用戶、獲得真實反饋,以及建立關鍵連接。

如果你正在做 AI 相關的事,歡迎和我們聊聊。

01兩款新模型:Flash、Pro 版本

此次更新的 DeepSeek-V4 模型,按大小分為兩個版本:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。


V4-Pro 擁有 1.6T 總參數、49B 激活參數;V4-Flash 為 284B 總參數、13B 激活參數,兩款模型均原生支持 1M token 的上下文長度。

此外,V4-Flash 在 32T tokens 上完成預訓練,V4-Pro 則在 33T tokens 上完成預訓練。

DeepSeek-V4-Pro是這次發布的旗艦版本,各項能力均對標頂級閉源模型。


其中,Agent 能力是突出的升級方向。在 Agentic Coding 評測中,V4-Pro 已達到當前開源模型最佳水平,并在其他 Agent 相關評測中同樣表現優異。據 DeepSeek 內部員工評測反饋,使用體驗優于 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但與 Opus 4.6 思考模式仍存在一定差距。

值得一提的是,V4-Pro 還針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品進行了專項適配和優化,在代碼任務、文檔生成任務等方面的表現均有提升。

世界知識方面,V4-Pro 在測評中大幅領先其他開源模型,僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

推理性能同樣亮眼,在數學、STEM、競賽型代碼的測評中,V4-Pro 超越了當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的成績。


DeepSeek-V4-Flash則是更多面向對成本和速度更敏感的場景。相比于 V4-Pro,V4-Flash 在世界知識儲備方面稍遜,但推理能力接近。

由于模型參數和激活更小,Flash 版能夠提供更加快捷、經濟的 API 服務。在 Agent 評測中,V4-Flash 在簡單任務上與 V4-Pro 相當,但在高難度任務上仍有一定差距。

02提出全新的注意力機制
一百萬上下文成為標配

DeepSeek 官方特別提到,DeepSeek-V4 使用了一種全新的注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力。同時,相比傳統方法大幅降低了對計算和顯存的需求。從現在起,一百萬上下文將是 DeepSeek 所有官方服務的標配。


DeepSeek-V4 和 DeepSeek-V3.2 的計算量和顯存容量隨上下文長度的變化

DeepSeek-V4 的技術報告中提到,這次架構升級包含了三項核心創新:

  • CSA+HCA 混合注意力機制(Compressed Sparse Attention 與 Heavily Compressed Attention),這是實現超長上下文高效處理的核心所在;

  • mHC(Manifold-Constrained Hyper-Connections,流形約束超連接),用于強化傳統殘差連接,提升信號在層間傳播的穩定性;

  • 引入Muon 優化器,帶來更快的收斂速度與更穩定的訓練過程;

在效率層面,技術報告同樣給出了更具體的量化數據:在 1M token 上下文場景下,V4-Pro 的單 token 推理 FLOPs 僅為 DeepSeek-V3.2 的27%,KV Cache 大小僅為10%。V4-Flash 的效率提升更為激進,FLOPs 僅為10%,KV Cache 僅為7%

03官網、App、API 同步上線,即日可用

目前,DeepSeek API 已經同步上線了 V4-Pro 和 V4-Flash,支持 OpenAI ChatCompletions 接口與 Anthropic 接口。訪問新模型時,base_url 不變,model 參數改為 deepseek-v4-pro 或 deepseek-v4-flash 即可。

V4-Pro 與 V4-Flash 最大上下文長度均為 1M,同時支持非思考模式與思考模式。其中思考模式支持通過 reasoning_effort 參數設置思考強度(high / max)。對于復雜的 Agent 場景,DeepSeek 官方建議使用思考模式并將強度設置為 max。


需要注意的是,舊有的兩個模型名 deepseek-chat 與 deepseek-reasoner 將于三個月后(2026-07-24)停止使用。當前階段內,這兩個模型名分別對應的是 deepseek-v4-flash 的非思考模式與思考模式。

更詳細的調用方式請參考官方文檔:api-docs.deepseek.com

開源權重和本地部署

  • DeepSeek-V4 模型開源鏈接:

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

  • DeepSeek-V4 技術報告:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
在Windows上復刻Linux體驗:一個開發者的PowerShell改造清單

在Windows上復刻Linux體驗:一個開發者的PowerShell改造清單

字節漫游指南
2026-05-19 02:36:02
已成功瘦了 30斤,我發現提高代謝關鍵吃法是:早餐吃夠蛋白質

已成功瘦了 30斤,我發現提高代謝關鍵吃法是:早餐吃夠蛋白質

新時代的兩性情感
2026-05-15 10:08:20
《宇宙巨人希曼》砍掉經典毛褲造型,服裝設計師揭秘原因

《宇宙巨人希曼》砍掉經典毛褲造型,服裝設計師揭秘原因

追星雷達站
2026-05-19 00:10:30
京東官宣今年618從5月30日晚8點開始,未來有望實現包裹全流程無人配送直達用戶手中

京東官宣今年618從5月30日晚8點開始,未來有望實現包裹全流程無人配送直達用戶手中

極目新聞
2026-05-18 16:25:23
美股半導體深夜全線重挫,AMD、高通跌6%,國際油價下挫,美聯儲加息概率大增

美股半導體深夜全線重挫,AMD、高通跌6%,國際油價下挫,美聯儲加息概率大增

21世紀經濟報道
2026-05-19 23:02:06
男子跳高一代巨星大駕光臨跳躍亞錦賽 雖年事已高難阻他輕松奪冠

男子跳高一代巨星大駕光臨跳躍亞錦賽 雖年事已高難阻他輕松奪冠

威猛孟巍
2026-05-20 04:47:38
嚴重擾民!順義一家庭因這事徹夜難眠

嚴重擾民!順義一家庭因這事徹夜難眠

天氣觀察站
2026-05-19 12:59:49
柳州地震發生后, 最戳人的一幕出現了, 不是救援

柳州地震發生后, 最戳人的一幕出現了, 不是救援

網絡易不易
2026-05-19 13:01:41
“計劃有變,準備奪冠!”張雪機車從“曇花一現”到“實力使然”

“計劃有變,準備奪冠!”張雪機車從“曇花一現”到“實力使然”

大象新聞
2026-05-18 20:51:07
尷尬!和李英愛合照被熱議!張凌赫在韓網慘遭800樓熱帖吐槽

尷尬!和李英愛合照被熱議!張凌赫在韓網慘遭800樓熱帖吐槽

小邵說劇
2026-05-19 07:56:51
20名中國教授赴美參會,中國大腦剛落地就被關,簽證當場作廢!

20名中國教授赴美參會,中國大腦剛落地就被關,簽證當場作廢!

獨舞獨舞
2026-05-17 13:41:29
一組山東省各市的數據:我們可以從中看到什么?

一組山東省各市的數據:我們可以從中看到什么?

在時代的變遷中
2026-05-19 05:33:03
清場進入倒計時,菲律賓震驚的發現,中國科考人員已登上鐵線礁

清場進入倒計時,菲律賓震驚的發現,中國科考人員已登上鐵線礁

阿龍聊軍事
2026-05-19 11:38:25
女子以“吃出鐵絲”為由連續碰瓷3家同品牌炸雞店,當事門店:她稱作案手法是咨詢的AI,警方已追回賠償款

女子以“吃出鐵絲”為由連續碰瓷3家同品牌炸雞店,當事門店:她稱作案手法是咨詢的AI,警方已追回賠償款

封面新聞
2026-05-19 16:04:15
策劃10.7恐怖襲擊的最后一名哈馬斯領導人,周五被以色列擊斃!

策劃10.7恐怖襲擊的最后一名哈馬斯領導人,周五被以色列擊斃!

火星宏觀
2026-05-18 11:07:05
普京果然說到做到,四次歸還領土,最后一次歸還面積最大

普京果然說到做到,四次歸還領土,最后一次歸還面積最大

秋楓凋零
2026-05-18 12:19:52
耿同學打假里最悲哀的是,沒有一篇問題論文,是官方自己查出來的

耿同學打假里最悲哀的是,沒有一篇問題論文,是官方自己查出來的

手工制作阿愛
2026-05-20 04:08:43
特斯拉放棄印度建廠

特斯拉放棄印度建廠

新浪財經
2026-05-19 16:29:08
斯基拉:薩里接受那不勒斯2年合同年薪280萬,德佬將最終拍板

斯基拉:薩里接受那不勒斯2年合同年薪280萬,德佬將最終拍板

懂球帝
2026-05-19 21:15:09
替補中鋒的表現一塌糊涂,馬刺也許可以考慮重用鋒線新秀?

替補中鋒的表現一塌糊涂,馬刺也許可以考慮重用鋒線新秀?

稻谷與小麥
2026-05-19 22:51:45
2026-05-20 05:23:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
1217文章數 162關注度
往期回顧 全部

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經要聞

潔麗雅硬剛豪門內斗傳言

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態度原創

教育
手機
旅游
本地
數碼

教育要聞

中考數學,-0的倒數是多少?

手機要聞

5月最后十天,5款新機連番轟炸!從電競旗艦到中端影像都齊了

旅游要聞

中國旅游日主會場廣州啟動!廣東全力建設旅游友好型城市

本地新聞

別搜晉江小說了,去看真的晉江

數碼要聞

谷歌推出Gemini 3.5系列模型

無障礙瀏覽 進入關懷版