![]()
在練習時長一年半后,今天中午,DeepSeek 終于端上了新模型 DeepSeek V4,還在文章里直接把壓力給到華為和寒武紀。。。
![]()
這一次的更新,在性能上其實沒太出乎大家的意料,要說吊打 GPT,腳踢 Gemini 也不太可能。
但在開源模型里基本也夠了,屬于是站在一個開源領先,能和頂尖閉源模型一戰的地位上。
現在,大家可以直接去官網上免費試用。直接打開對話框,不用任何操作就是 V4。
![]()
而且如果你想氪金,不管是便宜量大的 DeepSeek-V4-Flash,還是價格直接漲了 8 倍的 V4-Pro,都可以直接用上開發者 API。
![]()
不過即使漲價了,它炸了我都夸他響。因為和同等性能的友商比,這價格依舊太香了。
DeepSeek-V4-Pro 百萬 token 輸出大概 24 塊錢,Claude Sonnet 4.6 差不多要 100 塊。性能差不多,價格直接打到四分之一左右,這就很 DeepSeek。
當然,DeepSeek 還給大家畫了個餅,說這次模型的漲價只是暫時的。
等過段時間華為的卡到貨了,模型的價格還會給大家直接打下來。
小字最有用的一集
![]()
總的來說,這兩個模型,基本上把 DeepSeek 過去一年半里攢的幾個大招,一口氣全都給端出來了。
在性能上就不說了,V4 Pro 能和 Claude Opus 4.6、GPT 5.4、Gemini 3.1 Pro 這些閉源頂尖模型打個五五開。
![]()
在寫代碼的生產力測試的環境中,V4 Pro 的能力也處于大于 Sonnet 4.5 ,但是小于 Opus 4.6 的階段。
![]()
在知識庫的豐富程度,推理能力上也都能夠大幅度領先其他開源模型,同時比肩世界頂級閉源模型。
![]()
同時更重要的是,這次 DeepSeek 發出來的兩個模型,都能支持 100 萬 token 的上下文長度。
這玩意有啥用呢?
這兩個月,什么小龍蝦,愛馬仕這類的 Agent 工具是層出不窮。在 Agent 的工作環境里,每次對話時所消耗的上下文是個天文數字。
而模型的上下文長度越長,就意味著干活的時候能記住更多的細節。
之前 Meta 的安全總監就翻過車,因為用的模型上下文長度不夠,觸發了 OpenClaw 的自動記憶壓縮功能。
但一壓縮,就把一些關鍵命令給忘掉了,結果就導致了這個安全總監的郵件給 AI 刪了一大半。
![]()
而現在,DeepSeek 把百萬上下文變成了模型的標配,新模型不管是 Pro 還是 flash,都能支持百萬上下文長度。
這就意味著他倆干活的能力都很強。
我們也簡單試了一下,給本紅樓夢里隨便貼了一段三體的科幻小說內容,然后丟給 DeepSeek V4 讓它找。
結果用不著幾秒,DeepSeek 就找到了異常。
![]()
同時和其他模型不太一樣的是。
DeepSeek 的百萬上下文還非常省錢。
大家都知道現在的大模型用的都是 transformer 架構,對話越長,KV Cache(臨時緩存) 就越大,推理成本也越高,模型也就越花錢。
但這次,DeepSeek V4 直接變成了超級省錢冠軍。
同樣帶著 100 萬 token 的上下文干活,V4-Pro 每生成一個 token,背后的計算量差不多只要原來的四分之一。
模型用來記住前文的 KV Cache,也只剩原來的十分之一。
![]()
而這次 DeepSeek 之所以能把成本給打下來,靠的是一套全新的注意力機制。
HybridAttention。
![]()
它把過去的 CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)這兩種技術結合了起來。
前者相當于是一本書寫目錄,后者相當于是給這個目錄里的章節來寫摘要。
有了目錄和摘要輔助記憶之后,模型在干活的時候,真正需要計算的壓力就降了不少。
同時,他們還用上了去年搓出來的 mHC 來保證長文本的穩定性,用了 Muon 優化器來讓模型的參數更穩定。。。
![]()
在底層和顯卡的適配優化上也下了一大堆功夫,在英偉達和華為的卡上都測試了自己做的 fine-grained EP,能讓模型的推理速度提升 1.50 到 1.73 倍。
![]()
而且還用上了之前北大開源的 TileLang(Tile Language),讓模型變得沒有那么依賴老黃的 CUDA。
不過可惜的是唯一的缺點就是,目前的 DeepSeek 雖然很強很便宜,但這次的 V4 還是不支持多模態,也就是還是看不懂圖片。
這塊很有可能是它們下一代的目標。
![]()
另外,除了在小字催華為的卡之外,咱們還發現了 DeepSeek V4 的其他一些小彩蛋。
比如說在提到 Agent 能力的時候,除了給 Claude Code、OpenClaw 這些名聲在外的產品做了優化,還提到了騰訊的 CodeBuddy 這個突兀的小資歷。
![]()
這或許和前段時間,騰訊、阿里正在洽談投資 DeepSeek 的消息,有一定關聯。
還有在測試對比友商的時候,Kimi K2.6 和智譜 GLM-5.1 的一些能力,DeepSeek 的人沒測上,因為友商的 API 繁忙了。。。
![]()
智譜官方在不久前,也友好地回應了:哥們你如果想要,咱們絕對支持,高速率賬號安排上。
![]()
對了, DeepSeek 還給造卡的硬件廠商們,提了個建議,那就是別瞎堆帶寬,要算好“算力與通信”的比例,這樣才更省電省錢。
![]()
并且,DeeSeek 官方也很坦誠,直言目前和世界最先進的閉源旗艦模型,能力上還是有 3 到 6 個月的差距。
最后,可以說 DeepSeek 這些日子,是受到了不少的討論和非議的。
人才流失、國產芯片適配失敗、各種傳聞真看得人挺揪心的。
![]()
有人說它們是江郎才盡、曇花一現。
而 " DeepSeek 新版本下周更新 " 的消息,也都快成了和賈會計下周回國一樣,成了科技圈的笑話。
甚至還有網友做了 AI 梗圖,說梁文鋒是因為要玩原神,才耽誤了 DeepSeek V4。。。。
![]()
但玩歸玩,笑歸笑,別拿你 D 老師開玩笑,DeepSeek 用實力證明,它依舊是那個開源的源神。
和華為等國產芯片廠商的合作,也讓人看到了咱們在AI領域打破壟斷的決心和實力。
去年 DeepSeek R1 的開源,給全球的大模型帶來了大推理時代。
而今年的 DeepSeek V4,則是通過和華為等國產芯片廠商的合作,讓人看到了咱們在AI領域打破壟斷的決心和實力。
“ 不誘于譽,不恐于誹,率道而行,端然正己 ” 這是 DeepSeek 官方今天提到的 16 字真言。
而他們,也確實做到了。
撰文:早起 & 江江
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
DeepSeek 官網
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.