網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 憋了一年半,終于交作業了。

0
分享至


在練習時長一年半后,今天中午,DeepSeek 終于端上了新模型 DeepSeek V4,還在文章里直接把壓力給到華為和寒武紀。。。


這一次的更新,在性能上其實沒太出乎大家的意料,要說吊打 GPT,腳踢 Gemini 也不太可能。

但在開源模型里基本也夠了,屬于是站在一個開源領先,能和頂尖閉源模型一戰的地位上。

現在,大家可以直接去官網上免費試用。直接打開對話框,不用任何操作就是 V4。



而且如果你想氪金,不管是便宜量大的 DeepSeek-V4-Flash,還是價格直接漲了 8 倍的 V4-Pro,都可以直接用上開發者 API。


不過即使漲價了,它炸了我都夸他響。因為和同等性能的友商比,這價格依舊太香了。

DeepSeek-V4-Pro 百萬 token 輸出大概 24 塊錢,Claude Sonnet 4.6 差不多要 100 塊。性能差不多,價格直接打到四分之一左右,這就很 DeepSeek。

當然,DeepSeek 還給大家畫了個餅,說這次模型的漲價只是暫時的。

等過段時間華為的卡到貨了,模型的價格還會給大家直接打下來。

小字最有用的一集



總的來說,這兩個模型,基本上把 DeepSeek 過去一年半里攢的幾個大招,一口氣全都給端出來了。

在性能上就不說了,V4 Pro 能和 Claude Opus 4.6、GPT 5.4、Gemini 3.1 Pro 這些閉源頂尖模型打個五五開。



在寫代碼的生產力測試的環境中,V4 Pro 的能力也處于大于 Sonnet 4.5 ,但是小于 Opus 4.6 的階段。


在知識庫的豐富程度,推理能力上也都能夠大幅度領先其他開源模型,同時比肩世界頂級閉源模型。


同時更重要的是,這次 DeepSeek 發出來的兩個模型,都能支持 100 萬 token 的上下文長度。

這玩意有啥用呢?

這兩個月,什么小龍蝦,愛馬仕這類的 Agent 工具是層出不窮。在 Agent 的工作環境里,每次對話時所消耗的上下文是個天文數字。

而模型的上下文長度越長,就意味著干活的時候能記住更多的細節。

之前 Meta 的安全總監就翻過車,因為用的模型上下文長度不夠,觸發了 OpenClaw 的自動記憶壓縮功能。


但一壓縮,就把一些關鍵命令給忘掉了,結果就導致了這個安全總監的郵件給 AI 刪了一大半。


而現在,DeepSeek 把百萬上下文變成了模型的標配,新模型不管是 Pro 還是 flash,都能支持百萬上下文長度。

這就意味著他倆干活的能力都很強。

我們也簡單試了一下,給本紅樓夢里隨便貼了一段三體的科幻小說內容,然后丟給 DeepSeek V4 讓它找。


結果用不著幾秒,DeepSeek 就找到了異常。


同時和其他模型不太一樣的是。

DeepSeek 的百萬上下文還非常省錢。

大家都知道現在的大模型用的都是 transformer 架構,對話越長,KV Cache(臨時緩存) 就越大,推理成本也越高,模型也就越花錢。

但這次,DeepSeek V4 直接變成了超級省錢冠軍。

同樣帶著 100 萬 token 的上下文干活,V4-Pro 每生成一個 token,背后的計算量差不多只要原來的四分之一。

模型用來記住前文的 KV Cache,也只剩原來的十分之一。


而這次 DeepSeek 之所以能把成本給打下來,靠的是一套全新的注意力機制。

HybridAttention


它把過去的 CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)這兩種技術結合了起來。

前者相當于是一本書寫目錄,后者相當于是給這個目錄里的章節來寫摘要。

有了目錄和摘要輔助記憶之后,模型在干活的時候,真正需要計算的壓力就降了不少。

同時,他們還用上了去年搓出來的 mHC 來保證長文本的穩定性,用了 Muon 優化器來讓模型的參數更穩定。。。


在底層和顯卡的適配優化上也下了一大堆功夫,在英偉達和華為的卡上都測試了自己做的 fine-grained EP,能讓模型的推理速度提升 1.50 到 1.73 倍。


而且還用上了之前北大開源的 TileLang(Tile Language),讓模型變得沒有那么依賴老黃的 CUDA。

不過可惜的是唯一的缺點就是,目前的 DeepSeek 雖然很強很便宜,但這次的 V4 還是不支持多模態,也就是還是看不懂圖片。


這塊很有可能是它們下一代的目標。


另外,除了在小字催華為的卡之外,咱們還發現了 DeepSeek V4 的其他一些小彩蛋。


比如說在提到 Agent 能力的時候,除了給 Claude Code、OpenClaw 這些名聲在外的產品做了優化,還提到了騰訊的 CodeBuddy 這個突兀的小資歷。



這或許和前段時間,騰訊、阿里正在洽談投資 DeepSeek 的消息,有一定關聯。

還有在測試對比友商的時候,Kimi K2.6 和智譜 GLM-5.1 的一些能力,DeepSeek 的人沒測上,因為友商的 API 繁忙了。。。


智譜官方在不久前,也友好地回應了:哥們你如果想要,咱們絕對支持,高速率賬號安排上。



對了, DeepSeek 還給造卡的硬件廠商們,提了個建議,那就是別瞎堆帶寬,要算好“算力與通信”的比例,這樣才更省電省錢。


并且,DeeSeek 官方也很坦誠,直言目前和世界最先進的閉源旗艦模型,能力上還是有 3 到 6 個月的差距。

最后,可以說 DeepSeek 這些日子,是受到了不少的討論和非議的。

人才流失、國產芯片適配失敗、各種傳聞真看得人挺揪心的。


有人說它們是江郎才盡、曇花一現。

而 " DeepSeek 新版本下周更新 " 的消息,也都快成了和賈會計下周回國一樣,成了科技圈的笑話。


甚至還有網友做了 AI 梗圖,說梁文鋒是因為要玩原神,才耽誤了 DeepSeek V4。。。。


但玩歸玩,笑歸笑,別拿你 D 老師開玩笑,DeepSeek 用實力證明,它依舊是那個開源的源神。

和華為等國產芯片廠商的合作,也讓人看到了咱們在AI領域打破壟斷的決心和實力。

去年 DeepSeek R1 的開源,給全球的大模型帶來了大推理時代。

而今年的 DeepSeek V4,則是通過和華為等國產芯片廠商的合作,讓人看到了咱們在AI領域打破壟斷的決心和實力。

“ 不誘于譽,不恐于誹,率道而行,端然正己 ” 這是 DeepSeek 官方今天提到的 16 字真言。

而他們,也確實做到了。

撰文:早起 & 江江

編輯:江江 & 面線

美編:煥妍

圖片、資料來源

DeepSeek 官網


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
77歲甄珍宣布定居長沙,疑靠二婚兒子養老,卻說來生還想再嫁謝賢

77歲甄珍宣布定居長沙,疑靠二婚兒子養老,卻說來生還想再嫁謝賢

黔鄉小姊妹
2026-04-26 09:34:39
舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

懂球帝
2026-04-26 10:17:08
打球還是打人?爆冷2比1!黑八!給我黑八!

打球還是打人?爆冷2比1!黑八!給我黑八!

左右為籃
2026-04-26 09:06:50
普京支持率跌破戰后最低后被“消音”:克宮直接下令媒體不準報道

普京支持率跌破戰后最低后被“消音”:克宮直接下令媒體不準報道

桂系007
2026-04-25 17:24:36
上海樓市,開始變得離譜了

上海樓市,開始變得離譜了

暮色史觀
2026-04-26 01:43:49
50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

小南看車
2026-04-25 23:08:49
國企機關化帶來的問題已經愈來愈嚴重,有的問題已經病入膏肓

國企機關化帶來的問題已經愈來愈嚴重,有的問題已經病入膏肓

細說職場
2026-04-25 22:30:20
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿訊說天下
2026-04-18 11:52:55
臺專家:兩岸統一課題不再是政治禁忌,島內年輕人脫綠

臺專家:兩岸統一課題不再是政治禁忌,島內年輕人脫綠

金牛傳聲
2026-04-26 09:03:43
閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
打起來了,以色列本土被炸,內塔尼亞胡或被逮捕?特朗普態度轉變

打起來了,以色列本土被炸,內塔尼亞胡或被逮捕?特朗普態度轉變

通文知史
2026-04-26 09:55:07
真慘!燃油車再次迎大降價,最大跌幅50%,老車主“背刺”成常態

真慘!燃油車再次迎大降價,最大跌幅50%,老車主“背刺”成常態

小談食刻美食
2026-04-25 09:34:33
Shams:阿隆-戈登將帶傷參加掘金G4客戰森林狼

Shams:阿隆-戈登將帶傷參加掘金G4客戰森林狼

懂球帝
2026-04-26 07:59:30
那場難忘的世界最大水庫垮壩慘案:1975河南駐馬店大水

那場難忘的世界最大水庫垮壩慘案:1975河南駐馬店大水

尚曦讀史
2025-01-19 12:50:03
香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

抽象派大師
2026-04-25 18:47:51
女子20元買一舊肚兜,幾年后去鑒寶,專家聞了聞,一句話讓她傻眼

女子20元買一舊肚兜,幾年后去鑒寶,專家聞了聞,一句話讓她傻眼

燦爛夏天
2025-03-12 22:44:55
13-9&13-9!斯諾克世錦賽八強出三 兩大世界冠軍回家 火箭6-2希金

13-9&13-9!斯諾克世錦賽八強出三 兩大世界冠軍回家 火箭6-2希金

楊仔述
2026-04-26 07:42:53
彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

小莜讀史
2026-04-20 15:17:58
悲催!37歲名牌大學畢業、年薪30萬女醫生被技術男嫌棄,當場崩潰

悲催!37歲名牌大學畢業、年薪30萬女醫生被技術男嫌棄,當場崩潰

火山詩話
2026-04-24 06:14:58
87年,我帶著父親當兵的照片入伍,誰知女首長看到照片后差點暈過去

87年,我帶著父親當兵的照片入伍,誰知女首長看到照片后差點暈過去

紅豆講堂
2025-03-23 10:39:32
2026-04-26 10:31:00
差評XPIN incentive-icons
差評XPIN
用知識和觀點Debug the world!
10642文章數 489599關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

藝術
旅游
本地
教育
公開課

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

旅游要聞

打卡淄博:從千年文脈到市井煙火

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

學校管理:“管”出規范,“理”出活力

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版