網易首頁 > 網易號 > 正文申請入駐

實測DeepSeek V4：不炸裂了，但在做更重要的事

2026-04-24 19:17:06　來源: 沃垠AI

四川舉報

分享至

大家好，我是冷逸。

千呼萬喚始出來，DeepSeek V4終于發布了。

這次一共有2個版本，V4 Pro和V4 Flash，都是1M上下文，也都開源。

V4 Pro，1.6T（1.6萬億）總參數，49B激活。
V4 Flash，284B（2840億）總參數，13B激活。

在網頁端/APP，V4 Pro對應「專家模式」，V4 Flash「快速模式」。

一圖看懂DeepSeek V4，圖由GPT生成

據DeepSeek自己介紹，V4的Agent能力僅比肩Claude Sonnet 4.5，離Opus 4.6、4.7還有差距；世界知識離Gemini-Pro-3.1還有差距；推理性能，與GPT-5.4旗鼓相當。

官方report也直言，“發展軌跡約滯后前沿閉源模型3到6個月”。

API價格方面，DeepSeek V4比V3.2有所上漲，V4 Pro漲了約6倍，V4 Flash降了約50%。另外，并沒有Coding Plan。

以上，來自官方信息。下面，我們基于實測來評估一下這個模型。

一手實測

1）編程：3D任務

先測一個3D任務，主要看模型的前端能力，考驗模型對空間想象和邏輯推理的能力。

提示詞：制作一個3D的雪山場景html，雪山中間有一個日式的寺廟，整體風格參考塞爾達曠野之息。

Qwen3.6-Plus：

GLM-5.1：

DeepSeek V4 Pro：

MiniMax M2.7：

Gemini-3.1-Pro：

為什么不對比kimi K2.6？Kimi說他有點累了，讓我晚點再問一下。

整體來看，“開源五杰”表現不一。

GLM-5.1、Qwen3.6-Plus和Gemini-3.1-Pro在同一個水平，其他四家略遜一籌。

細節方面，GLM-5.1和Qwen3.6-Plus是最強的。比如雪山粒子特效、日式建筑還原、塞爾達風格參考，他倆的整體表現比其他模型都要更優一些。

DeepSeek V4 Pro，在這個case中表現一般。

我又試了一個3D魔方的老case，V4能做到還原。

提示詞：Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 中文：創建一個HTML文件，其中使用Three.js（通過CDN方式引入）來實現一個功能完備的3D魔方模擬程序。該魔方必須能夠自動完成自己的“解謎”過程。

這個case，我也測過很多模型了。基本上，最新的模型都能one shot，一次跑通。

2）編程：Skills任務

今天，藏師傅開源了一個極其牛逼的PPT skill「guizang-ppt-skill」。

skill地址：github.com/op7418/guizang-ppt-skil

生成的是一份HTML式PPT，也就幾十kb，可以發給任何人，在瀏覽器打開，字體、動畫都不會變。

對于這個skill，藏師傅說“這是他十年審美的壓縮包。”

我第一時間，就把這個skills裝到我的Claude Code里。直接對著你的Claude Code說這句話就行。

幫我安裝這個skill：https://github.com/op7418/guizang-ppt-skill，放在這個文件夾：C:\Users\Administrator\.claude\skills

然后，接入DeepSeek V4 Pro跑了個case，讓它把我設計成10頁PPT。

給大家看下最終的效果。

整體排版、風格、字體搭配，我都非常滿意。差不多我再微調下文字（可用Trae或文本編輯器來改），這套PPT可以直接拿去演講了。

3）編程：網站開發

需求是，讓DeepSeek V4 Pro基于我給到的模特照片，做一個攝影師作品集的網站。

提示詞：我是拍模特廣告的攝影師，我的工作室叫「小逸攝影」，文件夾 D:\Vibe Coding\DS V4\模特圖片放了一些模特圖片，給我生成一個高級審美、大師水準的攝影師作品網站，用上文件夾里的圖片并配上精美的講解。

Qwen3.6-Plus，之前已經測過，效果很驚艷。

來看下DeepSeek V4 Pro的表現。

也是深色背景+Hero全屏+網格畫廊，整個水準跟Qwen3.6-Plus差距不大。

如果要論細節的話，Qwen3.6-Plus在一些logo、文字配色和交互動畫上要更強一些。

Qwen3.6-Plus生成的首屏

DeepSeek V4 Pro生成的首屏

4）Agent長程任務

任務，還是我們的老case，讓Claude Code做一個聯網搜索+word生成+skill調用+網站開發的復雜長程任務。

提示詞：聯網搜索、調研張雪機車的發展軌跡，盡量從權威信源獲取信息。首先，給我創建一份5000字的word調研報告。然后，調用Knowledge Site Creator Skills給這份報告創建一個知識學習網站，頁面高級審美。

這個任務，DeepSeek V4 Pro跑了很久，耗時33分鐘。

交付給我了2個東西，一個是word報告，一個是知識學習網站（帶后端）。

先看word報告。

內容還是挺全面的。最近，我高頻在用DeepSeek做信息檢索，回答質量一直都比較靠譜。相比去年的DeepSeek，現在的幻覺已經大幅下降。

然后，再看它生成的知識學習網站。

直接帶了后端+數據庫的功能，我添加數據后，這個網站就可以真實使用了。

以上4個case，一共消耗了450萬tokens，成本10元。蹲一個，DeepSeek啥時候出CodingPlan啊。

5）世界知識任務

世界知識，要系統測起來，比較麻煩。

我問了一些陌生領域（關閉聯網，下同）的問題，它都能答得上來。

一些次新的知識，它也訓了進去。

但最新的，它不知道。

我問了下它的知識庫，說是訓練數據截止到2025年5月。

6）寫作任務

以我經常干的事“讓AI續寫”來進行測試。

提示詞：
參考下文的風格續寫，300字：
現在，誰發我一張圖，我的第一反應都是：“這是不是GPT生成的？”
人類社會，大家能夠坐下來一起討論事情，最基本的前提是，我們活在同一個現實里，對最基礎的事實認知是一致的。
而今天，目光所及的一切都在崩塌。

DeepSeek V4 Pro的表現還行，但還是愛拽一些技術詞，比如錨點、腳本、圖靈測試等。

GPT-5的表現，明顯就更像人一些，說人話。

GPT，也一直是我的常用寫作模型。但自己要注意微調一下，比如讓它不要老說“不是…而是”，不要一直加破折號、冒號。

Gemini-3.1-Pro的表現繼續拉胯。拽那么多成語一點用都有，跟原文的風格非常割裂。

上周，我跟大家分享了，很多人都在評論區說Gemini 3.1/3.0遠不如Gemini 2.5，確實如此。

Claude-Opus-4.6，這寫作能力依舊頂級。

整體測下來，我覺得DeepSeek V4的表現是“一般貨色”。

這其實也和他們自己的判斷一致，距離全球頂尖模型（不論開源還是閉源），大概還有3-6個月的差距。

他們在官方文章中寫得也很克制：「不誘于譽，不恐于誹，率道而行，端然正己。」

不是任何東西，一出來就是張雪機車，就是世界第一的敘事。

但有意思的是，今天的AI行業，已經很少有人愿意接受“一般貨色”這四個字了。

你發一個模型，如果不能吊打、不能碾壓、不能重構一切，那就很容易被歸類為“沒意思”。

可冷靜想想，這種思維不正常。

技術的發展，本來就應該是連續函數，而不是每一代都指數爆炸。

大多數時候，真正決定行業走向的，反而是這些“差一點點”的版本：更穩一點，更可控一點，生態更完善一點。

DeepSeek V4給我的感覺也是這樣。

它不驚艷，但它在補課。

重寫注意力機制，對Token維度進行壓縮，疊加自研的DSA稀疏注意力，把上下文從128k直接推到1M，而且是標配。
重改模型架構，同時適配英偉達GPU和華為昇騰NPU。
重換后訓練路徑，從V3.2的SFT+混合RL，切到On-Policy Distillation（OPD），先練專家，再做融合。
同時補齊Agent能力，對Claude Code、OpenClaw、CodeBuddy這些實際在用的Agent產品，做針對性優化。

這些事情，沒有一件是能上熱搜的。

但，總得有人要去做。

而這一次，是DeepSeek。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.