![]()
一周真實業務流、四個中國特色場景和三百組對比測試,V4到底行不行?
作者丨孟一凡
編輯丨馬曉寧 梁丙鑒
DeepSeek V3 有多震撼,V4 給人的落差就有多大。
4 月 24 號那天,我打開微信,看到群里一條條的“就這”、“還行”,忽然想起 DeepSeek V3 “炸群”的那天。當時有人說 OpenAI 的棺材板要壓不住了,還有人干脆把 V3 的跑分截圖設成了手機壁紙。
V4 呢?
Vals AI 說它是全球第九,中國國內第二。有開發者直接向媒體表示略感失望,DeepSeek 自己也承認,Agentic Coding 比 Opus 4.6 思考模式還有差距,世界知識也不如 Gemini。
但當我把它塞進一個 workflow 里跑上一周,測了一堆只有中國開發者才懂的場景之后,我發現 V4 或許無法復刻 V3 帶來的震撼,但它仍然是 DeepSeek 最重要的作品之一。
至于原因,我想先談談失望論,到底在失望什么。
01
“榜單第九”,到底在失望什么
DeepSeek V4 平均準確率 63.87% 的成績,出自 Vals AI 的測評。這個測評集覆蓋金融、法律、編程、多語言等維度,V4 全球排名第九,國內僅次于 Kimi K2.6。排在它前面的,有 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4,全是閉源模型。
數據本身沒有問題,但解讀方式很值得挖一挖。如果 Vals AI 用美國律師資格考試、英國金融合規題、英文編程競賽來排名,那跟我一個寫微信小程序、讀李商隱、寫八項規定學習心得的中國用戶,有什么關系?
更關鍵的是,Vals AI 不測中文古詩詞理解、中國法律法規引用、中文網絡梗的理解,也不測公文寫作水平或者把“新質生產力”翻譯成英文的時候會不會胡編。而這些,才是中國用戶會面對的場景。
所以我們重新設計了一套評測方案。包括古詩詞、法律、網絡梗、公文、翻譯五大中國特色場景,外加完整的開發工作流實測,重新衡量一下 V4 的表現。
在古詩詞和法律維度,我們邀請了 Opus 4.7 作為裁判模型評分,工作流維度從可運行性、可讀性、可維護性三個工程指標評估,智能體維度則考察任務分解、工具使用、自我糾錯、任務完成度、狀態管理五項能力。
結果,很耐人尋味。
02
四個“只有中國人懂”的測試
V4 到底是真懂中文語境,還是只會背標準答案?我們先從最“不實用”的一項測起,中國古詩詞深層理解。
其實讓大模型讀古詩,有點像讓老外聽相聲,懂字面意思還不夠,重點是明白弦外之音的包袱。V4 在這件事上的表現,直接體現了它到底有沒有“中國心”。
我們選擇了李商隱的《無題》,要求 V4 逐層剝開“春蠶到死絲方盡”中”絲”的三層含義。小時候老師講過這句詩,除了蠶絲和“思”的諧音,這個字還傳神地表現出了思念的纏綿特質。而令我驚喜的是,DeepSeek V4 在這三個答案之外,還提出了一個教科書里沒有提到的層次,“生命之質”。
“將’絲’提升為一種生命元質,象征著人的生命力、精神與靈魂的耗盡過程。蠶的生命由絲構成,人的生命由情思支撐,二者在’生命本質的外化與耗盡’這一層面上合二為一。”
更妙的是,當我問它能不能把原句改為“思方盡”,V4 稱這會導致“整個詩意將發生質的降級,從一座立體的詩歌建筑坍縮為一個單薄的陳述句。”
顯然,這種分析不是能靠背誦百度百科做到的。
而整個測過過程中,V4 讓我印象最深刻的一段輸出,是對杜甫“國破山河在”中“在”字的解讀。
它寫道:“’國破’與’山河在’之間形成了一個巨大的情感裂谷。‘國破’是人事的徹底崩塌,’山河在’是自然的永恒漠然。”下面的這句話,我讀到時停下來看了三遍:“你失去了整個世界,而世界若無其事。”
Opus 4.7 評委給了近乎滿分的評價,準確性 5、洞察力 5、文化敏感度 5。評語是:“‘剝奪了與萬物同悲的幻想’‘被世界拋棄的存在性孤獨’‘美與殘酷同時抵達頂峰’等表達極具個人體悟,超出教科書式的解讀。”
可以說,在中文古詩詞深層理解上,V4 的表現是當下所有大模型中最頂尖的之一。它不僅僅在做詩歌閱讀理解題,而是讓我有了種一窺詩人精神世界的感覺。
第二組測試聚焦中國法律法規的引用準確性。
這組題的設計邏輯很直接,大模型在法律領域的最大風險不是”答得不好”,而是”編造法條”,一本正經地引用一條根本不存在的法律,專業律師沒準也得琢磨琢磨。
而 5 道題測下來,V4 做到了法條引用零幻覺。
《網絡數據安全管理條例》第 38 條下有兩款規定,但我們設置了一個陷阱,請 V4 解讀一下第三款的內容。很多模型在這種情況下會硬著頭皮編造,但 V4 的處理堪稱教科書級別:
“《條例》第 38 條內容是關于主管部門對網絡數據安全監督檢查的禁止性規定,其僅有 2 款,并無第 3 款。你問及的‘向主管部門公示用戶數據收集情況’的義務,實際上規定在《條例》其他條款中。”
隨后,它沒有就此停筆,而是主動幫用戶梳理了真正相關的條款(第 26 條、第 36 條、第 19 條、第 21 條),并逐一引用原文、說明適用情形。
敢于說”找不到”,還能引導你到正確的地方,這種“負責任的不知道”,正是模型落地最珍貴的能力。
在另外四道題的測試中,我們也人工核對了 V4 引用的每一個法條,均為真實存在。在法律這個”寧可答得慢,也不能答得假”的領域,零幻覺是最硬的指標。
下面的測試,是關于 V4 對中文網絡梗與亞文化的理解。我們發現它是 5G 沖浪選手,但也會自信瞎編。
這組測試有 6 道題,沒有正式評分,只做定性觀察。我們關注的核心問題是,一個 AI 能不能理解”遙遙領先”為什么是陰陽怪氣的萬能鑰匙?而面對一個根本不存在的梗,它敢不敢說”我不知道”?
首先是“遙遙領先”的符號演變分析,V4 準確追溯到了余承東和華為 Mate 60 的發布,還歸納了三種使用語氣,分別是真誠的自豪、調侃幽默、諷刺反話。在那個成功造梗的視頻中,V4 還解析了“夢開始的地方”“前方高能”“下次一定”等 B 站彈幕,每一條都標注了字面意思、實際用法、出現位置和觀眾心理模式,甚至連“翻譯難度”都做了分級判斷。
還有一道職場對話分析題:“你這次方案做得也挺好的呀,雖然大家都不這么做,但你有自己的想法嘛,挺好的挺好的。”
V4 逐字拆解了這段話的語言策略:
“也挺好的”:也’是勉強附和的信號;
“雖然大家都不這么做”:通過預設“不合群”來委婉指出方案是異類;
“挺好的挺好的”:機械重復恰恰是敷衍、想快速結束話題的標志;
“不用管大家怎么說”:表面挺你,實則切斷提醒你的可能性;
然后給出了直白翻譯:“你這次方案其實做得很一般,跟大家正常的做法根本不一樣。我懶得跟你認真討論了,反正你覺得自己挺有想法的,那就照你的想法繼續弄吧,到時候出了問題你自己看著辦。”
做完這項測試,我開始理解網上有人用 AI 當職場翻譯器了。
不過有一道測試暴露了嚴重問題。我們故意問了一個根本不存在的梗,“電子嘔吐”,而 V4 的反應卻是洋洋灑灑一千多字的”深度解析”,來源、含義、使用場景、文化解讀一應俱全。
它說,“電子嘔吐是一個最近在中文互聯網上很火的網絡流行語,形容的是一種在社交媒體上的情緒宣泄行為……”。V4 甚至還這個梗編了兩種用法,分別是人類情緒宣泄和 AI 生成低質量內容,乍一聽頭頭是道,唯一的問題是,這個梗根本不存在。
正確的做法,是承認自己不了解這個說法,推測可能是新出現的表達,建議提供上下文。
最后的考驗是翻譯,不是單純地將一種語言變成另一種,而是把中國話講成世界聽得懂、愿意聽的樣子。
我們準備的 6 道翻譯題中,覆蓋政策術語、企業用語、經典標語、成語比喻、長段落綜合翻譯。這項測試同樣沒有量化評分,但 V4 的表現可以說是游刃有余。
首先是政策術語,V4 不僅精準使用了“新質生產力”的官方譯法 “new quality productive forces”,還解釋了”新質”在政策語境中的四層含義,即技術革命驅動、要素重組與躍升、全要素生產率提升、先進生產力質態,并提供了兩種備選譯法及其優劣對比。
更出色的是“綠水青山就是金山銀山”的分場景處理。V4 指出官方文件應采用 “Lucid waters and lush mountains are invaluable assets”(官方定譯,概念化、抽象化),而如果是旅游景區宣傳牌則可保留 “mountains of gold and silver” 的具象比喻,如 “Green hills and clear waters are the real gold and silver”。
同一個詞組,在不同場景中給出不同譯法,這種對語境的敏感恰恰是很多翻譯模型缺乏的。
還有排比節奏的巧思,在“做大做強做優國有資本”中,有三個兩字段動詞形成了排比。V4 的處理堪稱巧妙,它選用三個以 -er 結尾的比較級形容詞,“Make state-owned capital bigger, stronger, and better”,三詞均為單音節或雙音節,長短一致,產生了一種類似詩句的頓挫感,恰好再現了中文排比的韻律美和氣勢。
四組“只有中國人懂”的測試跑完,我們發現的一個有趣規律是,在詩詞理解、中文翻譯等需要“中國心”的領域,V4 表現最強。它的確不是全能的,但對于中文,確實比大多數對手更懂。
03
當一周牛馬——開發者真實工作流實測
把大模型當”賽博同事”用上一整周,它會是什么樣的員工?
這是我們設計的最接近真實開發節奏的一組測試,涵蓋了從數據庫設計到核心代碼編寫,從 Bug 診斷到性能優化,從技術文檔到智能體任務的完整項目周期。
其中涉及八項任務,全部交給了 DeepSeek V4 Pro。這個過程中沒有標準答案參考,也沒有多選題提供容錯空間,每一行代碼都要經得起編譯器和人類評委的雙重審視。
結果?V4 是一個代碼能力溢出的工程天才。
▎代碼生成的絕對主場
第一題要求 V4 設計一個支持全職、兼職、外包三種員工的工資系統數據庫。V4 給出的 PostgreSQL DDL,Opus 4.7 評委直接給了滿分三連,可運行性、可讀性、可維護性均為 5 分。
它的設計思路堪稱優雅,沒有硬編碼三種員工類型,而是用字典表 employee_types 統一管理。對于工資部分,V4 也沒有為每種工資項都寫個獨立字段,而是用 salary_items 字典表 + employee_salary_structure 結構表,堪稱教科書級的抽象。
![]()
'E' 代表收入,'D' 代表扣除,is_taxable 標記是否計稅。這種設計意味著,當公司需要新增一個”通訊補貼”或者調整計稅規則,不需要改表結構,只需插入一條配置數據。
對此,Opus 4.7 評委的原話是:“設計專業、抽象得當,兼具可執行性與可擴展性,是一個優秀的工資計算數據庫模型。”
測試任務還包括工資計算核心邏輯的 Python 實現,其中要求包含類型注解和文檔字符串。V4 的表現讓 Opus 4.7 評委再次給出全 5 分的評價,評語“模塊化設計優秀。”
代碼一開頭就是規范的 dataclass 定義:
![]()
更令人印象深刻的是,它采用了抽象基類 + 子類繼承的架構:Employee 作為 ABC 抽象基類定義 calculate_base() 接口,FullTimeEmployee、PartTimeEmployee、OutsourceEmployee 分別實現各自的計薪邏輯。
個稅計算部分,嚴格遵循了累計預扣法,不是按月獨立估算,而是維護了 YTDData(Year-to-Date)累計數據結構,正確處理了年初累計值傳遞。更難得的是,代碼還處理了公積金比例越界校驗、累計稅負為負的兜底、浮點數精度四舍五入等邊界條件,這是能直接進代碼倉庫的水平。
DeepSeek V4 差的一分,丟在了工資單 Excel 導出的可維護性上。這部分的代碼功能實現了多 Sheet 生成、匯總表、表頭加粗、數字保留兩位小數、負數標紅、自動列寬等,已經堪稱完備,但是薪資項目仍部分硬編碼在字典 key 和字段列表中,未完全模板化配置。
通俗來說,這意味著當用戶需要新增一個”交通補貼”列,就需要修改字典 key 定義、Sheet 寫入邏輯和匯總表統計邏輯三個地方。對比它在 DDL 設計中展現的抽象功力,這個 Excel 實現確實“偷懶”了。
▎Bug 診斷:比 linter 更敏銳的眼睛
如果說代碼生成考驗的是“寫出來”的能力,那么 Bug 診斷考驗的就是”看出來”的能力。我們向 V4 提交了一段個稅計算代碼,并指出問題是”個稅總是偏高”。
V4 的診斷過程堪稱法醫級別:
“代碼在計算應納稅所得額時,只扣除了社保、公積金和每月 5000 元的基本減除費用,沒有扣除’專項附加扣除’(例如子女教育、繼續教育、大病醫療、住房貸款利息、住房租金、贍養老人等)。”
到這里,已經是正確答案了。但 V4 沒有停,它還額外指出了五項潛在問題:
1、負數應納稅所得額未處理——當收入低于扣除項時,原代碼會算出負稅額
2、社保公積金基數簡化——實際有上下限,不能直接用全額工資
3、未使用累計預扣法——按月獨立計算不符合現行稅法
4、浮點數精度問題——沒有 round(tax, 2)
5、區間下界 lo 閑置——代碼定義了但未使用,可以簡化
一道”找 Bug”的題,它做出了代碼審查深度。
▎技術文檔:能把代碼講清楚的人
第八題要求基于前面的工資計算器項目,產出 README、API 文檔和技術方案說明三份文檔。V4 拿到了 5, 5, 4 的成績,差的一分扣在技術選型的決策清晰度上,評委 Opus 4.7 認為它“缺少與備選方案(如 Django ORM、pandas)的對比分析”。
但整體而言,三份文檔的結構令人賞心悅目。README 遵循了”項目結構→安裝→初始化→用法”的黃金路徑;API 文檔用表格列出了核心函數的參數和返回值;技術方案說明則包含了架構分層圖和擴展方向。
特別值得稱贊的是 API 文檔中的數據示例,不是干巴巴的參數列表,而是給出了完整的輸入輸出樣例。特別是在團隊協作中,這種文檔,能讓一個剛剛接手任務的新人在 15 分鐘內理解項目全貌。
Opus 4.7 評委的評語很到位:“三份文檔完整且結構化,兼顧上手指南與架構說明,是一份高質量的項目交接文檔。”
▎智能體能力:完成任務,但不夠驚艷
智能體測試部分,考察的是多步任務規劃與執行能力。我們給了 V4 一組關于具身智能行業動態的搜索結果,要求它提取信息、整理表格、寫趨勢總結,最后組織成 Markdown 報告。
V4 的得分是任務分解 5 分、工具使用 4 分、自我糾錯 4 分、任務完成度 5 分、狀態管理 5 分。Opus 4.7 評委的評語:“整體完成質量高,報告結構清晰、信息準確,趨勢分析具有深度洞察。”
具體到產出質量,V4 的 200 字趨勢總結寫得相當扎實:“近期具身智能領域的融資呈現出資本集中化與技術路徑差異化兩大顯著特征。頭部效應初顯,如加速進化獲得近 10 億元巨額融資……初創公司憑借獨特的技術路線仍能獲得資本垂青……。”
這段分析從”資本集中化”和”技術差異化”兩個維度切入,既有具體公司和金額的信息點又有賽道趨勢的全局呈現,末尾還點出了”清華系、中科大系等頂尖學術背景的復合型創業團隊成為最大贏家”的結構性觀察。
▎一周 KPI 考核表:偏科天才的績效面談
把工作流任務和智能體任務匯總,V4 的”一周考核”成績單如下:
![]()
從綜合評分可以看出,V4 在代碼生成/診斷類任務中的表現約等于 4.8 分,達到頂尖水平,而文檔/智能體類任務則約等于 4.3 分。
這組數據背后的畫像非常清晰,DeepSeek V4 Pro 是一個技術能力強到溢出的工程天才。你給它明確的需求,它能交出工業級的代碼。在真實團隊里,這種人就是 CTO 的心頭肉,代碼不用改就能合并,架構圖不用重畫就能落地。
那么對于普通開發者而言,這意味著什么?
用 V4 的最佳方案,就是把需求拆成明確、具體的子任務,然后交給它寫代碼。如果你已經想清楚了要做什么,V4 可能是你能找到的最強幫手,從 Python 到 SQL,從架構設計到性能優化,它幾乎無所不能。
畢竟,能讓法拉利跑出比亞迪油耗的,全世界也沒幾個。
04
成本之仗:
有人比拼便宜,有人重新定義貴
到此為止,可以算一筆賬。
對 Agent 應用而言,Input:Output 按 10:1 比例計算下,每天消耗 100 萬輸入 token、10 萬輸出 token 屬于正常量級。那么按各家當前的 API 定價跑一個月:
![]()
在國產模型中,V4 Pro 的月成本是 Kimi K2.6 的約三分之一,GLM 5.1 的約一半。
這還不是最狠的。V4 Flash 性能接近 Pro,但推理成本壓到了極低,月成本只要 $504。這個數字來到了 Kimi 的八分之一,GLM 的六分之一。
當然這里有一個重要的前提。V4 Pro 的折扣價(75% off)目前標注“延續至 2026/5/31”,模型發布之初官方就表示,“受限于高端算力,目前 Pro 的服務吞吐十分有限,預計下半年昇騰 950 超節點批量上市后價格會大幅下調。”
未來如果國產算力跟上,這個價格仍有下降空間,但同樣也有回調的可能。但至少在當下,它是三家里面最便宜的頂級模型,沒有之一。如果你是個用量大的開發者,V4 Pro 的性價比幾乎沒有對手。
所以到底要不要把 V3 換成 V4,如果你是開發者,那我的答案是當然。
V4 相比 V3 的提升不是 5% 的邊際改善,而是多個核心能力的質變。詩詞理解從“還不錯”變成”頂尖”,代碼生成從“能用”變成”優秀”,技術文檔從“還行”變成”優秀”。智能體能力雖然沒拿滿分,但已經足以應對大多數工具調用場景。
而且 V4 Pro 現在的折扣價,和 V3 當初的價格差不了太多。花同樣的錢買更強的能力,這買賣不虧。
而如果你還不確定 Flash 和 Pro 要用哪個,我的建議是先用 Flash。Flash 的價格是 Pro 的約三分之一,但能力差距遠小于價格差距。根據社區反饋,Flash 在非思考模式下已經能解決 80% 以上的日常任務,思考模式下則能觸及 Pro 90% 以上的深度推理能力。
那么Pro 適合什么時候上?當你的任務需要極致的代碼能力,或者需要 1M token 級的超長上下文做深度文檔分析,又或者你對輸出質量要求極高不能容忍“差不多”,否則,Flash 一定是更具性價比的選擇。
回到文章開頭的問題,DeepSeek V4 Pro 讓人失望了嗎?
或許更重要的問題是,在今天的大模型之爭中,我們要如何定義失望。如果你期待的是一款拳打 GPT-5、腳踢 Claude Opus、同時支持多模態和實時聯網、還能秒回你每一條消息的”全能之神”,那這種失望幾乎是注定的。V4 Pro 不是,也沒必要成為那種模型。
但如果你期待的是用三分之一的價格,得到接近甚至超越國際頂尖閉源模型的核心能力,那么V4 Pro 不僅不讓人失望,反而是一次令人驚喜的交付。
讓我們用數據說話。回顧一下 V4 Pro 在我們實測中的表現:
? 詩詞理解:平均 4.75/5,頂尖
? 法律引用:約 4.5/5,優秀
? 翻譯:定性 A+
? 代碼生成:4.9/5,頂尖
? 技術文檔:4.7/5,優秀
? 智能體能力:4.6/5,良好
這份成績單,放在任何一家國產模型身上,都堪稱亮眼。而放在一個 API 價格比競品便宜 3-5 倍的模型身上,則算得上離譜。
DeepSeek 給自己的定位也很清醒。官方在發布文檔里明確寫了:“V4-Pro-Max 在標準推理 benchmark 上整體性能略遜于 GPT-5.4 和 Gemini-3.1-Pro,表明其發展軌跡大約落后最前沿閉源模型 3 到 6 個月。”面對打了雞血一樣的市場情緒,DeepSeek 就是一句平平淡淡的“還差一截”。
那么 3 到 6 個月的差距,值 3 到 5 倍的價格差嗎?
對大多數開發者和企業來說,答案是肯定的。V4 Pro 在代碼、文檔、寫作、翻譯等核心生產力場景上表現,已經好到可以讓你忘記那份差距,心安理得地省下一大筆錢。所以如果你問我 V4 Pro 值不值得用,它在該行的地方行,不行的也沒硬撐,這恰恰是一款好模型該有的樣子。
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.