網易首頁 > 網易號 > 正文申請入駐

像梁文峰一樣誠實

2026-04-27 10:24:56　來源: 藍鯨新聞

上海舉報

分享至

文｜象先志

「不誘于譽，不恐于誹，率道而行，端然正己。」

原話出自《荀子·非十二子》，這次被 DeepSeek 放到發布稿的結尾。

《非十二子》本身就不是一篇溫吞的文章。荀子在里面逐一批評當時有影響力的學說和人物，甚至連儒家內部的子思、孟子也沒有放過。

所謂"非十二子"，不是簡單地否定別人，而是在一個思想市場極度熱鬧、各種聲音都試圖爭奪解釋權的時候，重新辨認什么是真正可靠的道路。

梁文鋒當然不是想批評別人，他甚至連對外講兩句都沒興趣。這只是一種自我說明，和自我道路的確認。

外界 care 我們，但我們不 TM care。

過去一段時間，DeepSeek 處在一種很特殊的位置上。

V4 遲遲沒有發布，又不斷被各種融資、延期、人才流動的猜測包圍。

AGI 夢想在前，贊譽、質疑、情緒和輿論，全是噪聲。

外界可以有很多評價，但最后能回應一切的，還是模型和產品。

這也是梁文鋒和 DeepSeek 特別的地方。他們身上有一種少見的理想主義，但這種理想主義不是輕飄飄的口號，而是非常工程化、非常具體的東西：模型做強，成本打低，上下文擴張，Agent 能力補上，把真實使用體驗擺到用戶面前。

而且還很誠實。

理想主義的人不一定誠實。

比如馬斯克顯然有理想主義，星際移民和通用 AGI 都在射程之內。但馬斯克顯然不夠誠實。對于今天模型圈的人來說，誠實是個更加稀缺的品質。

今天新模型發布后，你已經很難直接獲得關于模型能力的相對客觀的評價了。你看到一堆跑分和基準測試，跟實際體驗是兩個東西。

DeepSeek 文章里給出了他們內部的真實體驗判斷：目前 DeepSeek-V4 已成為公司內部員工使用的 Agentic Coding 模型，據評測反饋使用體驗優于 Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式，但仍與 Opus 4.6 思考模式存在一定差距。

相當清楚，一目了然，基本鎖死外部野生評測員的補位空間。

所以我建議所有模型廠商，模型發布的時候，除了那批已經沒啥人看的跑分，都加上自己內部蓋戳認證的真實印象。

這個東西很關鍵。

因為 Agentic Coding 不是考試題。模型在一個榜單里多拿幾分，和你真的把它放進一個代碼倉庫里，讓它讀需求、看文件、改代碼、跑測試、修 bug、繼續迭代，是兩回事。

真實體驗里有很多 benchmark 很難覆蓋的東西。任務一長就丟失目標，用著用著就忘掉前面的約束，改我不讓它改的文件，真的讓人抓狂。

所以 DeepSeek 這段話不是覺得自己很強，不是benchmark說我很強，而是它給了一個非常接近真實用戶語言的坐標。

強在哪里，接近誰，和誰還有差距，說得很明白。這種表達其實比"全面超越某某模型"高級得多，也有用得多。

具體聊下模型。

1M上下文

現在很多模型的默認上下文還是256K這個級別。對普通聊天來說，這已經很長了。但對 Agent 任務來說，其實經常不夠。vibe coding的時候，或者跑個龍蝦跑匹馬的時候，模型需要在一個很長的任務過程中持續保留信息。

很多時候模型任務失敗，不是它單點智力不夠，而是因為工作記憶不夠。

它前面讀過的東西，后面就忘了；用戶一開始強調的要求，做著做著丟了；項目結構剛理解完，改到第三輪又開始漂移。上下文不夠的時候，Agent 很容易變成一個短視的執行器，很難跑完整個任務。

1M 上下文的意義就在這里。它讓模型更像一個能長時間工作的協作者。

嚴格來說，這還不是參數意義上的"持續學習"，因為模型權重沒有更新。

但從產品體驗上講，它已經接近一種上下文內的持續學習：模型可以在同一個任務窗口里不斷吸收資料、用戶反饋、歷史決策和中間產物，然后把這些東西帶到后面的推理和執行里。

未來很多 AI 應用不會是"我問一句，你答一句"，而是"我給你一個目標，你陪我把一件復雜的事做完"。這時候上下文就是模型的工作臺，也是它的短期記憶。上下文越長，模型越有機會從單輪工具變成持續協作系統。

為了更好地支持長上下文，DeepSeek 重新處理了 Transformer 最昂貴的那一層東西：注意力。

傳統注意力的問題大家都知道，它越往長上下文走，成本越不講道理。因為模型不是把前文當成一篇文章粗略掃一眼，而是每生成一個位置，都要和前面大量位置建立關系。上下文長度擴大以后，計算和顯存壓力會以非常陡的方式上升。

V4 的思路是把"看上下文"這件事拆得更細。它不再要求模型在所有層里都用同一種方式平鋪直敘地看完整歷史，而是讓不同注意力模塊承擔不同尺度的記憶任務。

一部分模塊負責做比較細的壓縮和篩選：先把連續的小段 token 整理成更緊湊的記憶單元，再讓當前位置只去關注其中最相關的一部分。

另一部分模塊則負責更粗尺度的全局感知，把更長的一段歷史壓成更少的記憶節點，然后在這些節點之間做相對完整的關聯。它犧牲了一些局部細節，但換來的是對超長歷史的整體把握。

這個方向我覺得非常 DeepSeek。

因為 DeepSeek 過去兩年最關鍵的技術氣質，一直不是"堆大"，而是"稀疏化"，是降成本。

V2、V3 的 MoE 是參數層面的稀疏化：模型總容量很大，但每個 token 只調用一部分專家，所以能力上去，成本沒有按同等比例爆炸。

V4 這次更進一步，把稀疏化推進到了上下文本身：不是所有歷史 token 都以同等分辨率進入注意力，而是經過壓縮、篩選、分層之后，再被模型使用。

所以這次 1M 上下文，我覺得不能只當成一個產品賣點。

它更像是 DeepSeek 技術路線的一次延伸：先用 MoE 解決"模型容量和推理成本"的矛盾，再用新的注意力結構解決"上下文長度和計算成本"的矛盾。前者讓大模型變得更便宜，后者讓長任務變得更可行。

API價格

DeepSeek 去年之所以能掀起那么大的轟動，不只是因為它強，也不只是因為它便宜，而是它讓所有人第一次非常強烈地意識到：強和便宜原來可以同時成立。

這件事對行業心理的沖擊很大。因為過去大家默認頂級模型就是貴的，低價模型往往就要在能力上做妥協。但 DeepSeek 把這個默認前提打穿了。便宜但不好用，不會改變行業；強但太貴，也只能服務少數場景。但又強價格又低，就會改變成本結構，成本一動上面的生態就會跟著動。

拿公開 API 價格粗略看一下。deepseek-v4-pro的價格基本跟最新發布的kimi-k2.6一致，前者在緩存未命中情況下更貴，輸出則更便宜一點。

不過k2.6價格是256K的上下文長度，而deepseek-v4-pro則是1M的上下文。按照之前小米MiMo token plan的計費規則，從256k到1m上下文增長，API價格要翻倍。

而且這里需要看到下面灰色的補充信息。目前受限于高端算力，Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調。

說明當前Pro版本的價格是被刻意調高，因為推力算力還沒有跟上。未來Pro版本價格大幅下調，不排除在現有價格的基礎上對折甚至再對折。

國產算力齊活

之前一直有傳聞，說 DeepSeek-V4 這次沒有按照行業慣例，把早期適配優先權交給英偉達，而是先給了華為等國產芯片廠商。

當時這個說法聽起來還有點像江湖傳聞，因為大模型行業過去的默認流程就是圍著 CUDA 轉。模型廠商發新模型之前，先讓英偉達這些硬件和軟件生態的核心玩家提前適配，確保模型一上線就能在主流 GPU 上跑得又快又穩。

現在看來，國產全棧AI基本齊活了。

上面我們提到，DeepSeek 自己在發布稿里寫了，受限于高端算力，目前 Pro 的服務吞吐十分有限，預計下半年昇騰 950 超節點批量上市后，Pro 的價格會大幅下調。

華為計算公眾號也說，昇騰一直同步支持 DeepSeek 系列模型，這次通過雙方芯模技術緊密協同，實現昇騰超節點全系列產品支持 DeepSeek V4 系列模型。昇騰 CANN 還安排了 DeepSeek V4 昇騰首發直播。

CUDA 的優勢不是英偉達某一張卡很強，而是模型、框架、算子庫、開發工具、部署經驗、工程人才，全都圍著它長了很多年。你要從 CUDA 遷到 CANN，大量底層算子、精度對齊、通信、調度、推理服務都要能跑通，而且要跑得足夠好。

DeepSeek-V4 能在昇騰超節點上作為重要服務底座跑起來，這對國產算力是一次非常關鍵的驗收。DeepSeek 的性價比不是憑空來的，它背后一定要有算力供給。

如果永遠依賴昂貴、受限、供給不穩定的外部 GPU，再強的模型也很難長期維持低價。國產算力如果能接上，DeepSeek 才有可能繼續把"強模型 + 低價格"這件事往下打。

所以這件事我覺得可以說是 DeepSeek-V4 里最硬的產業信號之一：模型有了，長上下文有了，Agent 能力有了，API 有了，現在連國產算力底座也開始接上了。

閉環開始形成。

DeepSeek 負責把模型能力和成本曲線打出來，華為昇騰負責把高端推理算力和超節點供給接上，CANN 負責補國產軟件棧，開發者和 Agent 產品負責把需求跑起來。

為什么 DeepSeek-V4 這次發布很振奮。

它不是一個孤零零的模型更新，而是把很多原本分散的線索接到了一起：梁文鋒的理想主義，DeepSeek 的誠實表達，1M 上下文，Agent 能力，低價 API，昇騰超節點，國產算力放量。

每一個單獨看都重要，但合在一起，才是真正讓人興奮的地方。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

做孝莊的女兒有多幸福？這是哲哲三個女兒不能比的

清史迷 2026-04-28 13:56:59
0 跟貼 0
“千古詞帝”李煜筆下187句金句，總有一句驚艷過你

詩詞天地 2026-04-28 14:09:51
0 跟貼 0

魯獎詩人韓東代表作《有關大雁塔》足以為口語詩正名，推薦一品

詩天子 2026-04-28 12:19:57
0 跟貼 0

尺度炸裂劇情大膽，如今影視劇很難過審

挑燈剪輯 2026-04-26 09:21:58
89 跟貼 89
人類對貓的底層代碼，開發程度尚不足1%

搞笑的汪仔 2026-04-26 14:29:27
1 跟貼 1

“抓住梁文鋒，還我血汗錢”！滿屏都在喊“抓住梁文鋒

小牛愛說事兒 2026-04-27 09:25:30
7 跟貼 7

上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
流式意圖檢測+永久記憶，NUS&NTU發布Pask：把賈維斯AI拉進現實

新智元 2026-04-28 13:45:34
0 跟貼 0

中日之戰已經無法避免，我們已經向聯合國，遞交了相關文件

胡侃帶吃瓜 2026-04-27 09:54:00
1 跟貼 1
面試官：“你一天燒多少 Token？” 我：“不知道?！?面試官：“那你別面了，回去吧?！?/a>

程序員魚皮 2026-04-28 13:35:11
0 跟貼 0
一大批高校，將搬遷！

吉刻新聞 2026-04-27 16:08:43
955 跟貼 955
被肘到臉部變形？二級惡犯驅逐？判罰尺度遭集體質疑？拉閘關燈？

小痞不過分吧 2026-04-27 18:15:45
0 跟貼 0
租了個AI程序員，9秒把公司數據庫當bug修掉了，還寫下認罪書

機器之心Pro 2026-04-28 14:15:01
0 跟貼 0
3個月手搓Gamma架構，這個團隊打造出了下一代內容OS

量子位 2026-04-28 10:13:55
0 跟貼 0
最強大模型，保質期越來越短了

鈦媒體APP 2026-04-28 12:41:16
0 跟貼 0
特工男攜帶重要文件被跟蹤，裝扮成盲人成功脫險

飛鳥潛影 2026-04-24 00:00:00
0 跟貼 0
OpenClaw大更新，AI智能體不再是黑箱！官方口號：少點神秘

新智元 2026-04-28 10:48:08
2 跟貼 2
等人時，我們在等什么

心事寄山海 2026-04-28 00:45:29
0 跟貼 0
浪姐二公贏了的反倒淘汰？規則把流量寫直白

骨子里的一身傲氣 2026-04-27 03:36:59
1 跟貼 1
霹靂15嚇壞印度！電視臺專門訪談，專家直呼這破壞了空戰規則！

曉哲舞蹈課 2026-04-25 13:38:31
11 跟貼 11
小男孩翻出窗外玩耍，媽媽上一秒耐心勸導，下一秒一把將其拽回… 窗邊安全，萬不可松懈！#睡個好覺

環球網資訊 2026-04-27 22:19:39
122 跟貼 122
女子飯店包間為狗狗過生日，未打擾其他顧客

華聲在線 2026-04-27 19:08:23
296 跟貼 296
空警600vsE-2D預警機：核心參數與性能對比全解析

因果 2026-04-25 10:02:10
0 跟貼 0
女生在路上跟一位帥哥打招呼，沒想到直接觸發了帥哥的底層代碼

音樂下午茶官方 2026-04-27 23:21:14
0 跟貼 0
用 Agent 團隊來做知識管理，非常頂！

蒼何 2026-04-28 14:04:43
0 跟貼 0
《強化學習數學基礎》

新浪財經 2026-04-27 17:57:43
0 跟貼 0
80/20陷阱：聰明人為何選錯伴侶

晚風也遺憾 2026-04-28 00:36:35
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
AI產業硬件利潤大增、軟件估值腰斬：機構用腳投票的真相

鈦媒體APP 2026-04-28 12:53:09
0 跟貼 0
軟件工程師的活兒，天生就干不完

時光慢郵啊 2026-04-28 01:38:47
0 跟貼 0
英語缺詞的7個日本概念：效率系統沒覆蓋的盲區

時光慢郵啊 2026-04-28 00:58:37
0 跟貼 0
9秒，公司沒了！Claude「刪庫跑路」，Anthropic封殺110人公司，卻還在扣錢

新智元 2026-04-28 13:45:12
0 跟貼 0
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
2126 跟貼 2126
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
這四句話，比"我愛你"更值錢

晚風也遺憾 2026-04-28 00:55:09
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
沉默是選擇，不是認輸

時光慢郵啊 2026-04-28 00:36:37
0 跟貼 0
明星臨終前的"整理事務"：一場被誤讀的告別

影視情報室 2026-04-27 22:44:59
0 跟貼 0
教學部一紙文下來，從今年9月開始，上學的規則全變了！

于令 2026-04-28 03:42:32
14 跟貼 14
你讀書的樣子真美｜揚州站：用一部部古籍勾勒“文脈地圖”

現代快報 2026-04-28 15:03:09
0 跟貼 0

藍鯨新聞

財經信息服務平臺

131771文章數 193851關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

旅游

數碼

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

像梁文峰一樣誠實

靜·觀--第二屆全國靜物油畫作品展 作品選刊

辭任杭州市市長后 姚高員已任浙江省政府黨組成員

辭任杭州市市長后 姚高員已任浙江省政府黨組成員

季后賽最新局勢：雷霆4-0晉級首隊 4隊3-1

蔡卓妍官宣結婚，老公比她小10歲

俞敏洪再遭重擊

10億周活目標落空！傳OpenAI爆發內部分歧

拒絕瘋狂套娃！現代艾尼氪金星長在未來審美點上

態度原創

華為三折疊手機持續迭代 新款預計10月推出

畫美達尼青島市鄉村振興片區丨五一必看！畫美達尼最全游玩指南

比AMD還狠！Intel發新驅動：可分配93%內存給核顯

靜·觀--第二屆全國靜物油畫作品展 作品選刊

靜·觀--第二屆全國靜物油畫作品展作品選刊

辭任杭州市市長后姚高員已任浙江省政府黨組成員

辭任杭州市市長后姚高員已任浙江省政府黨組成員

蔡卓妍官宣結婚，老公比她小10歲

拒絕瘋狂套娃！現代艾尼氪金星長在未來審美點上

華為三折疊手機持續迭代新款預計10月推出

靜·觀--第二屆全國靜物油畫作品展作品選刊