★ 設(shè)為星標(biāo) | 只講人話,帶你玩轉(zhuǎn)AIGC。
DeepSeek V4才發(fā)布一天,網(wǎng)上的解讀就已經(jīng)鋪天蓋地了。
但比較魔幻的是,官方的技術(shù)報(bào)告其實(shí)也就 50 來(lái)頁(yè),里面確實(shí)披露了一些訓(xùn)練方法、模型結(jié)構(gòu)之類的細(xì)節(jié)。
但很多外界最關(guān)心的核心問(wèn)題,其實(shí)并沒(méi)有講得那么細(xì)。例如:用了多少算力、訓(xùn)練的硬件具體是什么、包括成本等。
但網(wǎng)上已經(jīng)出現(xiàn)了各種各樣的解讀,從各種高度、各種角度切進(jìn)去,特別熱鬧,特別逗。
我們?nèi)豪镉腥舜蛄艘粋€(gè)比方,我覺(jué)得就很形象。他說(shuō):這就像“紅學(xué)”,連曹雪芹本人都不知道,原來(lái)《紅樓夢(mèng)》有這么厲害。
這就是比較魔幻的地方。
大家都知道 DeepSeek 是滔天流量,所以都想抓住這一波,都想蹭一下。
結(jié)果信息一多,對(duì)于真正想了解事情真相的人來(lái)說(shuō),反而就變成了一種信息過(guò)載,越看越亂,越看越不知道重點(diǎn)在哪里。
所以我覺(jué)得還是要回到 DeepSeek 官方的那句話:“不誘于譽(yù),不恐于誹。率道而行,端然正己。”
過(guò)度的贊譽(yù)和過(guò)度的嘲諷都沒(méi)有太大意義,我們還是應(yīng)該盡量客觀地來(lái)看待這些事情。
客觀地來(lái)講,DeepSeek 到底怎么樣,其實(shí)大家也不用猜了,它的技術(shù)報(bào)告里面寫(xiě)得非常清楚。在推理任務(wù)上,離真正的頂級(jí)模型大概落后 3-6 個(gè)月。
![]()
但其實(shí),GPT 5.4 發(fā)布到現(xiàn)在已經(jīng)快2個(gè)月了,而正巧這周又發(fā)布了 GPT 5.5,所以實(shí)際的差距可能還不止 3-6 個(gè)月。
很多人可能會(huì)覺(jué)得很失望(甚至唱衰),但我反而是在這點(diǎn)上很佩服他們。
他們不會(huì)因?yàn)橥饨缙谕撸捅犙壅f(shuō)瞎話,或者搞一個(gè)漂亮的跑分糊弄你。
我們其實(shí)看到過(guò)不少這樣的模型,上來(lái)就對(duì)標(biāo)國(guó)外的頂級(jí)模型,跑分也特牛逼,結(jié)果一用發(fā)現(xiàn)其實(shí)是一坨屎。
我知道很多人很難接受這種落差,因?yàn)閺?R1 到現(xiàn)在已經(jīng)一年多了,這么長(zhǎng)的時(shí)間遠(yuǎn)遠(yuǎn)超過(guò)了任何一家公司模型的發(fā)布周期。
所以很多人一直以為 DeepSeek 在憋個(gè)大的,期望值拉滿。大家在等的不僅是一個(gè)頂級(jí)模型,還是另一個(gè)“DeepSeek 時(shí)刻”。
但現(xiàn)實(shí)不是短劇,也不是爽文。不能期待每一次登場(chǎng),都能立刻炸翻全場(chǎng)。
而我個(gè)人覺(jué)得,這次真正的意義,反而不在于它能不能立刻對(duì)標(biāo)某個(gè)頂尖模型。
更重要的是,DeepSeek 在這次技術(shù)報(bào)告里,第一次很明確地把國(guó)產(chǎn)芯片(華為昇騰)也放進(jìn)了自己的技術(shù)驗(yàn)證范圍。
![]()
說(shuō)白了,它不只是在英偉達(dá)這套芯片體系上跑,也開(kāi)始認(rèn)真適配華為昇騰這一套國(guó)產(chǎn)算力體系。
當(dāng)然,這里也要說(shuō)清楚:這并不等于 V4 的完整訓(xùn)練過(guò)程已經(jīng)全部放在昇騰上完成。
官方并沒(méi)有這么說(shuō)。
但至少可以說(shuō)明一件事:DeepSeek 已經(jīng)不只是在做一個(gè)模型,而是在嘗試讓自己的模型適配更多算力底座。
這件事可能比跑分更重要。因?yàn)榇蠹叶贾溃F(xiàn)在 AI 最大的瓶頸之一,就是算力。
特別對(duì)我們國(guó)內(nèi)公司來(lái)說(shuō),很多時(shí)候不是沒(méi)有模型思路,也不是沒(méi)有工程能力,而是最關(guān)鍵的高端芯片和算力供給,被卡得死死的。
所以 AI 到后面拼的,不只是模型聰不聰明,還要看它能不能便宜地、大規(guī)模地、甚至在國(guó)產(chǎn)算力上跑起來(lái)。
如果未來(lái)真能在英偉達(dá)之外,也跑出一條相對(duì)穩(wěn)定的路線,那影響的就不只是 DeepSeek,而是整個(gè) AI 產(chǎn)業(yè)的成本結(jié)構(gòu)和供給結(jié)構(gòu)。(老黃其實(shí)早就擔(dān)憂了)
當(dāng)然,這件事一定不會(huì)輕松。
從一套成熟生態(tài),切到另一套還在成長(zhǎng)中的算力體系,里面會(huì)有大量適配、調(diào)優(yōu)、踩坑和重做。所以從 R1 到 V4 隔了這么久,可能不只是“憋大招”,而是在啃一塊更硬的骨頭。
另外一方面,大家可能會(huì)看到,這一次 DeepSeek V4并沒(méi)有像 R1 那樣在海外引起那么大的轟動(dòng)。
我記得之前那次(R1),其實(shí)反而是在國(guó)外先火起來(lái),然后國(guó)內(nèi)的一些媒體才開(kāi)始跟進(jìn)。我其實(shí)也是在那個(gè)時(shí)候,先看到國(guó)外的大 V 轉(zhuǎn)發(fā),后來(lái)才真正去研究的。
但這一次,海外的反響確實(shí)明顯平淡了很多。到現(xiàn)在為止,很多人的注意力還停留在前幾天發(fā)布的 ChatGPT Images 2 上面。
還有一個(gè)很有意思的對(duì)比點(diǎn):之前那次 DeepSeek 引發(fā)了英偉達(dá)股價(jià)大跌,最高跌幅接近 20%。
而這一次,市場(chǎng)反應(yīng)沒(méi)有像 R1 那次那樣恐慌,英偉達(dá)反而在時(shí)隔六個(gè)月之后,市值再次突破了 5 萬(wàn)億美元。
這說(shuō)明,大部分人其實(shí)還是在關(guān)注模型到底強(qiáng)不強(qiáng),或者說(shuō)是不是用了極低的成本來(lái)訓(xùn)練模型。
DeepSeek 的報(bào)告里面還有一個(gè)可能會(huì)被很多人忽略的點(diǎn),就是在它的致謝名單里面,他們明確地把那些離職的都標(biāo)了出來(lái),然后有人還去做了個(gè)統(tǒng)計(jì)。
這個(gè)結(jié)果大概是說(shuō),DeepSeek 的研發(fā)和工程團(tuán)隊(duì)離職率只有 3.7% 左右。
這個(gè)數(shù)字我們也不需要過(guò)度解讀,但也許可以說(shuō)明 DeepSeek 核心團(tuán)隊(duì)還是非常穩(wěn)定的。
大模型拼到最后,不只是拼一次爆發(fā),也是在拼長(zhǎng)期工程能力和組織韌性。
當(dāng)然這里面確實(shí)有一些非常重磅的人物離開(kāi)。比如說(shuō):第一代大模型的核心作者(據(jù)說(shuō)去了騰訊)、R1 的核心作者(據(jù)說(shuō)去了字節(jié))、OCR系列的核心作者。
但其實(shí)這也不是什么個(gè)案,國(guó)內(nèi)這些大模型公司這幾年,我印象中核心人物基本都換了一輪吧?
所以我覺(jué)得對(duì) DeepSeek V4 最好的態(tài)度,還是不要著急去下結(jié)論。
它當(dāng)然不是一次能封神的發(fā)布,也沒(méi)有復(fù)刻像之前那種全球刷屏的時(shí)刻。但如果我們只盯著它有沒(méi)有打敗最強(qiáng)模型來(lái)判斷,可能會(huì)錯(cuò)過(guò)一些更重要的東西。
大模型發(fā)展到今天,競(jìng)爭(zhēng)其實(shí)已經(jīng)早就不只是模型參數(shù)、跑分,或者媒體的聲量了。它背后還有一系列復(fù)雜的支撐體系:算力、工程、成本、供應(yīng)鏈管理、團(tuán)隊(duì)的韌性。
DeepSeek V4 真正值得關(guān)注的,也許正是那些不那么熱鬧但更底層的東西。
所以別神話,也別唱衰。
一個(gè)模型可以有代差,但一套系統(tǒng)如果真的開(kāi)始跑出來(lái),后面會(huì)發(fā)生什么,可能才是真正值得觀察的地方。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.