![]()
經(jīng)過數(shù)月的等待之后,DeepSeek V4可能很快就會與用戶正式見面。
4月7日,有網(wǎng)友爆料,DeepSeek V4已經(jīng)在部分用戶中啟動(dòng)灰度測試。與之一起被爆料的是,這次在用戶界面上已經(jīng)有所呈現(xiàn)。
另一個(gè)網(wǎng)友則爆料,DeepSeek V4預(yù)計(jì)將在4月中下旬發(fā)布,自2月開始發(fā)布時(shí)間一再延期后,這一次恐怕是真的。
1
有用戶打開DeepSeek的APP會發(fā)現(xiàn),在對話界面頂部并排著三個(gè)選項(xiàng):快速模式(default)、專家模式(expert)、視覺模式(vision)。
其中,快速模式是默認(rèn)選項(xiàng),其大概率是針對輕量級、響應(yīng)快的模型。
而專家模式不支持文件上傳,其被推測是更大參數(shù)、更深度的推理模型。
視覺模式是這次最大的創(chuàng)新變動(dòng)。據(jù)網(wǎng)友爆料,2月那輪灰度測試可實(shí)現(xiàn)OCR的文本提取,而DeepSeek V4灰度測試則實(shí)現(xiàn)了vision 模式,其多模態(tài)能力或?qū)?shí)現(xiàn)C端落地。
這并不意外,按照此前爆料,梁文鋒的研究方向,近半年來主要鎖定了兩個(gè)重點(diǎn),一個(gè)是模型的視覺內(nèi)容處理,另一個(gè)則是AI搜索。
而且近期梁文鋒團(tuán)隊(duì)發(fā)布的論文,一篇論文提出條件記憶機(jī)制,另一篇?jiǎng)t呈現(xiàn)優(yōu)化Transformer記憶與長上下文瓶頸的成果。
由上可見,DeepSeek V4可能將在多模態(tài)、長期記憶、代碼能力躍升等幾個(gè)方面呈現(xiàn)其特點(diǎn)。
有網(wǎng)友表示,DeepSeek V4的架構(gòu)可能達(dá)到Ultra-MoE 萬億級,總參數(shù)約為1.2萬億(MoE),每次僅激活320億,上下文窗口100萬tokens(≈4000頁書),其將實(shí)現(xiàn)“文本+圖像+音頻+視頻”的原生多模態(tài)特征。
2
DeepSeek V4可謂是千呼萬喚,此前可能已經(jīng)數(shù)次延期。
原本在今年1月份時(shí),傳出發(fā)布時(shí)間在春節(jié)期間,但當(dāng)時(shí)沒有發(fā)布。時(shí)間來到3月份,有消息稱定在同月的十幾號,可到了3月30日還沒有發(fā)布。
最新的消息顯示,DeepSeek V4將在四月中下旬與用戶正式見面。
除了不斷延期的發(fā)布時(shí)間,還有近期DeepSeek經(jīng)歷了數(shù)次的服務(wù)中斷,其中在3月30日左右,其經(jīng)歷了一次大規(guī)模的服務(wù)中斷。
有人推測上述服務(wù)中斷現(xiàn)象,可能背后與DeepSeek V4灰度測試有關(guān)。
據(jù)The Information日前報(bào)道,發(fā)布時(shí)間延期主要原因是,DeepSeek與華為、寒武紀(jì)等國產(chǎn)AI芯片廠商進(jìn)行合作,確保V4能在華為最新的昇騰(Ascend)芯片上流暢運(yùn)行。
據(jù)了解,昇騰 950PR是華為3月發(fā)布的,搭載的是Atlas 350加速卡。其單卡算力被宣稱是英偉達(dá)H20的2.87倍,不過其功耗(600W)大約是H20的兩倍。
報(bào)道還透露一點(diǎn),那就是DeepSeek V4發(fā)布前,未有給到美國芯片企業(yè)提供早期訪問權(quán)限,而是開放給了華為和寒武紀(jì)等中國芯片廠商。
另外,The Information報(bào)道稱,除了正版的DeepSeek V4,公司還開發(fā)了兩個(gè)V4變體版本,能力側(cè)重分別有所不同。
看來,DeepSeek V4可能真的要來了!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.