這幾天,AI圈又炸了。
不是什么新模型發(fā)布,不是什么參數(shù)碾壓,而是一只鯨魚,摘掉了眼罩。
故事是這樣的。
![]()
4月29日下午,DeepSeek多模態(tài)團(tuán)隊(duì)負(fù)責(zé)人陳小康在X上發(fā)了條動(dòng)態(tài):"Now, we see you。"配圖是兩只DeepSeek鯨魚logo——一只還戴著海盜眼罩,一只已經(jīng)睜開眼睛。
24小時(shí)內(nèi),這是他第二次釋放類似信號(hào)。前一天,他曾發(fā)過"Soon, we see you",隨后刪除。
從"Soon"到"Now",一字之差,信息量拉滿。
這只鯨魚,終于能看了。
一、灰度測(cè)試,已經(jīng)開始了
更魔幻的是,有人已經(jīng)用上了。
![]()
部分用戶在DeepSeek官方App中灰度到了"識(shí)圖模式"。截圖顯示,輸入欄上方除了原有的"快速模式""專家模式",新增了一個(gè)按鈕——"識(shí)圖模式",標(biāo)注"圖片理解功能內(nèi)測(cè)中"。
上傳一張圖片,它能輸出結(jié)構(gòu)化描述:分析用戶需求、分析圖片、識(shí)別具體內(nèi)容。
這是DeepSeek主線產(chǎn)品中,第一次出現(xiàn)圖像理解能力。
要知道,4月8日DeepSeek App才完成第一輪模式分層改版,上線"快速模式"和"專家模式"。當(dāng)時(shí)就有微博用戶放出截圖,顯示有三檔選項(xiàng):快速/專家/視覺。
視覺那檔,一直灰著。
從今天起,開始亮了。
二、V4發(fā)布時(shí)的"遺憾"
說(shuō)起來(lái)挺有意思。
4月24日,DeepSeek發(fā)布V4系列預(yù)覽版——V4-Pro 1.6T參數(shù),V4-Flash 284B參數(shù),均支持1M token上下文。
![]()
參數(shù)炸裂,上下文炸裂,但有一個(gè)問題:純文本模型。
這和外界此前"V4將原生多模態(tài)"的密集傳聞不符。很多人期待的眼球識(shí)別、圖像生成,一個(gè)都沒有。
V4技術(shù)報(bào)告第6節(jié)"Conclusion, Limitations, and Future Directions"里寫得很清楚:下一步工作之一是"將多模態(tài)能力融入模型體系"。
翻譯一下:還沒做,但會(huì)做。
更戲劇的是,V4發(fā)布前后,DeepSeek多模態(tài)團(tuán)隊(duì)被曝人才流失。4月12日,自動(dòng)駕駛公司元戎啟行確認(rèn)DeepSeek多模態(tài)模型核心貢獻(xiàn)者阮翀已加盟出任首席科學(xué)家;DeepSeek-OCR系列核心作者魏浩然在春節(jié)前后離職。
外界開始猜測(cè):DeepSeek的多模態(tài),是不是涼了?
現(xiàn)在看來(lái),沒涼,只是在憋大招。
三、這次更新,意味著什么?
先說(shuō)結(jié)論:這是DeepSeek多模態(tài)團(tuán)隊(duì)近三個(gè)月來(lái),第一次以產(chǎn)品形式對(duì)外釋放進(jìn)展。
但要注意,目前可觀察到的能力,仍限于圖像理解(vision-language understanding),而非外界過去半年反復(fù)猜測(cè)的"原生多模態(tài)生成"。
從App灰度截圖的輸出風(fēng)格判斷,識(shí)圖模式更像一個(gè)掛載在V4主干上的視覺理解模塊。
什么意思?
打個(gè)比方:V4是大腦,識(shí)圖模式是給大腦裝了一雙眼睛。它能看懂圖片,但還不能畫圖。
DeepSeek官方目前沒對(duì)識(shí)圖模式的開放范圍、正式發(fā)布時(shí)間、底層模型來(lái)源做出說(shuō)明。
但從陳小康從"Soon"到"Now"的兩次發(fā)帖節(jié)奏判斷,更大范圍的開放,或許就在數(shù)日之內(nèi)。
四、為什么這只鯨魚值得關(guān)注?
我給你三個(gè)理由。
第一,技術(shù)路線的選擇。
DeepSeek沒有選擇"原生多模態(tài)"這條路,而是先做純文本V4,再掛載視覺模塊。這條路更穩(wěn),但也更慢。現(xiàn)在看來(lái),他們賭對(duì)了。
第二,人才流失后的反擊。
核心貢獻(xiàn)者離職、外界質(zhì)疑聲四起,DeepSeek沒有解釋,直接用產(chǎn)品說(shuō)話。這種風(fēng)格,很硬核。
第三,開源生態(tài)的變數(shù)。
DeepSeek一直是開源社區(qū)的寵兒。如果識(shí)圖模式表現(xiàn)優(yōu)異,開源社區(qū)又將多一個(gè)強(qiáng)有力的多模態(tài)選擇。這對(duì)整個(gè)AI生態(tài),都是好事。
五、寫在最后
陳小康的X簽名里有一句話:"Now, we see you。"
這句話,既是對(duì)用戶的承諾,也是對(duì)質(zhì)疑者的回應(yīng)。
眼罩摘了,鯨魚醒了。
AI的競(jìng)爭(zhēng),從來(lái)不是百米沖刺,而是馬拉松。有人起跑快,有人中途加速,有人后程發(fā)力。
DeepSeek選擇了后者。
V4發(fā)布時(shí),有人說(shuō)它"偏科"——文本強(qiáng),多模態(tài)弱。現(xiàn)在,補(bǔ)課開始了。
這個(gè)世界,從來(lái)不缺質(zhì)疑者。缺的是,用產(chǎn)品打臉質(zhì)疑的人。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.