五一放假前一天,大家都準備躺平了。DeepSeek反手就是一個大招。多模態(tài)能力灰度測試開啟。部分用戶打開首頁,發(fā)現(xiàn)多了一個"識圖模式"的入口。
![]()
上傳圖片,DeepSeek能像人一樣理解畫面了。
多模態(tài)團隊負責人陳小康發(fā)了句話:"現(xiàn)在,我們能看見你了。"
聽起來像情話。但這是DeepSeek的聊天產(chǎn)品,第一次接入多模態(tài)。
然后論文就沒了
更魔幻的來了。
![]()
4月30日,DeepSeek發(fā)了一篇技術(shù)報告《Thinking with Visual Primitives》(用視覺原語思考)。五一節(jié)前一天發(fā)重磅論文,這很DeepSeek。
但很快,官方連夜刪除了多模態(tài)倉庫和論文原文。5月1日打開Github,已經(jīng)是404狀態(tài)。
刪除原因?官方?jīng)]說。
有人猜不是內(nèi)容問題,而是信息透露太多。DeepSeek這波操作,我只能說:懂的都懂。
這篇論文說了啥?
先別管刪沒刪,內(nèi)容才是重點。
這篇論文,符合DeepSeek一貫的風格:扎實,務(wù)實,用工程能力降成本。
核心就一句話:多模態(tài)模型在復(fù)雜任務(wù)上崩潰,不是因為看不見,而是因為"指不準"。
什么意思?
自然語言天然有模糊性。你讓模型處理復(fù)雜空間布局,光靠文字描述,很容易產(chǎn)生歧義。
就像數(shù)一堆散落的硬幣。你不用手指逐個按著確認,人類也會數(shù)錯或數(shù)重。
DeepSeek的解法是:給模型配一只"手指"。
通過引入"視覺原語"框架,模型把點、邊界框這些空間標記,提升為最小思維單元。模型在推理時,能一邊"想"一邊"指",把抽象的語言邏輯指向具體空間坐標。
這靈感來自人類認知。你走迷宮或數(shù)密集物體時,會用手指這類指示性指向,來降低認知負荷、維持邏輯一致性。
DeepSeek把這套邏輯,教給了模型。
性能怎么樣?
這模型基于DeepSeek-V4-Flash構(gòu)建,總參數(shù)2840億。
大量實驗表明,在推理精度上實現(xiàn)顯著突破。空間推理、視覺問答這些挑戰(zhàn)性任務(wù)上,性能持平或超越GPT、Claude、Gemini最新版本。
DeepSeek的研究證明了一件事:多模態(tài)智能的未來,不只是"看見更多像素",而是構(gòu)建語言與視覺之間精準、無歧義的指代橋梁。
這句話,值得讀三遍。
為什么之前不做多模態(tài)?
其實DeepSeek在4月24日發(fā)布了V4系列旗艦?zāi)P停敃r并沒有涉及多模態(tài)。官方對V4的定義是:支持百萬字超長上下文,在Agent能力、世界知識和推理性能上實現(xiàn)國內(nèi)與開源領(lǐng)域領(lǐng)先。
多模態(tài)已經(jīng)是當前大模型更新的重要方向。DeepSeek遲遲沒跟上,被認為是能力上的一大短板。
有傳言說,DeepSeek暫緩多模態(tài)生成的訓練策略,主要源于算力和現(xiàn)金的掣肘。融資后,這一方向的訓練會更順利。
是不是真的?我不知道。但我知道一件事:技術(shù)路線的選擇,永遠比我們想象的更復(fù)雜。
一個比喻
DeepSeek這次的創(chuàng)新,讓我想起一個場景。
你讓一個盲人描述房間里的東西。他能聽見你的描述,能摸到家具的輪廓,但就是沒法精準指向某個具體位置。
現(xiàn)在,你給了他一根手杖。
他可以一邊走,一邊敲,一邊確認。語言和空間,終于對上了。
這就是視覺原語的意義。不是讓模型看得更清楚,而是讓模型指得更準確。
DeepSeek這波操作,讓我想起一句話:
技術(shù)進步的本質(zhì),是把人類的認知方式,翻譯成機器能理解的語言。
視覺原語框架,就是這樣一個翻譯器。它把人類"邊指邊想"的認知習慣,變成了模型推理的基本單元。
論文刪了,但思路留下了。
DeepSeek的多模態(tài)時代,才剛剛開始。。。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.