无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 新論文,多模態的正確打開方式

0
分享至

今天再來聊聊 DeepSeek 聯手北大、清華甩出的新論文 ——《Thinking with Visual Primitives》(用視覺原語思考)


短暫發到Github后被撤回了,原因不明,趁假期看看論文都有什么巧思

戳到了多模態的痛點

今天的多模態大模型(MLLM)幾乎都在卷一件事:Perception Gap(感知鴻溝)

說人話——圖看不清、看不全

于是大家拼命往里堆視覺 token,高分辨率切片、動態 patch,恨不得把每個像素都塞進上下文。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 處理一張 800×800 的圖,普遍要吃掉 700~1100 個視覺 token

但 DeepSeek 團隊點出了一個更要命的問題:Reference Gap(指代鴻溝)

什么意思?你讓模型"數一數圖里有幾只皮卡丘",它"看見了",但用文字思考的時候,根本說不清"哦那只在左上角帶帽子的、和右下角被半遮住的是不是同一只"。語言天生不擅長指代連續的視覺空間,于是越推理越亂,幻覺一層疊一層。


這事兒很反直覺但又很對——人類自己數密集物體的時候也得用手指點一點,對吧?

下圖是論文開頭那張對比,左邊是 KV Cache 占用,右邊是 7 個 benchmark 的平均分。這家伙 KV Cache 只用 90 條左右,分數卻跟 Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6 站在同一檔:


token效率與平均得分對比 核心思路:讓"點和框"成為思考的最小單元

DeepSeek 的解法聽起來樸素,做起來不容易:

? 把空間標記(points 和 bounding boxes)從"輸出結果"提升為"思考的最小單元",和文字 token 交替出現在 CoT 思維鏈里

打個比方:以前的模型像一個只會用嘴說話的人在描述一幅畫,"那個穿紅衣服的、不對是另一個、嗯左邊那個……";現在的模型像一個邊說話邊伸手指的人,每次提到某個對象,直接附帶一個坐標 <|point|>[[309,512]]<|/point|> 或框 <|box|>[[x1,y1,x2,y2]]<|/box|>

邏輯就錨定在物理坐標上了,再也不會"指著指著就忘了剛才指的是哪個"

下圖是它的整體架構和訓練流程,基于 DeepSeek-V4-Flash(284B 總參 / 13B 激活的 MoE)和自研的 DeepSeek-ViT:


模型架構與訓練流程

視覺部分有幾個值得關注的工程細節:

  • ViT 出口先做 3×3 空間壓縮 :每 9 個相鄰 patch token 合成 1 個,沿通道維拼接

  • Compressed Sparse Attention(CSA)繼續壓 4 倍 KV :放進 LLM 的 KV Cache 里只剩極小一部分

  • 整體壓縮比 7056× :一張 756×756 的圖,571536 個像素,最后只占 81 個 KV 條目

這就是為什么它的 token 預算能壓到對手的 1/8,同時還把性能維持住——壓縮本來就是 DeepSeek 的看家本領(看過 DeepSeek-OCR 那篇的同學應該有印象,這家公司是真的癡迷于"用更少 token 裝下更多信息")

訓練怎么搞:先海量灌"框",再 RL 學"點"

這部分我讀得最仔細。DeepSeek 團隊沒用 COCO、Pixmo-Points 這類老數據集(量太小、多樣性差),而是自己抓了大規模 web 數據來標 bbox

為什么優先 bbox 不是 point?三個理由很硬:

  1. bbox 的標注是確定性的 ——一個點可以落在物體的任何位置,沒有標準答案;框緊緊包住物體,標注穩定

  2. bbox 能泛化到 point ——左上角和右下角兩個點就能定義一個框,反過來不行

  3. bbox 信息更豐富 ——除了位置還有寬高,更適合復雜推理

后訓練階段是論文最有意思的部分:專家化 SFT + 專項 RL + 統一 RFT + On-Policy 蒸餾的四段式流水線。每個能力(計數、空間推理、迷宮、路徑追蹤)單獨訓出一個專家,再合并蒸餾成統一模型

特別是迷宮導航的 RL 獎勵設計,拆得很細:路徑覆蓋度、探索完整度、墻壁判斷準確率、最終路徑有效性……這套機制讓模型真的學會了先標起點和終點 → 試探性探索 → 回溯 → 給出完整路徑的人類式解題流程

跑分成績:拓撲推理領先一個身位

直接上表,11 個 benchmark 橫向對比:


與前沿模型的對比

我重點看這幾個數字:

  • CountQA(EM/RA@10) :64.9/74.1,比 GPT-5.4 的 48.3/60.3、Claude-Sonnet-4.6 的 34.8/46.6 高了一大截,僅次于 Gemini-3-Flash

  • Pixmo-Count :89.2,全場第一

  • DS_Spatial_Reasoning :98.7,斷崖領先

  • DS_Maze_Navigation(迷宮導航) :66.9,第二名 GPT-5.4 才 50.6

  • DS_Path_Tracing(路徑追蹤) :56.7,第二名 GPT-5.4 才 46.5

特別值得說道的是迷宮和路徑這兩項——所有前沿大模型基本卡在 50% 上下(跟瞎猜沒差太多),DeepSeek 這套方法直接拉到 66.9% 和 56.7%

這說明純靠語言 CoT 真做不動拓撲推理,必須給模型一根"手指頭"

實戰 case:邊想邊指是什么樣

光看分數沒感覺,看幾個實際推理過程。

例 1:數圖里的皮卡丘

模型一邊推理一邊在圖上畫框,把每只 Pokemon 的位置全標出來,最后給出 6 這個答案:


細粒度計數案例

例 2:中文 + 世界知識 + 空間定位

注意,論文明確說后訓練數據里沒有中文視覺原語語料,但模型靠基座的多語言能力直接秒了一個中文世界地理問題——"這附近有 NBA 球隊嗎?" 它先框出"彩色的金門大橋",識別出舊金山,再回答勇士隊。這種跨能力涌現是真有意思:


中文世界知識推理案例

例 3:迷宮導航——這才是"視覺原語"真正的舞臺

模型先用 <|point|> 標記起點(綠菱形)和終點(紅標簽),然后一步步在迷宮里點出探索路徑,遇到死路就回溯,最后輸出完整可達路徑或判定不可解:


迷宮導航案例

這個過程幾乎就是把人類拿手指在迷宮上比劃的動作翻譯成了 token 序列,看著就很"像在思考"

老章的幾點觀察

1. 這是 DeepSeek 一以貫之的"壓縮哲學"

從 DeepSeek-OCR 的"用圖像 token 壓縮文本",到這篇的"用視覺原語壓縮思考",DeepSeek 一直在做同一件事:讓模型用更少的 token 干更多的事。這是真正在工程上摳極限的團隊,相比之下隔壁某些"暴力堆參數"的路線顯得很粗糙

2. Reference Gap 這個問題提得相當犀利

之前業界一窩蜂在 Perception Gap 上卷,DeepSeek 直接把戰場往前推了一格。一旦你接受了"語言無法精確指代視覺空間"這個前提,就會發現現在主流多模態模型在密集計數、迷宮、復雜場景理解上的崩盤,根源都在這里

3. 局限也別忽略

論文自己承認了三點:

  • 受限輸入分辨率,細粒度場景下視覺原語輸出仍有偏差

  • 當前還得靠"觸發詞"啟動這個機制,不能自適應判斷什么時候該用

  • 用 point 解決復雜拓撲推理,跨場景泛化還不夠好

短期內這套范式還需要更多打磨,但方向我覺得是對的。

4. 對開發者意味著什么

如果你做的產品涉及:

  • 復雜圖表 / UI 截圖理解

  • 倉儲、零售場景的密集物體計數

  • 工業圖紙、電路圖、地圖這類需要拓撲推理的場景

  • 機器人路徑規劃相關的 VLM

那這套思路非常值得關注。理論上,未來 DeepSeek-V4-VL(如果開源的話)會讓這些場景的精度上一個臺階。

總結

這篇論文最大的價值不在于又跑贏了 GPT 和 Claude,而在于指出了多模態的下一道坎在哪——從"看清"走到"想清",需要讓模型獲得"指點的能力"

技術上,DeepSeek 用極致 token 效率 + 視覺原語 CoT + 專家化訓練流水線,給出了一條可走通的路徑。論文里展示的迷宮 case 和中文涌現能力,讓人有種"哎,多模態原來還可以這么玩"的感覺

我會持續盯著,第一時間給大家帶來后續動向

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

深圳晚報
2026-06-17 12:10:46
力壓姆巴佩!24歲天才當選MVP:4數據全場第1 皇馬要買?得掏2億歐

力壓姆巴佩!24歲天才當選MVP:4數據全場第1 皇馬要買?得掏2億歐

風過鄉
2026-06-17 06:08:58
暑假來了:谷歌跟著安卓17推送家長控制更新

暑假來了:谷歌跟著安卓17推送家長控制更新

碼上閑敘
2026-06-17 02:30:50
6月17日,萬眾期待的2026年養老金調整通知公布了嗎?會補發多少

6月17日,萬眾期待的2026年養老金調整通知公布了嗎?會補發多少

社保小達人
2026-06-17 10:25:33
韓國Coser《??Gyani》領口大開上乳、下乳大膽秀!

韓國Coser《??Gyani》領口大開上乳、下乳大膽秀!

大為看點丶
2026-06-04 12:00:54
烏克蘭摧毀莫斯科最大煉油廠!供應俄首都40%的能源

烏克蘭摧毀莫斯科最大煉油廠!供應俄首都40%的能源

項鵬飛
2026-06-16 20:57:43
沈夢辰的腿一點都不好看

沈夢辰的腿一點都不好看

東方不敗然多多
2026-06-17 17:34:09
郭晶晶14年沒回保定老家,不是冷淡,她每年至少三次飛北京見爸媽

郭晶晶14年沒回保定老家,不是冷淡,她每年至少三次飛北京見爸媽

情感大頭說說
2026-06-17 11:15:52
在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

每日經濟新聞
2026-06-17 15:58:49
特斯拉后備箱30萬現金消失!車主:車是自動落鎖 疑為感應到5樓藍牙鑰匙

特斯拉后備箱30萬現金消失!車主:車是自動落鎖 疑為感應到5樓藍牙鑰匙

中國能源網
2026-06-16 15:28:12
C羅狀態低迷,1.4億巨頭難救主!葡萄牙出師不利,奪冠熱門爆冷

C羅狀態低迷,1.4億巨頭難救主!葡萄牙出師不利,奪冠熱門爆冷

我的護球最獨特
2026-06-18 03:02:37
不尋常!男子一連9次乘坐同一郵輪,一天逛十幾次免稅店,上海民警一查,果然不簡單

不尋常!男子一連9次乘坐同一郵輪,一天逛十幾次免稅店,上海民警一查,果然不簡單

新民晚報
2026-04-10 13:56:07
老登股的流動性快被吸干了,投資者該怎么辦?

老登股的流動性快被吸干了,投資者該怎么辦?

立成說投資
2026-06-17 15:11:38
先打臺灣,還是先收藏南?對中國而言,誰才是當前的戰略重點?

先打臺灣,還是先收藏南?對中國而言,誰才是當前的戰略重點?

靜夜史君
2026-06-07 00:04:33
又一“國民飲料”塌房,背后全是科技與狠活

又一“國民飲料”塌房,背后全是科技與狠活

毒sir財經
2026-06-15 16:23:18
年輕人辦公室“午睡搭子”有多炸裂?果然,為了午睡,大家拼了

年輕人辦公室“午睡搭子”有多炸裂?果然,為了午睡,大家拼了

室內設計師有料兒
2026-06-16 10:05:44
事實證明:大部分中年夫妻,都會因為“失業沒收入”而選擇離婚

事實證明:大部分中年夫妻,都會因為“失業沒收入”而選擇離婚

舒山有鹿
2026-06-15 09:55:11
寧死不求人的3大星座:自己才是人生的擺渡人!

寧死不求人的3大星座:自己才是人生的擺渡人!

別人都叫我阿螫
2026-06-17 16:42:41
長壽的人,手背多有這4個表現,占一個都不錯,快看看你有幾個?

長壽的人,手背多有這4個表現,占一個都不錯,快看看你有幾個?

芹姐說生活
2026-05-31 22:41:04
阿根廷主持人自曝:梅西在世界杯前主動發消息,還幫老婆擋采訪

阿根廷主持人自曝:梅西在世界杯前主動發消息,還幫老婆擋采訪

喜歡歷史的阿繁
2026-06-17 17:39:25
2026-06-18 04:36:50
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

手機
本地
房產
時尚
公開課

手機要聞

蘋果iPhone傳四喜:辟謠、漲內存、漲影像、紀念版也有新變化!

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

房產要聞

最新房價:海口、三亞;新房、二手房全線下跌!

1分鐘1萬塊:我在飯圈,交易人性

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版