網易首頁 > 網易號 > 正文 申請入駐

DeepSeek又過節發論文:7056倍視覺壓縮,解決多模態模型"找不準"痼疾

0
分享至

剛剛開放“識圖”功能灰度測試的 DeepSeek ,在昨天同步發了篇多模態的論文。

論文題目為“Thinking with Visual Primitives”(以視覺原語思考),提出了一種新的推理范式“視覺原語”。


論文指出,當前主流的多模態大模型普遍存在“感知鴻溝”(Perception Gap)的問題。

模型能看清圖片,但推理時只能用自然語言描述“左邊那個大的”、“靠近中央的紅色物體”等。普遍存在細粒度理解失效、指代混淆、空間關系判錯、密集小目標無法區分等核心問題。

在面對密集場景時,這種模糊的語言描述,必然導致注意力的“漂移”與推理的崩塌。

此前,業界主流解法是,提高分辨率讓模型看更清,即堆參數量、加大編碼器、擴充訓練數據。

但這種只用網格Patch特征做圖文對齊的方式,表征無顯式坐標、無獨立尋址能力、不可拆解推理,只能做全局模糊語義匹配,成了高精度視覺推理長期遇瓶頸的本質原因。

DeepSeek 換了思路,它認為,問題不在看,“在指”。


論文提出的解決方案是,把關鍵點、坐標點、包圍框、語義掩碼、空間線段作為模型原生推理原子。

模型每提到一個視覺對象,同步輸出坐標,像錨點一樣把邏輯鏈釘在圖片的物理位置上。邊界框用于需要定位和尺寸的對象,點坐標用于迷宮軌跡和曲線追蹤。


這套架構有效性的另一大支柱在于,極致的效率。

模型基于DeepSeek V4-Flash(一個284B總參數、推理時激活13B的MoE模型)構建。一張756×756的圖片經ViT處理后會產生2916個圖像塊token,再通過3×3空間壓縮和其自研的壓縮稀疏注意力機制(CSA)進行深度壓縮,最終只需81個視覺KV條目即可支持復雜的空間推理。


作為對比,同等條件下,Claude Sonnet 4.6大約需要870個token,而Gemini-3-Flash則約需1100個。

這意味著,思考過程的每一步都前所未有地“輕量”,模型無需在記憶的汪洋中反復檢索被稀釋的視覺信息,實現了7056倍的視覺壓縮。


模型的訓練和表現也驗證了這一框架的威力。

團隊從近10萬個數據源中篩選出約3.17萬個高質量目標檢測數據集,生成了超過4000萬條訓練樣本,覆蓋計數、空間推理、迷宮導航和路徑追蹤四類核心任務。

在后訓練階段,他們采用了頗具匠心的“先專家化、后統一”策略:先分別訓練擅長邊界框和點坐標的兩個專家模型,再通過在線策略蒸餾將二者合并。

結果令人振奮:在計數任務上,模型以89.2%的精確匹配得分超越Gemini-3-Flash的88.2%,并大幅領先GPT-5.4的76.6%。

在最能體現“邏輯+空間”能力的拓撲推理上,模型的優勢更是斷層式的:迷宮導航得分66.9%,相比GPT-5.4的50.6%和Claude Sonnet 4.6的48.9%,提升高達約17個百分點。





最后,論文也坦誠地指出了仍存在的局限。

比如,該“思考”能力仍需顯式觸發詞激活,還無法實現完全的自主判斷;在極細粒度場景下坐標精度偶有不足;以及跨場景泛化能力仍有待加強。

但這并不妨礙其開創性意義。它有力地證明了,在多模態模型中,“看見”與“想清楚”是兩回事。

而彌合二者之間鴻溝的關鍵,也許就是向人類演化數萬年的本能借鑒——用最基本的視覺原語來思考。這讓模型在思考時,可以像人用手指點東西一樣,把坐標直接穿插在思維鏈里,鎖定每一個涉及的視覺對象。

項目在 GitHub 開源,但目前顯示鏈接 404。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沒人敢說的實話:U17首戰輸印尼,是浮嶋敏給日本隊挖的坑

沒人敢說的實話:U17首戰輸印尼,是浮嶋敏給日本隊挖的坑

圣西羅的太陽
2026-05-09 13:50:57
普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

混沌錄
2026-05-05 13:50:21
《低智商犯罪》演員演技評分,王傳君沒干過第一,燒餅評分意外

《低智商犯罪》演員演技評分,王傳君沒干過第一,燒餅評分意外

糊咖娛樂
2026-05-09 15:10:33
7800億軍購案通過后,國民黨終于有一個明白人,打鄭麗文的臉?

7800億軍購案通過后,國民黨終于有一個明白人,打鄭麗文的臉?

健身狂人
2026-05-09 18:05:09
央視:鄺兆鐳昨日未加入U17國足合練,今日出戰日本存疑

央視:鄺兆鐳昨日未加入U17國足合練,今日出戰日本存疑

懂球帝
2026-05-09 14:37:04
莫斯科徹底亂套,烏克蘭無人機真是太厲害了!

莫斯科徹底亂套,烏克蘭無人機真是太厲害了!

北京作家編劇肥豬滿圈
2026-05-07 19:11:03
蔣介石曾孫大變樣!49歲蔣友柏成光頭猛男,兄弟倆雙雙扎根大陸

蔣介石曾孫大變樣!49歲蔣友柏成光頭猛男,兄弟倆雙雙扎根大陸

橙星文娛
2026-05-08 11:12:00
反對用小孩測試!空紙箱對抗享界S9座椅折疊力,結果一目了然!

反對用小孩測試!空紙箱對抗享界S9座椅折疊力,結果一目了然!

沙雕小琳琳
2026-05-09 01:15:03
外交部:奉勸巴拉圭當局早日站到歷史正確一邊

外交部:奉勸巴拉圭當局早日站到歷史正確一邊

環球網資訊
2026-05-08 16:11:17
兩人都拒絕參加玄武門,李世民為何防了李靖一輩子,卻重用李勣?

兩人都拒絕參加玄武門,李世民為何防了李靖一輩子,卻重用李勣?

興趣知識
2026-05-09 03:10:48
巴拿馬扛不住了,7名議員組團訪華,巴外長還想給中國立兩條規矩

巴拿馬扛不住了,7名議員組團訪華,巴外長還想給中國立兩條規矩

鉤子的愛好
2026-05-08 15:52:46
出大事了,美軍機被擊落,特朗普惱羞成怒,英法德轉變態度

出大事了,美軍機被擊落,特朗普惱羞成怒,英法德轉變態度

史行途
2026-05-08 06:30:08
曝63歲穆帥已與皇馬談判!自信能平息更衣室內訌 提出回歸2大條件

曝63歲穆帥已與皇馬談判!自信能平息更衣室內訌 提出回歸2大條件

我愛英超
2026-05-09 07:07:35
史上最弱巴蜀割據者,被一個五品將軍順手滅掉,可憐又可笑

史上最弱巴蜀割據者,被一個五品將軍順手滅掉,可憐又可笑

云霄紀史觀
2026-05-08 18:32:24
林徽因和陸小曼誰更美?爭議一直沒停,老照片卻最真實不騙人

林徽因和陸小曼誰更美?爭議一直沒停,老照片卻最真實不騙人

鄉野小珥
2026-05-09 06:05:00
老人是否長壽,看這7條就夠了,占的越多越長壽,你占幾條?

老人是否長壽,看這7條就夠了,占的越多越長壽,你占幾條?

暖風吹過竹林
2026-05-09 14:34:53
韓國女隊陣容引爭議:故意安排輸給孫穎莎的戰術背后

韓國女隊陣容引爭議:故意安排輸給孫穎莎的戰術背后

林子說事
2026-05-09 11:12:41
茶顏悅色,裝不下去了

茶顏悅色,裝不下去了

中國新聞周刊
2026-05-07 22:15:57
北京奔馳C 260 L經典版上市 售價29.99萬元

北京奔馳C 260 L經典版上市 售價29.99萬元

車質網
2026-05-09 09:13:08
中紀委劃紅線:嚴查公務員出現這5種行為,觸碰將一律嚴肅處理

中紀委劃紅線:嚴查公務員出現這5種行為,觸碰將一律嚴肅處理

細說職場
2026-05-06 14:21:03
2026-05-09 19:15:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

藝術
房產
旅游
游戲
時尚

藝術要聞

齊白石 紫藤蜜蜂

房產要聞

低價甩賣!??谶@個地標商業,無人接盤!

旅游要聞

別跑空!洛陽這些博物館恢復周一例行閉館

玩家十年沒清空過電腦回收站!一看容量當場傻眼了

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

無障礙瀏覽 進入關懷版