无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek又過節發論文:7056倍視覺壓縮,解決多模態模型"找不準"痼疾

2026-05-01 09:27:37　來源: AI先鋒官

北京舉報

0

分享至

剛剛開放“識圖”功能灰度測試的 DeepSeek ，在昨天同步發了篇多模態的論文。

論文題目為“Thinking with Visual Primitives”（以視覺原語思考），提出了一種新的推理范式“視覺原語”。

論文指出，當前主流的多模態大模型普遍存在“感知鴻溝”（Perception Gap）的問題。

模型能看清圖片，但推理時只能用自然語言描述“左邊那個大的”、“靠近中央的紅色物體”等。普遍存在細粒度理解失效、指代混淆、空間關系判錯、密集小目標無法區分等核心問題。

在面對密集場景時，這種模糊的語言描述，必然導致注意力的“漂移”與推理的崩塌。

此前，業界主流解法是，提高分辨率讓模型看更清，即堆參數量、加大編碼器、擴充訓練數據。

但這種只用網格Patch特征做圖文對齊的方式，表征無顯式坐標、無獨立尋址能力、不可拆解推理，只能做全局模糊語義匹配，成了高精度視覺推理長期遇瓶頸的本質原因。

DeepSeek 換了思路，它認為，問題不在看，“在指”。

論文提出的解決方案是，把關鍵點、坐標點、包圍框、語義掩碼、空間線段作為模型原生推理原子。

模型每提到一個視覺對象，同步輸出坐標，像錨點一樣把邏輯鏈釘在圖片的物理位置上。邊界框用于需要定位和尺寸的對象，點坐標用于迷宮軌跡和曲線追蹤。

這套架構有效性的另一大支柱在于，極致的效率。

模型基于DeepSeek V4-Flash（一個284B總參數、推理時激活13B的MoE模型）構建。一張756×756的圖片經ViT處理后會產生2916個圖像塊token，再通過3×3空間壓縮和其自研的壓縮稀疏注意力機制（CSA）進行深度壓縮，最終只需81個視覺KV條目即可支持復雜的空間推理。

作為對比，同等條件下，Claude Sonnet 4.6大約需要870個token，而Gemini-3-Flash則約需1100個。

這意味著，思考過程的每一步都前所未有地“輕量”，模型無需在記憶的汪洋中反復檢索被稀釋的視覺信息，實現了7056倍的視覺壓縮。

模型的訓練和表現也驗證了這一框架的威力。

團隊從近10萬個數據源中篩選出約3.17萬個高質量目標檢測數據集，生成了超過4000萬條訓練樣本，覆蓋計數、空間推理、迷宮導航和路徑追蹤四類核心任務。

在后訓練階段，他們采用了頗具匠心的“先專家化、后統一”策略：先分別訓練擅長邊界框和點坐標的兩個專家模型，再通過在線策略蒸餾將二者合并。

結果令人振奮：在計數任務上，模型以89.2%的精確匹配得分超越Gemini-3-Flash的88.2%，并大幅領先GPT-5.4的76.6%。

在最能體現“邏輯+空間”能力的拓撲推理上，模型的優勢更是斷層式的：迷宮導航得分66.9%，相比GPT-5.4的50.6%和Claude Sonnet 4.6的48.9%，提升高達約17個百分點。

最后，論文也坦誠地指出了仍存在的局限。

比如，該“思考”能力仍需顯式觸發詞激活，還無法實現完全的自主判斷；在極細粒度場景下坐標精度偶有不足；以及跨場景泛化能力仍有待加強。

但這并不妨礙其開創性意義。它有力地證明了，在多模態模型中，“看見”與“想清楚”是兩回事。

而彌合二者之間鴻溝的關鍵，也許就是向人類演化數萬年的本能借鑒——用最基本的視覺原語來思考。這讓模型在思考時，可以像人用手指點東西一樣，把坐標直接穿插在思維鏈里，鎖定每一個涉及的視覺對象。

項目在 GitHub 開源，但目前顯示鏈接 404。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Karpathy剛進Anthropic，轉頭又投了它

新智元 2026-06-24 13:55:18
19 跟貼 19
DeepSeek搶人大戰里，跑出了一家10人公司

虎嗅APP 2026-06-24 02:20:25
23 跟貼 23

開源！阿里甩出首個語言世界模型，能造智能體環境

智東西 2026-06-24 13:37:59
0 跟貼 0

TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

機器之心Pro 2026-03-30 11:08:49
0 跟貼 0
具身智能的數據困境，不只在數量

智東西 2026-06-24 22:11:53
0 跟貼 0

我們跟吉利、杰克、美的的實干派，聊了聊工業智能體的真相

虎嗅APP 2026-06-25 02:00:12
0 跟貼 0

清華微軟聯合提出STAR-PólyaMath，Apex基準超GPT-5.5 13.5%

機器之心Pro 2026-06-24 19:43:36
0 跟貼 0
反坦克導彈走位靈活，飛行軌跡難以琢磨，最終竟成功擊中目標！

胖塌塌生活 2026-06-20 10:07:50
0 跟貼 0

花2w挖來的高級工程師，視覺識別定位點膠，做成這樣能不能留！

懶兔搞笑家 2026-06-23 13:50:18
1 跟貼 1
為何頂級陽謀困局，深度剖析其底層邏輯，運行機制及其影響力！

清晨的世界 2026-06-23 00:59:26
0 跟貼 0
恒大歌舞團麥穗兒，舞姿曼妙，迷人曲線引人注目！

星君搞笑怪 2026-06-23 10:27:13
1 跟貼 1
中方投下贊成票

政知新媒體 2026-06-24 09:57:23
2785 跟貼 2785
網友吐槽“被WPS背刺了”，公司回應

南方都市報 2026-06-23 20:17:09
2075 跟貼 2075
特斯拉中國車機將接入豆包和DeepSeek模型智能化體驗提升

太平洋汽車 2026-06-24 17:45:25
2 跟貼 2
伊朗無人機施壓特朗普，戰爭邏輯轉變，中國成最大變量

精彩一網打盡 2026-06-23 06:14:41
0 跟貼 0
張家界大庸古城將重新開業！曾因耗資24億4年虧損超10億被焦點訪談“關注”

紅星新聞 2026-06-24 19:33:08
1561 跟貼 1561
智駕別只信純視覺！L4級為啥必須有激光雷達？這1點太關鍵了！

肆無忌憚的哭 2026-06-23 03:17:19
10 跟貼 10
郭春林 2026教育大變局！人才選拔邏輯已經發生了改變

安安折紙 2026-06-24 02:57:06
0 跟貼 0
答案會過期，問題不會 | 善友教授大課手記

混沌學園官方 2026-06-24 21:09:47
0 跟貼 0
整齊到離譜的舞蹈場面，好像復制粘貼一樣，這才是“視覺盛宴”！

搞笑的咕咕鳥 2026-06-21 10:54:13
1 跟貼 1
四大AI預測瑞士vs加拿大：Deepseek支持瑞士，豆包猜平局

懂球帝 2026-06-24 17:30:11
9 跟貼 9
導彈點火極致溫差，冰霜瞬間炸裂成霧，視覺盛宴太震撼了！

月亮姐侃生活 2026-06-22 11:39:47
0 跟貼 0
插混vs增程，聊透邏輯，選購干貨，幫你少虧20萬！

X基地 2026-06-24 14:05:51
0 跟貼 0
豆包專業版采用三級階梯定價方案，最高一年6000元

第一財經 2026-06-24 09:14:12
1350 跟貼 1350
1:9寶馬合金模型！避震聯動+燈光，細節絕了！#機車模型

制造科技 2026-06-23 01:02:22
0 跟貼 0
美財長貝森特：一旦烏克蘭戰爭結束，預計俄羅斯將重新回到美元體系

瀟湘晨報 2026-06-24 21:10:28
353 跟貼 353
福建高考分數線發布

央視新聞 2026-06-24 16:41:54
1070 跟貼 1070
女子曬出自己買的西瓜碗，“看著這個碗，視覺降溫十度”

氧氣周末 2026-06-23 13:32:38
1 跟貼 1
直接從像素到單詞：這原生大模型統一單圖、多圖、視頻和空間智能

機器之心Pro 2026-06-24 11:40:46
0 跟貼 0
這渦扇模型真能轉還帶聲？全合金超1000零件！#硬核模型

制造科技 2026-06-22 19:32:06
0 跟貼 0
最貴349元/斤！雨后大量出現地衣，很多杭州人在撿，“出門就有”

環球網資訊 2026-06-24 14:30:30
132 跟貼 132
太陽系軌跡命運由誰主宰

諾克科普 2026-06-24 12:25:22
1 跟貼 1
鋼筋編織網格，雙腳丈量工地

皖哥的星辰大海 2026-06-24 08:46:33
1 跟貼 1
個稅飆升12%，收入只增4.2%，反差信號背后的促消費難點｜商業微史記

界面新聞 2026-06-24 14:09:58
630 跟貼 630
知情人士曝因后續淘汰賽未攜帶完整裁判組，馬寧基本確定無緣主裁機會；此前FIFA官宣馬寧擔任法國VS挪威比賽第四官員

封面新聞 2026-06-24 18:54:06
132 跟貼 132
山東曲阜動物園被指將狗狗染成熊貓色用以宣傳引流，園方：若大家不喜歡會考慮取消

南陽日報 2026-06-24 18:34:49
82 跟貼 82
茶飲店打烊前接到千元訂單，00后員工沒有抱怨默默干活，店主給每人發兩千元紅包

瀟湘晨報 2026-06-24 15:49:15
86 跟貼 86
十二年異鄉求學被挖去雙眼的男孩考了個"全國第一"

新民周刊 2026-06-24 21:46:33
42 跟貼 42
并行三代理：會議摘要本該這么穩

硅嶼手記 2026-06-25 03:36:14
0 跟貼 0
引領翹臀塑形之路，發掘動感曲線

光旭教練 2026-06-22 15:01:00
0 跟貼 0

全紅嬋留長發，近170cm顏值驚人，網友：這臉，變化好大...

全紅嬋留長發，近170cm顏值驚人，網友：這臉，變化好大...

動物奇奇怪怪

2026-06-24 15:41:23

陳若琳果然沒看錯！官方正式為全紅嬋定調，所有謠言徹底反轉

陳若琳果然沒看錯！官方正式為全紅嬋定調，所有謠言徹底反轉

阿廢冷眼觀察所

2026-06-25 00:34:59

這么優秀的兩個孩子，可以加進遺囑了吧！

這么優秀的兩個孩子，可以加進遺囑了吧！

BenSir本色說

2026-06-25 01:39:13

高市愿意參加峰會，但拒絕跟中方碰面！聲稱：中國對她人身攻擊？

高市愿意參加峰會，但拒絕跟中方碰面！聲稱：中國對她人身攻擊？

晨光蘇醒a

2026-06-25 03:21:57

上海交大發現：高血脂患者如果每周餓幾次，其效果堪比藥物作用？

上海交大發現：高血脂患者如果每周餓幾次，其效果堪比藥物作用？

健康科普365

2026-06-22 13:45:17

92年我娶了村里母老虎，新婚3天沒敢同房，第4天她突然攔下我

92年我娶了村里母老虎，新婚3天沒敢同房，第4天她突然攔下我

青青會講故事

2026-06-22 11:40:39

幫我爸辦獨生子女退休補貼，跑了3趟才搞懂：很多人第1步就走錯了

幫我爸辦獨生子女退休補貼，跑了3趟才搞懂：很多人第1步就走錯了

愛下廚的阿釃

2026-06-24 03:56:17

14歲被送上導演的床，17歲拍全裸寫真，被操控半生，如今怎樣了

14歲被送上導演的床，17歲拍全裸寫真，被操控半生，如今怎樣了

樂天閑聊

2026-05-27 05:30:24

立陶宛新任總理現身，上來就對臺當局喊話，又一個狠角色登上臺面

立陶宛新任總理現身，上來就對臺當局喊話，又一個狠角色登上臺面

知法而形

2026-06-24 17:44:04

TVB前一線男星相隔11年再拍港劇！傳有10億身家！無奈回應：其實我好坎坷

TVB前一線男星相隔11年再拍港劇！傳有10億身家！無奈回應：其實我好坎坷

我愛追港劇

2026-06-25 01:48:40

定居臺灣的姑姑回大陸，顯擺自己住150平豪宅，我：去我家看看

定居臺灣的姑姑回大陸，顯擺自己住150平豪宅，我：去我家看看

紅豆講堂

2025-06-27 10:54:06

難以置信！成績未出，已收到復旦大學短信，上海一家長爆料引熱議

難以置信！成績未出，已收到復旦大學短信，上海一家長爆料引熱議

火山詩話

2026-06-24 08:52:00

兩性關系：72歲大媽提同居，男方：行，只要你牢記這8件事！

兩性關系：72歲大媽提同居，男方：行，只要你牢記這8件事！

來去自如的小章

2026-06-24 21:06:46

末輪爭頭名葡萄牙需贏哥倫比亞若小組第2出線：決賽才碰阿根廷

末輪爭頭名葡萄牙需贏哥倫比亞若小組第2出線：決賽才碰阿根廷

我愛英超

2026-06-24 12:31:38

人倫大亂，正在悄悄毀掉無數中國家庭！看似平常，實則家道衰敗

人倫大亂，正在悄悄毀掉無數中國家庭！看似平常，實則家道衰敗

匹夫來搞笑

2026-06-22 09:23:38

正式確定！山西男籃更換主帥，潘江離開球隊，楊鳴有望接手

正式確定！山西男籃更換主帥，潘江離開球隊，楊鳴有望接手

體壇瞎白話

2026-06-24 14:20:35

美伊趨穩，特朗普將目光轉向朝鮮半島？李在明：特朗普說現在到了關注朝鮮問題的時候，已向美方建議分階段解決朝核問題，特朗普予以肯定

美伊趨穩，特朗普將目光轉向朝鮮半島？李在明：特朗普說現在到了關注朝鮮問題的時候，已向美方建議分階段解決朝核問題，特朗普予以肯定

每日經濟新聞

2026-06-25 00:55:42

外媒預測世界杯：蘇格蘭1-2巴西，捷克1-1墨西哥，摩洛哥令人意外

外媒預測世界杯：蘇格蘭1-2巴西，捷克1-1墨西哥，摩洛哥令人意外

削桐作琴

2026-06-24 22:10:43

安徽地級行政區偏多，全域優化合并悄然啟動

安徽地級行政區偏多，全域優化合并悄然啟動

石辰搞笑日常

2026-06-24 16:10:40

97年我娶了離過婚的女教師，洞房夜她把燈關了：我有件事要告訴你

97年我娶了離過婚的女教師，洞房夜她把燈關了：我有件事要告訴你

千秋文化

2026-06-18 20:19:03

AIGC大模型及應用精選與評測

552文章數 92關注度

往期回顧全部

科技要聞

豆包專業版上線：定價68-500元每月

頭條要聞

15歲男孩肥胖誘發糖尿病搶救無效離世

頭條要聞

15歲男孩肥胖誘發糖尿病搶救無效離世

體育要聞

字母哥，會把凱爾特人拆了嗎？

娛樂要聞

向佐向佑兄弟合體直播！母子終于和解

財經要聞

逃稅23億：審計署年報直指七家機構

汽車要聞

施鵬澤：為什么奧迪E7X強調座艙氣味安全?

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

本地

游戲

數碼

教育要聞

2026高考分數線最新匯總！12省已公布，含藝術類各專業分數線

那些搞砸高考的年輕人，人生完蛋了嗎？

本地新聞

2026世界杯全勤太難？這份保姆級攻略請收好

獵魂世界：霍雨浩六大配置+操作問題分析！第一神控是否名副其實

數碼要聞

三星電子公眾號注銷！家電業務已官宣退出中國大陸市場

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版