剛剛開放“識圖”功能灰度測試的 DeepSeek ,在昨天同步發了篇多模態的論文。
論文題目為“Thinking with Visual Primitives”(以視覺原語思考),提出了一種新的推理范式“視覺原語”。
![]()
論文指出,當前主流的多模態大模型普遍存在“感知鴻溝”(Perception Gap)的問題。
模型能看清圖片,但推理時只能用自然語言描述“左邊那個大的”、“靠近中央的紅色物體”等。普遍存在細粒度理解失效、指代混淆、空間關系判錯、密集小目標無法區分等核心問題。
在面對密集場景時,這種模糊的語言描述,必然導致注意力的“漂移”與推理的崩塌。
此前,業界主流解法是,提高分辨率讓模型看更清,即堆參數量、加大編碼器、擴充訓練數據。
但這種只用網格Patch特征做圖文對齊的方式,表征無顯式坐標、無獨立尋址能力、不可拆解推理,只能做全局模糊語義匹配,成了高精度視覺推理長期遇瓶頸的本質原因。
DeepSeek 換了思路,它認為,問題不在看,“在指”。
論文提出的解決方案是,把關鍵點、坐標點、包圍框、語義掩碼、空間線段作為模型原生推理原子。
模型每提到一個視覺對象,同步輸出坐標,像錨點一樣把邏輯鏈釘在圖片的物理位置上。邊界框用于需要定位和尺寸的對象,點坐標用于迷宮軌跡和曲線追蹤。
![]()
這套架構有效性的另一大支柱在于,極致的效率。
模型基于DeepSeek V4-Flash(一個284B總參數、推理時激活13B的MoE模型)構建。一張756×756的圖片經ViT處理后會產生2916個圖像塊token,再通過3×3空間壓縮和其自研的壓縮稀疏注意力機制(CSA)進行深度壓縮,最終只需81個視覺KV條目即可支持復雜的空間推理。
![]()
作為對比,同等條件下,Claude Sonnet 4.6大約需要870個token,而Gemini-3-Flash則約需1100個。
這意味著,思考過程的每一步都前所未有地“輕量”,模型無需在記憶的汪洋中反復檢索被稀釋的視覺信息,實現了7056倍的視覺壓縮。
模型的訓練和表現也驗證了這一框架的威力。
團隊從近10萬個數據源中篩選出約3.17萬個高質量目標檢測數據集,生成了超過4000萬條訓練樣本,覆蓋計數、空間推理、迷宮導航和路徑追蹤四類核心任務。
在后訓練階段,他們采用了頗具匠心的“先專家化、后統一”策略:先分別訓練擅長邊界框和點坐標的兩個專家模型,再通過在線策略蒸餾將二者合并。
結果令人振奮:在計數任務上,模型以89.2%的精確匹配得分超越Gemini-3-Flash的88.2%,并大幅領先GPT-5.4的76.6%。
在最能體現“邏輯+空間”能力的拓撲推理上,模型的優勢更是斷層式的:迷宮導航得分66.9%,相比GPT-5.4的50.6%和Claude Sonnet 4.6的48.9%,提升高達約17個百分點。
![]()
![]()
![]()
![]()
最后,論文也坦誠地指出了仍存在的局限。
比如,該“思考”能力仍需顯式觸發詞激活,還無法實現完全的自主判斷;在極細粒度場景下坐標精度偶有不足;以及跨場景泛化能力仍有待加強。
但這并不妨礙其開創性意義。它有力地證明了,在多模態模型中,“看見”與“想清楚”是兩回事。
而彌合二者之間鴻溝的關鍵,也許就是向人類演化數萬年的本能借鑒——用最基本的視覺原語來思考。這讓模型在思考時,可以像人用手指點東西一樣,把坐標直接穿插在思維鏈里,鎖定每一個涉及的視覺對象。
項目在 GitHub 開源,但目前顯示鏈接 404。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.