網易首頁 > 網易號 > 正文申請入駐

直接從像素到單詞：這原生大模型統一單圖、多圖、視頻和空間智能

2026-06-24 11:40:46　來源: 機器之心Pro

天津舉報

分享至

刁海文現為南洋理工大學博士后研究員，主要從事原生多模態大模型、理解生成一體化及具身智能等方向研究，相關工作包括 EVE系列、NEO系列與 DynamicVLA 等研究。其合作導師劉子緯為南洋理工大學計算機與數據科學學院副教授，長期聚焦于多模態學習、生成式人工智能及 3D 視覺等方向研究。本工作同時與商湯研究院、大連理工大學等機構合作完成。

當前多模態大模型都在圖像「進門」前

就被壓縮了

今天幾乎所有主流視覺語言模型（VLM）—— 無論是 Qwen-VL、InternVL，還是 LLaVA 系列 —— 都遵循著同一套經典架構：先用預訓練視覺編碼器（如 CLIP、SigLIP）將圖像壓縮為特征，再通過投影層把這些特征送入大語言模型。

這套「視覺編碼器 + 投影層 + 大模型」的模塊化范式非常成功，但也有一個天然前提：視覺信息在進入推理之前，就已經被壓縮和過濾，一部分細節不可避免地丟失了。

NEO-ov 想挑戰的正是這一假設：如果直接拋開視覺編碼器，讓模型從原始像素一路學到語言，會怎么樣？

答案是：不僅可行，而且效果出色。在細粒度感知和空間理解等任務上，NEO-ov 甚至超過了不少依賴視覺編碼器的強模型，展現出端到端視覺語言建模的潛力。

論文標題：From Pixels to Words – Towards Native One-Vision Models at Scale
團隊：南洋理工大學 S-Lab、商湯研究院、大連理工大學
論文：https://arxiv.org/abs/2605.28820
代碼：https://github.com/EvolvingLMMs-Lab/NEO

「編碼器 + 大模型」的老辦法

不靈活、不省錢、不好擴

論文將傳統「視覺編碼器 + 大模型」范式的局限概括為三個方面：

靈活性不足。圖像編碼器擅長靜態圖像，卻缺乏時序建模能力；視頻編碼器強調時間動態，又難以兼顧單圖和圖文交錯輸入。無論哪一種，都很難在淺層實現視覺與語言的充分交互，更難統一處理單圖、多圖和視頻等不同模態。

效率受限。視覺與語言模塊彼此解耦，訓練和優化過程被割裂，還需要額外承擔跨模態對齊的成本。面對超長視頻或超高分辨率輸入時，視覺編碼器的計算開銷急劇增加，同時無法利用 KV Cache，對流式、實時視頻理解并不友好。

擴展困難。模塊化設計要求在視覺編碼器和語言模型之間不斷權衡參數規模與算力分配，使得模型縮放、訓練優化和部署都受到額外約束。

更深層的問題在于，現有視覺編碼器（如 CLIP）主要為圖文對齊而設計，更關注高層語義，卻往往會丟失紋理、局部幾何以及精細空間結構等信息。結果是，語言模型實際上是在一套「被語義過濾過」的視覺表征上進行推理，而不是真正面對原始視覺信號。這種信息損失在依賴跨視角、跨幀理解的空間智能任務中尤為明顯，也正是 NEO-ov 希望突破的核心瓶頸。

NEO-ov 扔掉編碼器

讓像素直接進大模型

NEO-ov 的核心理念可以濃縮成一句話：沒有外部編碼器、沒有適配器、沒有事后融合 —— 視覺感知、時序建模和跨模態對齊，全部在同一個統一骨架中端到端學習。它建立在前作 NEO 的基礎上，將原生視覺語言建模從單圖擴展到單圖、多圖、視頻乃至空間智能任務，形成了一套統一框架。其中有幾個關鍵設計值得關注。

用兩層卷積當「像素入口」，不再過厚重的編碼器

與主流 VLM 依賴 CLIP 等視覺編碼器不同，NEO-ov 直接從原始像素出發，僅用兩層卷積和 GELU 構成輕量級視覺入口。經過兩次下采樣后，每個 32×32 圖像區域都會被映射為一個視覺 token。

隨后，這些視覺token 被和標記包裹，與文本 token 一起組成統一序列，送入同一個 Transformer。視覺理解、語言建模和跨模態對齊不再由不同模塊分工完成，而是在統一骨架中端到端學習。

「時間 + 高 + 寬」解耦，同時建模時序和空間

這是模型能夠「統一時空」的關鍵。它將注意力頭的維度顯式拆分為三部分：

T（時間）分支：繼承自原始大語言模型，負責建模文本順序、跨圖關系以及跨幀依賴；
H、W（空間）分支：新增的二維空間維度，專門刻畫圖像內部的空間結構與位置關系。

配套的Native-RoPE位置編碼進一步將時間和空間解耦建模：文本 token 僅保留時間索引；圖像 token 在同一張圖像內共享時間索引，并通過 H/W 索引編碼其空間位置。

單圖、多圖、視頻，統統排成同一條序列

單圖：在位置插入視覺 token。每張圖都會按照原始分辨率獨立編碼，token 數量隨圖像尺寸自適應變化，而不是被壓縮到固定預算中。模型能夠保留更多局部細節，對細粒度比較、目標定位和空間敏感任務尤其有利。

多圖：每張圖都被視為序列中的一個獨立視覺單元，與文本一樣按照輸入順序排列。模型無需額外設計跨圖模塊，就能直接利用統一注意力機制建立圖像之間的關聯。

視頻：將視頻采樣為若干幀，每一幀都作為一個帶時間戳的圖像單元插入序列，并在開頭添加一個全局前綴，用于記錄視頻時長、采樣幀數和采樣率等信息。這樣一來，視頻本質上被表示為「按時間排列的多張圖像」，視頻理解與多圖理解自然統一到同一套框架之中。

圖片內部「互相看」，圖片和文字之間「往前看」

每張圖像或視頻幀都會被視為一個獨立的「視覺單元」：

單元內部：視覺 token 之間采用雙向注意力，充分建模圖像內部的空間結構；
單元之間：保持自回歸（因果）機制，每個單元都能訪問其之前出現的所有文本和視覺 token。

這樣一來，跨圖比較和時序推理從最底層的 patch 級 token 就已經開始，并隨著網絡層數加深不斷細化，而不是像傳統模塊化 VLM 那樣，只能在視覺編碼器壓縮后的表征上進行推理。

循序漸進的三階段喂數據

NEO-ov 采用循序漸進的三階段訓練方案，數據規模、分辨率和任務復雜度逐步提升：

階段一｜預訓練：使用約 2000 萬圖文對（包含大量描述性字幕和 OCR 數據），僅訓練視覺相關新增模塊，先將視覺表征對齊到語言空間，同時盡量保留原有語言能力。

階段二｜中期訓練：使用近 6000 萬多模態樣本，圖像分辨率從 2562 提升至 40962，視頻最長擴展到 128 幀；全部參數聯合優化，上下文長度從 16K 增至 36K，重點強化高分辨率感知和時空推理能力。

階段三｜監督微調：使用約 600 萬高質量指令數據（單圖、多圖和視頻），覆蓋視覺問答、OCR、細粒度感知、時序推理、數學分析和復雜對話等任務，進一步提升綜合能力。

模型規模方面，團隊基于 Qwen3-1.7B 和 Qwen3-8B 分別訓練了NEO-ov 2B和NEO-ov 9B兩個版本。

單圖和視頻有競爭力

空間智能反超「專用模型」

圖像理解：原生 VLM 的新 SOTA。在 2B 和 9B 兩個規模上，NEO-ov 都刷新了原生 VLM 的性能上限，全面超過 EVE、Mono-InternVL、OneCAT、SAIL 等同類工作，在 MMMU、HallusionBench、InfoVQA 等強調推理能力和抗幻覺能力的基準上優勢尤為明顯。更值得關注的是，在完全不依賴預訓練視覺編碼器的情況下，NEO-ov 依然能夠在多個感知與推理基準上追平甚至超過 InternVL3.5、Qwen3-VL 等頂尖模塊化模型，證明了端到端原生架構同樣具備競爭最強 VLM 的潛力。

多圖與視頻理解：原生架構首次具備與主流 VLM 正面競爭的實力。相比 Fuyu、EVE、ELVA 等此前的原生模型，NEO-ov 在 VideoMME、MVBench、MLVU 等視頻基準上實現了大幅領先，展現出強勁的時序推理和長上下文理解能力。更重要的是，在 BLINK、MUIRBench、LongVideoBench 等多圖與長視頻任務上，NEO-ov 已經能夠與 VideoLLaMA3、InternVL3.5 等頂尖模塊化模型正面競爭。這表明原生架構不僅能做好單圖理解，也具備了處理復雜時空信息的能力。

空間智能：NEO-ov 最亮眼的突破。作為一個通用原生模型，NEO-ov 在幾何推理、空間感知和具身理解等空間智能任務上，已經達到甚至超過 Cambrian-S、Sensenova-SI、GeoThinker 等專門設計的模型。在 ViewSpatial、3DSR、SPAR 等基準上，它相較其他通用 VLM 也展現出明顯優勢。這表明 NEO-ov 的優勢不僅體現在感知和推理能力上，更體現在對空間關系和三維結構的理解能力上。

拆開看：為什么原生架構在空間任務上更占便宜

原生注意力優于視覺編碼器：在公平對比下，NEO-ov 的 Pre-Buffer 機制在 OCR 和空間智能任務上明顯優于傳統視覺編碼器，說明保留更豐富的「像素 - 像素」和「像素 - 詞」交互，比依賴壓縮后的視覺表征更有效。
淺層交互更有利于空間智能：在相同空間智能數據上微調時，NEO-ov 的提升幅度顯著大于 InternVL3.5、Qwen3-VL 等編碼器模型，表明跨模態交互越早發生，對空間推理越有幫助。
漸進式訓練持續有效：從預訓練到中期訓練，2B 和 9B 兩個版本的性能都穩定提升，其中小模型收益尤為明顯。

還有哪些沒做好：

OCR、文檔，以及和頂級模型的差距

論文也沒有回避短板: NEO-ov 目前在部分單圖和視頻基準上，它與 Qwen3-VL 等模型仍有差距，這可能與訓練數據的規模和質量有關。OCR 和文檔理解也是一個相對明顯的短板：相比模塊化模型，NEO-ov 缺少專門針對 OCR 的預訓練，因此在這類任務上表現不夠突出。換句話說，原生多模態建模的優勢已經開始顯現，但遠沒有到達上限。后續如果能繼續擴大模型規模、豐富訓練數據，并加強長上下文訓練，這一路線仍有很大的提升空間。

它真正想說的：

不靠拼裝，多模態智能也能自己「長」出來

NEO-ov 想傳達的，其實是一個關于多模態智能來源的判斷：多模態智能未必只能來自精心設計的視覺編碼器、適配器和融合模塊，也可能從一個原生、統一、端到端的架構中自然涌現。

實驗表明，完全擺脫視覺編碼器的原生視覺語言模型不僅可行，而且在規模化之后已經具備與頂尖模塊化系統競爭的實力。對這條技術路線而言，NEO-ov 或許還不是終點，但無疑是一塊重要的進展。它讓「原生統一的視覺基礎模型」從一個理想，變成了一條正在被驗證的現實路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.