无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

入圍CVPR 2026最佳論文決選,ViT3突破Transformer復雜度瓶頸

0
分享至



編輯|+0

CVPR 2026 剛在美國丹佛落下帷幕。16092 篇投稿中,15 篇殺入最佳論文決選(Best Paper Finalists),入圍率不足千分之一。

其中一篇來自阿里巴巴與清華大學的合作研究:《ViT3 : Unlocking Test-Time Training in Vision》。

它要解決的,是當前視覺模型領域最普遍的一類痛點:當圖像分辨率越來越高、視頻越來越長、多模態輸入越來越復雜時,Transformer 逐漸算不動了。

ViT3 給出了一條不同的路線。

在 RTX 3090 上處理 1248 × 1248 分辨率圖像時,ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。

換句話說,它只使用接近十分之一的顯存,卻實現了更高的處理速度。

但這篇論文的意義,并不只是讓視覺模型跑得更快。

它真正嘗試改變的,是視覺模型保存和調用上下文信息的方式:不再單純依賴固定公式壓縮信息,而是在處理當前輸入時,通過一次快速的在線學習,把上下文寫入一個緊湊的內部模型。

這條路線建立在近年來受到關注的 Test-Time Training(TTT,測試時訓練)框架之上,而 ViT3 則進一步將其系統引入視覺領域,并梳理出一套可復用的設計原則。



  • 論文地址:https://arxiv.org/pdf/2512.01643
  • 代碼: https://github.com/LeapLabTHU/ViTTT

阿里巴巴長期關注多模態大模型與新一代交互體驗。隨著 AI 逐漸進入真實生活場景,模型需要處理的視覺信息正在變得越來越復雜:更高清的圖片、更長的視頻,以及持續增長的多模態上下文。

如何在控制算力成本的同時,讓模型看得更清楚、理解得更完整,已經成為多模態技術走向實際應用時必須面對的問題。ViT3 所探索的,正是這一底層能力。

把上下文壓縮,變成一次臨場學習

要理解 ViT3 的價值,需要先回到視覺模型長期面對的一組矛盾:如何在降低計算復雜度的同時,盡可能保留上下文建模能力。

Vision Transformer 在 2020 年被提出后,迅速成為計算機視覺中最重要的主流架構之一,并持續推動圖像分類、目標檢測、語義分割和圖像生成等任務的發展。

但標準 Softmax Attention 有一筆隨著序列長度快速膨脹的賬。

一張圖片進入視覺 Transformer 后,通常會被拆分成一組 token。圖片分辨率越高,token 數量就越多。標準 Attention 需要顯式計算不同 token 之間的兩兩關系,其計算和顯存成本會隨 token 數量呈二次增長。

為便于理解,省略縮放系數后,標準 Attention 可以簡寫為:Softmax(QK?)V

其中,Q 代表 query,K 代表 key,V 代表 value。真正帶來高成本的,是 QK? 形成的 N × N 矩陣。

當模型處理的是普通分辨率圖片時,這筆成本尚且可控。但一旦面對超高清圖片、長視頻或更復雜的多模態輸入,token 序列長度迅速增加,計算和顯存開銷就會逐漸接近成本邊界。

為了降低成本,過去幾年出現了多種線性復雜度方案。

Linear Attention的思路,是改變計算順序。它將關鍵計算從 Softmax(QK?)V 改寫為 Q(K?V),先把 K 和 V 壓縮成一個固定大小的狀態,再讓 Q 從中讀取信息。由于 K?V 的大小與序列長度 N 無關,復雜度可以降到 O(N)。

但代價也很明顯:上下文被壓縮進一個相對簡單的線性狀態。壓縮效率提高了,表達能力卻可能不足,實際性能往往與標準 Transformer 存在差距。

Mamba 和狀態空間模型走了另一條路。它們維護一個固定大小的隱狀態,并沿著序列逐步更新。相比簡單的線性映射,這種狀態更新機制更靈活,但仍然需要回答同一個問題:當序列越來越長、全局依賴越來越復雜時,如何把足夠豐富的信息寫入一個容量有限的狀態?

用一個類比來說:標準 attention 是「保留全部資料,需要時重新檢索」,代價是資料越多,檢索成本越高;Linear Attention 是「提前壓縮成一份固定摘要」,速度更快,但容易遺漏細節;Mamba 則像是「一邊閱讀,一邊持續更新一份有限長度的筆記」。

這些方案背后長期存在一組交換條件:壓縮越激進,計算越便宜;但壓縮方式越簡單,模型越容易損失表達能力。

Test-Time Training 試圖改變這組交換條件。它不再把上下文壓縮視為一次固定的矩陣運算,而是把它改寫成一次快速的在線學習過程。



TTT Block 保留了 Transformer 的宏觀結構。不同之處在于,原本的 Attention 計算被替換為一次可學習的上下文壓縮與讀取過程。

具體來說,TTT 將當前輸入中的 key-value 對視為一個臨時的「迷你數據集」。模型在推理過程中,對一個小型內部網絡進行短暫的自監督訓練,讓它學習從 K 預測 V。隨后,再使用更新后的內部網絡處理 query。

換句話說,模型面對每一組新的輸入時,都會進行一次輕量級的臨場適配。

這也是「Test-Time Training」這個名字的來源:在測試階段,模型會針對當前輸入,短暫訓練一個內部模型,再利用它完成信息讀取。

整個內部訓練過程仍然是可微的,并與外部網絡一起端到端優化,不需要拆分成多個獨立階段。

線性注意力使用固定矩陣乘法壓縮上下文;TTT 則使用梯度下降壓縮上下文。前者是固定的線性操作,后者是一種學習驅動的非線性壓縮方式。只要內部模型的規模保持固定,整體復雜度仍然可以維持在線性水平,但信息壓縮能力有機會進一步提高。

論文中有一張關鍵示意圖,展示了 Softmax Attention、Linear Attention 和 TTT 之間的關系。

Softmax Attention 可以被理解為一個寬度隨序列長度增長的內部模型;Linear Attention 對應一個固定大小的線性內部模型;TTT 則進一步允許內部模型成為可訓練的小型網絡。

ViT3 并不是完全拋開 Attention 另起爐灶,而是在同一個框架中,打開了更大的設計空間。



Softmax Attention、Linear Attention 與 TTT 的統一視角。Softmax Attention 保留完整上下文,Linear Attention 將上下文壓縮為固定大小的線性狀態;TTT 則通過在線訓練,將上下文寫入一個可更新的內部模型。

在空白的設計空間里畫出地圖

設計空間更大,意味著選擇更多,也意味著更容易走錯路。

在 ViT3 之前,TTT 已經在語言模型中獲得關注,但視覺數據與語言數據并不相同。語言天然具有順序和因果結構。圖像則是二維空間信息,不同 token 之間不存在同樣明確的先后關系。

當 TTT 進入視覺領域后,一系列基礎問題都需要重新回答:內部模型應該使用什么架構?損失函數如何選擇?應該更新多少輪?學習率應該多大?卷積和 MLP 哪一種更適合視覺任務?

ViT3 的重要貢獻之一,是通過系統實驗梳理視覺 TTT 的設計空間,總結出六條可以復用的實踐原則,并討論了TTT 當前存在的核心挑戰和未來研究方向。

觀察一:內部訓練損失函數的混合二階導數不能為零。

TTT 的內部訓練過程要和外部網絡一起做端到端優化,這意味著梯度要穿過內部訓練步驟回傳到外部參數。如果損失函數的混合二階導數為零,外部參數的梯度信號就會在回傳中消失。MAE(L1)損失的導數是符號函數,混合二階導幾乎處處為零——實驗中它比 MSE 損失低了 2.4 個百分點。這不是一個可以通過調參彌補的小問題,它決定了某些損失函數從根本上不適用于 TTT。

觀察二:視覺任務適合全批次、單輪訓練。

此前 NLP 領域的 TTT 實踐發現,小批量順序更新通常更有效。但在視覺任務中,全批次更新表現更好。論文給出了一個有說服力的解釋:小批量順序更新會引入因果偏置——前面的 batch 影響后面的梯度,后面的更新也可能覆蓋前面的信息。這種偏置適合具有方向性的語言數據,但對非因果的視覺數據反而是一種負擔。綜合準確率、吞吐和訓練穩定性,ViT3 最終采用單輪全批次更新。

觀察三:在穩定的前提下,更大的內部學習率效果更好。

實驗表明,在訓練穩定的前提下,越大的學習率效果越好。太小的學習率會讓內部模型更新不充分,無法有效存儲上下文信息;過大的學習率則容易導致訓練不穩定。

值得注意的是,在一些特殊情況下,內部學習率可以吸收為 K 和 V 的放縮。但是這并不內說明內部學習率的設置不重要。一個類似的例子是Softmax注意力中的

放縮,它也能夠被 Q 和 K 吸收,但是依然重要。

觀察四:增加內部模型容量,性能持續提升。

一個關鍵問題是:TTT 能不能通過簡單擴大內部模型來提升序列建模能力?為了探索這一點,論文將 TTT 內部模型實現為一個 SiLU 激活函數的兩層 MLP,并逐漸增加其寬度。實驗表明,當隱藏維度 d 擴到 4d,準確率從 78.9% 提升到 79.6%,沒有飽和跡象。這是TTT 范式的一個核心優勢,即它可以在外部模型尺寸固定的條件下,通過簡單地擴展內部模型尺寸來實現更好的序列建模效果。這和 Linear Attention 形成鮮明對比:后者通常將上下文壓縮進固定大小的線性狀態,表達能力和擴展空間相對有限。



隨著內部模型寬度增加,TTT 的性能持續提升,說明內部模型容量仍有進一步擴展空間。

觀察五:當前更深的內部模型存在優化困難,需要未來工作解鎖其理論潛力。

一個不符合預期的結果是,把內部模型從一層變成兩層、三層,參數更多、理論容量更大,但實際準確率反而下降。論文的分析指向優化困難:更深的內部模型在 TTT 的短訓練步數下容易欠擬合——訓練損失更高,測試準確率更低。當前深層網絡的理論優勢在 TTT 的快速訓練場景中難以兌現。論文同時發現,如果把輸出層固定為單位矩陣(一種「約束設計」),準確率反而比完整的兩層 MLP 更高。這進一步證實了優化瓶頸的存在。

解決較深內部模型的優化問題,是 TTT 的一個重要未來方向。理論工作表明,神經網絡的擬合能力隨深度指數增長,這正是當前神經網絡成功的核心原因。因此,較深的內部模型在實現高精度測試時訓練序列建模中具有突出潛力。



增加內部模型深度,并沒有帶來更高的準確率。隨著層數增加,訓練損失反而更高,說明視覺 TTT 當前仍面臨內部模型優化瓶頸。

觀察六:卷積天然適合做視覺 TTT 的內部模型。

隨著 Transformer 興起,卷積不再是視覺模型中唯一占據主導地位的結構。但在 TTT 框架中,它獲得了一個新的角色。TTT 把全局上下文壓縮進內部模型的權重,當內部模型是卷積時,這些權重就是卷積核——全局信息被編碼在核的參數里,而卷積操作本身又提供了局部感受野。一次前向推理同時完成了全局和局部信息的整合。實驗中,一個輕量級 3 × 3 深度卷積在參數量更少的情況下,比 MLP baseline 高出 1.2 個百分點。

這六條原則并不是相互獨立的經驗。

觀察一排除了一類不適用于TTT 的損失函數;觀察二和觀察三回答「應該怎么訓練」;觀察四、觀察五和觀察六則回答「內部模型應該如何設計」。

它們共同構成了一份視覺 TTT 的實踐地圖:哪些方向值得未來工作繼續探索,哪些路徑容易陷入優化瓶頸,哪些設計能夠在效果和效率之間取得更好的平衡。

從分類到生成,

ViT3 的優勢在高分辨率下放大

基于前面的六條觀察,研究團隊最終搭建出 Vision Test-Time Training 模型,簡稱 ViT3。

它的整體設計并不復雜。

在多數 Attention head 中,ViT3 使用一種簡化的門控內部模型,在保持易于優化的同時,提供比純線性狀態更強的表達能力。另有一個 head 引入輕量級的 3 × 3 深度卷積,使模型在壓縮全局上下文的同時,也能夠利用圖像中的局部空間結構。

內部訓練同樣保持克制:每次只進行一輪全批次梯度更新。換句話說,ViT3 沒有在推理過程中嵌入一套繁重的訓練流程,而是在控制額外成本的前提下,讓內部模型完成一次快速適配。

圍繞這一模塊,論文構建了三類模型:ViT3 采用非層級架構,對齊經典 Vision Transformer;H-ViT3 使用四階段層級設計,更適合作為通用視覺骨干網絡;DiT3 則將同樣的 TTT 模塊放入擴散模型,用于圖像生成。

這組設計的目標,不是針對某一個 benchmark 調整出更高的數字,而是驗證一個更關鍵的問題:TTT 能否成為一種可遷移的視覺序列建模模塊?

從實驗結果看,答案是積極的。

在圖像分類任務中,ViT3 展現出有競爭力的視覺表征能力。在目標檢測和語義分割等需要處理更高分辨率輸入的任務中,它也能夠超過多種同級別的 Mamba 和 Linear Attention 模型。

這說明,相比將上下文壓縮進一個簡單線性狀態,ViT3 使用更靈活的內部模型保存信息,能夠在控制計算成本的同時,維持較強的建模能力。

ViT3 的適用范圍也沒有停留在識別任務。

研究團隊進一步將 TTT 模塊放入擴散模型,構建出 DiT3。實驗顯示,在不同模型規模和 patch 配置下,DiT3 均能夠改善原始 DiT 的圖像生成質量。

這意味著,TTT 可以作為一個相對獨立的模塊,進入不同類型的視覺架構。

但 ViT3 最直觀的優勢,仍然來自高分辨率圖像。

在 RTX 3090 上處理 1248 × 1248 圖像時,單張圖片包含 6084 個 token。此時,ViT3-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。



原因并不復雜。

在低分辨率輸入下,序列較短,標準 Attention 的成本仍然可以承受。隨著分辨率提高,token 數量快速增加,標準 Softmax Attention 的計算和顯存開銷隨序列長度呈二次增長;ViT3 則保持線性復雜度。兩條曲線之間的差距,會隨著輸入規模擴大持續拉開。

對于面向真實生活場景的多模態應用而言,這一點尤其重要。

當模型開始接收更高清的圖片、更長的視頻和更復雜的視覺上下文時,序列長度會快速增加。單純依賴算力堆疊,很難無限持續。

這也與阿里巴巴長期關注的方向形成呼應。

未來的多模態交互,不只是讓模型識別一張圖片,而是需要它在真實環境中持續處理更加復雜的視覺信息。無論是更自然的人機交互,還是面向生活場景的 AI 原生應用,都需要一個更具擴展性的視覺底座。

ViT3 所驗證的,是另一種可能性:通過架構創新提高上下文壓縮質量,在不放棄線性復雜度優勢的前提下,盡量縮小與標準 Transformer 之間的性能差距。

但 ViT3 還不是對 Transformer 的全面替代。

論文給出的定位相對克制:作為一套視覺 TTT baseline,它已經超過多種線性復雜度模型,并顯著縮小了與主流視覺 Transformer 的性能差距,但仍存在進一步提升空間。

另一方面,4.6 倍速度提升和 90.3% 顯存節省來自 RTX 3090 上的實驗結果,證明了算法層面的擴展優勢,但還不能直接等同于手機、車端等邊緣設備上的實際部署效果。

更準確地說,ViT3 為端側部署和高分辨率多模態應用打開了新的可能性,也為后續工程優化提供了基礎。

算力與性能,不必互斥

過去幾年,視覺模型領域逐漸形成了一種默認路徑:更好的性能,往往意味著更大的模型、更多的訓練數據和更高的算力成本。

線性復雜度模型雖然更加高效,但通常需要付出性能代價。

ViT3 試圖重新檢驗這一前提。

它系統梳理了視覺 TTT 的設計空間,證明學習驅動的上下文壓縮可以覆蓋分類、檢測、分割和生成任務,并在高分辨率場景下展現出更加明顯的效率優勢。

這也是阿里巴巴持續探索的方向。

當多模態模型持續走向高清視覺、長上下文和復雜交互,行業需要回答一個更長期的問題:能力增長是否只能依賴更多算力?

ViT3 給出了另一種可能:答案也許不在更大的模型里,而在更聰明的架構里。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

健康科普365
2026-06-14 18:10:08
CBA最新消息!北京首鋼新主帥確定,張慶鵬再就業

CBA最新消息!北京首鋼新主帥確定,張慶鵬再就業

體壇瞎白話
2026-06-15 10:13:32
馬斯克又添丁了,這已經是他的第14個孩子。

馬斯克又添丁了,這已經是他的第14個孩子。

荊楚寰宇文樞
2026-06-15 12:48:47
對日本處置完成,解放軍全球官宣,難怪找不到遼寧艦,被收拾了?

對日本處置完成,解放軍全球官宣,難怪找不到遼寧艦,被收拾了?

一曲一場談
2026-06-15 02:03:26
去他的選秀權!總決賽的布里奇斯,什么水平?

去他的選秀權!總決賽的布里奇斯,什么水平?

籃球實錄
2026-06-15 01:38:55
看了日本隊2-2荷蘭隊,認清現實:中國足球落后太多了,不服不行

看了日本隊2-2荷蘭隊,認清現實:中國足球落后太多了,不服不行

銳評利物浦
2026-06-15 09:53:03
世界杯開門紅!哲凱賴什傳射,伊薩克造3球,瑞典5-1大勝突尼斯

世界杯開門紅!哲凱賴什傳射,伊薩克造3球,瑞典5-1大勝突尼斯

全景體育V
2026-06-15 12:00:41
荷蘭隊橙色球衣顏色太亮眼,球迷吐槽:電視機“扛不住了”

荷蘭隊橙色球衣顏色太亮眼,球迷吐槽:電視機“扛不住了”

大象新聞
2026-06-15 09:25:02
金融男的三件套,變了

金融男的三件套,變了

叫我娛樂菌
2026-03-30 19:35:53
墻倒眾人扶!被人民日報點名的李維剛,再次證明真誠才是必殺技

墻倒眾人扶!被人民日報點名的李維剛,再次證明真誠才是必殺技

舊事別提
2026-06-12 07:09:01
新加坡再對華翻臉,德媒說了實話:無論怎么施壓,中國也不會讓步

新加坡再對華翻臉,德媒說了實話:無論怎么施壓,中國也不會讓步

吳霶愛體育
2026-06-15 11:09:04
貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

ChicMyGeek
2026-06-14 11:03:06
巴塞羅那瘋了:8000萬出售隊長籌集資金追求新9號?

巴塞羅那瘋了:8000萬出售隊長籌集資金追求新9號?

本澤體育
2026-06-15 09:37:03
不忍心告訴你:未來,大部分私企打工人,很難有“退休”的那一天

不忍心告訴你:未來,大部分私企打工人,很難有“退休”的那一天

舒山有鹿
2026-06-14 11:48:24
德比斯獲第九名!公開道歉透露原因,張雪未回應,熱衰可能是關鍵

德比斯獲第九名!公開道歉透露原因,張雪未回應,熱衰可能是關鍵

以茶帶書
2026-06-15 16:15:56
以色列炸鍋:糟糕的協議,我們咋辦?

以色列炸鍋:糟糕的協議,我們咋辦?

觀察者網
2026-06-15 09:48:31
制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

銘記歷史呀
2026-06-13 16:02:30
雷軍回應“用私家車裝600斤車厘子被指違規”:是卡車送到實驗場后,在封閉道路分裝

雷軍回應“用私家車裝600斤車厘子被指違規”:是卡車送到實驗場后,在封閉道路分裝

現代快報
2026-06-13 11:58:14
記者好心遭“背刺”,求助者達目的后威脅不準報道否則投訴到網XB

記者好心遭“背刺”,求助者達目的后威脅不準報道否則投訴到網XB

蔥哥說
2026-06-14 20:32:22
圖赫爾臉被打腫!不帶他去世界杯,如今 1.2 億曼聯瘋搶!

圖赫爾臉被打腫!不帶他去世界杯,如今 1.2 億曼聯瘋搶!

瀾歸序
2026-06-15 06:58:16
2026-06-15 18:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13263文章數 142670關注度
往期回顧 全部

科技要聞

白宮一個電話,最強Claude上線三天就沒了

頭條要聞

男子被海洋公園鯊魚咬傷 工作人員打手勢問是否還下潛

頭條要聞

男子被海洋公園鯊魚咬傷 工作人員打手勢問是否還下潛

體育要聞

殘陣日本2比2荷蘭:漫畫里不是這樣的呀

娛樂要聞

黃大煒猝逝過程太離奇,母親追查真相

財經要聞

活鼠、活蛆、農殘超標 山姆回應被約談

汽車要聞

網易X智己 夏日尊享內購會,熱力收官

態度原創

家居
本地
旅游
公開課
軍事航空

家居要聞

綠意盎然 自然之境

本地新聞

當年輕人重新愛上黃金,非遺有了新的打開方式

旅游要聞

哈爾濱極地公園“摩洛哥藍色小鎮”斬獲第26屆IAI傳鑒國際廣告獎金獎!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議已完成 開放霍爾木茲海峽

無障礙瀏覽 進入關懷版