網易首頁 > 網易號 > 正文申請入駐

CVPR 2026 模型適應性研究盤點：從保留舊知識，到適應真實世界

2026-06-09 19:26:09　來源: AI科技評論

廣東舉報

分享至

穩定性，正在成為大模型落地的關鍵命題。

作者丨鄭佳美

編輯丨馬曉寧

當 AI 模型從“單次完成任務”走向真實世界部署時，真正的挑戰不再只是參數規模和單點性能，而是模型能否在變化中保持穩定。

它要在持續出現的新類別中不遺忘舊知識，要從大規模真實數據中獲得更強的泛化能力，要在多客戶端、數據分布不斷變化的環境下繼續學習，也要把圖像、視頻和 3D 等不同視覺經驗組織成統一理解。

這種變化也體現在 CVPR 2026 的相關研究趨勢中。越來越多工作不再只追求某個單一任務上的性能提升，而是更關注模型在長期學習、真實數據、分布變化和多模態協同中的穩定性與適應能力。換句話說，模型不僅要“會做”，還要能在復雜環境中持續做得好。

這一趨勢背后，反映的是大模型研究正在從“能力擴張”進入“能力管理”階段。模型不僅要學得多，還要知道哪些舊知識值得保留，哪些經驗可以遷移，哪些特征需要對齊，哪些模態能夠互相補充。

無論是持續學習、數字人建模、聯邦學習，還是統一大視覺模型，研究者真正關心的都是同一個問題：如何讓 AI 在復雜、動態、不完整的現實環境中，依然保持可泛化、可適應、可協同和可持續進化的能力。

從樣本回放到跨視覺協同

《Quantum-Gated Task-interaction Knowledge Distillation for Pre-trained Model-based Class-Incremental Learning》關注的是基于預訓練模型的類增量學習問題，相關研究來自北京郵電大學信息與通信工程學院和教育部信息網絡工程研究中心。

論文主要研究如何讓模型在不斷學習新類別的同時，盡量保留舊類別知識，減少災難性遺忘。類增量學習的難點在于，模型會按任務順序不斷接觸新類別，但測試時通常不知道樣本來自哪個任務。

隨著任務數量增加，不同任務的特征空間可能發生重疊，新任務學習容易覆蓋舊任務知識，導致模型對舊類別識別能力下降。

近年來，基于預訓練模型的類增量學習方法通常會凍結主干網絡，只訓練輕量級的 prompt 或 adapter 模塊，以降低訓練成本并保持基礎表示能力。

但論文指出，現有方法往往缺少明確的任務交互機制：prompt 選擇容易受相似度噪聲影響，adapter 又常常把不同任務看成彼此獨立的子空間，難以判斷新樣本應該借用哪些舊任務知識。

針對這一問題，論文提出了 QKD，也就是 Quantum-Gated Task-interaction Knowledge Distillation。它的核心思路是用量子門控機制來建模樣本與不同任務之間的相關性，再根據這種相關性指導知識蒸餾和推理時的 adapter 融合。

簡單來說，模型不僅要學習新任務，還要判斷哪些舊任務和當前樣本更相關，從而有選擇地吸收舊知識，減少無關任務帶來的干擾。

方法上，論文先為每個任務構建 task embedding，并通過參數化量子電路把樣本特征和任務表示映射到更高維的 Hilbert 空間中，用量子門控輸出樣本到各任務的相關性權重。

隨后，這些權重會被用于 task-interaction knowledge distillation，讓當前 adapter 從更相關的歷史 adapter 中學習特征信息，而不是平均吸收所有舊任務知識。

在推理階段，論文繼續復用這些量子門控得到的相關性權重，用來進行自適應 adapter 融合。這樣訓練和測試使用的是同一套任務相關性估計機制，可以減少訓練階段知識遷移和測試階段任務路由之間的不一致問題。

實驗方面，論文在 CIFAR-100、CUB-200、ImageNet-A、ImageNet-R 和 VTAB 等多個無樣本回放類增量學習基準上進行了驗證。

結果顯示，QKD 能夠提升最終準確率和平均增量準確率，并且在多種設置下達到領先或有競爭力的表現。消融實驗也表明，用量子門控替代普通余弦相似度或神經網絡控制器后，模型能更好地捕捉復雜任務關系。

這篇論文的亮點在于，它把量子門控機制引入到類增量學習中的任務路由和知識蒸餾過程。相比簡單地保存舊知識或獨立訓練不同任務 adapter，QKD 更關注任務之間的相關性建模，讓模型在學習新類別時有選擇地遷移舊任務知識。

總體來看，這項工作為預訓練模型時代的持續學習提供了一種新的思路：模型不僅要避免遺忘，還要學會判斷“哪些舊知識值得被當前任務繼承”。

論文地址：https://arxiv.org/pdf/2604.11112v1

如果說這項工作關注的是模型在不斷學習新任務時如何保留舊知識，那么《Large-scale Codec Avatars: The Unreasonable Effectiveness of Large-scale Avatar Pretraining》則把視角轉向了大規模預訓練在 3D 數字人建模中的作用。

它同樣關心模型如何從大規模數據中獲得更強的泛化能力，只不過應用對象從分類任務轉向了可驅動的高質量數字人。論文主要研究如何在真實世界輸入下，快速生成既能保持身份特征、又能進行精細表情和全身動作驅動的 3D 數字人。

這項任務的核心難點在于，高保真和強泛化之間長期存在矛盾。基于多視角影棚數據的方法通常能生成細節豐富、表情和動作控制精確的數字人，但采集成本高，也很難泛化到普通用戶隨手拍攝的真實世界視頻。

而基于大規模野外數據訓練的方法雖然泛化范圍更廣，但由于 3D 信息不完整，生成結果往往容易出現模糊、結構變形或細節不足的問題。

論文地址：https://arxiv.org/pdf/2604.02320v2

針對這一問題，論文提出了 Large-Scale Codec Avatars，也就是 LCA 框架。它借鑒大語言模型和視覺基礎模型中的“預訓練 + 后訓練”思路，先在 100 萬個真實世界單目人物視頻上進行大規模預訓練，學習人體外觀和幾何的通用先驗；再用高質量多視角影棚數據進行后訓練，提升模型的可驅動性、3D 完整性和視覺保真度。

方法上，LCA 會從全身圖像和面部特寫中提取圖像 token，同時從模板人體網格中提取幾何 token。模型通過圖像注意力、幾何注意力和多模態注意力融合不同來源的信息，再由 3D Gaussian 解碼器生成數字人的幾何和外觀屬性。

解碼器分為 canonical 分支和 pose-dependent 分支，前者負責靜態身份與外觀，后者負責表情、眼神、手部姿態和服裝形變等動態變化。

論文還展示了 LCA 的擴展能力。通過較小改動，它可以支持寬松服裝變形和重新打光等功能，并且在沒有直接監督的情況下，對眼鏡、帽子、不同發型、不同服裝甚至風格化角色都有較好的泛化能力。

實驗結果顯示，LCA 在多視角和單視角輸入下都優于已有 3D 數字人方法，在面部細節、手指動作、身體姿態和身份保持方面表現更穩定。

這篇論文的亮點在于，它把 3D 數字人建模從“小規模高質量采集”推進到“大規模預訓練驅動”的新范式。LCA 不只是提高了某個數字人模型的效果，而是證明了大規模預訓練同樣可以幫助 3D avatar 同時獲得泛化能力和高保真表現。

總體來看，這項工作讓數字人更接近真實應用場景：用戶只需要少量普通圖像或視頻，就有可能快速生成一個可實時驅動、可保持身份、可表達細膩表情和動作的高質量 3D 數字人。

從持續學習到數字人預訓練，前面兩項工作都在討論模型如何在復雜數據和真實應用條件下保持穩定能力。接下來，《From Selection to Scheduling: Federated Geometry-Aware Correction Makes Exemplar Replay Work Better under Continual Dynamic Heterogeneity》進一步把問題放到聯邦學習場景中，關注多個客戶端、數據不斷變化、歷史樣本有限時，模型該如何更穩健地持續學習。

論文主要研究的是：在多個客戶端不斷學習新任務的過程中，如何更有效地利用有限的歷史樣本，減少模型對舊知識的遺忘，同時緩解不同客戶端數據分布持續變化帶來的影響。

這項任務的難點在于，聯邦學習中的客戶端通常不能共享原始數據，而且每個客戶端看到的數據類別和分布并不一致。隨著新任務不斷到來，模型很容易被新類別影響，逐漸忘記過去學過的舊類別。

以往的樣本回放方法大多關注“應該保存哪些代表性樣本”，但論文指出，僅僅選出樣本還不夠，更關鍵的是如何在訓練和推理階段更好地使用這些樣本。

論文地址：https://arxiv.org/pdf/2604.08617v1

針對這一問題，論文提出了 FEAT，也就是聯邦幾何感知校正方法。它的核心思路是從特征空間的幾何結構入手，緩解客戶端之間的數據異質性和類別不平衡問題。簡單來說，模型不僅要記住過去任務中的樣本，還要讓不同客戶端、不同任務學到的特征結構盡量保持一致，避免少數類特征被多數類“拉偏”。

方法上，FEAT 包含兩個關鍵模塊。第一個是 Geometric Structure Alignment，用固定共享的 ETF 原型作為參考結構，對齊特征之間的角度關系，從而讓不同客戶端和不同任務中的類別特征保持更穩定的幾何分布。

第二個是 Energy-based Geometric Correction，它在推理階段移除與當前任務無關的方向成分，減少模型對多數類的偏向，提高對少數類和舊類別的識別能力。

實驗中，論文在 CIFAR10、CIFAR100 和 TinyImageNet-Subset 等數據集上進行驗證，并設置了不同客戶端數量、任務劃分和異質性程度。結果顯示，FEAT 能夠在多種設置下提升 Top-1 Accuracy，并且可以與 Re-Fed+、FedCBDR 等已有樣本回放方法結合使用，在保持較低通信開銷的同時進一步提升性能。

這篇論文的亮點在于，它沒有繼續把重點放在“如何挑選回放樣本”上，而是進一步思考“選出來的樣本該如何被更有效地使用”。

通過幾何結構對齊和推理階段校正，FEAT 讓聯邦持續學習在面對動態異質性和類別不平衡時更加穩定。總體來看，這項工作為資源受限、多客戶端、任務持續變化的實際聯邦學習場景提供了一種更精細、更穩健的樣本回放增強方案。

如果說 FEAT 關注的是多客戶端、多任務環境下的持續學習穩定性，那么《Modeling Cross-vision Synergy for Unified Large Vision Model》則進一步討論大視覺模型如何在更廣泛的視覺模態之間建立協同關系，它面對的問題不再只是“如何保留舊知識”，而是如何讓圖像、視頻和 3D 這幾種視覺經驗真正互相補充。

相關研究來自新加坡國立大學和南洋理工大學。論文主要研究如何讓一個大視覺模型同時處理圖像、視頻和 3D 數據，并且不是簡單地把不同模態放進同一個框架里，而是讓它們之間真正形成互補和協同。

這項任務的背景在于，圖像、視頻和 3D 場景雖然形式不同，但本質上都來自視覺世界。圖像更擅長提供顏色、紋理、布局等靜態信息，視頻包含運動和時間變化，3D 數據則能提供空間結構、距離和幾何關系。

以往的統一視覺模型大多追求“功能整合”，也就是讓一個模型能接收多種視覺輸入，但不同模態之間缺少深入交互，模型很難把視頻中的時間先驗、3D 中的空間先驗和圖像中的視覺細節真正結合起來。

論文地址：https://arxiv.org/pdf/2603.03564v1

針對這一問題，論文提出了 PolyV 框架，目標是實現跨視覺協同。它采用稀疏 MoE 架構，并通過動態路由器協調不同專家模塊，讓每個專家學習特定模態的先驗知識，同時又能在圖像、視頻和 3D 之間進行雙向交互和相互補充。也就是說，模型不是把不同模態的特征簡單拼接起來，而是讓不同模態中的知識在推理過程中互相影響、互相增強。

訓練上，論文設計了協同感知訓練流程。第一階段是模態特定預訓練，讓模型分別學習圖像、視頻和 3D 數據中的基礎能力；第二階段是跨視覺協同訓練，包括粗粒度和細粒度兩個層面。

粗粒度訓練通過知識蒸餾引入視頻基礎模型和 3D 基礎模型中的時間、空間先驗；細粒度訓練則進一步對齊不同模態中的對象屬性、空間關系和事件一致性，使模型能在更細的層面上建立跨模態對應關系。

論文還引入了 synergy token，讓模型在生成最終回答之前先形成一種中間的“協同表示”。這種設計相當于讓模型先綜合來自不同視覺模態的補充信息，再進行回答，從而提升它在空間推理、時間推理和跨模態理解任務中的表現。

實驗中，PolyV 在圖像、視頻和 3D 理解相關的 10 個代表性基準上進行了驗證，包括 MMStar、3DSRBench、MMSI-Bench、VideoMME、VSI-Bench、CVBench、ScanQA、SQA3D 和 Open-EQA 等任務。結果顯示，PolyV 在多個任務上都優于已有模型，并且相比其基礎模型 Qwen2.5-VL-7B，平均提升約 10%。

這篇論文的亮點在于，它把統一視覺模型從“能處理多種輸入”推進到“能讓多種視覺模態彼此協同”。過去的模型可能只是分別理解圖像、視頻或 3D，而 PolyV 試圖讓模型利用視頻中的運動知識增強圖像推理，用 3D 中的幾何知識增強空間理解，再通過 MoE 和協同訓練機制實現更靈活的視覺推理。

總體來看，這項工作強調的是下一代大視覺模型的一個重要方向：模型不僅要看得多，還要能把不同視覺經驗組織起來，形成更接近人類視覺系統的綜合理解能力。

去哪看 CVPR 核心【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨，雷峰網已全面上線【CVPR 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.