網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 2026 醫(yī)學(xué)影像?AI 趨勢(shì)梳理：從看懂影像，到接管科研工作流

2026-05-28 11:57:48　來(lái)源: 雷峰網(wǎng)

北京舉報(bào)

分享至

模型正從影像識(shí)別走向高效適配、臨床語(yǔ)義理解與跨模態(tài)推理。

作者丨鄭佳美

編輯丨馬曉寧

醫(yī)學(xué) AI 過(guò)去很長(zhǎng)一段時(shí)間都在回答一個(gè)問(wèn)題：模型能不能看得比人更準(zhǔn)？

于是，大量研究圍繞病灶識(shí)別、器官分割、影像分類(lèi)和報(bào)告生成展開(kāi)，目標(biāo)是在標(biāo)準(zhǔn)數(shù)據(jù)集上取得更高指標(biāo)。但現(xiàn)在，這個(gè)問(wèn)題已經(jīng)不夠了。

真實(shí)的醫(yī)學(xué)與生物科研場(chǎng)景并不是一個(gè)干凈、統(tǒng)一、標(biāo)注充分的 benchmark，而是由不同設(shè)備、不同協(xié)議、不同數(shù)據(jù)質(zhì)量、不同任務(wù)目標(biāo)和不同專(zhuān)業(yè)知識(shí)共同組成的復(fù)雜系統(tǒng)。

因此，新的研究重點(diǎn)開(kāi)始發(fā)生轉(zhuǎn)移。一個(gè)模型是否有價(jià)值，不再只取決于它在某個(gè)數(shù)據(jù)集上的分?jǐn)?shù)，而取決于它能否在新實(shí)驗(yàn)室的數(shù)據(jù)上快速適配，能否用更少標(biāo)注學(xué)到有效推理，能否把 CT、超聲、病理、報(bào)告、空間轉(zhuǎn)錄組、運(yùn)動(dòng)傳感器、腦活動(dòng)和多視角 X-ray 等異質(zhì)信息連接起來(lái)。

也就是說(shuō)，醫(yī)學(xué)與生物視覺(jué)正在從“會(huì)看圖”走向“會(huì)理解任務(wù)”，從“模型本身更大”走向“系統(tǒng)整體更有用”。

CVPR 2026 相關(guān)論文中也能看到這種趨勢(shì)：一方面，AI agent、數(shù)據(jù)篩選和輕量化適配方法正在減少人工調(diào)參、數(shù)據(jù)標(biāo)注和模型微調(diào)成本；

另一方面，三維 CT 基礎(chǔ)模型、超聲圖文預(yù)訓(xùn)練、空間轉(zhuǎn)錄組預(yù)測(cè)、IMU-視頻對(duì)齊、fMRI 視頻重建和雙視角 X-ray 推理等工作，則不斷擴(kuò)展醫(yī)學(xué)視覺(jué)模型能夠處理的信息邊界。

這些研究共同指向一個(gè)方向：醫(yī)學(xué) AI 的下一步，不只是訓(xùn)練更大的模型，而是讓模型真正進(jìn)入真實(shí)科研與臨床流程。

少數(shù)據(jù)、少微調(diào)、少人工

來(lái)自加州理工學(xué)院、康奈爾大學(xué)、德克薩斯大學(xué)奧斯汀分校和倫斯勒理工學(xué)院的研究團(tuán)隊(duì)在《Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization》中，關(guān)注的是如何用簡(jiǎn)單的 AI agent 自動(dòng)優(yōu)化生物醫(yī)學(xué)圖像分析工作流。

研究的重點(diǎn)不是重新訓(xùn)練一個(gè)新模型，而是讓 agent 為已有的成熟工具自動(dòng)編寫(xiě)圖像預(yù)處理和后處理代碼，從而解決不同實(shí)驗(yàn)室、不同成像設(shè)備、不同數(shù)據(jù)分布下工具效果下降的問(wèn)題。

論文在 Polaris、Cellpose 和 MedSAM 這 3 個(gè)真實(shí)生物醫(yī)學(xué)圖像分析流程上進(jìn)行了實(shí)驗(yàn)，覆蓋單分子點(diǎn)檢測(cè)、細(xì)胞實(shí)例分割和醫(yī)學(xué)圖像分割等不同尺度任務(wù)，結(jié)果發(fā)現(xiàn)簡(jiǎn)單的基礎(chǔ) agent 就能超過(guò)專(zhuān)家手寫(xiě)的官方優(yōu)化方案，尤其在 MedSAM 任務(wù)上提升非常明顯。

論文地址：https://arxiv.org/pdf/2512.06006v1

研究的亮點(diǎn)在于，它證明了在這種工程性很強(qiáng)、數(shù)據(jù)量有限、目標(biāo)明確的科研工作流優(yōu)化場(chǎng)景中，簡(jiǎn)單、透明、低成本的 agent 往往已經(jīng)足夠有效，復(fù)雜的 agent 架構(gòu)、專(zhuān)家函數(shù)庫(kù)或 AutoML 并不一定穩(wěn)定帶來(lái)收益，甚至可能因?yàn)槿蝿?wù)差異、搜索空間偏置或小驗(yàn)證集過(guò)擬合而降低效果；

同時(shí)，論文還分析了不同任務(wù)中 API 空間和參數(shù)空間的差異，解釋了為什么同一種 agent 設(shè)計(jì)在不同工具上表現(xiàn)不同。雷峰網(wǎng)

整體來(lái)看，這項(xiàng)工作把 LLM agent 從泛泛的自動(dòng)化概念落到了真實(shí)科研工具適配中，說(shuō)明 agent 可以幫助科研人員減少大量手工調(diào)參和代碼適配工作，并有潛力成為生物醫(yī)學(xué)圖像分析工具落地應(yīng)用中的實(shí)用輔助系統(tǒng)。

在工具工作流的自動(dòng)適配之外，《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把問(wèn)題轉(zhuǎn)向醫(yī)學(xué)推理模型的訓(xùn)練數(shù)據(jù)選擇。

來(lái)自華東師范大學(xué)、穆罕默德·本·扎耶德人工智能大學(xué)、蒙納士大學(xué)和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出 DIQ，即 Difficulty-Influence Quadrant，希望用極少量微調(diào)數(shù)據(jù)提升醫(yī)學(xué)推理模型的效率。

研究指出，醫(yī)學(xué) VLM / LLM 的監(jiān)督微調(diào)通常依賴(lài)大量帶推理鏈的數(shù)據(jù)，但其中存在許多重復(fù)、低質(zhì)量或優(yōu)化價(jià)值不高的樣本，直接擴(kuò)大數(shù)據(jù)規(guī)模會(huì)帶來(lái)較高計(jì)算成本，也不一定提升復(fù)雜臨床推理能力。

論文認(rèn)為，單純按“難度”選數(shù)據(jù)容易選到噪聲大、過(guò)難且難以?xún)?yōu)化的樣本，單純按“梯度影響”選數(shù)據(jù)又容易偏向淺層、好學(xué)但推理不深的樣本，因此 DIQ 同時(shí)計(jì)算每個(gè)樣本的醫(yī)學(xué)推理難度和訓(xùn)練影響力，把樣本劃分到不同象限，并優(yōu)先選擇“高難度、高影響力”的數(shù)據(jù)，讓模型在很小數(shù)據(jù)量下也能學(xué)到有價(jià)值的臨床推理模式。

實(shí)驗(yàn)顯示，在 Huatuo 和 FineMed 等醫(yī)學(xué)推理數(shù)據(jù)上，DIQ 只用 1% 選中數(shù)據(jù)就能接近甚至超過(guò)全量微調(diào)效果，用 10% 數(shù)據(jù)時(shí)整體優(yōu)于隨機(jī)選擇、困惑度選擇、相似度選擇和 LESS 等基線(xiàn)；同時(shí)在人類(lèi)和 LLM-as-a-judge 評(píng)估中，DIQ 選出的數(shù)據(jù)在鑒別診斷、安全檢查和證據(jù)引用等方面更符合專(zhuān)家臨床推理習(xí)慣。

論文地址：https://arxiv.org/pdf/2508.01450v3

它的亮點(diǎn)在于，不是繼續(xù)堆更多醫(yī)學(xué)推理數(shù)據(jù)，而是從“樣本是否有推理價(jià)值”和“樣本是否真正推動(dòng)模型優(yōu)化”兩個(gè)角度做精細(xì)篩選，說(shuō)明高質(zhì)量數(shù)據(jù)選擇比粗暴擴(kuò)大數(shù)據(jù)規(guī)模更有效；

同時(shí)，DIQ 的影響力計(jì)算基于一階梯度點(diǎn)積，避免傳統(tǒng)影響函數(shù)的高成本，難度分?jǐn)?shù)又通過(guò)醫(yī)學(xué) BiomedBERT 分類(lèi)器估計(jì)，因此整體方法相對(duì)輕量、可復(fù)用。雷峰網(wǎng)

整體來(lái)看，這項(xiàng)工作為醫(yī)學(xué)推理模型提供了一種更省數(shù)據(jù)、更省計(jì)算的微調(diào)方案，尤其適合醫(yī)學(xué)數(shù)據(jù)昂貴、標(biāo)注困難、但又需要模型具備可靠臨床推理能力的場(chǎng)景。

進(jìn)一步來(lái)看，《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》關(guān)注的不是訓(xùn)練數(shù)據(jù)篩選，而是視覺(jué)語(yǔ)言模型在特定領(lǐng)域中的輕量化適配。

亞馬遜云科技和加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)提出 CRAFT，全稱(chēng)是 Codebook Regulated Fine-Tuning，主要研究如何在不改動(dòng)大語(yǔ)言模型部分的情況下，讓大型視覺(jué)語(yǔ)言模型更好適應(yīng)醫(yī)學(xué)圖像、細(xì)粒度分類(lèi)、植物病害識(shí)別等特定視覺(jué)領(lǐng)域。

論文指出，現(xiàn)有方法通常會(huì)微調(diào)視覺(jué)編碼器、投影層或 LLM，但這樣容易造成視覺(jué)特征空間變化，需要重新對(duì)齊語(yǔ)言模型，甚至?xí)屇Ｐ驮诙檀鸢笖?shù)據(jù)上過(guò)擬合，損害原本的指令遵循和解釋能力；

CRAFT 的核心思路是只微調(diào)離散視覺(jué)編碼器，并把視覺(jué)特征錨定到一個(gè)固定的離散 codebook 中，讓視覺(jué)編碼器學(xué)會(huì)選擇和排列已有的“視覺(jué)詞匯”，從而向凍結(jié)的語(yǔ)言模型傳遞更適合目標(biāo)領(lǐng)域的視覺(jué)信息。

訓(xùn)練時(shí)，方法結(jié)合 surrogate LLM 的對(duì)齊損失、commitment loss 和對(duì)比學(xué)習(xí)損失，保證離散 token 既貼近圖像內(nèi)容，又能被語(yǔ)言模型理解；推理時(shí)還加入基于 token 稀有度的剪枝機(jī)制，去掉大量背景或重復(fù) token，讓模型更關(guān)注關(guān)鍵視覺(jué)區(qū)域。

實(shí)驗(yàn)覆蓋 IconQA、OCRVQA、ScienceQA、VQA-RAD、EuroSAT、Flowers、Kvasir、PlantVillage、Cars、Dogs 等 10 個(gè)分類(lèi)和視覺(jué)問(wèn)答基準(zhǔn)，結(jié)果顯示 CRAFT 相比原始離散模型平均提升 13.51%，在最強(qiáng)設(shè)置下平均準(zhǔn)確率達(dá)到 68.58%，并且在推理解釋能力上比 LoRA、projector fine-tuning 和連續(xù)特征微調(diào)更穩(wěn)定。

論為地址：https://arxiv.org/pdf/2602.19449v1

它的亮點(diǎn)在于把“視覺(jué)適配”和“語(yǔ)言推理”解耦：只更新視覺(jué)編碼器，不重新訓(xùn)練或破壞 LLM，卻能讓同一個(gè)適配后的編碼器遷移到共享 codebook 的不同語(yǔ)言模型上；

同時(shí)，離散 codebook 起到了穩(wěn)定接口的作用，避免連續(xù)特征微調(diào)帶來(lái)的跨模態(tài)錯(cuò)位。整體來(lái)看，這項(xiàng)工作為領(lǐng)域?qū)Ｓ?LVLM 適配提供了一種更輕量、更可復(fù)用的方法，尤其適合那些視覺(jué)分布特殊、但又不希望重新訓(xùn)練大語(yǔ)言模型的應(yīng)用場(chǎng)景。

從三維 CT 到超聲圖文理解

在《Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers》中，荷蘭埃因霍溫理工大學(xué)電氣工程系（ARIA 實(shí)驗(yàn)室、AIMS 實(shí)驗(yàn)室）提出了面向三維 CT 的開(kāi)放式基礎(chǔ)模型 SPECTRE。

它的目標(biāo)是學(xué)習(xí)既包含體積影像空間結(jié)構(gòu)、又包含放射科報(bào)告臨床語(yǔ)義的通用 CT 表征。論文關(guān)注的核心問(wèn)題是：三維 CT 不同于普通二維圖像，直接使用常規(guī)視覺(jué)基礎(chǔ)模型會(huì)遇到 token 數(shù)量過(guò)大、體素各向異性、掃描范圍和層厚不一致、醫(yī)學(xué)報(bào)告監(jiān)督噪聲較強(qiáng)等困難。

論文地址：https://arxiv.org/pdf/2511.17209v2

為此，作者設(shè)計(jì)了“局部 ViT + 全局 ViT”的兩級(jí)純 Transformer 架構(gòu)，先在局部三維窗口中提取精細(xì)結(jié)構(gòu)特征，再在全局層面整合完整掃描信息；訓(xùn)練上則結(jié)合自監(jiān)督學(xué)習(xí)和 CT-文本跨模態(tài)對(duì)齊，讓模型同時(shí)具備幾何理解能力和臨床語(yǔ)義理解能力。

實(shí)驗(yàn)顯示，SPECTRE 在腫瘤生物標(biāo)志物預(yù)測(cè)、器官分割和文本到 CT 檢索等任務(wù)上整體優(yōu)于多數(shù)基線(xiàn)，尤其在文本檢索影像任務(wù)中提升明顯。

論文的亮點(diǎn)在于，它不是簡(jiǎn)單把二維視覺(jué)模型擴(kuò)展到三維醫(yī)學(xué)影像，而是針對(duì)體積 CT 的計(jì)算結(jié)構(gòu)、空間特性和報(bào)告語(yǔ)義進(jìn)行了系統(tǒng)設(shè)計(jì)；

同時(shí)，它強(qiáng)調(diào)使用公開(kāi)數(shù)據(jù)訓(xùn)練并開(kāi)源模型和代碼，降低了醫(yī)學(xué)影像基礎(chǔ)模型對(duì)私有數(shù)據(jù)的依賴(lài)。整體來(lái)看，這項(xiàng)工作為三維 CT 基礎(chǔ)模型提供了一個(gè)更可復(fù)現(xiàn)、更適合體積醫(yī)學(xué)影像特點(diǎn)的方案，也說(shuō)明純 Transformer 架構(gòu)在經(jīng)過(guò)合適設(shè)計(jì)后，可以在 CT 表征學(xué)習(xí)中兼顧空間細(xì)節(jié)和臨床語(yǔ)義。

與 SPECTRE 面向三維 CT 的體積建模不同，《Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding》把重點(diǎn)放在超聲這一更依賴(lài)臨床經(jīng)驗(yàn)、圖像表現(xiàn)更復(fù)雜、診斷屬性更細(xì)粒度的醫(yī)學(xué)影像模態(tài)上。

來(lái)自浙大城市學(xué)院、香港浸會(huì)大學(xué)、浙江大學(xué)、浙江大學(xué)醫(yī)學(xué)院附屬婦產(chǎn)科醫(yī)院、浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院和香港城市大學(xué)的研究團(tuán)隊(duì)提出 Ultrasound-CLIP，主要研究如何為超聲圖像構(gòu)建更適合臨床語(yǔ)義理解的圖文預(yù)訓(xùn)練模型。

現(xiàn)有 CLIP 或醫(yī)學(xué) VLP 模型大多偏向 CT、MRI、病理等模態(tài)，超聲數(shù)據(jù)占比很低，而且超聲報(bào)告里有很多專(zhuān)門(mén)的診斷屬性，比如回聲、邊界、后方聲學(xué)現(xiàn)象和血流情況，普通圖文對(duì)比學(xué)習(xí)很難準(zhǔn)確處理這些細(xì)粒度語(yǔ)義。

為了解決這個(gè)問(wèn)題，論文先構(gòu)建了大規(guī)模超聲圖文數(shù)據(jù)集 US-365K，包含約 36.4 萬(wàn)對(duì)圖像—文本樣本，覆蓋 52 個(gè)解剖類(lèi)別；

論為地址：https://arxiv.org/pdf/2604.01749v1

同時(shí)提出超聲診斷分類(lèi)體系 UDT，把解剖層級(jí)和 9 類(lèi)診斷屬性統(tǒng)一起來(lái)，再基于這些知識(shí)設(shè)計(jì) Ultrasound-CLIP，通過(guò)語(yǔ)義軟標(biāo)簽減少“相似病例被當(dāng)成完全負(fù)樣本”的問(wèn)題，并用異構(gòu)圖編碼器建模病灶和診斷屬性之間的結(jié)構(gòu)關(guān)系。

實(shí)驗(yàn)顯示，該方法在超聲多屬性分類(lèi)、圖文檢索以及下游零樣本、線(xiàn)性探測(cè)和微調(diào)任務(wù)上都優(yōu)于通用 CLIP 和多種醫(yī)學(xué) CLIP 基線(xiàn)，例如平均分類(lèi)準(zhǔn)確率達(dá)到 59.61%，明顯高于最強(qiáng)基線(xiàn) BiomedCLIP 的 33.81%，圖像到文本檢索的 R@10 也提升到 0.3745。

這項(xiàng)工作的亮點(diǎn)在于，它不是簡(jiǎn)單收集超聲數(shù)據(jù)后套用標(biāo)準(zhǔn) CLIP，而是把超聲影像特有的解剖層級(jí)、診斷屬性和語(yǔ)義相似性顯式放進(jìn)訓(xùn)練目標(biāo)中，使模型更能理解超聲報(bào)告里的臨床語(yǔ)言；

同時(shí)，數(shù)據(jù)集、分類(lèi)體系和模型框架一起提出，也為后續(xù)超聲圖文理解、檢索、輔助診斷和跨數(shù)據(jù)集泛化提供了比較系統(tǒng)的基礎(chǔ)資源。

從病理、運(yùn)動(dòng)到 X-ray 雙視角

《HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction》來(lái)自廈門(mén)大學(xué)、上海人工智能實(shí)驗(yàn)室、清華大學(xué)和鵬城實(shí)驗(yàn)室的合作研究，關(guān)注的是如何從病理 H&E 全切片圖像中預(yù)測(cè)空間轉(zhuǎn)錄組的基因表達(dá)。

論文提出的方法叫 HyperST，核心問(wèn)題在于：現(xiàn)有方法大多只做單個(gè) spot 圖像和基因表達(dá)之間的局部匹配，容易忽略空間轉(zhuǎn)錄組數(shù)據(jù)本身的層次結(jié)構(gòu)，例如單個(gè) spot 與周?chē)M織微環(huán)境 niche 之間的關(guān)系，以及病理形態(tài)信息與更細(xì)粒度分子表達(dá)信息之間的不對(duì)稱(chēng)關(guān)系。

為了解決這個(gè)問(wèn)題，論文把圖像和基因表達(dá)都建模成多層級(jí)表示，一方面提取 spot 級(jí)和 niche 級(jí)的病理圖像特征與基因表達(dá)特征，另一方面把這些表示投影到雙曲空間中，通過(guò)層次化對(duì)比對(duì)齊和層次化蘊(yùn)含約束，讓模型顯式學(xué)習(xí)“spot 到 niche”“圖像到基因表達(dá)”這類(lèi)由粗到細(xì)、由一般到具體的結(jié)構(gòu)關(guān)系，從而得到更有分子語(yǔ)義的圖像表征。

實(shí)驗(yàn)方面，論文在來(lái)自 HEST-1K 的腎臟、結(jié)直腸、皮膚和肺部 4 個(gè)公開(kāi)空間轉(zhuǎn)錄組數(shù)據(jù)集上驗(yàn)證，結(jié)果顯示 HyperST 在 PCC@10、PCC@50、PCC@200、MSE、MAE 等指標(biāo)上整體優(yōu)于 TRIPLEX、StNet、BLEEP、Stem 等方法，其中相對(duì)第二強(qiáng)的 TRIPLEX，在 PCC@200 上分別提升約 10.95%、3.24%、2.52% 和 16.7%；

論文還做了臨床下游驗(yàn)證，用在結(jié)直腸數(shù)據(jù)上訓(xùn)練的模型對(duì)外部 TCGA-COADREAD 數(shù)據(jù)進(jìn)行零樣本基因表達(dá)預(yù)測(cè)，再用于 MSI 狀態(tài)分類(lèi)，HyperST 在 MSI-H 和 MSS 上的 AUROC 達(dá)到 0.719 和 0.601，也高于最強(qiáng)基線(xiàn)。

論文地址：https://arxiv.org/pdf/2511.22107

它的亮點(diǎn)在于沒(méi)有把空間轉(zhuǎn)錄組預(yù)測(cè)簡(jiǎn)單看成普通圖像回歸問(wèn)題，而是抓住了空間組學(xué)中天然存在的層級(jí)結(jié)構(gòu)，并用雙曲幾何來(lái)表示這種樹(shù)狀、層次化關(guān)系；

同時(shí)，它不僅利用局部 spot 圖像，還引入周?chē)?niche 的組織上下文，并在圖像側(cè)用病理基礎(chǔ)模型 UNI 加 LoRA 做高效適配，使模型能同時(shí)保留組織形態(tài)信息和分子表達(dá)語(yǔ)義；

消融實(shí)驗(yàn)也支持這一設(shè)計(jì)，去掉完整的層次雙曲對(duì)齊模塊會(huì)造成 PCC@200 明顯下降，說(shuō)明雙曲空間和層級(jí)約束確實(shí)是性能提升的關(guān)鍵。

整體來(lái)看，這項(xiàng)工作把幾何深度學(xué)習(xí)引入空間轉(zhuǎn)錄組預(yù)測(cè)，用更符合生物組織層次結(jié)構(gòu)的方式連接病理圖像和基因表達(dá)，為低成本、可擴(kuò)展的空間轉(zhuǎn)錄組推斷提供了一個(gè)更穩(wěn)健的建模思路。

在《MoBind: Motion Binding for Fine-Grained IMU–Video Pose Alignment》中，阿德萊德大學(xué)澳大利亞機(jī)器學(xué)習(xí)研究所將問(wèn)題聚焦在可穿戴 IMU 傳感器信號(hào)與視頻中 2D 人體姿態(tài)序列之間的細(xì)粒度對(duì)齊。

論文提出的方法叫 MoBind，目標(biāo)是學(xué)習(xí)一個(gè)統(tǒng)一的跨模態(tài)表示，使系統(tǒng)能夠完成 IMU 到視頻檢索、視頻到 IMU 檢索、時(shí)間同步、人物和身體部位定位以及人體動(dòng)作識(shí)別等任務(wù)。

它的核心思路不是直接對(duì)齊原始視頻像素，而是先從視頻中提取骨架運(yùn)動(dòng)信息，以減少背景干擾，再把全身運(yùn)動(dòng)拆成不同身體部位，讓每個(gè)部位軌跡與對(duì)應(yīng)的 IMU 傳感器進(jìn)行局部對(duì)齊，最后通過(guò) token 級(jí)、局部身體部位級(jí)和全局全身級(jí)的層次化對(duì)比學(xué)習(xí)來(lái)同時(shí)保留亞秒級(jí)時(shí)間同步能力和整體動(dòng)作語(yǔ)義。

論文在 mRi、TotalCapture 和 EgoHumans 三個(gè)多模態(tài)數(shù)據(jù)集上驗(yàn)證了方法，結(jié)果顯示 MoBind 在跨模態(tài)檢索中穩(wěn)定超過(guò) IMU2CLIP、DeSPITE、SyncNet 等基線(xiàn)，在時(shí)間同步任務(wù)中也明顯更強(qiáng)，例如在隨機(jī)引入 [-7, 7] 秒偏移的 20 秒片段上，MoBind 在 TotalCapture 和 EgoHumans 上的平均誤差分別只有 0.05 秒和 0.04 秒，并且在 200 ms 容忍范圍內(nèi)的準(zhǔn)確率達(dá)到 0.98 和 1.00。

論文地址：https://arxiv.org/pdf/2602.19004v1

這項(xiàng)工作的亮點(diǎn)在于，它針對(duì) IMU-視頻對(duì)齊中最難的幾個(gè)問(wèn)題給出了比較完整的設(shè)計(jì)：一是用骨架姿態(tài)替代原始圖像，避免模型被無(wú)關(guān)視覺(jué)背景影響；

二是顯式建模多傳感器和身體部位之間的結(jié)構(gòu)關(guān)系，不只是把所有 IMU 信號(hào)簡(jiǎn)單拼接；三是通過(guò)層次化對(duì)比學(xué)習(xí)解決重復(fù)動(dòng)作、相位偏移和短時(shí)間錯(cuò)位帶來(lái)的細(xì)粒度同步困難；四是加入 Masked Token Prediction 輔助任務(wù)，避免模型只關(guān)注局部同步而丟失動(dòng)作類(lèi)別語(yǔ)義。

整體來(lái)看，它把可穿戴傳感器和視頻人體運(yùn)動(dòng)之間的對(duì)應(yīng)關(guān)系做得更細(xì)、更穩(wěn)，不僅能用于無(wú)需人工校準(zhǔn)的多模態(tài)時(shí)間同步，也能用于多人物場(chǎng)景下判斷哪個(gè)人佩戴了哪個(gè)傳感器、傳感器位于哪個(gè)身體部位，并且在傳感器缺失時(shí)仍保持較強(qiáng)魯棒性，因而對(duì)運(yùn)動(dòng)分析、康復(fù)監(jiān)測(cè)、體育訓(xùn)練和多模態(tài)數(shù)據(jù)采集都有較直接的應(yīng)用意義。

從可穿戴傳感器和視頻之間的運(yùn)動(dòng)對(duì)齊繼續(xù)延伸，《SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance》進(jìn)一步研究腦活動(dòng)與視覺(jué)內(nèi)容之間的映射關(guān)系。

北京郵電大學(xué)和薩里大學(xué)的研究團(tuán)隊(duì)提出 SemVideo，嘗試從人觀看視頻時(shí)記錄到的 fMRI 腦活動(dòng)中重建其看到的動(dòng)態(tài)視覺(jué)內(nèi)容。

它的核心目標(biāo)是解決現(xiàn)有 fMRI 到視頻重建方法中常見(jiàn)的兩個(gè)問(wèn)題：一是跨幀主體外觀不穩(wěn)定，導(dǎo)致同一個(gè)物體在生成視頻里前后不一致；二是時(shí)間連續(xù)性差，容易出現(xiàn)動(dòng)作錯(cuò)位或幀間突變。

論文的思路不是直接讓腦信號(hào)恢復(fù)每一幀像素，而是先用 SemMiner 從原始視頻中挖掘三層語(yǔ)義信息，包括第一幀靜態(tài)錨點(diǎn)描述、面向動(dòng)作的運(yùn)動(dòng)敘事和整體視頻摘要，再讓 SemVideo 通過(guò)語(yǔ)義對(duì)齊解碼器 SAD 將 fMRI 信號(hào)對(duì)齊到這些語(yǔ)義嵌入，通過(guò)運(yùn)動(dòng)適配解碼器 MAD 建模動(dòng)態(tài)運(yùn)動(dòng)潛變量，最后用條件視頻渲染模塊把語(yǔ)義和運(yùn)動(dòng)信息融合生成視頻。

實(shí)驗(yàn)在 CC2017 和 HCP 7T 兩個(gè)公開(kāi) fMRI-video 數(shù)據(jù)集上進(jìn)行，論文稱(chēng)方法在語(yǔ)義、像素和時(shí)空三個(gè)層面的 10 個(gè)指標(biāo)中的 8 個(gè)達(dá)到最好結(jié)果；在 CC2017 上，SemVideo 的 2-way-V、50-way-V、CLIP 和 EPE 分別達(dá)到 0.865、0.264、0.526 和 4.788，說(shuō)明它不僅更能恢復(fù)視頻中的語(yǔ)義對(duì)象，也能更好保持動(dòng)作和時(shí)序一致性。

論文地址：https://arxiv.org/pdf/2602.21819v2

它的亮點(diǎn)在于把“人腦看視頻時(shí)更偏向關(guān)鍵語(yǔ)義和動(dòng)作記憶，而不是逐像素逐幀處理”的認(rèn)知假設(shè)轉(zhuǎn)化成可訓(xùn)練框架，用多層級(jí)語(yǔ)義作為中間監(jiān)督來(lái)彌補(bǔ) fMRI 時(shí)間分辨率低、語(yǔ)義稀疏的問(wèn)題；

同時(shí)，論文通過(guò)消融實(shí)驗(yàn)證明三類(lèi)語(yǔ)義提示都很重要，其中去掉運(yùn)動(dòng)敘事 Cmotion 會(huì)明顯損害像素級(jí)和時(shí)空指標(biāo)，去掉 MAD 后幀序?qū)R能力大幅下降，說(shuō)明運(yùn)動(dòng)提升不是單純來(lái)自文本到視頻模型的先驗(yàn)，而是確實(shí)從腦信號(hào)和運(yùn)動(dòng)語(yǔ)義中解碼出來(lái)的。

另一個(gè)有價(jià)值的點(diǎn)是，作者還做了腦區(qū)重要性可視化，發(fā)現(xiàn)錨點(diǎn)語(yǔ)義更依賴(lài)高級(jí)視覺(jué)皮層，運(yùn)動(dòng)語(yǔ)義與 MT、MST、TPOJ 等運(yùn)動(dòng)相關(guān)腦區(qū)更匹配，整體語(yǔ)義則分布在視覺(jué)和運(yùn)動(dòng)相關(guān)區(qū)域，這讓方法不僅是一個(gè)生成模型，也提供了一定的神經(jīng)科學(xué)可解釋性。

整體來(lái)看，這項(xiàng)工作把 fMRI 視頻重建從“生成看起來(lái)像的視頻”推進(jìn)到“同時(shí)保持對(duì)象語(yǔ)義、動(dòng)作軌跡和時(shí)間連貫性”的方向，為未來(lái)基于腦活動(dòng)重建動(dòng)態(tài)視覺(jué)體驗(yàn)提供了一個(gè)更結(jié)構(gòu)化、更可解釋的框架。

如果說(shuō) MoBind 和 SemVideo 都是在時(shí)間序列層面做跨模態(tài)對(duì)齊，那么《Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection》則把跨模態(tài)思想用于空間幾何推理，尤其是安檢 X-ray 場(chǎng)景中的雙視角理解。

來(lái)自北京交通大學(xué)信息科學(xué)研究所和北京航空航天大學(xué)復(fù)雜與關(guān)鍵軟件環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室的研究團(tuán)隊(duì)關(guān)注安檢場(chǎng)景中的 X-ray 違禁品檢測(cè)，核心問(wèn)題是：現(xiàn)實(shí)安檢人員通常會(huì)同時(shí)觀察俯視和側(cè)視兩張 X-ray 圖像來(lái)判斷物體結(jié)構(gòu)、遮擋關(guān)系和空間位置，但現(xiàn)有視覺(jué)語(yǔ)言模型多依賴(lài)單視角圖像或文本提示，缺乏對(duì)“雙視角幾何一致性”的顯式推理；

因此論文提出一個(gè)很有意思的觀點(diǎn)——第二視角圖像能否像語(yǔ)言一樣，為模型提供額外約束。圍繞這個(gè)問(wèn)題，作者構(gòu)建了 DualXrayBench，這是一個(gè)結(jié)合雙視角圖像和多模態(tài)標(biāo)注的基準(zhǔn)，包含 45,613 對(duì)雙視角圖像、12 類(lèi)違禁物品，以及 1,594 個(gè)專(zhuān)家驗(yàn)證的視覺(jué)問(wèn)答樣本，用來(lái)測(cè)試計(jì)數(shù)、識(shí)別、遮擋、空間關(guān)系、擺放屬性等 8 類(lèi)跨視角推理能力。

方法上，論文提出 GSR，即 Geometric-Semantic Reasoner，基于 Qwen3-VL-MoE-8B 構(gòu)建，通過(guò)視覺(jué)編碼器、特征對(duì)齊模塊和語(yǔ)言推理模塊，把俯視圖、側(cè)視圖和文本問(wèn)題統(tǒng)一到一個(gè)推理流程中，并進(jìn)一步構(gòu)建 GSXray 數(shù)據(jù)集，將推理過(guò)程組織成、、這樣的結(jié)構(gòu)化 Chain-of-Thought，讓模型先分別理解兩個(gè)視角，再綜合得出結(jié)論。

實(shí)驗(yàn)結(jié)果顯示，GSR-8B 在 DualXrayBench 上取得 65.4 的準(zhǔn)確率、70.6 的 F1 和 52.3 的 mIoU，明顯超過(guò) GPT-4o、Gemini-2.5-Pro、Qwen3-VL-235B 等通用模型，也優(yōu)于單視角 X-ray 視覺(jué)語(yǔ)言模型；

消融實(shí)驗(yàn)還表明，單純加入第二視角并不一定足夠，只有把雙視角信息和結(jié)構(gòu)化推理標(biāo)簽結(jié)合起來(lái)，才能穩(wěn)定提升幾何對(duì)齊、遮擋判斷和空間關(guān)系理解能力。

論文地址：https://arxiv.org/pdf/2511.18385v1

它的亮點(diǎn)在于，不只是把兩張圖簡(jiǎn)單拼接做多模態(tài)輸入，而是把第二視角當(dāng)成一種“類(lèi)語(yǔ)言模態(tài)”，用來(lái)約束和補(bǔ)充主視角中的不確定信息；

同時(shí)，論文同時(shí)貢獻(xiàn)了數(shù)據(jù)集、評(píng)測(cè)任務(wù)和模型框架，為安檢 X-ray 場(chǎng)景中更接近人工檢查流程的跨視角推理提供了系統(tǒng)方案。

整體來(lái)看，這項(xiàng)工作把視覺(jué)語(yǔ)言模型從單圖像語(yǔ)義理解推進(jìn)到雙視角幾何—語(yǔ)義聯(lián)合推理，對(duì)于復(fù)雜遮擋、相似物體區(qū)分和未知違禁品泛化都有較強(qiáng)的應(yīng)用意義。

這次去 CVPR 現(xiàn)場(chǎng)，一定不要錯(cuò)過(guò)

【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

需要你做什么：把你最關(guān)注的10個(gè)大會(huì)報(bào)告，每頁(yè)P(yáng)PT都拍下來(lái)

你能獲得什么？

認(rèn)識(shí)大牛：你將可以進(jìn)入CVPR名師博士社群；

錢(qián)多活少：提供豐厚獎(jiǎng)金，任務(wù)量精簡(jiǎn)；

聽(tīng)會(huì)自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

如果你即將前往CVPR，想邊聽(tīng)會(huì)邊賺錢(qián)，還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛，歡迎聯(lián)系我們：[添加微信號(hào):MS_Yahei]

【限額5位，先到先得】

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.