![]()
模型正從影像識(shí)別走向高效適配、臨床語(yǔ)義理解與跨模態(tài)推理。
作者丨鄭佳美
編輯丨馬曉寧
醫(yī)學(xué) AI 過(guò)去很長(zhǎng)一段時(shí)間都在回答一個(gè)問(wèn)題:模型能不能看得比人更準(zhǔn)?
于是,大量研究圍繞病灶識(shí)別、器官分割、影像分類(lèi)和報(bào)告生成展開(kāi),目標(biāo)是在標(biāo)準(zhǔn)數(shù)據(jù)集上取得更高指標(biāo)。但現(xiàn)在,這個(gè)問(wèn)題已經(jīng)不夠了。
真實(shí)的醫(yī)學(xué)與生物科研場(chǎng)景并不是一個(gè)干凈、統(tǒng)一、標(biāo)注充分的 benchmark,而是由不同設(shè)備、不同協(xié)議、不同數(shù)據(jù)質(zhì)量、不同任務(wù)目標(biāo)和不同專(zhuān)業(yè)知識(shí)共同組成的復(fù)雜系統(tǒng)。
因此,新的研究重點(diǎn)開(kāi)始發(fā)生轉(zhuǎn)移。一個(gè)模型是否有價(jià)值,不再只取決于它在某個(gè)數(shù)據(jù)集上的分?jǐn)?shù),而取決于它能否在新實(shí)驗(yàn)室的數(shù)據(jù)上快速適配,能否用更少標(biāo)注學(xué)到有效推理,能否把 CT、超聲、病理、報(bào)告、空間轉(zhuǎn)錄組、運(yùn)動(dòng)傳感器、腦活動(dòng)和多視角 X-ray 等異質(zhì)信息連接起來(lái)。
也就是說(shuō),醫(yī)學(xué)與生物視覺(jué)正在從“會(huì)看圖”走向“會(huì)理解任務(wù)”,從“模型本身更大”走向“系統(tǒng)整體更有用”。
CVPR 2026 相關(guān)論文中也能看到這種趨勢(shì):一方面,AI agent、數(shù)據(jù)篩選和輕量化適配方法正在減少人工調(diào)參、數(shù)據(jù)標(biāo)注和模型微調(diào)成本;
另一方面,三維 CT 基礎(chǔ)模型、超聲圖文預(yù)訓(xùn)練、空間轉(zhuǎn)錄組預(yù)測(cè)、IMU-視頻對(duì)齊、fMRI 視頻重建和雙視角 X-ray 推理等工作,則不斷擴(kuò)展醫(yī)學(xué)視覺(jué)模型能夠處理的信息邊界。
這些研究共同指向一個(gè)方向:醫(yī)學(xué) AI 的下一步,不只是訓(xùn)練更大的模型,而是讓模型真正進(jìn)入真實(shí)科研與臨床流程。
![]()
01
少數(shù)據(jù)、少微調(diào)、少人工
來(lái)自加州理工學(xué)院、康奈爾大學(xué)、德克薩斯大學(xué)奧斯汀分校和倫斯勒理工學(xué)院的研究團(tuán)隊(duì)在《Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization》中,關(guān)注的是如何用簡(jiǎn)單的 AI agent 自動(dòng)優(yōu)化生物醫(yī)學(xué)圖像分析工作流。
研究的重點(diǎn)不是重新訓(xùn)練一個(gè)新模型,而是讓 agent 為已有的成熟工具自動(dòng)編寫(xiě)圖像預(yù)處理和后處理代碼,從而解決不同實(shí)驗(yàn)室、不同成像設(shè)備、不同數(shù)據(jù)分布下工具效果下降的問(wèn)題。
論文在 Polaris、Cellpose 和 MedSAM 這 3 個(gè)真實(shí)生物醫(yī)學(xué)圖像分析流程上進(jìn)行了實(shí)驗(yàn),覆蓋單分子點(diǎn)檢測(cè)、細(xì)胞實(shí)例分割和醫(yī)學(xué)圖像分割等不同尺度任務(wù),結(jié)果發(fā)現(xiàn)簡(jiǎn)單的基礎(chǔ) agent 就能超過(guò)專(zhuān)家手寫(xiě)的官方優(yōu)化方案,尤其在 MedSAM 任務(wù)上提升非常明顯。
![]()
論文地址:https://arxiv.org/pdf/2512.06006v1
研究的亮點(diǎn)在于,它證明了在這種工程性很強(qiáng)、數(shù)據(jù)量有限、目標(biāo)明確的科研工作流優(yōu)化場(chǎng)景中,簡(jiǎn)單、透明、低成本的 agent 往往已經(jīng)足夠有效,復(fù)雜的 agent 架構(gòu)、專(zhuān)家函數(shù)庫(kù)或 AutoML 并不一定穩(wěn)定帶來(lái)收益,甚至可能因?yàn)槿蝿?wù)差異、搜索空間偏置或小驗(yàn)證集過(guò)擬合而降低效果;
同時(shí),論文還分析了不同任務(wù)中 API 空間和參數(shù)空間的差異,解釋了為什么同一種 agent 設(shè)計(jì)在不同工具上表現(xiàn)不同。雷峰網(wǎng)
整體來(lái)看,這項(xiàng)工作把 LLM agent 從泛泛的自動(dòng)化概念落到了真實(shí)科研工具適配中,說(shuō)明 agent 可以幫助科研人員減少大量手工調(diào)參和代碼適配工作,并有潛力成為生物醫(yī)學(xué)圖像分析工具落地應(yīng)用中的實(shí)用輔助系統(tǒng)。
![]()
在工具工作流的自動(dòng)適配之外,《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把問(wèn)題轉(zhuǎn)向醫(yī)學(xué)推理模型的訓(xùn)練數(shù)據(jù)選擇。
來(lái)自華東師范大學(xué)、穆罕默德·本·扎耶德人工智能大學(xué)、蒙納士大學(xué)和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出 DIQ,即 Difficulty-Influence Quadrant,希望用極少量微調(diào)數(shù)據(jù)提升醫(yī)學(xué)推理模型的效率。
研究指出,醫(yī)學(xué) VLM / LLM 的監(jiān)督微調(diào)通常依賴(lài)大量帶推理鏈的數(shù)據(jù),但其中存在許多重復(fù)、低質(zhì)量或優(yōu)化價(jià)值不高的樣本,直接擴(kuò)大數(shù)據(jù)規(guī)模會(huì)帶來(lái)較高計(jì)算成本,也不一定提升復(fù)雜臨床推理能力。
論文認(rèn)為,單純按“難度”選數(shù)據(jù)容易選到噪聲大、過(guò)難且難以?xún)?yōu)化的樣本,單純按“梯度影響”選數(shù)據(jù)又容易偏向淺層、好學(xué)但推理不深的樣本,因此 DIQ 同時(shí)計(jì)算每個(gè)樣本的醫(yī)學(xué)推理難度和訓(xùn)練影響力,把樣本劃分到不同象限,并優(yōu)先選擇“高難度、高影響力”的數(shù)據(jù),讓模型在很小數(shù)據(jù)量下也能學(xué)到有價(jià)值的臨床推理模式。
實(shí)驗(yàn)顯示,在 Huatuo 和 FineMed 等醫(yī)學(xué)推理數(shù)據(jù)上,DIQ 只用 1% 選中數(shù)據(jù)就能接近甚至超過(guò)全量微調(diào)效果,用 10% 數(shù)據(jù)時(shí)整體優(yōu)于隨機(jī)選擇、困惑度選擇、相似度選擇和 LESS 等基線(xiàn);同時(shí)在人類(lèi)和 LLM-as-a-judge 評(píng)估中,DIQ 選出的數(shù)據(jù)在鑒別診斷、安全檢查和證據(jù)引用等方面更符合專(zhuān)家臨床推理習(xí)慣。
![]()
論文地址:https://arxiv.org/pdf/2508.01450v3
它的亮點(diǎn)在于,不是繼續(xù)堆更多醫(yī)學(xué)推理數(shù)據(jù),而是從“樣本是否有推理價(jià)值”和“樣本是否真正推動(dòng)模型優(yōu)化”兩個(gè)角度做精細(xì)篩選,說(shuō)明高質(zhì)量數(shù)據(jù)選擇比粗暴擴(kuò)大數(shù)據(jù)規(guī)模更有效;
同時(shí),DIQ 的影響力計(jì)算基于一階梯度點(diǎn)積,避免傳統(tǒng)影響函數(shù)的高成本,難度分?jǐn)?shù)又通過(guò)醫(yī)學(xué) BiomedBERT 分類(lèi)器估計(jì),因此整體方法相對(duì)輕量、可復(fù)用。雷峰網(wǎng)
整體來(lái)看,這項(xiàng)工作為醫(yī)學(xué)推理模型提供了一種更省數(shù)據(jù)、更省計(jì)算的微調(diào)方案,尤其適合醫(yī)學(xué)數(shù)據(jù)昂貴、標(biāo)注困難、但又需要模型具備可靠臨床推理能力的場(chǎng)景。
![]()
進(jìn)一步來(lái)看,《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》關(guān)注的不是訓(xùn)練數(shù)據(jù)篩選,而是視覺(jué)語(yǔ)言模型在特定領(lǐng)域中的輕量化適配。
亞馬遜云科技和加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)提出 CRAFT,全稱(chēng)是 Codebook Regulated Fine-Tuning,主要研究如何在不改動(dòng)大語(yǔ)言模型部分的情況下,讓大型視覺(jué)語(yǔ)言模型更好適應(yīng)醫(yī)學(xué)圖像、細(xì)粒度分類(lèi)、植物病害識(shí)別等特定視覺(jué)領(lǐng)域。
論文指出,現(xiàn)有方法通常會(huì)微調(diào)視覺(jué)編碼器、投影層或 LLM,但這樣容易造成視覺(jué)特征空間變化,需要重新對(duì)齊語(yǔ)言模型,甚至?xí)屇P驮诙檀鸢笖?shù)據(jù)上過(guò)擬合,損害原本的指令遵循和解釋能力;
CRAFT 的核心思路是只微調(diào)離散視覺(jué)編碼器,并把視覺(jué)特征錨定到一個(gè)固定的離散 codebook 中,讓視覺(jué)編碼器學(xué)會(huì)選擇和排列已有的“視覺(jué)詞匯”,從而向凍結(jié)的語(yǔ)言模型傳遞更適合目標(biāo)領(lǐng)域的視覺(jué)信息。
訓(xùn)練時(shí),方法結(jié)合 surrogate LLM 的對(duì)齊損失、commitment loss 和對(duì)比學(xué)習(xí)損失,保證離散 token 既貼近圖像內(nèi)容,又能被語(yǔ)言模型理解;推理時(shí)還加入基于 token 稀有度的剪枝機(jī)制,去掉大量背景或重復(fù) token,讓模型更關(guān)注關(guān)鍵視覺(jué)區(qū)域。
實(shí)驗(yàn)覆蓋 IconQA、OCRVQA、ScienceQA、VQA-RAD、EuroSAT、Flowers、Kvasir、PlantVillage、Cars、Dogs 等 10 個(gè)分類(lèi)和視覺(jué)問(wèn)答基準(zhǔn),結(jié)果顯示 CRAFT 相比原始離散模型平均提升 13.51%,在最強(qiáng)設(shè)置下平均準(zhǔn)確率達(dá)到 68.58%,并且在推理解釋能力上比 LoRA、projector fine-tuning 和連續(xù)特征微調(diào)更穩(wěn)定。
![]()
論為地址:https://arxiv.org/pdf/2602.19449v1
它的亮點(diǎn)在于把“視覺(jué)適配”和“語(yǔ)言推理”解耦:只更新視覺(jué)編碼器,不重新訓(xùn)練或破壞 LLM,卻能讓同一個(gè)適配后的編碼器遷移到共享 codebook 的不同語(yǔ)言模型上;
同時(shí),離散 codebook 起到了穩(wěn)定接口的作用,避免連續(xù)特征微調(diào)帶來(lái)的跨模態(tài)錯(cuò)位。整體來(lái)看,這項(xiàng)工作為領(lǐng)域?qū)S?LVLM 適配提供了一種更輕量、更可復(fù)用的方法,尤其適合那些視覺(jué)分布特殊、但又不希望重新訓(xùn)練大語(yǔ)言模型的應(yīng)用場(chǎng)景。
![]()
![]()
02
從三維 CT 到超聲圖文理解
在《Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers》中,荷蘭埃因霍溫理工大學(xué)電氣工程系(ARIA 實(shí)驗(yàn)室、AIMS 實(shí)驗(yàn)室)提出了面向三維 CT 的開(kāi)放式基礎(chǔ)模型 SPECTRE。
它的目標(biāo)是學(xué)習(xí)既包含體積影像空間結(jié)構(gòu)、又包含放射科報(bào)告臨床語(yǔ)義的通用 CT 表征。論文關(guān)注的核心問(wèn)題是:三維 CT 不同于普通二維圖像,直接使用常規(guī)視覺(jué)基礎(chǔ)模型會(huì)遇到 token 數(shù)量過(guò)大、體素各向異性、掃描范圍和層厚不一致、醫(yī)學(xué)報(bào)告監(jiān)督噪聲較強(qiáng)等困難。
![]()
論文地址:https://arxiv.org/pdf/2511.17209v2
為此,作者設(shè)計(jì)了“局部 ViT + 全局 ViT”的兩級(jí)純 Transformer 架構(gòu),先在局部三維窗口中提取精細(xì)結(jié)構(gòu)特征,再在全局層面整合完整掃描信息;訓(xùn)練上則結(jié)合自監(jiān)督學(xué)習(xí)和 CT-文本跨模態(tài)對(duì)齊,讓模型同時(shí)具備幾何理解能力和臨床語(yǔ)義理解能力。
實(shí)驗(yàn)顯示,SPECTRE 在腫瘤生物標(biāo)志物預(yù)測(cè)、器官分割和文本到 CT 檢索等任務(wù)上整體優(yōu)于多數(shù)基線(xiàn),尤其在文本檢索影像任務(wù)中提升明顯。
論文的亮點(diǎn)在于,它不是簡(jiǎn)單把二維視覺(jué)模型擴(kuò)展到三維醫(yī)學(xué)影像,而是針對(duì)體積 CT 的計(jì)算結(jié)構(gòu)、空間特性和報(bào)告語(yǔ)義進(jìn)行了系統(tǒng)設(shè)計(jì);
同時(shí),它強(qiáng)調(diào)使用公開(kāi)數(shù)據(jù)訓(xùn)練并開(kāi)源模型和代碼,降低了醫(yī)學(xué)影像基礎(chǔ)模型對(duì)私有數(shù)據(jù)的依賴(lài)。整體來(lái)看,這項(xiàng)工作為三維 CT 基礎(chǔ)模型提供了一個(gè)更可復(fù)現(xiàn)、更適合體積醫(yī)學(xué)影像特點(diǎn)的方案,也說(shuō)明純 Transformer 架構(gòu)在經(jīng)過(guò)合適設(shè)計(jì)后,可以在 CT 表征學(xué)習(xí)中兼顧空間細(xì)節(jié)和臨床語(yǔ)義。
![]()
與 SPECTRE 面向三維 CT 的體積建模不同,《Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding》把重點(diǎn)放在超聲這一更依賴(lài)臨床經(jīng)驗(yàn)、圖像表現(xiàn)更復(fù)雜、診斷屬性更細(xì)粒度的醫(yī)學(xué)影像模態(tài)上。
來(lái)自浙大城市學(xué)院、香港浸會(huì)大學(xué)、浙江大學(xué)、浙江大學(xué)醫(yī)學(xué)院附屬婦產(chǎn)科醫(yī)院、浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院和香港城市大學(xué)的研究團(tuán)隊(duì)提出 Ultrasound-CLIP,主要研究如何為超聲圖像構(gòu)建更適合臨床語(yǔ)義理解的圖文預(yù)訓(xùn)練模型。
現(xiàn)有 CLIP 或醫(yī)學(xué) VLP 模型大多偏向 CT、MRI、病理等模態(tài),超聲數(shù)據(jù)占比很低,而且超聲報(bào)告里有很多專(zhuān)門(mén)的診斷屬性,比如回聲、邊界、后方聲學(xué)現(xiàn)象和血流情況,普通圖文對(duì)比學(xué)習(xí)很難準(zhǔn)確處理這些細(xì)粒度語(yǔ)義。
為了解決這個(gè)問(wèn)題,論文先構(gòu)建了大規(guī)模超聲圖文數(shù)據(jù)集 US-365K,包含約 36.4 萬(wàn)對(duì)圖像—文本樣本,覆蓋 52 個(gè)解剖類(lèi)別;
![]()
論為地址:https://arxiv.org/pdf/2604.01749v1
同時(shí)提出超聲診斷分類(lèi)體系 UDT,把解剖層級(jí)和 9 類(lèi)診斷屬性統(tǒng)一起來(lái),再基于這些知識(shí)設(shè)計(jì) Ultrasound-CLIP,通過(guò)語(yǔ)義軟標(biāo)簽減少“相似病例被當(dāng)成完全負(fù)樣本”的問(wèn)題,并用異構(gòu)圖編碼器建模病灶和診斷屬性之間的結(jié)構(gòu)關(guān)系。
實(shí)驗(yàn)顯示,該方法在超聲多屬性分類(lèi)、圖文檢索以及下游零樣本、線(xiàn)性探測(cè)和微調(diào)任務(wù)上都優(yōu)于通用 CLIP 和多種醫(yī)學(xué) CLIP 基線(xiàn),例如平均分類(lèi)準(zhǔn)確率達(dá)到 59.61%,明顯高于最強(qiáng)基線(xiàn) BiomedCLIP 的 33.81%,圖像到文本檢索的 R@10 也提升到 0.3745。
這項(xiàng)工作的亮點(diǎn)在于,它不是簡(jiǎn)單收集超聲數(shù)據(jù)后套用標(biāo)準(zhǔn) CLIP,而是把超聲影像特有的解剖層級(jí)、診斷屬性和語(yǔ)義相似性顯式放進(jìn)訓(xùn)練目標(biāo)中,使模型更能理解超聲報(bào)告里的臨床語(yǔ)言;
同時(shí),數(shù)據(jù)集、分類(lèi)體系和模型框架一起提出,也為后續(xù)超聲圖文理解、檢索、輔助診斷和跨數(shù)據(jù)集泛化提供了比較系統(tǒng)的基礎(chǔ)資源。
![]()
![]()
03
從病理、運(yùn)動(dòng)到 X-ray 雙視角
《HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction》來(lái)自廈門(mén)大學(xué)、上海人工智能實(shí)驗(yàn)室、清華大學(xué)和鵬城實(shí)驗(yàn)室的合作研究,關(guān)注的是如何從病理 H&E 全切片圖像中預(yù)測(cè)空間轉(zhuǎn)錄組的基因表達(dá)。
論文提出的方法叫 HyperST,核心問(wèn)題在于:現(xiàn)有方法大多只做單個(gè) spot 圖像和基因表達(dá)之間的局部匹配,容易忽略空間轉(zhuǎn)錄組數(shù)據(jù)本身的層次結(jié)構(gòu),例如單個(gè) spot 與周?chē)M織微環(huán)境 niche 之間的關(guān)系,以及病理形態(tài)信息與更細(xì)粒度分子表達(dá)信息之間的不對(duì)稱(chēng)關(guān)系。
為了解決這個(gè)問(wèn)題,論文把圖像和基因表達(dá)都建模成多層級(jí)表示,一方面提取 spot 級(jí)和 niche 級(jí)的病理圖像特征與基因表達(dá)特征,另一方面把這些表示投影到雙曲空間中,通過(guò)層次化對(duì)比對(duì)齊和層次化蘊(yùn)含約束,讓模型顯式學(xué)習(xí)“spot 到 niche”“圖像到基因表達(dá)”這類(lèi)由粗到細(xì)、由一般到具體的結(jié)構(gòu)關(guān)系,從而得到更有分子語(yǔ)義的圖像表征。
實(shí)驗(yàn)方面,論文在來(lái)自 HEST-1K 的腎臟、結(jié)直腸、皮膚和肺部 4 個(gè)公開(kāi)空間轉(zhuǎn)錄組數(shù)據(jù)集上驗(yàn)證,結(jié)果顯示 HyperST 在 PCC@10、PCC@50、PCC@200、MSE、MAE 等指標(biāo)上整體優(yōu)于 TRIPLEX、StNet、BLEEP、Stem 等方法,其中相對(duì)第二強(qiáng)的 TRIPLEX,在 PCC@200 上分別提升約 10.95%、3.24%、2.52% 和 16.7%;
論文還做了臨床下游驗(yàn)證,用在結(jié)直腸數(shù)據(jù)上訓(xùn)練的模型對(duì)外部 TCGA-COADREAD 數(shù)據(jù)進(jìn)行零樣本基因表達(dá)預(yù)測(cè),再用于 MSI 狀態(tài)分類(lèi),HyperST 在 MSI-H 和 MSS 上的 AUROC 達(dá)到 0.719 和 0.601,也高于最強(qiáng)基線(xiàn)。
![]()
論文地址:https://arxiv.org/pdf/2511.22107
它的亮點(diǎn)在于沒(méi)有把空間轉(zhuǎn)錄組預(yù)測(cè)簡(jiǎn)單看成普通圖像回歸問(wèn)題,而是抓住了空間組學(xué)中天然存在的層級(jí)結(jié)構(gòu),并用雙曲幾何來(lái)表示這種樹(shù)狀、層次化關(guān)系;
同時(shí),它不僅利用局部 spot 圖像,還引入周?chē)?niche 的組織上下文,并在圖像側(cè)用病理基礎(chǔ)模型 UNI 加 LoRA 做高效適配,使模型能同時(shí)保留組織形態(tài)信息和分子表達(dá)語(yǔ)義;
消融實(shí)驗(yàn)也支持這一設(shè)計(jì),去掉完整的層次雙曲對(duì)齊模塊會(huì)造成 PCC@200 明顯下降,說(shuō)明雙曲空間和層級(jí)約束確實(shí)是性能提升的關(guān)鍵。
整體來(lái)看,這項(xiàng)工作把幾何深度學(xué)習(xí)引入空間轉(zhuǎn)錄組預(yù)測(cè),用更符合生物組織層次結(jié)構(gòu)的方式連接病理圖像和基因表達(dá),為低成本、可擴(kuò)展的空間轉(zhuǎn)錄組推斷提供了一個(gè)更穩(wěn)健的建模思路。
![]()
在《MoBind: Motion Binding for Fine-Grained IMU–Video Pose Alignment》中,阿德萊德大學(xué)澳大利亞機(jī)器學(xué)習(xí)研究所將問(wèn)題聚焦在可穿戴 IMU 傳感器信號(hào)與視頻中 2D 人體姿態(tài)序列之間的細(xì)粒度對(duì)齊。
論文提出的方法叫 MoBind,目標(biāo)是學(xué)習(xí)一個(gè)統(tǒng)一的跨模態(tài)表示,使系統(tǒng)能夠完成 IMU 到視頻檢索、視頻到 IMU 檢索、時(shí)間同步、人物和身體部位定位以及人體動(dòng)作識(shí)別等任務(wù)。
它的核心思路不是直接對(duì)齊原始視頻像素,而是先從視頻中提取骨架運(yùn)動(dòng)信息,以減少背景干擾,再把全身運(yùn)動(dòng)拆成不同身體部位,讓每個(gè)部位軌跡與對(duì)應(yīng)的 IMU 傳感器進(jìn)行局部對(duì)齊,最后通過(guò) token 級(jí)、局部身體部位級(jí)和全局全身級(jí)的層次化對(duì)比學(xué)習(xí)來(lái)同時(shí)保留亞秒級(jí)時(shí)間同步能力和整體動(dòng)作語(yǔ)義。
論文在 mRi、TotalCapture 和 EgoHumans 三個(gè)多模態(tài)數(shù)據(jù)集上驗(yàn)證了方法,結(jié)果顯示 MoBind 在跨模態(tài)檢索中穩(wěn)定超過(guò) IMU2CLIP、DeSPITE、SyncNet 等基線(xiàn),在時(shí)間同步任務(wù)中也明顯更強(qiáng),例如在隨機(jī)引入 [-7, 7] 秒偏移的 20 秒片段上,MoBind 在 TotalCapture 和 EgoHumans 上的平均誤差分別只有 0.05 秒和 0.04 秒,并且在 200 ms 容忍范圍內(nèi)的準(zhǔn)確率達(dá)到 0.98 和 1.00。
![]()
論文地址:https://arxiv.org/pdf/2602.19004v1
這項(xiàng)工作的亮點(diǎn)在于,它針對(duì) IMU-視頻對(duì)齊中最難的幾個(gè)問(wèn)題給出了比較完整的設(shè)計(jì):一是用骨架姿態(tài)替代原始圖像,避免模型被無(wú)關(guān)視覺(jué)背景影響;
二是顯式建模多傳感器和身體部位之間的結(jié)構(gòu)關(guān)系,不只是把所有 IMU 信號(hào)簡(jiǎn)單拼接;三是通過(guò)層次化對(duì)比學(xué)習(xí)解決重復(fù)動(dòng)作、相位偏移和短時(shí)間錯(cuò)位帶來(lái)的細(xì)粒度同步困難;四是加入 Masked Token Prediction 輔助任務(wù),避免模型只關(guān)注局部同步而丟失動(dòng)作類(lèi)別語(yǔ)義。
整體來(lái)看,它把可穿戴傳感器和視頻人體運(yùn)動(dòng)之間的對(duì)應(yīng)關(guān)系做得更細(xì)、更穩(wěn),不僅能用于無(wú)需人工校準(zhǔn)的多模態(tài)時(shí)間同步,也能用于多人物場(chǎng)景下判斷哪個(gè)人佩戴了哪個(gè)傳感器、傳感器位于哪個(gè)身體部位,并且在傳感器缺失時(shí)仍保持較強(qiáng)魯棒性,因而對(duì)運(yùn)動(dòng)分析、康復(fù)監(jiān)測(cè)、體育訓(xùn)練和多模態(tài)數(shù)據(jù)采集都有較直接的應(yīng)用意義。
![]()
從可穿戴傳感器和視頻之間的運(yùn)動(dòng)對(duì)齊繼續(xù)延伸,《SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance》進(jìn)一步研究腦活動(dòng)與視覺(jué)內(nèi)容之間的映射關(guān)系。
北京郵電大學(xué)和薩里大學(xué)的研究團(tuán)隊(duì)提出 SemVideo,嘗試從人觀看視頻時(shí)記錄到的 fMRI 腦活動(dòng)中重建其看到的動(dòng)態(tài)視覺(jué)內(nèi)容。
它的核心目標(biāo)是解決現(xiàn)有 fMRI 到視頻重建方法中常見(jiàn)的兩個(gè)問(wèn)題:一是跨幀主體外觀不穩(wěn)定,導(dǎo)致同一個(gè)物體在生成視頻里前后不一致;二是時(shí)間連續(xù)性差,容易出現(xiàn)動(dòng)作錯(cuò)位或幀間突變。
論文的思路不是直接讓腦信號(hào)恢復(fù)每一幀像素,而是先用 SemMiner 從原始視頻中挖掘三層語(yǔ)義信息,包括第一幀靜態(tài)錨點(diǎn)描述、面向動(dòng)作的運(yùn)動(dòng)敘事和整體視頻摘要,再讓 SemVideo 通過(guò)語(yǔ)義對(duì)齊解碼器 SAD 將 fMRI 信號(hào)對(duì)齊到這些語(yǔ)義嵌入,通過(guò)運(yùn)動(dòng)適配解碼器 MAD 建模動(dòng)態(tài)運(yùn)動(dòng)潛變量,最后用條件視頻渲染模塊把語(yǔ)義和運(yùn)動(dòng)信息融合生成視頻。
實(shí)驗(yàn)在 CC2017 和 HCP 7T 兩個(gè)公開(kāi) fMRI-video 數(shù)據(jù)集上進(jìn)行,論文稱(chēng)方法在語(yǔ)義、像素和時(shí)空三個(gè)層面的 10 個(gè)指標(biāo)中的 8 個(gè)達(dá)到最好結(jié)果;在 CC2017 上,SemVideo 的 2-way-V、50-way-V、CLIP 和 EPE 分別達(dá)到 0.865、0.264、0.526 和 4.788,說(shuō)明它不僅更能恢復(fù)視頻中的語(yǔ)義對(duì)象,也能更好保持動(dòng)作和時(shí)序一致性。
![]()
論文地址:https://arxiv.org/pdf/2602.21819v2
它的亮點(diǎn)在于把“人腦看視頻時(shí)更偏向關(guān)鍵語(yǔ)義和動(dòng)作記憶,而不是逐像素逐幀處理”的認(rèn)知假設(shè)轉(zhuǎn)化成可訓(xùn)練框架,用多層級(jí)語(yǔ)義作為中間監(jiān)督來(lái)彌補(bǔ) fMRI 時(shí)間分辨率低、語(yǔ)義稀疏的問(wèn)題;
同時(shí),論文通過(guò)消融實(shí)驗(yàn)證明三類(lèi)語(yǔ)義提示都很重要,其中去掉運(yùn)動(dòng)敘事 Cmotion 會(huì)明顯損害像素級(jí)和時(shí)空指標(biāo),去掉 MAD 后幀序?qū)R能力大幅下降,說(shuō)明運(yùn)動(dòng)提升不是單純來(lái)自文本到視頻模型的先驗(yàn),而是確實(shí)從腦信號(hào)和運(yùn)動(dòng)語(yǔ)義中解碼出來(lái)的。
另一個(gè)有價(jià)值的點(diǎn)是,作者還做了腦區(qū)重要性可視化,發(fā)現(xiàn)錨點(diǎn)語(yǔ)義更依賴(lài)高級(jí)視覺(jué)皮層,運(yùn)動(dòng)語(yǔ)義與 MT、MST、TPOJ 等運(yùn)動(dòng)相關(guān)腦區(qū)更匹配,整體語(yǔ)義則分布在視覺(jué)和運(yùn)動(dòng)相關(guān)區(qū)域,這讓方法不僅是一個(gè)生成模型,也提供了一定的神經(jīng)科學(xué)可解釋性。
整體來(lái)看,這項(xiàng)工作把 fMRI 視頻重建從“生成看起來(lái)像的視頻”推進(jìn)到“同時(shí)保持對(duì)象語(yǔ)義、動(dòng)作軌跡和時(shí)間連貫性”的方向,為未來(lái)基于腦活動(dòng)重建動(dòng)態(tài)視覺(jué)體驗(yàn)提供了一個(gè)更結(jié)構(gòu)化、更可解釋的框架。
![]()
如果說(shuō) MoBind 和 SemVideo 都是在時(shí)間序列層面做跨模態(tài)對(duì)齊,那么《Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection》則把跨模態(tài)思想用于空間幾何推理,尤其是安檢 X-ray 場(chǎng)景中的雙視角理解。
來(lái)自北京交通大學(xué)信息科學(xué)研究所和北京航空航天大學(xué)復(fù)雜與關(guān)鍵軟件環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室的研究團(tuán)隊(duì)關(guān)注安檢場(chǎng)景中的 X-ray 違禁品檢測(cè),核心問(wèn)題是:現(xiàn)實(shí)安檢人員通常會(huì)同時(shí)觀察俯視和側(cè)視兩張 X-ray 圖像來(lái)判斷物體結(jié)構(gòu)、遮擋關(guān)系和空間位置,但現(xiàn)有視覺(jué)語(yǔ)言模型多依賴(lài)單視角圖像或文本提示,缺乏對(duì)“雙視角幾何一致性”的顯式推理;
因此論文提出一個(gè)很有意思的觀點(diǎn)——第二視角圖像能否像語(yǔ)言一樣,為模型提供額外約束。圍繞這個(gè)問(wèn)題,作者構(gòu)建了 DualXrayBench,這是一個(gè)結(jié)合雙視角圖像和多模態(tài)標(biāo)注的基準(zhǔn),包含 45,613 對(duì)雙視角圖像、12 類(lèi)違禁物品,以及 1,594 個(gè)專(zhuān)家驗(yàn)證的視覺(jué)問(wèn)答樣本,用來(lái)測(cè)試計(jì)數(shù)、識(shí)別、遮擋、空間關(guān)系、擺放屬性等 8 類(lèi)跨視角推理能力。
方法上,論文提出 GSR,即 Geometric-Semantic Reasoner,基于 Qwen3-VL-MoE-8B 構(gòu)建,通過(guò)視覺(jué)編碼器、特征對(duì)齊模塊和語(yǔ)言推理模塊,把俯視圖、側(cè)視圖和文本問(wèn)題統(tǒng)一到一個(gè)推理流程中,并進(jìn)一步構(gòu)建 GSXray 數(shù)據(jù)集,將推理過(guò)程組織成 、、 這樣的結(jié)構(gòu)化 Chain-of-Thought,讓模型先分別理解兩個(gè)視角,再綜合得出結(jié)論。
實(shí)驗(yàn)結(jié)果顯示,GSR-8B 在 DualXrayBench 上取得 65.4 的準(zhǔn)確率、70.6 的 F1 和 52.3 的 mIoU,明顯超過(guò) GPT-4o、Gemini-2.5-Pro、Qwen3-VL-235B 等通用模型,也優(yōu)于單視角 X-ray 視覺(jué)語(yǔ)言模型;
消融實(shí)驗(yàn)還表明,單純加入第二視角并不一定足夠,只有把雙視角信息和結(jié)構(gòu)化推理標(biāo)簽結(jié)合起來(lái),才能穩(wěn)定提升幾何對(duì)齊、遮擋判斷和空間關(guān)系理解能力。
![]()
論文地址:https://arxiv.org/pdf/2511.18385v1
它的亮點(diǎn)在于,不只是把兩張圖簡(jiǎn)單拼接做多模態(tài)輸入,而是把第二視角當(dāng)成一種“類(lèi)語(yǔ)言模態(tài)”,用來(lái)約束和補(bǔ)充主視角中的不確定信息;
同時(shí),論文同時(shí)貢獻(xiàn)了數(shù)據(jù)集、評(píng)測(cè)任務(wù)和模型框架,為安檢 X-ray 場(chǎng)景中更接近人工檢查流程的跨視角推理提供了系統(tǒng)方案。
整體來(lái)看,這項(xiàng)工作把視覺(jué)語(yǔ)言模型從單圖像語(yǔ)義理解推進(jìn)到雙視角幾何—語(yǔ)義聯(lián)合推理,對(duì)于復(fù)雜遮擋、相似物體區(qū)分和未知違禁品泛化都有較強(qiáng)的應(yīng)用意義。
![]()
這次去 CVPR 現(xiàn)場(chǎng),一定不要錯(cuò)過(guò)
【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)
需要你做什么:把你最關(guān)注的10個(gè)大會(huì)報(bào)告,每頁(yè)P(yáng)PT都拍下來(lái)
你能獲得什么?
認(rèn)識(shí)大牛:你將可以進(jìn)入CVPR名師博士社群;
錢(qián)多活少:提供豐厚獎(jiǎng)金,任務(wù)量精簡(jiǎn);
聽(tīng)會(huì)自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。
如果你即將前往CVPR,想邊聽(tīng)會(huì)邊賺錢(qián),還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛,歡迎聯(lián)系我們:[添加微信號(hào):MS_Yahei]
【限額5位,先到先得】
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.