網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

簡單AI代理在生物醫(yī)學(xué)成像工作流中戰(zhàn)勝專家方案

2026-05-30 06:14:56　來源: 固件更新中

北京舉報(bào)

分享至

醫(yī)學(xué)AI過去很長時(shí)間都在圍繞一個(gè)核心問題推進(jìn)：模型能不能比人看得更準(zhǔn)。大量研究聚焦于病灶識(shí)別、器官分割、影像分類和報(bào)告生成，追求在標(biāo)準(zhǔn)數(shù)據(jù)集上刷出更高指標(biāo)。但真實(shí)的醫(yī)學(xué)與生物科研場景從來不是一個(gè)干凈、統(tǒng)一、標(biāo)注充分的基準(zhǔn)測試，而是由不同設(shè)備、不同協(xié)議、不同數(shù)據(jù)質(zhì)量、不同任務(wù)目標(biāo)和不同專業(yè)知識(shí)共同構(gòu)成的復(fù)雜系統(tǒng)。現(xiàn)在，這個(gè)問題本身已經(jīng)不夠用了。

新的研究重心正在轉(zhuǎn)移。一個(gè)模型有沒有價(jià)值，不再只看它在某個(gè)數(shù)據(jù)集上的分?jǐn)?shù)，而要看它能不能在新實(shí)驗(yàn)室的數(shù)據(jù)上快速適配，能不能用更少標(biāo)注學(xué)到有效推理，能不能把CT、超聲、病理、報(bào)告、空間轉(zhuǎn)錄組、運(yùn)動(dòng)傳感器、腦活動(dòng)和多視角X射線這些異質(zhì)信息連接起來。也就是說，醫(yī)學(xué)與生物視覺正在從“會(huì)看圖”走向“會(huì)理解任務(wù)”，從“模型本身更大”走向“系統(tǒng)整體更有用”。

加州理工學(xué)院、康奈爾大學(xué)、德克薩斯大學(xué)奧斯汀分校和倫斯勒理工學(xué)院的研究團(tuán)隊(duì)在《簡單代理在生物醫(yī)學(xué)成像工作流優(yōu)化中超越專家》這篇論文里，關(guān)心的不是重新訓(xùn)練一個(gè)新模型，而是讓AI代理為已有的成熟工具自動(dòng)編寫圖像預(yù)處理和后處理代碼。不同實(shí)驗(yàn)室、不同成像設(shè)備、不同數(shù)據(jù)分布下，工具效果往往會(huì)下降，而這個(gè)研究就是想用AI代理來解決這個(gè)適配問題。

論文在Polaris、Cellpose和MedSAM這三個(gè)真實(shí)生物醫(yī)學(xué)圖像分析流程上做了實(shí)驗(yàn)，覆蓋單分子點(diǎn)檢測、細(xì)胞實(shí)例分割和醫(yī)學(xué)圖像分割等不同尺度任務(wù)。結(jié)果發(fā)現(xiàn)，簡單的基礎(chǔ)代理就能超過專家手寫的官方優(yōu)化方案，尤其在MedSAM任務(wù)上提升非常明顯。這項(xiàng)研究證明，在工程性很強(qiáng)、數(shù)據(jù)量有限、目標(biāo)明確的科研工作流優(yōu)化場景中，簡單、透明、低成本的代理往往已經(jīng)足夠有效。復(fù)雜的代理架構(gòu)、專家函數(shù)庫或自動(dòng)機(jī)器學(xué)習(xí)并不一定穩(wěn)定帶來收益，甚至可能因?yàn)槿蝿?wù)差異、搜索空間偏置或小驗(yàn)證集過擬合而降低效果。同時(shí)，論文還分析了不同任務(wù)中編程接口空間和參數(shù)空間的差異，解釋了為什么同一種代理設(shè)計(jì)在不同工具上表現(xiàn)不同。

這項(xiàng)工作把大語言模型代理從泛泛的自動(dòng)化概念落到了真實(shí)科研工具適配中，說明代理可以幫助科研人員減少大量手工調(diào)參和代碼適配工作，并有潛力成為生物醫(yī)學(xué)圖像分析工具落地應(yīng)用中的實(shí)用輔助系統(tǒng)。這背后反映的是一種務(wù)實(shí)的思路：不是再造輪子，而是讓AI學(xué)會(huì)用好現(xiàn)有的輪子。

在工具工作流的自動(dòng)適配之外，另一個(gè)方向把問題轉(zhuǎn)向了醫(yī)學(xué)推理模型的訓(xùn)練數(shù)據(jù)選擇。來自華東師范大學(xué)、穆罕默德·本·扎耶德人工智能大學(xué)、蒙納士大學(xué)和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一種叫作“難度-影響力象限”的方法，希望用極少量微調(diào)數(shù)據(jù)來提升醫(yī)學(xué)推理模型的效率。醫(yī)學(xué)視覺語言模型和大語言模型的監(jiān)督微調(diào)通常依賴大量帶推理鏈的數(shù)據(jù)，但其中存在許多重復(fù)、低質(zhì)量或優(yōu)化價(jià)值不高的樣本，直接擴(kuò)大數(shù)據(jù)規(guī)模會(huì)帶來較高計(jì)算成本，也不一定提升復(fù)雜臨床推理能力。

這項(xiàng)研究認(rèn)為，單純按“難度”選數(shù)據(jù)容易選到噪聲大、過難且難以優(yōu)化的樣本，單純按“梯度影響”選數(shù)據(jù)又容易偏向淺層、好學(xué)但推理不深的樣本。因此，該方法同時(shí)計(jì)算每個(gè)樣本的醫(yī)學(xué)推理難度和訓(xùn)練影響力，把樣本劃分到不同象限，并優(yōu)先選擇“高難度、高影響力”的數(shù)據(jù)，讓模型在很小數(shù)據(jù)量下也能學(xué)到有價(jià)值的臨床推理模式。實(shí)驗(yàn)顯示，在Huatuo和FineMed等醫(yī)學(xué)推理數(shù)據(jù)上，該方法只用百分之一選中數(shù)據(jù)就能接近甚至超過全量微調(diào)效果，用百分之十?dāng)?shù)據(jù)時(shí)整體優(yōu)于隨機(jī)選擇、困惑度選擇、相似度選擇和其他基線方法。同時(shí)在人類評(píng)估和大語言模型作為評(píng)判者的評(píng)估中，這個(gè)方法選出的數(shù)據(jù)在鑒別診斷、安全檢查和證據(jù)引用等方面更符合專家臨床推理習(xí)慣。

它的思路不是繼續(xù)堆更多醫(yī)學(xué)推理數(shù)據(jù)，而是從“樣本是否有推理價(jià)值”和“樣本是否真正推動(dòng)模型優(yōu)化”兩個(gè)角度做精細(xì)篩選，說明高質(zhì)量數(shù)據(jù)選擇比粗暴擴(kuò)大數(shù)據(jù)規(guī)模更有效。同時(shí)，影響力計(jì)算基于一階梯度點(diǎn)積，避免了傳統(tǒng)影響函數(shù)的高成本，難度分?jǐn)?shù)又通過醫(yī)學(xué)分類器估計(jì)，整體方法相對(duì)輕量、可復(fù)用。這為醫(yī)學(xué)推理模型提供了一種更省數(shù)據(jù)、更省計(jì)算的微調(diào)方案，尤其適合醫(yī)學(xué)數(shù)據(jù)昂貴、標(biāo)注困難、但又需要模型具備可靠臨床推理能力的場景。

亞馬遜云科技和加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)關(guān)注的則是視覺語言模型在特定領(lǐng)域中的輕量化適配，提出了一種叫作“碼書錨定視覺適配”的方法。論文指出，現(xiàn)有方法通常會(huì)微調(diào)視覺編碼器、投影層或大語言模型，但這樣容易造成視覺特征空間變化，需要重新對(duì)齊語言模型，甚至?xí)屇Ｐ驮诙檀鸢笖?shù)據(jù)上過擬合，損害原本的指令遵循和解釋能力。這種方法的核心思路是只微調(diào)離散視覺編碼器，并把視覺特征錨定到一個(gè)固定的離散碼書中，讓視覺編碼器學(xué)會(huì)選擇和排列已有的“視覺詞匯”，從而向凍結(jié)的語言模型傳遞更適合目標(biāo)領(lǐng)域的視覺信息。

訓(xùn)練時(shí)，方法結(jié)合替代語言模型的對(duì)齊損失、承諾損失和對(duì)比學(xué)習(xí)損失，保證離散令牌既貼近圖像內(nèi)容，又能被語言模型理解。推理時(shí)還加入基于令牌稀有度的剪枝機(jī)制，去掉大量背景或重復(fù)令牌，讓模型更關(guān)注關(guān)鍵視覺區(qū)域。實(shí)驗(yàn)覆蓋了包括視覺問答和分類在內(nèi)的十個(gè)基準(zhǔn)，涵蓋醫(yī)學(xué)圖像、細(xì)粒度分類、植物病害識(shí)別等多個(gè)特定視覺領(lǐng)域。

整體來看，這三項(xiàng)工作雖然切入點(diǎn)不同，但共同指向了同一個(gè)方向：醫(yī)學(xué)AI的下一步不只是訓(xùn)練更大的模型，而是讓模型真正進(jìn)入真實(shí)科研與臨床流程。無論是用簡單代理自動(dòng)優(yōu)化工作流、用精細(xì)數(shù)據(jù)篩選提升推理效率，還是用輕量化適配讓大模型落地特定領(lǐng)域，核心邏輯都是降低使用門檻、減少標(biāo)注和計(jì)算成本、提升在真實(shí)復(fù)雜環(huán)境中的適應(yīng)能力。與此同時(shí)，三維CT基礎(chǔ)模型、超聲圖文預(yù)訓(xùn)練、空間轉(zhuǎn)錄組預(yù)測、傳感器與視頻對(duì)齊、功能性磁共振成像視頻重建和雙視角X射線推理等工作，也在不斷擴(kuò)展醫(yī)學(xué)視覺模型能夠處理的信息邊界，把CT、超聲、病理、報(bào)告和多種模態(tài)的數(shù)據(jù)逐步連接成一個(gè)可以被協(xié)同理解的整體。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.