![]()
作者丨論文團隊
編輯丨ScienceAI
現有的通用醫學分割模型往往只是「偽全能」,因為它們在沒有人工提示框輔助時幾乎寸步難行。
來自中佛羅里達大學(UCF), 賓夕法尼亞大學(UPenn), 倫敦大學學院(UCL)等機構的研究團隊近日發布了Medical SAM3,通過全參數微調與創新的分層訓練策略,在 33 個醫學數據集上實現了革命性突破:它不再需要醫生手動畫框,僅憑一句分割「腫瘤」的文本指令,即可在 CT、MRI、內鏡等 10 種模態中實現專家級分割,將零樣本場景下的平均準確率從 11.9% 暴漲至 73.9%。
![]()
論文鏈接:https://arxiv.org/abs/2601.10880
代碼倉庫:https://github.com/AIM-Research-Lab/Medical-SAM3
![]()
核心痛點:以前的「通用模型」真的通用嗎?
在 Medical SAM3 之前,許多「醫學通用分割模型」在實際使用上存在一個關鍵前提:它們往往高度依賴空間提示(Spatial Prompts)—— 需要人工先提供 Bounding Box(邊界框)或點擊關鍵點,模型再在提示區域內完成分割。表面上看這只是交互方式的選擇,但它也反映出能力邊界:當模型必須先由人把目標「圈出來」,其主要貢獻更接近于區域內的像素細化與邊界優化,而非從整幅圖像中完成穩定的語義定位與目標發現。
這種設定在演示場景中可以獲得不錯的效果,但在真實工作流里會帶來明顯的推廣門檻:
- 醫生并不總能提前精確圈定病灶,尤其是邊界模糊、形態復雜或早期難判的病例;
- 在篩查、急診分診或跨模態閱片等高通量場景下,逐張圖像畫框 / 點選會顯著增加交互成本,難以規模化;
- 更重要的是,模型性能會對提示質量產生強依賴,系統的核心難題 ——「自動語義定位」—— 并未被真正解決。
論文中的診斷性實驗進一步量化了這一現象:當移除人工空間提示、僅通過文本詢問(更接近「通用」的使用方式)時,原生 SAM3 在醫學圖像上的表現出現斷崖式下降,平均 Dice 降至 11.9%,并在內鏡息肉分割等任務中出現 0.0% 的失效案例。這說明模型在很大程度上把空間提示當作了近似「目標索引」;一旦失去該索引,它在復雜背景、低對比度、強噪聲或形態多變的醫學影像中就難以穩定定位目標。
因此,Medical SAM3 的核心貢獻并非把分數再提高一點,而是試圖跨過這條關鍵門檻:將醫學分割從「提示驅動的區域細化」,推進到「僅憑文本即可觸發的語義驅動分割」,讓模型不再依賴人工先驗的空間圈定。
![]()
真正的「語義驅動」:不僅是微調,更是重塑
為了解決醫學影像「語義難對齊、結構極復雜、模態差異巨大」這一核心難題,Medical SAM3 沒有走業界常見的輕量級適配器(Adapter/LoRA)捷徑,而是選擇了一條更艱難但也更徹底的路線 —— 全參數微調(Full Fine-Tuning)。團隊的判斷很明確:醫學影像與自然圖像之間不僅是外觀風格的變化,更是成像物理、噪聲統計、目標形態與語義體系的整體遷移;僅微調少量參數往往只能「學到一點風格」,卻難以讓模型真正理解醫學場景中那些決定分割成敗的細粒度概念(例如模糊邊界、低對比病灶、細長結構的連通性、器官之間的解剖約束)。因此,Medical SAM3 通過全參數更新,讓模型從底層特征到高層語義都能發生充分適配,從而實現更可靠的「語義驅動分割」。
但全參數微調帶來的挑戰同樣顯著:一旦訓練策略不當,模型可能會遺忘原有的通用視覺能力,或在訓練早期出現不穩定震蕩。為此,Medical SAM3 引入了分層學習率衰減(Layer-wise Learning Rate Decay, LLRD)策略,以一種「既保守又激進」的方式精細控制遷移過程:淺層網絡使用更小的學習率,盡可能保留通用的邊緣、紋理與局部對比特征(這些對所有影像都有效);而深層網絡則使用更大的學習率,獲得更強的可塑性,專門去學習醫學影像中特有的語義與結構規律,例如「毛玻璃影」的彌散分布、內鏡息肉與背景黏膜的微妙邊界、視網膜血管的樹狀拓撲與連續走向。最終,這種「淺層穩住通用視覺、深層重塑醫學語義」的遷移范式,推動模型完成了根本性躍遷:從過去高度依賴點 / 框等幾何提示的交互式分割,轉變為僅憑文本語義即可穩定分割的通用能力。
Medical SAM3 的強大并非只來自訓練策略,更來自其構建的大規模、多模態訓練底座。研究團隊整合了覆蓋 10 種成像模態的 33 個數據集,并通過統一的數據標準化與接口設計,使模型能夠在 76,956 張高分辨率醫學圖像與 263,705 個精細掩膜上進行系統學習。尤其關鍵的是,Medical SAM3 采用了統一的 2D 高分辨率視角(Unified 2D Formulation):無論輸入來自 3D CT/MRI 的切片,還是 2D 的眼底、內鏡或顯微圖像,均被統一處理為 1008×1008 的高分辨率表示。這一設計帶來兩點直接收益:其一,它在工程上打通不同設備與模態的輸入壁壘,降低跨域部署的不確定性;其二,它讓模型獲得更強的尺度一致性與細節表達能力 —— 從胸片中占據大面積的肺部輪廓,到電子顯微鏡下僅數十像素的細胞核邊界,模型都能在同一框架下捕捉關鍵結構,形成真正「跨模態、跨尺度、跨任務」的統一分割能力。
![]()
從內部精通到外部泛化
為了系統驗證模型的可靠性與可遷移性,團隊構建了覆蓋內部驗證(in-domain)與外部測試(out-of-domain)的全面評估體系:前者檢驗模型在已覆蓋醫學分布上的穩定性與細節還原能力,后者則以「從未見過的數據集與模態」為壓力測試,衡量其真實世界部署最關鍵的零樣本泛化表現。
在內部驗證環節,Medical SAM3 展現出對醫學結構與邊界細節的扎實掌握,平均 Dice 從 54.0% 提升至 77.0%。這一提升不僅意味著「更像」,更代表模型在像素級邊界對齊、細小目標召回、低對比度組織分離等方面達到了更可靠的水平。尤其在視網膜血管分割這類典型「高難任務」中,原生模型常見問題是對細長結構缺乏連續性建模,容易出現斷裂、漏檢與噪點粘連;Medical SAM3 則顯著改善了這一失敗模式,將 Dice 從 24.8% 提升至 55.8%。更重要的是,提升并非只體現在分數上:模型不僅能「找到血管」,還能夠更好地復原血管的連續走向、分叉拓撲與樹狀結構,這類結構完整性對后續臨床分析(如血管密度、分支形態、病變區域關系)尤為關鍵。
在更為嚴苛的外部驗證環節(測試從未見過的數據集),模型進一步體現出強大的零樣本泛化能力。面對 7 個全新的外部數據集,Medical SAM3 將平均 Dice 從 11.9% 提升至 73.9%,IoU 從 8.0% 提升至 64.4%。這組結果的意義在于:外部測試通常伴隨顯著的分布偏移 —— 例如不同醫院設備、采集協議、分辨率、噪聲形態、病灶外觀與標注風格差異 —— 許多模型在此類場景下會出現「性能斷崖」。而 Medical SAM3 的提升幅度顯示,它并非依賴某一類固定模態或固定提示形式,而是學習到了更通用的醫學語義與結構先驗。
更具說服力的是,在部分極端案例中表現出現了從「無法工作」到「可用級別」的質變:
- 內鏡息肉分割(CVC-Clinic):原生模型由于難以從復雜背景中理解「息肉」這一語義目標,Dice 僅 0.0%;Medical SAM3 則達到 87.9%,說明模型能夠在反光、粘液、紋理干擾等情況下仍保持對目標語義的穩定聚焦。
- 超聲胎頭測量(HC18):超聲天然存在斑點噪聲、邊界模糊與組織對比度弱的問題,原生模型 Dice 為 23.9%;Medical SAM3 提升至 92.6%,體現其對低信噪比模態下輪廓結構的魯棒提取能力。
- ETIS-Larib:同樣從 0.0% 躍升至 86.1%,進一步表明模型在外部域中不只是「略有改善」,而是顯著降低了原生模型的完全失效概率。
綜合內部與外部結果可以得出一個關鍵結論:Medical SAM3 能夠在不依賴人工提示框輔助的情況下,僅通過文本提示驅動分割,在多模態、多數據分布下保持穩定表現。這意味著模型不僅「能分割」,更具備面向真實臨床場景的核心能力:當標注成本高、交互提示受限或需要快速批量處理時,它仍能依靠醫學語義理解與結構先驗,提供一致、可復用、可遷移的分割輸出。
![]()
未來展望:規模化與智能化
盡管目前的性能已經取得了顯著進展,Medical SAM3 團隊并未止步。為了進一步提升模型的實用性與智能水平,后續工作將主要集中在以下兩個方向:
1. 數據規模與覆蓋擴展: 團隊計劃持續擴充訓練語料庫,引入更豐富的分割數據,以增強跨域魯棒性。同時重點補齊臨床中的「長尾空白」,例如罕見病灶、小樣本亞型、低資源模態以及更復雜的標注形態(多器官、多病灶、細長結構等)。通過更大規模、更多樣化的數據「喂養」,進一步降低模型在真實世界場景中遇到分布偏移時的失效概率,讓「給一個術語就能穩定分割」更接近可部署的可靠標準。
2. 邁向 Medical SAM3 Agent: 團隊的目標不止于做一個分割模型,而是構建面向臨床工作流的 Medical SAM3 Agent。通過集成大語言模型(LLMs),系統將具備更強的任務理解、步驟化推理與交互協作能力:例如把醫生的自然語言需求拆解為可執行的分割子任務(目標、范圍、優先級),在結果不確定時主動發起澄清提問,并把分割結果進一步組織為可讀的結構化輸出(位置、大小、數量、隨訪對比等),從而成為醫生在閱片、測量與報告生成中的真正智能伙伴。
總結
Medical SAM3 的出現標志著醫學 AI 助手從「交互式工具」向「語義智能體」的進化。它不再要求醫生充當「畫框工」,而是模擬了臨床專家的認知過程 —— 先理解診斷術語,再主動在圖像中搜索病灶。通過建立臨床概念與像素級特征之間的直接映射,Medical SAM3 為未來「即插即用」的自動化醫療輔助系統奠定了堅實的基礎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.