網易首頁 > 網易號 > 正文申請入駐

Medical SAM3：首個真正「純文本提示」驅動的醫學全能分割模型

2026-01-21 15:14:46　來源: ScienceAI

廣西舉報

分享至

作者丨論文團隊

編輯丨ScienceAI

現有的通用醫學分割模型往往只是「偽全能」，因為它們在沒有人工提示框輔助時幾乎寸步難行。

來自中佛羅里達大學（UCF), 賓夕法尼亞大學(UPenn), 倫敦大學學院（UCL）等機構的研究團隊近日發布了Medical SAM3，通過全參數微調與創新的分層訓練策略，在 33 個醫學數據集上實現了革命性突破：它不再需要醫生手動畫框，僅憑一句分割「腫瘤」的文本指令，即可在 CT、MRI、內鏡等 10 種模態中實現專家級分割，將零樣本場景下的平均準確率從 11.9% 暴漲至 73.9%。

論文鏈接:https://arxiv.org/abs/2601.10880

代碼倉庫:https://github.com/AIM-Research-Lab/Medical-SAM3

核心痛點：以前的「通用模型」真的通用嗎？

在 Medical SAM3 之前，許多「醫學通用分割模型」在實際使用上存在一個關鍵前提：它們往往高度依賴空間提示（Spatial Prompts）—— 需要人工先提供 Bounding Box（邊界框）或點擊關鍵點，模型再在提示區域內完成分割。表面上看這只是交互方式的選擇，但它也反映出能力邊界：當模型必須先由人把目標「圈出來」，其主要貢獻更接近于區域內的像素細化與邊界優化，而非從整幅圖像中完成穩定的語義定位與目標發現。

這種設定在演示場景中可以獲得不錯的效果，但在真實工作流里會帶來明顯的推廣門檻：

醫生并不總能提前精確圈定病灶，尤其是邊界模糊、形態復雜或早期難判的病例；
在篩查、急診分診或跨模態閱片等高通量場景下，逐張圖像畫框 / 點選會顯著增加交互成本，難以規模化；
更重要的是，模型性能會對提示質量產生強依賴，系統的核心難題 ——「自動語義定位」—— 并未被真正解決。

論文中的診斷性實驗進一步量化了這一現象：當移除人工空間提示、僅通過文本詢問（更接近「通用」的使用方式）時，原生 SAM3 在醫學圖像上的表現出現斷崖式下降，平均 Dice 降至 11.9%，并在內鏡息肉分割等任務中出現 0.0% 的失效案例。這說明模型在很大程度上把空間提示當作了近似「目標索引」；一旦失去該索引，它在復雜背景、低對比度、強噪聲或形態多變的醫學影像中就難以穩定定位目標。

因此，Medical SAM3 的核心貢獻并非把分數再提高一點，而是試圖跨過這條關鍵門檻：將醫學分割從「提示驅動的區域細化」，推進到「僅憑文本即可觸發的語義驅動分割」，讓模型不再依賴人工先驗的空間圈定。

真正的「語義驅動」：不僅是微調，更是重塑

為了解決醫學影像「語義難對齊、結構極復雜、模態差異巨大」這一核心難題，Medical SAM3 沒有走業界常見的輕量級適配器（Adapter/LoRA）捷徑，而是選擇了一條更艱難但也更徹底的路線 —— 全參數微調（Full Fine-Tuning）。團隊的判斷很明確：醫學影像與自然圖像之間不僅是外觀風格的變化，更是成像物理、噪聲統計、目標形態與語義體系的整體遷移；僅微調少量參數往往只能「學到一點風格」，卻難以讓模型真正理解醫學場景中那些決定分割成敗的細粒度概念（例如模糊邊界、低對比病灶、細長結構的連通性、器官之間的解剖約束）。因此，Medical SAM3 通過全參數更新，讓模型從底層特征到高層語義都能發生充分適配，從而實現更可靠的「語義驅動分割」。

但全參數微調帶來的挑戰同樣顯著：一旦訓練策略不當，模型可能會遺忘原有的通用視覺能力，或在訓練早期出現不穩定震蕩。為此，Medical SAM3 引入了分層學習率衰減（Layer-wise Learning Rate Decay, LLRD）策略，以一種「既保守又激進」的方式精細控制遷移過程：淺層網絡使用更小的學習率，盡可能保留通用的邊緣、紋理與局部對比特征（這些對所有影像都有效）；而深層網絡則使用更大的學習率，獲得更強的可塑性，專門去學習醫學影像中特有的語義與結構規律，例如「毛玻璃影」的彌散分布、內鏡息肉與背景黏膜的微妙邊界、視網膜血管的樹狀拓撲與連續走向。最終，這種「淺層穩住通用視覺、深層重塑醫學語義」的遷移范式，推動模型完成了根本性躍遷：從過去高度依賴點 / 框等幾何提示的交互式分割，轉變為僅憑文本語義即可穩定分割的通用能力。

Medical SAM3 的強大并非只來自訓練策略，更來自其構建的大規模、多模態訓練底座。研究團隊整合了覆蓋 10 種成像模態的 33 個數據集，并通過統一的數據標準化與接口設計，使模型能夠在 76,956 張高分辨率醫學圖像與 263,705 個精細掩膜上進行系統學習。尤其關鍵的是，Medical SAM3 采用了統一的 2D 高分辨率視角（Unified 2D Formulation）：無論輸入來自 3D CT/MRI 的切片，還是 2D 的眼底、內鏡或顯微圖像，均被統一處理為 1008×1008 的高分辨率表示。這一設計帶來兩點直接收益：其一，它在工程上打通不同設備與模態的輸入壁壘，降低跨域部署的不確定性；其二，它讓模型獲得更強的尺度一致性與細節表達能力 —— 從胸片中占據大面積的肺部輪廓，到電子顯微鏡下僅數十像素的細胞核邊界，模型都能在同一框架下捕捉關鍵結構，形成真正「跨模態、跨尺度、跨任務」的統一分割能力。

從內部精通到外部泛化

為了系統驗證模型的可靠性與可遷移性，團隊構建了覆蓋內部驗證（in-domain）與外部測試（out-of-domain）的全面評估體系：前者檢驗模型在已覆蓋醫學分布上的穩定性與細節還原能力，后者則以「從未見過的數據集與模態」為壓力測試，衡量其真實世界部署最關鍵的零樣本泛化表現。

在內部驗證環節，Medical SAM3 展現出對醫學結構與邊界細節的扎實掌握，平均 Dice 從 54.0% 提升至 77.0%。這一提升不僅意味著「更像」，更代表模型在像素級邊界對齊、細小目標召回、低對比度組織分離等方面達到了更可靠的水平。尤其在視網膜血管分割這類典型「高難任務」中，原生模型常見問題是對細長結構缺乏連續性建模，容易出現斷裂、漏檢與噪點粘連；Medical SAM3 則顯著改善了這一失敗模式，將 Dice 從 24.8% 提升至 55.8%。更重要的是，提升并非只體現在分數上：模型不僅能「找到血管」，還能夠更好地復原血管的連續走向、分叉拓撲與樹狀結構，這類結構完整性對后續臨床分析（如血管密度、分支形態、病變區域關系）尤為關鍵。

在更為嚴苛的外部驗證環節（測試從未見過的數據集），模型進一步體現出強大的零樣本泛化能力。面對 7 個全新的外部數據集，Medical SAM3 將平均 Dice 從 11.9% 提升至 73.9%，IoU 從 8.0% 提升至 64.4%。這組結果的意義在于：外部測試通常伴隨顯著的分布偏移 —— 例如不同醫院設備、采集協議、分辨率、噪聲形態、病灶外觀與標注風格差異 —— 許多模型在此類場景下會出現「性能斷崖」。而 Medical SAM3 的提升幅度顯示，它并非依賴某一類固定模態或固定提示形式，而是學習到了更通用的醫學語義與結構先驗。

更具說服力的是，在部分極端案例中表現出現了從「無法工作」到「可用級別」的質變：

內鏡息肉分割（CVC-Clinic）：原生模型由于難以從復雜背景中理解「息肉」這一語義目標，Dice 僅 0.0%；Medical SAM3 則達到 87.9%，說明模型能夠在反光、粘液、紋理干擾等情況下仍保持對目標語義的穩定聚焦。
超聲胎頭測量（HC18）：超聲天然存在斑點噪聲、邊界模糊與組織對比度弱的問題，原生模型 Dice 為 23.9%；Medical SAM3 提升至 92.6%，體現其對低信噪比模態下輪廓結構的魯棒提取能力。
ETIS-Larib：同樣從 0.0% 躍升至 86.1%，進一步表明模型在外部域中不只是「略有改善」，而是顯著降低了原生模型的完全失效概率。

綜合內部與外部結果可以得出一個關鍵結論：Medical SAM3 能夠在不依賴人工提示框輔助的情況下，僅通過文本提示驅動分割，在多模態、多數據分布下保持穩定表現。這意味著模型不僅「能分割」，更具備面向真實臨床場景的核心能力：當標注成本高、交互提示受限或需要快速批量處理時，它仍能依靠醫學語義理解與結構先驗，提供一致、可復用、可遷移的分割輸出。

未來展望：規模化與智能化

盡管目前的性能已經取得了顯著進展，Medical SAM3 團隊并未止步。為了進一步提升模型的實用性與智能水平，后續工作將主要集中在以下兩個方向：

1. 數據規模與覆蓋擴展：團隊計劃持續擴充訓練語料庫，引入更豐富的分割數據，以增強跨域魯棒性。同時重點補齊臨床中的「長尾空白」，例如罕見病灶、小樣本亞型、低資源模態以及更復雜的標注形態（多器官、多病灶、細長結構等）。通過更大規模、更多樣化的數據「喂養」，進一步降低模型在真實世界場景中遇到分布偏移時的失效概率，讓「給一個術語就能穩定分割」更接近可部署的可靠標準。

2. 邁向 Medical SAM3 Agent：團隊的目標不止于做一個分割模型，而是構建面向臨床工作流的 Medical SAM3 Agent。通過集成大語言模型（LLMs），系統將具備更強的任務理解、步驟化推理與交互協作能力：例如把醫生的自然語言需求拆解為可執行的分割子任務（目標、范圍、優先級），在結果不確定時主動發起澄清提問，并把分割結果進一步組織為可讀的結構化輸出（位置、大小、數量、隨訪對比等），從而成為醫生在閱片、測量與報告生成中的真正智能伙伴。

總結

Medical SAM3 的出現標志著醫學 AI 助手從「交互式工具」向「語義智能體」的進化。它不再要求醫生充當「畫框工」，而是模擬了臨床專家的認知過程 —— 先理解診斷術語，再主動在圖像中搜索病灶。通過建立臨床概念與像素級特征之間的直接映射，Medical SAM3 為未來「即插即用」的自動化醫療輔助系統奠定了堅實的基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.