无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

7B打敗o3、GPT-5!醫學AI智能體讓模型學會“看哪里、怎么看”

0
分享至

上海創智學院 LeapQuest 團隊 投稿量子位 | 公眾號 QbitAI

醫學AI會寫解釋,但不代表它真的“看到”了關鍵證據。

過去的醫學多模態模型,大多是把一張影像或一段視頻編碼成視覺特征,然后讓大模型生成答案與解釋。

但問題在于——一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作,往往就決定了答案是否成立。

而模型“被動接收”視覺上下文時,很容易看錯區域、漏看病灶。

為應對這一問題,上海創智學院LeapQuest團隊聯合浙江大學、上海交通大學、復旦大學,一口氣拿出了兩篇ICML 2026接收論文,首次把Think with Images/Think with Videos范式應用在醫學AI領域:

模型不再只是看完圖像或視頻后生成解釋,而是在推理鏈中主動調用視覺工具,重新觀察關鍵區域或關鍵時刻,并用新證據修正判斷。

這意味著,視覺不再只是輸入,視覺證據本身成了模型思考過程的一部分。

兩篇工作的核心關鍵詞如下:



兩篇工作不是孤立模型升級,而是共同提出醫學AI的新范式:

讓視覺證據進入模型的中間思考過程,把“解釋”從事后語言生成推進為推理過程中的證據查證。



Ophiuchus:面向醫學圖像的tool-augmented Think with Images




MedScope:面向臨床長視頻的Think with Videos

不是更會“寫解釋”,而是開始會“用視覺證據思考”

醫學AI過去最常見的工作方式,是把一張影像或一段視頻編碼成視覺特征,然后讓大模型生成答案與解釋。

問題在于,解釋看起來完整,并不代表模型真的看到了關鍵證據。尤其在醫學場景里,一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作,往往就決定了答案是否成立。

Ophiuchus和MedScope共同把這個問題向前推進了一步:多模態模型不再只是“被動接收視覺上下文”,而是在推理過程中主動決定是否需要更多證據應該看哪里應該回看哪一段,并把工具返回的觀察結果納入后續推理。

這就是醫學AI領域首次被系統化提出的 “think with images/think with videos” 范式:視覺不再只是輸入,視覺證據本身成為模型思考過程的一部分。

Think with Images



Think with Images:讓模型在圖像診斷中“重新看一眼”

Ophiuchus的切入點非常直接:現有醫學多模態大模型雖然能寫出逐步推理,但遇到需要細粒度視覺證據的任務時,仍然容易“看錯區域、漏看病灶、誤把正常結構當異常”。

這不是單純語言能力不足,而是視覺交互機制不足

因此,Ophiuchus將大模型改造成一個能與醫學圖像工具協同的視覺智能體。

它可以根據當前推理狀態,決定是否調用外部視覺工具:用SAM2做精細分割,用BiomedParse根據文字提示定位醫學結構,用Zoom-in放大關鍵區域。

工具調用后的輸出不是孤立結果,而會以observation的形式回到推理鏈,驅動下一步判斷。



更關鍵的是,Ophiuchus并不是把工具“外掛”在模型外面,而是讓工具成為推理鏈的一部分

模型要學會何時調用工具、選擇哪個工具、如何解釋工具輸出,以及當工具結果不可靠時如何修正策略。

這使得模型從“會調用工具”走向“會用工具思考”。

Ophiuchus 技術框架



Ophiuchus的價值不只是讓醫學大模型多了幾個視覺工具,而是讓模型學會在診斷過程中主動“看哪里、怎么看、看完如何修正”。

從閉源SOTA到醫學Agent:Ophiuchus用結果證明“看得更細”才是關鍵

在同樣外部工具配置下,Ophiuchus-7B在8個VQA benchmark上取得68.0的平均分,高于OpenAI-o3的62.2Gemini 2.5 Pro的61.8GPT-5的59.9。

在工具使用準確性評估中,Ophiuchus達到97.9%的平均工具調用準確率。

這些結果背后的含義,比“某個榜單第一”更重要:

當問題真正依賴局部結構、病灶邊界和細胞級證據時,模型大小或語言推理并不是唯一瓶頸。

醫學AI需要一種能讓視覺證據不斷進入推理過程的機制

Think with Videos:從“看圖思考”走向“回看關鍵時刻”

如果說Ophiuchus解決的是醫學圖像中的局部證據問題,那么MedScope則把這一范式推進到更難的長視頻場景。

長臨床視頻的挑戰在于:關鍵證據不僅細,而且稀疏;不僅要看對內容,還要看對時間

一個手術動作、一個內鏡視野變化、一個器械進入與離開的瞬間,可能只持續幾秒,卻決定模型是否真的理解了臨床過程。

MedScope 提出的 “think with videos” 不是讓模型把整段視頻一次性壓縮成上下文,而是模擬臨床醫生的觀察方式:

先快速建立全局理解,再回到可疑時間窗,用crop_video截取片段,用get_frame獲取關鍵幀,最后把這些局部觀察結果整合進答案。

Textual CoT與 Visual CoT的差別



這使MedScope的推理過程天然具備可審查性:模型為什么回答這個結果,不只看它“說了什么”,還可以看它“回看了哪一段視頻、找到了哪些幀、這些證據是否支持結論”。

MedScope 框架



ClinVideoSuite與GA-GRPO:讓視頻模型學會“找證據”,而不只是“猜答案”

為了讓模型真正學會這種行為,MedScope構建了ClinVideoSuite:包含635K時間戳密集 caption、254K證據關聯QA、34K視覺CoT軌跡,以及用于強化學習的交互式訓練環境。

數據不是簡單問答,而是強調問題必須依賴局部時間窗中的視覺證據

訓練上,MedScope 采用三階段路線

第一階段進行臨床推理warm-up,學習醫學語義和長程視頻理解;

第二階段用visual-CoT cold-start SFT教會模型何時需要更多證據、如何調用工具;

第三階段用GA-GRPO強化時序對齊的工具使用,通過grounding-aware reward和evidence-modulated advantage,讓模型更偏向檢索真正支持結論的視覺片段。

ClinVideoSuite數據合成管線



在SVU-31K、ClinVideo-Eval等評測中,MedScope在多粒度視頻理解、細粒度時序推理和grounded VQA上取得開源模型中的SOTA

論文還顯示,去掉evidence reward會顯著降低定位質量,例如R@0.5從40.1下降到33.2mIoU從4.3下降到38.8,說明答案級監督不足以教會模型可靠地選擇證據。

真正的范式變化:視覺從“輸入”變成“思維過程”

把兩篇工作放在一起看,最重要的不是Ophiuchus處理圖像、MedScope處理視頻,而是它們共同定義了一種新的醫學多模態智能范式

模型的推理過程不再只是語言token的展開,而是語言、工具、圖像區域、視頻片段和證據反饋之間的閉環交互



醫學AI的下一個關鍵能力,不是生成更長的解釋,而是在給出解釋前主動尋找、驗證并引用視覺證據。

Ophiuchus和MedScope把這一點從方法論變成了可訓練、可評測、可擴展的技術路線。

為什么這可能成為醫學AI Agent的關鍵拐點

醫學任務與通用視覺問答最大的不同,是每一個結論都需要證據鏈

放射科醫生會放大病灶邊緣,病理醫生會尋找細胞形態,外科醫生會回看關鍵操作,內鏡醫生會追蹤病灶在時間中的出現與消失。

也就是說,臨床視覺推理天然就是交互式、證據驅動和可復核的。

“Think with Images/Videos”的意義,正是讓醫學AI向這種真實臨床認知方式靠近。

它不再滿足于一次性預測,而是在模型內部建立“假設-查證-修正-回答”的循環。

這為臨床可信AI提供了三類重要能力:更少幻覺、更強可解釋性、更適合復雜流程



醫學AI開始真正“邊看邊想”

從Ophiuchus到MedScope,可以看到醫學多模態大模型正在發生一次底層范式轉向

從看圖、看視頻,到在推理過程中持續地看;從輸出答案,到主動尋找證據;從語言鏈條,到視覺證據參與的多模態思維鏈

這也解釋了為什么“think with images/videos”值得被單獨提出。

它不是一個更花哨的工具調用框架,而是在醫學AI里重新定義了“推理”的邊界:推理不只是語言生成,而是圍繞證據進行的動態視覺探索

當模型能夠在思考中主動回看影像、放大病灶、截取視頻、驗證證據,醫學AI才真正從“會回答問題”走向“會進行臨床視覺推理”。

LeapQuest[起躍界問]是上海創智學院面向下一代醫學AI Agent、視覺推理與多模態大模型的青年交叉研究團隊,聚焦Visual Reasoning、Agentic RL、Clinical Tools,推動模型從“生成答案”走向基于證據的觀察、驗證與行動。

項目GitHub:
MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope
Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳數首談14年婚姻,盲目聽從丈夫安排,身患重病后現狀如何?

陳數首談14年婚姻,盲目聽從丈夫安排,身患重病后現狀如何?

瑛派兒老黃
2026-05-30 20:23:51
毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

路醫生健康科普
2026-05-30 20:15:03
女子車禍住院遭男醫生侵犯后續,細節不堪入目,院方最新回應來了

女子車禍住院遭男醫生侵犯后續,細節不堪入目,院方最新回應來了

可愛的巴比龍
2026-05-30 10:07:23
重磅消息!開始放水了?

重磅消息!開始放水了?

混知房產
2026-05-30 07:36:26
06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

小月文史
2025-03-11 18:44:56
日本全境調兵直逼臺海,連夜轉移12萬居民,表面避難實則清空戰場

日本全境調兵直逼臺海,連夜轉移12萬居民,表面避難實則清空戰場

紀中百大事
2026-05-31 09:36:03
韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

老誡科普
2026-05-29 22:13:52
中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

小陸搞笑日常
2026-05-31 04:35:20
杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

都市快報橙柿互動
2026-05-30 17:40:21
張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

極目新聞
2026-05-30 10:33:33
烏克蘭拆解“榛樹”導彈,結果震驚西方,七十年代古董為何能破盾

烏克蘭拆解“榛樹”導彈,結果震驚西方,七十年代古董為何能破盾

通鑒史智
2026-05-31 10:01:04
比亞迪吹爆璇璣A3:完全自研、中國最強!評論區一點面子都不給

比亞迪吹爆璇璣A3:完全自研、中國最強!評論區一點面子都不給

譚談社會
2026-05-29 16:29:54
英國公布的圓明園被毀前照片,美如仙境,引發世界關注

英國公布的圓明園被毀前照片,美如仙境,引發世界關注

賤議你讀史
2026-05-23 15:23:34
被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

麥子情感故事
2026-05-30 17:09:16
5月31日,人社部2026年養老金調整公布了嗎?高于6000元不漲了嗎

5月31日,人社部2026年養老金調整公布了嗎?高于6000元不漲了嗎

社保小達人
2026-05-31 09:49:47
從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

汪星人喲
2026-05-30 22:02:12
固態電池神話破滅在即?中科院重大突破將改寫2026電池江湖

固態電池神話破滅在即?中科院重大突破將改寫2026電池江湖

徐云流浪中國
2026-05-30 18:37:49
極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

觀史搜尋著
2026-05-30 11:57:25
現任孩子沒拿到繼承權,前妻姐真是贏麻了!

現任孩子沒拿到繼承權,前妻姐真是贏麻了!

BenSir本色說
2026-05-30 22:02:27
18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

磊子講史
2026-05-26 11:55:22
2026-05-31 10:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12710文章數 176474關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

體育要聞

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

字節跳動的 "一盤大棋"

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

本地
旅游
藝術
時尚
公開課

本地新聞

用剪紙的方式,打開江蘇揚州

旅游要聞

重磅劇透!300+海外旅行商齊聚北京,新體驗帶動新消費!——2026北京入境旅游發展大會6月1日高能啟幕,五大板塊搶先看!

藝術要聞

溥儀致斯大林留蘇申請書小楷精妙,白蕉被神化原因探析

伊姐周六熱推:電視劇《樊籠》;電視劇《翹楚》......

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版