无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

急診室里,AI比醫(yī)生早12小時診斷出致命感染

0
分享至


圖源:Pxhere.com

1959年,兩位名叫Robert Ledley和Lee Lusted的研究者在《科學(xué)》(Science)雜志上發(fā)表了一篇名為《醫(yī)療診斷的推理基礎(chǔ)》的論文。他們提出一個想法:用《新英格蘭醫(yī)學(xué)雜志》(NEJM)每周發(fā)表的臨床病理討論會病例來考計算機。這些真實的病例來自麻省總醫(yī)院,經(jīng)過專家整理,充滿了罕見病表現(xiàn)、干擾信息,是醫(yī)學(xué)界公認的高難度考題。

Ledley和Lusted想知道,機器能不能像醫(yī)生一樣思考。


左:Robert Ledley,圖源:Wikipedia;右:Lee Lusted,圖源:Rutgers University

67年過去了。一研究團隊在《科學(xué)》上交了答卷。他們讓大模型的推理模型做了這套題,143個病例,模型在78.3%的情況下把正確答案放進了鑒別診斷;如果把標(biāo)準放寬到"至少給出了有幫助的診斷",這個數(shù)字是97.9%。而檢查方案幾乎完全一致的比例,是87.5%。而在真實世界的急診室中,這一推理模型對于病例的臨床推理評估,也比人類醫(yī)生更早得出正確的診斷結(jié)果。

但研究團隊最想講的,不是這些分數(shù)本身。

在《科學(xué)》雜志組織的一場線上發(fā)布會上,論文作者們講了一個急診室里的故事。一位器官移植后的患者走進急診室,抱怨睪丸疼痛,同時有些上呼吸道癥狀。人類醫(yī)生把注意力放在了呼吸道。推理模型模型卻從分診記錄里注意到“免疫抑制”,在病歷中標(biāo)記了壞死性筋膜炎——一種需要手術(shù)治療的毀滅性感染。這比人類醫(yī)生的診斷早了12到24小時。

論文作者表示,“我們已經(jīng)證明推理模型極其有能力。現(xiàn)在該把這一點放在一邊,開始思考醫(yī)生如何在現(xiàn)實世界中使用它。”

SAIXIANSHENG

五個實驗和一張成績單

這項研究測試的是被稱為“推理模型”的新型AI系統(tǒng)。

研究團隊設(shè)計了五項實驗,系統(tǒng)性地比較了推理模型與醫(yī)生的表現(xiàn),覆蓋了從鑒別診斷到管理決策的多個維度。

第一個實驗是來自《新英格蘭醫(yī)學(xué)雜志》臨床病理討論會(CPC)的143個病例。自1950年代以來,《新英格蘭醫(yī)學(xué)雜志》臨床病理討論會就是評估臨床AI的黃金標(biāo)準。這些病例每周發(fā)表,來自麻省總醫(yī)院的真實患者,經(jīng)過專家撰寫,充滿了罕見病表現(xiàn)和干擾信息。用論文作者的話說,它們是“被有意設(shè)計得很難”的。

研究團隊只給模型看“初始呈現(xiàn)”——患者第一次被接診時的癥狀、病史和體征——然后讓它做兩件事:給出鑒別診斷,以及選擇下一步該做什么檢查。

兩位醫(yī)生用5分制Bond量表對模型的回答進行盲評。評分時,兩位醫(yī)生不知道答案來自AI還是人類。

結(jié)果是:推理模型在78.3%的病例中把正確答案納入了鑒別診斷。如果把標(biāo)準放寬到"給出了有幫助或非常接近的診斷",這個數(shù)字升至97.9%。

這些數(shù)字意味著什么?此前一項發(fā)表在《自然》上的研究中,有搜索權(quán)限的醫(yī)生在302個CPC病例上的準確率是44.5%。而在本研究中重疊的70個病例上,其他大模型的準確率是72.9%,推理模型則高達88.6%。

研究團隊還檢查了模型是否在“背答案”:訓(xùn)練數(shù)據(jù)截止日期前后的準確率,沒有顯著差異(79.8%對73.5%),說明得分不完全是靠記憶。

在136個病例中,研究團隊還測試了模型選擇下一步檢查的能力。87.5%的情況下,推理模型選擇的檢查方案與麻省總醫(yī)院實際采取的方案完全一致;另有11%被認為"有幫助";只有1.5%被兩位評分醫(yī)生認為"無幫助"。

第二個實驗是關(guān)于寫病歷的考試。NEJM Healer課程提供20個虛擬患者的接診場景,用R-IDEA量表(滿分10分)評估受試者的臨床文檔寫作質(zhì)量,涵蓋病史采集、鑒別診斷、推理過程和文檔結(jié)構(gòu)四個維度。

80份病程記錄中,推理模型在78份中拿了滿分。相比之下,其他大模型是47份,主治醫(yī)生28份,住院醫(yī)生16份。

第三個實驗用來測試AI在在病例上的管理決策能力。Grey Matters測試使用5個真實病例改編的管理場景,場景包括抗生素選擇、臨終關(guān)懷對話等。這些決策比診斷更復(fù)雜,還需要考慮患者偏好、資源約束和合并癥等文本之外的因素。

在這項測試中,推理模型的中位數(shù)得分是89%,其他大模型是42%,配備其他大模型的醫(yī)生是41%,使用傳統(tǒng)資源的醫(yī)生是34%。推理模型比最后一組高出了48.4個百分點。

為了排除模型依賴記憶作答的可能性,研究團隊使用了6個從未在互聯(lián)網(wǎng)公開的病例,源自1994年的一項研究。模型需要給出鑒別診斷、支持證據(jù)、反駁證據(jù),以及下一步計劃。有兩位評分醫(yī)生對模型回答進行盲評。

推理模型的中位數(shù)得分是97%。其他大模型是92%,使用其他大冒險的醫(yī)生76%,使用傳統(tǒng)資源的醫(yī)生則是74%。

這一結(jié)果顯示,推理模型與其他大模型的成績差距不大,但都大幅領(lǐng)先于人類醫(yī)生。

最后一項測試,使用了5個病例,要求模型估算疾病在檢查前后的疾病概率,并與專家文獻基準對比。

結(jié)果顯示,推理模型與其他大模型表現(xiàn)相近,但在心臟病缺血病例的后測概率估計上,推理模型顯著優(yōu)于其他大模型和人類醫(yī)生。值得一提的是,對這五個病例做出估算的人類醫(yī)生,答案極度分散,方差明顯超過兩個AI模型。這表明模型更穩(wěn)定,人類更波動。

這五個實驗覆蓋了診斷、文檔、管理、推理和概率估計。在文本-based的臨床推理任務(wù)上,推理模型已經(jīng)超越了此前所有AI模型,也超越了大多數(shù)人類醫(yī)生的基線。

SAIXIANSHENG

急診室里的三個時間點

實驗室里的高分,能不能搬到急診室?這是本研究區(qū)別于以往研究的核心亮點。研究團隊沒有把病例"洗干凈"再喂給模型,而是直接從電子病歷復(fù)制粘貼,包括所有無關(guān)噪音。


貝斯以色列女執(zhí)事醫(yī)療中心。圖源:維基百科

這些真實世界的病例來自貝斯以色列女執(zhí)事醫(yī)療中心急診部,作者們隨機抽取76例最終入院的患者。研究設(shè)計了三個診斷時間點:

第一個時間點是分診時。護士記錄的生命體征——血壓、心率、體溫、血氧——患者年齡性別,以及一段很短的分診說明。這段說明通常只有幾句話,解釋患者為什么來,比如"胸痛三小時"或"發(fā)熱伴咳嗽兩天"。信息極度稀缺。

第二個時間點是急診醫(yī)生接診后。加上了醫(yī)生的問診記錄、體格檢查發(fā)現(xiàn),以及實驗室和影像結(jié)果。信息開始豐富。

第三個時間點是入院時。所有信息都到齊了,包括住院醫(yī)療團隊的評估、??茣\意見、額外檢查。這是信息最充足的時間點。

與推理模型和其他大模型同臺競技的,則是兩名真實的人類主治醫(yī)生。還有另外兩名主治醫(yī)生負責(zé)對診斷質(zhì)量進行盲評,他們不知道答案來自人類還是AI。

最后,盲評的結(jié)果很驚人:一位醫(yī)生在83.6%的情況表示“分不清是人類還是AI”,另一位則在94.4%情況下都說分不清。

在這一真實場景中,分診時推理模型診斷的病例有67.1%診斷準確或非常接近,而兩位醫(yī)生分別為55.3%和50.0%;急診醫(yī)生階段,推理模型為72.4%,兩名醫(yī)生分別為61.8%和52.6%;入院時差距縮小,推理模型為81.6%,兩名醫(yī)生分別為78.9%和69.7%。

該論文的共同通訊作者表示,信息越少,AI的優(yōu)勢越明顯。人類在信息稀缺時更容易被噪音干擾,模型能從碎片中快速建立關(guān)聯(lián)。而一旦信息充足,人類醫(yī)生的整合能力追了上來。

論文的另外一位通訊作者講了兩個令他印象深刻的病例。第一個是肺栓塞患者?;颊咭蛐掳l(fā)肺栓塞就診,最初好轉(zhuǎn)后癥狀突然惡化。急診室里,人類醫(yī)生合理地懷疑抗凝治療失敗——這是最常見的并發(fā)癥。o1模型卻注意到患者有狼瘡病史。隨著新信息出現(xiàn),模型越來越傾向于一個統(tǒng)一病因:狼瘡性心肺炎——由狼瘡導(dǎo)致的肺部和心臟炎癥,既能解釋癥狀惡化,也能獨立導(dǎo)致肺栓塞。這個判斷從最早的分診階段就已存在,最終被證實正確。

第二個病例就是文章開頭提到的壞死性筋膜炎?!澳P蛯嶋H上從一開始就對壞死性筋膜炎有所懷疑,可能比人類醫(yī)生早12到24小時。這是留在我腦海中最突出的例子。”

他補充了一個重要的臨床視角:在這兩個病例中,患者都得到了恰當(dāng)?shù)闹委煛?strong>AI更早給出正確診斷,未必會改變臨床結(jié)局。但如果在真實世界中部署這樣的系統(tǒng)作為“第二意見”,它可能在某些時刻幫助醫(yī)生少走一段彎路。

SAIXIANSHENG

考試及格,能上崗嗎?

研究者表示,Ledley和Lusted扔下的“戰(zhàn)書”終于被接住了。“我們可以明確地說,按照醫(yī)生自己設(shè)定的標(biāo)準,信息學(xué)推理模型能夠滿足在最高人類表現(xiàn)水平上進行診斷推理的標(biāo)準?!?/p>

但研究者立刻表示:“我們的發(fā)現(xiàn)不意味著AI會取代醫(yī)生。這意味著技術(shù)正在深刻改變醫(yī)學(xué),我們需要嚴格的前瞻性臨床試驗。

他提到了一個非常重要的技術(shù)細節(jié):這些通用模型一般不是被訓(xùn)練成臨床醫(yī)生的,因為其底層機制是被訓(xùn)練來預(yù)測下一個詞是什么,并在通用場景下提供幫助。因此,解答《新英格蘭醫(yī)學(xué)雜志》的CPC病例,處理貝斯以色列急診室的真實病例,可能只是大規(guī)模通用訓(xùn)練的“副作用”。

哈佛醫(yī)學(xué)院AI與醫(yī)學(xué)博士生負責(zé)研究的大部分實驗設(shè)計和模型測試。他坦承團隊沒有正式測量幻覺率,但“我們知道推理模型確實會產(chǎn)生幻覺”。并補充說:“這意味著,我們既要選擇信任大模型,也要充分驗證大模型”。

研究者團隊花了很長時間糾正可能的誤讀。“急診室的工作是分診和穩(wěn)定,不是預(yù)測最終診斷。”他說,“診斷像下棋,有正確答案,容易衡量;但日常醫(yī)療行為其實是極其微妙的。”

他也談到了應(yīng)用場景的邊界。“任何人都不應(yīng)該看了這個就說:我們不需要醫(yī)生了?!彼f,"你可以想象這是一個被動運行在電子健康記錄上的系統(tǒng),能夠在診斷錯誤發(fā)生之前識別出來。或者在某些時刻,醫(yī)生可以向AI尋求第二意見。這些是大模型在臨床上比較明顯的應(yīng)用場景。"

他補充說,2025年的一項全球調(diào)查發(fā)現(xiàn),五分之一的臨床醫(yī)生已經(jīng)開始習(xí)慣使用大語言模型獲取第二意見?!岸疫@個數(shù)字在過去一年里增長了很多?!?/p>

研究者團隊回應(yīng)了《賽先生》關(guān)于AI未來角色的提問:“我們已經(jīng)證實這類推理模型具備極強的能力?,F(xiàn)在應(yīng)當(dāng)暫且擱置對其性能的論證,轉(zhuǎn)而探討醫(yī)生如何在真實臨床環(huán)境中加以運用——這正是人機交互研究的核心議題。

他進一步解釋:“理想狀態(tài)是,我們知道模型何時錯了,模型知道我們何時錯了,我們都能識別出來。但研究目前沒給出這個答案。所以接下來幾年,我們要研究的是如何讓醫(yī)生和AI在真實臨床環(huán)境中都發(fā)揮最大作用。

SAIXIANSHENG

真正的挑戰(zhàn),剛剛開始

這項研究有幾項重要局限值得重視。

病例主要集中在內(nèi)科和急診,而關(guān)于產(chǎn)科、兒科、外科的表現(xiàn)則是未知。而醫(yī)生基線主要來自哈佛和斯坦福網(wǎng)絡(luò),以急診、內(nèi)科、家庭醫(yī)學(xué)為主。并坦言:“這不是一個非常具有普遍性的醫(yī)生群體?!?/p>

另外,所有實驗都是文本輸入,而大模型沒有視覺和觸覺,看不到肢體語言,也讀不了X光片。研究者透露,團隊正在做平行研究測試模型在圖像上的表現(xiàn),但影像能力遠不如文本能力表現(xiàn)的那么好。

研究者則強調(diào),急診室的實際決策核心是分診和處置,不是診斷準確率。他提醒說,如果輸入的是30天住院病歷或完整醫(yī)療記錄,"我們可能不會看到如此令人印象深刻的結(jié)果",因為大語言模型處理大量數(shù)據(jù)時仍有困難。

67年前,Ledley和Lusted給計算機出了一套題。67年后,推理模型在這套題上拿了接近滿分的成績。但醫(yī)療AI真正的考場,在醫(yī)生按下回車鍵、模型給出建議、患者等待決定的那個真實瞬間。

這樣的未來,值得期待,但也需要更多的驗證。

參考文獻:

[1] Brodeur PG, Buckley TA, et al. Performance of a large language model on the reasoning tasks of a physician. Science. 2026;392(6746):524-527.

[2] Hopkins AM, Cornelisse E. AI can reason like a physician—what comes next? Science. 2026;392(6746):466-467.

[3] 丁香園,2026年4月29日,《全球首個!無需醫(yī)生參與,AI可以開處方了》

來源:賽先生

編輯:張柒柒

轉(zhuǎn)載內(nèi)容僅代表作者觀點

不代表中科院物理所立場

如需轉(zhuǎn)載請聯(lián)系原公眾號

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本高市支持率暴跌 20 個點:三股勢力暗使壞,她會不會下臺?

日本高市支持率暴跌 20 個點:三股勢力暗使壞,她會不會下臺?

瀲滟晴方DAY
2026-06-14 03:01:59
山東藏著兩所“軍官搖籃”!畢業(yè)即少尉,免學(xué)費包分配

山東藏著兩所“軍官搖籃”!畢業(yè)即少尉,免學(xué)費包分配

華庭講美食
2026-06-13 13:48:54
沙特狂買190萬輛中國車!這一次,美國日本這次真坐不住了。

沙特狂買190萬輛中國車!這一次,美國日本這次真坐不住了。

小馬姨
2026-06-12 10:13:30
俞敏洪拋出驚人言論:我有兩個大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

俞敏洪拋出驚人言論:我有兩個大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

心理觀察局
2026-06-03 07:17:10
古代男子為何喜歡娶13、14歲少女?有三大原因

古代男子為何喜歡娶13、14歲少女?有三大原因

賤議你讀史
2026-06-13 09:10:05
毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

觀察鑒娛
2026-06-13 08:09:16
巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

阿傖說事
2026-06-13 14:00:30
張馨予的老公太陽剛了!生活中顯得鶴立雞群,網(wǎng)友:一副領(lǐng)導(dǎo)樣子

張馨予的老公太陽剛了!生活中顯得鶴立雞群,網(wǎng)友:一副領(lǐng)導(dǎo)樣子

木子愛娛樂大號
2026-06-12 14:37:42
黃多多比基尼生圖曝光,乖乖女秒變性感叛逆少女,輿論大面積翻車

黃多多比基尼生圖曝光,乖乖女秒變性感叛逆少女,輿論大面積翻車

手工制作阿殲
2026-06-12 08:51:46
法專家曾言:中國電力已讓世界畏懼!為啥中國人自己卻渾然不知?

法專家曾言:中國電力已讓世界畏懼!為啥中國人自己卻渾然不知?

蜉蝣說
2026-06-13 10:55:14
1-1!卡塔爾菜得摳腳!瑞士瘋狂浪射被絕平 球迷:配跟國足坐一桌

1-1!卡塔爾菜得摳腳!瑞士瘋狂浪射被絕平 球迷:配跟國足坐一桌

刀鋒體育
2026-06-14 05:32:53
意大利富婆遭搶劫,開2噸越野車碾壓劫匪,過度報復(fù)殺人被判18年

意大利富婆遭搶劫,開2噸越野車碾壓劫匪,過度報復(fù)殺人被判18年

譯言
2026-06-12 09:09:04
女同事最近懷孕了,在公司群里說:大家注意啦,我懷孕了,現(xiàn)在聞到飯味就難受,希望大家不要在辦公室吃飯了,免得影響我。看到請回復(fù)一下

女同事最近懷孕了,在公司群里說:大家注意啦,我懷孕了,現(xiàn)在聞到飯味就難受,希望大家不要在辦公室吃飯了,免得影響我。看到請回復(fù)一下

不二大叔
2026-06-13 21:23:25
日媒:赴日留學(xué)生人數(shù)突破40萬人!中國大陸占近1/3

日媒:赴日留學(xué)生人數(shù)突破40萬人!中國大陸占近1/3

隨波蕩漾的漂流瓶
2026-06-12 12:08:35
京城的飯局與騙局:京西賓館遭遇“山寨協(xié)會”【20】

京城的飯局與騙局:京西賓館遭遇“山寨協(xié)會”【20】

金哥說新能源車
2026-06-14 02:18:27
狗狗不知道爸爸在家辦公,堅持在車站接他下班,于是爸爸只好特地來車站走一次流程……

狗狗不知道爸爸在家辦公,堅持在車站接他下班,于是爸爸只好特地來車站走一次流程……

愛寵物
2026-06-13 21:51:04
記者:亞馬爾和尼科已完成訓(xùn)練,可以出戰(zhàn)世界杯首輪比賽

記者:亞馬爾和尼科已完成訓(xùn)練,可以出戰(zhàn)世界杯首輪比賽

懂球帝
2026-06-14 02:35:25
男單小將首進S500決賽,國羽5勝1負,澳洲賽沖4金!附賽程

男單小將首進S500決賽,國羽5勝1負,澳洲賽沖4金!附賽程

佑銘羽球
2026-06-14 02:45:09
《奔跑吧》曝暫停播出:真正炸鍋的,不是停播,是那串天價宣傳費

《奔跑吧》曝暫停播出:真正炸鍋的,不是停播,是那串天價宣傳費

熱聞島
2026-06-12 11:31:40
男子16歲時便出軌嫂子,婚后瞞著妻子繼續(xù)出軌,還與嫂子生下一子

男子16歲時便出軌嫂子,婚后瞞著妻子繼續(xù)出軌,還與嫂子生下一子

老貓觀點
2026-05-07 07:12:10
2026-06-14 07:12:49
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
10213文章數(shù) 136562關(guān)注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權(quán)后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權(quán)后崗位直接取消

體育要聞

美國4比1巴拉圭:這統(tǒng)治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋?cè)W(wǎng)!

財經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態(tài)度原創(chuàng)

健康
游戲
本地
教育
公開課

老人、小孩、孕婦,吃粽子有啥風(fēng)險

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰(zhàn)勝WE,決賽見

本地新聞

AK劉彰邂逅河北南大港濕地

教育要聞

真的無法預(yù)測嗎??

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版