无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nature Medicine:戳破“AI大模型超越人類醫(yī)生”的神話,取得高分靠的是刷題背答案+瞎猜?

0
分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

最近,GPT-5、Gemini 這些大語言模型在醫(yī)學考試里拿高分、碾壓人類專家的消息層出不窮,這讓不少人產(chǎn)生了一種 AI 醫(yī)生馬上就能上崗的感覺。

而一項最新研究給所有樂觀者潑了一盆冷水——當前頂尖大模型在醫(yī)療應用中所取得的“高分”,很可能是“作弊”來的。

2026 年 6 月 26 日,微軟研究院、Scripps 研究所的研人員在國際頂尖醫(yī)學期刊Nature Medicine上發(fā)表了題為:Evaluating the robustness and readiness of large frontier models in health AI applications 的研究論文,論文第一作者兼共同通訊作者Gu Yu目前已加入字節(jié)跳動。

該研究系統(tǒng)性地應用并整合了一系列對抗性壓力測試,以評估主流大模型和醫(yī)療基準的穩(wěn)健性(Robustnes)。該研究發(fā)現(xiàn),把測試題目里的圖片刪掉、把選項順序打亂、把正確答案對應的圖像換成別的疾病……結(jié)果原本取得高分的大模型,瞬間跌到及格線以下,甚至還會一本正經(jīng)地編出完全錯誤的診斷理由。

這項研究不僅戳破了“醫(yī)療 AI 能力超越人類醫(yī)生”的神話,更給整個行業(yè)提了個醒:醫(yī)療 AI 的評估,不能再只看“考試分數(shù)”了。


像 GPT-5 和 Gemini 這樣的前沿大語言模型在廣泛的醫(yī)療應用基準測試中表現(xiàn)出色。然而,在這些看似令人鼓舞的結(jié)果背后,仍存在顯著的增長空間,尤其是在多模態(tài)推理等前沿領域。

六套“壓力測試”,扒下大模型的“畫皮”

研究團隊設計了 6 項遞進的壓力測試,專門瞄準大模型的多模態(tài)推理能力——也就是同時看懂文字病歷和醫(yī)學影像,像醫(yī)生一樣綜合判斷的能力。結(jié)果暴露的問題,比想象中更嚴重——

1、沒圖也能“蒙對”?全靠“死記硬背”

第一項測試很簡單:把題目里的醫(yī)學影像(比如 X 光片、病理圖)直接刪掉,只留文字題干,看模型還能不能答對。

按理說,很多醫(yī)學題必須看圖才能診斷,沒圖就應該答不上來,或者明確說“信息不足”。但結(jié)果讓人大跌眼鏡:在《新英格蘭醫(yī)學雜志》(NEJM)的醫(yī)學挑戰(zhàn)題里,GPT-5 在去掉圖像后準確率只降了 13.92 個百分點,依然有 67.41%;而在專門篩選的“必須看圖才能答”的 197 道題里,所有模型的準確率都遠高于 20% 的隨機猜測水平——GPT-5 甚至達到了 41.32%。

這意味著這些模型根本沒在認真“看圖診斷”,而是在靠“刷題背答案”:記住了“某類題干描述對應某個答案”,哪怕沒有影像證據(jù),也能蒙對一半。只有 GPT-4o 比較“老實”,沒圖的時候有一半概率直接拒絕回答,但也還是有 16.35% 的概率會瞎猜。

2、選項換個順序就翻車?“位置依賴”太嚴重

第三項測試更離譜:只把選擇題的選項順序打亂,題干、正確答案全不變,看模型會不會受影響。

結(jié)果在純文本輸入下,GPT-4o 的準確率直接從正常水平的 70%+ 跌到了 16.35%,只有在保留圖像的情況下,視覺信息能幫它抵消一部分干擾,準確率才會回升。這說明模型很多時候不是真的理解了知識點,而是記住了“正確答案在第幾個位置”這種表面規(guī)律,典型的“應試技巧”,不是真本事。

3、換張圖就“認死理”?視覺理解全是 bug

第五項測試最貼近臨床實際:把題干對應的正確影像,換成另一個符合某個錯誤選項的影像,題干和選項完全不變,看模型會不會跟著新影像改答案。

比如原題是“看圖診斷皮肌炎”,正確答案是 B 選項,研究人員把圖換成符合 C 選項“心內(nèi)膜炎”的影像,按理說模型應該改選 C。但結(jié)果呢?GPT-5 的準確率從 84% 暴跌到 35%,也就是說大部分時候它還是盯著原來的 B 選項不放,根本沒意識到圖已經(jīng)變了。更有意思的是 GPT-4o,反而準確率從 26.5% 升到了 36%——不是它看得更準了,而是隨機亂猜的概率變高了。

4、解釋越聽越靠譜?全是“一本正經(jīng)的胡說八道”

最后一項測試專門檢測大模型的“診斷理由”:讓它一步步寫出推理過程,再看這些理由是不是真的支持它的答案。

結(jié)果發(fā)現(xiàn)三種典型問題:

  • 答案對了,理由錯了:例如正確答案是“氣腫性結(jié)腸炎”,大模型說自己看到了“沿結(jié)腸壁的囊狀氣體影”(這個描述確實符合該?。?,但實際上它根本沒真的識別圖像,只是根據(jù)答案反推了一個聽起來合理的理由;

  • 錯上加錯:一開始看錯了影像特征,后面的推理全部基于這個錯誤認知,越推越偏;

  • 廢話文學:寫了一大堆結(jié)構(gòu)嚴謹?shù)脑?,比如“需要結(jié)合臨床癥狀、實驗室檢查綜合判斷”,但完全沒有實質(zhì)信息,對診斷毫無幫助。

最可怕的是,這些錯誤的推理過程往往邏輯通順、術(shù)語專業(yè),非專業(yè)人士(甚至普通醫(yī)生)很難立刻發(fā)現(xiàn)漏洞,很容易被誤導。


壓力測試揭示了大語言模型在多模態(tài)醫(yī)療應用中的隱藏脆弱性和穩(wěn)健性差距

原來使用的“考題”,本身就有問題

為什么這些大模型能在公開榜單上拿高分,一測試就露餡?研究團隊發(fā)現(xiàn):不是大模型太聰明,是我們用的“考題”(醫(yī)學基準數(shù)據(jù)集)太簡單、太單一了。

他們找了三位執(zhí)業(yè)醫(yī)生,用 10 個臨床維度給 9 個常用的醫(yī)學評測數(shù)據(jù)集打了分,結(jié)果發(fā)現(xiàn)這些數(shù)據(jù)集的“難度側(cè)重”天差地別——

  • NEJM Image Challenge:既需要復雜推理,又需要精細讀圖,最接近真實臨床診斷;

  • JAMA Clinical Challenge:推理要求高,但很多題不用看圖,光讀文字就能蒙對;

  • VQA-RAD、MIMIC-CXR:非常依賴圖像,但推理難度低,基本是“看圖認器官”;

  • OmniMedVQA:推理和視覺要求都很低,更像基礎常識題。


基準測試在推理和視覺復雜度方面存在差異

這就導致一個尷尬的現(xiàn)實:如果一個模型只在 JAMA 這類“文本可解”的數(shù)據(jù)集上訓練,哪怕它在榜單上拿了第一,放到需要讀片的真實場景里也會完全失效。而我們過去總把這些數(shù)據(jù)集混為一談,用平均分來衡量模型能力,相當于用“單科成績”代表“全科水平”,完全是誤判。

給醫(yī)療 AI 的“退燒藥”:三個關鍵建議

這項研究不是為了否定大模型在醫(yī)療領域的價值,而是為了讓行業(yè)冷靜下來,建立更科學的評估體系。研究團隊最后給出了三個核心建議,值得所有從業(yè)者深思——

第一,給每個數(shù)據(jù)集發(fā)“說明書”,以后發(fā)布醫(yī)學評測數(shù)據(jù)集,必須附帶詳細的“元數(shù)據(jù)”:說明這個數(shù)據(jù)集主要考什么能力、適合評估哪類模型、有哪些局限性。不能只給個分數(shù),卻不說這個分數(shù)到底代表什么。

第二,評估要“拆指標”,不能只看總分,就像體檢報告不會只看“總分”,而是分血常規(guī)、肝腎功能一樣,模型評估也要按“推理復雜度”“視覺依賴度”“不確定性處理能力”等臨床維度拆分指標,單獨匯報。比如要明確說“該模型在視覺推理任務上表現(xiàn)優(yōu)異,但在不確定性處理上存在缺陷”,而不是籠統(tǒng)地說“該模型達到專家水平”。

第三,必須把“壓力測試”納入常規(guī)評估,以后醫(yī)療 AI 的發(fā)布前審計,不能只跑一遍標準數(shù)據(jù)集算準確率,必須把“輸入擾動”、“模態(tài)沖突”、“推理一致性”這類壓力測試作為必選項,和準確率一起匯報。就像新藥上市要做“不良反應測試”一樣,AI 上崗前也要做“抗干擾測試”。

醫(yī)療 AI 的價值,從來不是“考高分”,而是真正幫醫(yī)生減少誤診、幫患者獲得更準確的診斷。如果我們的評估體系只盯著榜單排名,只會催生更多“應試型 AI”——它們在測試中表現(xiàn)完美,到了真實的臨床應用時,面對模糊的影像、不完整的病歷、復雜的個體差異,就會漏洞百出。

這項研究撕開的不僅是大模型的“遮羞布”,更是整個行業(yè)的“認知誤區(qū)”:醫(yī)療 AI 的成熟度,不看它能在理想條件下拿多少分,而看它在混亂的真實世界里,能扛住多少意外。

論文鏈接

https://www.nature.com/articles/s41591-026-04501-8


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
71歲盧卡申科新伴僅22歲,常年被美女模特環(huán)繞,分居妻子杳無音信

71歲盧卡申科新伴僅22歲,常年被美女模特環(huán)繞,分居妻子杳無音信

譯言
2026-06-21 07:11:28
廣州首富完了,終審被判無期

廣州首富完了,終審被判無期

鳴金網(wǎng)
2026-06-30 00:30:12
浙江一女子母親車禍去世賠償80萬元,弟弟拿走74萬元,弟媳稱“嫁出去的女兒潑出去的水”;當事人:難以接受

浙江一女子母親車禍去世賠償80萬元,弟弟拿走74萬元,弟媳稱“嫁出去的女兒潑出去的水”;當事人:難以接受

洪觀新聞
2026-06-29 11:31:51
剩1年250萬!湖人拒執(zhí)行尼克·史密斯球隊選項 有意追射手特倫特

剩1年250萬!湖人拒執(zhí)行尼克·史密斯球隊選項 有意追射手特倫特

醉臥浮生
2026-06-30 09:07:27
死亡人數(shù)飆升,巴黎2家殯儀館爆滿!法國大量醫(yī)院沒空調(diào),急購3萬臺!中國“避暑神器”在歐洲賣爆,有游客落地第一天就被曬脫水

死亡人數(shù)飆升,巴黎2家殯儀館爆滿!法國大量醫(yī)院沒空調(diào),急購3萬臺!中國“避暑神器”在歐洲賣爆,有游客落地第一天就被曬脫水

每日經(jīng)濟新聞
2026-06-29 12:23:13
阿三又作妖!張家界玻璃棧道堵死!印度游客霸占通道不肯走

阿三又作妖!張家界玻璃棧道堵死!印度游客霸占通道不肯走

行者聊官
2026-06-28 17:29:16
日本球迷輸球后照樣集體撿垃圾!日媒開心壞了:全世界都在夸我們

日本球迷輸球后照樣集體撿垃圾!日媒開心壞了:全世界都在夸我們

風過鄉(xiāng)
2026-06-30 05:47:54
中國已經(jīng)成為全球第一個集體拒接電話的國家

中國已經(jīng)成為全球第一個集體拒接電話的國家

黯泉
2026-06-26 10:44:35
為什么廣東各地長途大巴又開始興旺了?因為再也不用坐水魚號了

為什么廣東各地長途大巴又開始興旺了?因為再也不用坐水魚號了

娛樂圈的筆娛君
2026-06-30 02:00:25
伊拉克要求親伊朗武裝9月30日前解除武裝,綠區(qū)一夜抓走47名官員

伊拉克要求親伊朗武裝9月30日前解除武裝,綠區(qū)一夜抓走47名官員

桂系007
2026-06-29 23:17:57
29日美國大滿貫曝出大冷門,溫瑞博少一勁敵,莫雷加德漁翁得利

29日美國大滿貫曝出大冷門,溫瑞博少一勁敵,莫雷加德漁翁得利

南海浪花
2026-06-29 17:02:07
蘋果對印度供應商塔塔泄露iPhone 18 Pro機密數(shù)據(jù)表達擔憂

蘋果對印度供應商塔塔泄露iPhone 18 Pro機密數(shù)據(jù)表達擔憂

cnBeta.COM
2026-06-30 09:01:05
世界杯清純花魁,葡萄牙太太團新寵,比喬治娜還吸睛笑容好甜

世界杯清純花魁,葡萄牙太太團新寵,比喬治娜還吸睛笑容好甜

瘋狂的豆芽
2026-06-29 13:01:51
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
李谷一道出實情,揭曉宋祖英走上高位的真相,觀眾:原來如此!

李谷一道出實情,揭曉宋祖英走上高位的真相,觀眾:原來如此!

動物奇奇怪怪
2026-06-29 18:46:04
費薩爾將訪華

費薩爾將訪華

澎湃新聞
2026-06-29 17:05:12
上海球迷穿日本隊球衣慶祝!上海市足協(xié)回應:足球無國界

上海球迷穿日本隊球衣慶祝!上海市足協(xié)回應:足球無國界

去山野間追風
2026-06-29 12:38:02
500萬粉絲2歲吃播米樂人設崩塌,光鮮鏡頭背后 寶媽看著格外揪心

500萬粉絲2歲吃播米樂人設崩塌,光鮮鏡頭背后 寶媽看著格外揪心

天天熱點見聞
2026-06-30 08:16:39
俄鷹派敦促對烏進行核打擊,布達諾夫:你動核武器試試

俄鷹派敦促對烏進行核打擊,布達諾夫:你動核武器試試

史政先鋒
2026-06-27 21:48:03
歷史首次,德國隊在世界杯決賽前被南美球隊淘汰

歷史首次,德國隊在世界杯決賽前被南美球隊淘汰

懂球帝
2026-06-30 07:37:13
2026-06-30 09:56:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
9644文章數(shù) 145112關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

牛彈琴:韓國對男足恥辱出局激烈反應 全世界震驚不已

頭條要聞

牛彈琴:韓國對男足恥辱出局激烈反應 全世界震驚不已

體育要聞

日本眾將掩面痛哭 連續(xù)3屆先破門卻被逆轉(zhuǎn)

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經(jīng)要聞

中歐貿(mào)易投資磋商機制聯(lián)合聲明

汽車要聞

開著B級轎車跑山 邁騰PHEV 挑戰(zhàn)龍脊天路

態(tài)度原創(chuàng)

本地
旅游
房產(chǎn)
數(shù)碼
公開課

本地新聞

貴州小城的新目標:舉辦“村超”世界杯!

旅游要聞

文化遺產(chǎn)耀中原|走進《岳陽樓記》的誕生地——南陽鄧州花洲書院

房產(chǎn)要聞

20.8億元!保利拿下三亞超級宅地!

數(shù)碼要聞

618智能投影線上銷量下滑超20% 極米獲DLP銷量榜首

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版