无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Nature Medicine：戳破“AI大模型超越人類醫(yī)生”的神話，取得高分靠的是刷題背答案+瞎猜？

2026-06-30 08:20:01　來源: 生物世界

上海舉報

0

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

最近，GPT-5、Gemini 這些大語言模型在醫(yī)學考試里拿高分、碾壓人類專家的消息層出不窮，這讓不少人產(chǎn)生了一種 AI 醫(yī)生馬上就能上崗的感覺。

而一項最新研究給所有樂觀者潑了一盆冷水——當前頂尖大模型在醫(yī)療應用中所取得的“高分”，很可能是“作弊”來的。

2026 年 6 月 26 日，微軟研究院、Scripps 研究所的研人員在國際頂尖醫(yī)學期刊Nature Medicine上發(fā)表了題為：Evaluating the robustness and readiness of large frontier models in health AI applications 的研究論文，論文第一作者兼共同通訊作者Gu Yu目前已加入字節(jié)跳動。

該研究系統(tǒng)性地應用并整合了一系列對抗性壓力測試，以評估主流大模型和醫(yī)療基準的穩(wěn)健性（Robustnes）。該研究發(fā)現(xiàn)，把測試題目里的圖片刪掉、把選項順序打亂、把正確答案對應的圖像換成別的疾病……結(jié)果原本取得高分的大模型，瞬間跌到及格線以下，甚至還會一本正經(jīng)地編出完全錯誤的診斷理由。

這項研究不僅戳破了“醫(yī)療 AI 能力超越人類醫(yī)生”的神話，更給整個行業(yè)提了個醒：醫(yī)療 AI 的評估，不能再只看“考試分數(shù)”了。

像 GPT-5 和 Gemini 這樣的前沿大語言模型在廣泛的醫(yī)療應用基準測試中表現(xiàn)出色。然而，在這些看似令人鼓舞的結(jié)果背后，仍存在顯著的增長空間，尤其是在多模態(tài)推理等前沿領域。

六套“壓力測試”，扒下大模型的“畫皮”

研究團隊設計了 6 項遞進的壓力測試，專門瞄準大模型的多模態(tài)推理能力——也就是同時看懂文字病歷和醫(yī)學影像，像醫(yī)生一樣綜合判斷的能力。結(jié)果暴露的問題，比想象中更嚴重——

1、沒圖也能“蒙對”？全靠“死記硬背”

第一項測試很簡單：把題目里的醫(yī)學影像（比如 X 光片、病理圖）直接刪掉，只留文字題干，看模型還能不能答對。

按理說，很多醫(yī)學題必須看圖才能診斷，沒圖就應該答不上來，或者明確說“信息不足”。但結(jié)果讓人大跌眼鏡：在《新英格蘭醫(yī)學雜志》（NEJM）的醫(yī)學挑戰(zhàn)題里，GPT-5 在去掉圖像后準確率只降了 13.92 個百分點，依然有 67.41%；而在專門篩選的“必須看圖才能答”的 197 道題里，所有模型的準確率都遠高于 20% 的隨機猜測水平——GPT-5 甚至達到了 41.32%。

這意味著這些模型根本沒在認真“看圖診斷”，而是在靠“刷題背答案”：記住了“某類題干描述對應某個答案”，哪怕沒有影像證據(jù)，也能蒙對一半。只有 GPT-4o 比較“老實”，沒圖的時候有一半概率直接拒絕回答，但也還是有 16.35% 的概率會瞎猜。

2、選項換個順序就翻車？“位置依賴”太嚴重

第三項測試更離譜：只把選擇題的選項順序打亂，題干、正確答案全不變，看模型會不會受影響。

結(jié)果在純文本輸入下，GPT-4o 的準確率直接從正常水平的 70%+ 跌到了 16.35%，只有在保留圖像的情況下，視覺信息能幫它抵消一部分干擾，準確率才會回升。這說明模型很多時候不是真的理解了知識點，而是記住了“正確答案在第幾個位置”這種表面規(guī)律，典型的“應試技巧”，不是真本事。

3、換張圖就“認死理”？視覺理解全是 bug

第五項測試最貼近臨床實際：把題干對應的正確影像，換成另一個符合某個錯誤選項的影像，題干和選項完全不變，看模型會不會跟著新影像改答案。

比如原題是“看圖診斷皮肌炎”，正確答案是 B 選項，研究人員把圖換成符合 C 選項“心內(nèi)膜炎”的影像，按理說模型應該改選 C。但結(jié)果呢？GPT-5 的準確率從 84% 暴跌到 35%，也就是說大部分時候它還是盯著原來的 B 選項不放，根本沒意識到圖已經(jīng)變了。更有意思的是 GPT-4o，反而準確率從 26.5% 升到了 36%——不是它看得更準了，而是隨機亂猜的概率變高了。

4、解釋越聽越靠譜？全是“一本正經(jīng)的胡說八道”

最后一項測試專門檢測大模型的“診斷理由”：讓它一步步寫出推理過程，再看這些理由是不是真的支持它的答案。

結(jié)果發(fā)現(xiàn)三種典型問題：

答案對了，理由錯了：例如正確答案是“氣腫性結(jié)腸炎”，大模型說自己看到了“沿結(jié)腸壁的囊狀氣體影”（這個描述確實符合該?。?，但實際上它根本沒真的識別圖像，只是根據(jù)答案反推了一個聽起來合理的理由；
錯上加錯：一開始看錯了影像特征，后面的推理全部基于這個錯誤認知，越推越偏；
廢話文學：寫了一大堆結(jié)構(gòu)嚴謹?shù)脑?，比如“需要結(jié)合臨床癥狀、實驗室檢查綜合判斷”，但完全沒有實質(zhì)信息，對診斷毫無幫助。

最可怕的是，這些錯誤的推理過程往往邏輯通順、術(shù)語專業(yè)，非專業(yè)人士（甚至普通醫(yī)生）很難立刻發(fā)現(xiàn)漏洞，很容易被誤導。

壓力測試揭示了大語言模型在多模態(tài)醫(yī)療應用中的隱藏脆弱性和穩(wěn)健性差距

原來使用的“考題”，本身就有問題

為什么這些大模型能在公開榜單上拿高分，一測試就露餡？研究團隊發(fā)現(xiàn)：不是大模型太聰明，是我們用的“考題”（醫(yī)學基準數(shù)據(jù)集）太簡單、太單一了。

他們找了三位執(zhí)業(yè)醫(yī)生，用 10 個臨床維度給 9 個常用的醫(yī)學評測數(shù)據(jù)集打了分，結(jié)果發(fā)現(xiàn)這些數(shù)據(jù)集的“難度側(cè)重”天差地別——

NEJM Image Challenge：既需要復雜推理，又需要精細讀圖，最接近真實臨床診斷；
JAMA Clinical Challenge：推理要求高，但很多題不用看圖，光讀文字就能蒙對；
VQA-RAD、MIMIC-CXR：非常依賴圖像，但推理難度低，基本是“看圖認器官”；
OmniMedVQA：推理和視覺要求都很低，更像基礎常識題。

基準測試在推理和視覺復雜度方面存在差異

這就導致一個尷尬的現(xiàn)實：如果一個模型只在 JAMA 這類“文本可解”的數(shù)據(jù)集上訓練，哪怕它在榜單上拿了第一，放到需要讀片的真實場景里也會完全失效。而我們過去總把這些數(shù)據(jù)集混為一談，用平均分來衡量模型能力，相當于用“單科成績”代表“全科水平”，完全是誤判。

給醫(yī)療 AI 的“退燒藥”：三個關鍵建議

這項研究不是為了否定大模型在醫(yī)療領域的價值，而是為了讓行業(yè)冷靜下來，建立更科學的評估體系。研究團隊最后給出了三個核心建議，值得所有從業(yè)者深思——

第一，給每個數(shù)據(jù)集發(fā)“說明書”，以后發(fā)布醫(yī)學評測數(shù)據(jù)集，必須附帶詳細的“元數(shù)據(jù)”：說明這個數(shù)據(jù)集主要考什么能力、適合評估哪類模型、有哪些局限性。不能只給個分數(shù)，卻不說這個分數(shù)到底代表什么。

第二，評估要“拆指標”，不能只看總分，就像體檢報告不會只看“總分”，而是分血常規(guī)、肝腎功能一樣，模型評估也要按“推理復雜度”“視覺依賴度”“不確定性處理能力”等臨床維度拆分指標，單獨匯報。比如要明確說“該模型在視覺推理任務上表現(xiàn)優(yōu)異，但在不確定性處理上存在缺陷”，而不是籠統(tǒng)地說“該模型達到專家水平”。

第三，必須把“壓力測試”納入常規(guī)評估，以后醫(yī)療 AI 的發(fā)布前審計，不能只跑一遍標準數(shù)據(jù)集算準確率，必須把“輸入擾動”、“模態(tài)沖突”、“推理一致性”這類壓力測試作為必選項，和準確率一起匯報。就像新藥上市要做“不良反應測試”一樣，AI 上崗前也要做“抗干擾測試”。

醫(yī)療 AI 的價值，從來不是“考高分”，而是真正幫醫(yī)生減少誤診、幫患者獲得更準確的診斷。如果我們的評估體系只盯著榜單排名，只會催生更多“應試型 AI”——它們在測試中表現(xiàn)完美，到了真實的臨床應用時，面對模糊的影像、不完整的病歷、復雜的個體差異，就會漏洞百出。

這項研究撕開的不僅是大模型的“遮羞布”，更是整個行業(yè)的“認知誤區(qū)”：醫(yī)療 AI 的成熟度，不看它能在理想條件下拿多少分，而看它在混亂的真實世界里，能扛住多少意外。

論文鏈接：

https://www.nature.com/articles/s41591-026-04501-8

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OMG運動生成框架：一句話、一段音樂即可操縱機器人完成全身動作

機器之心Pro 2026-06-29 14:25:36
0 跟貼 0
具身智能的數(shù)據(jù)困境，不只在數(shù)量

智東西 2026-06-24 22:11:53
0 跟貼 0

百億真實數(shù)據(jù)，首個面向AI Infra的運維智能體評測基準正式開源

機器之心Pro 2026-06-29 20:48:56
0 跟貼 0

Claude「斷電」背后：中國基準首次捅開了AI萬億市場「死穴」

新智元 2026-06-29 21:34:04
0 跟貼 0
視頻生成模型會「推理」嗎？303道題全面揭示世界模型的推理短板

機器之心Pro 2026-06-28 18:29:07
0 跟貼 0

給Transformer變個形，LLM竟能變得更聰明

機器之心Pro 2026-06-29 18:39:15
1 跟貼 1

【鈦晨報】國常會最新部署：要加力推進人工智能創(chuàng)新突破；美團、淘寶閃購、京東外賣達成共識；三星、SK海力士和美光在美遭集體訴訟

鈦媒體APP 2026-06-30 07:37:44
0 跟貼 0
“AI領域最被濫用的術(shù)語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
日媒：中國關鍵金屬進口量飆升 "手上有牌"

澎湃新聞 2026-06-29 16:20:35
4481 跟貼 4481
開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網(wǎng)-北京青年報 2026-06-28 14:48:24
1826 跟貼 1826
二年級數(shù)學題目，不少同學急得直搖頭

公考客棧店小二 2026-06-27 13:00:00
0 跟貼 0
媒體：歐洲熱浪下中國空調(diào)撕開的不只是市場缺口

澎湃新聞 2026-06-30 07:12:58
796 跟貼 796
金燦燦的大航母，這一套模型擺件太漂亮，誰看了能拒絕它！

搞笑派大星 2026-06-29 11:43:27
1 跟貼 1
真是沒想到，小學二年級的題目都這么難了

公考客棧店小二 2026-06-29 14:00:00
2 跟貼 2
1983的中考題目，一半以上的同學都說超綱了！

公考客棧店小二 2026-06-29 18:00:00
16 跟貼 16
競賽題目，難倒了不少尖子生啊

公考客棧店小二 2026-06-26 16:00:00
2 跟貼 2
當?shù)厝A人講述法國高溫：中國空調(diào)一機難求，有人為搶購空調(diào)打起來，安裝已排到9月

瀟湘晨報 2026-06-29 21:36:19
3165 跟貼 3165
這都是知識點

左左愛影視 2026-06-25 16:06:34
3 跟貼 3
女生雨天開車發(fā)現(xiàn)雨刮條被掰走

瀟湘晨報 2026-06-29 11:40:21
92 跟貼 92
難怪那么難，原來是題目超綱了！

公考客棧店小二 2026-06-29 18:00:00
0 跟貼 0
獨家｜獲超億美元融資，Sand.ai 曹越：為什么視頻是通往世界模型最重要的路徑

36氪 2026-06-29 16:05:24
0 跟貼 0
世界模型正在重新定義“游戲”的價值

DeepTech深科技 2026-06-29 20:14:56
1 跟貼 1
Papi醬名下公司均已注銷

魯中晨報 2026-06-29 14:35:03
389 跟貼 389
附加題目，難倒了很多小學生

公考客棧店小二 2026-06-26 16:00:00
12 跟貼 12
中國縣城居民人均收入10強：義烏超過北上廣深

第一財經(jīng) 2026-06-30 07:36:04
18 跟貼 18
論證思路題總答成“總分總”？四步拆出精準邏輯鏈

語文亦國學 2026-06-28 11:29:37
0 跟貼 0
騎共享單車79分鐘花費30元？哈啰單車回應：所騎為“追風者”，成本更高定價更貴

每日經(jīng)濟新聞 2026-06-29 15:26:25
66 跟貼 66
12306賬戶關聯(lián)超7個會員賬號，女子半年內(nèi)購票90余次“薅羊毛”

現(xiàn)代快報 2026-06-29 15:31:20
190 跟貼 190
美軍最高優(yōu)先項目選它作數(shù)據(jù)主干

固件更新中 2026-06-30 03:29:30
0 跟貼 0
多模態(tài)大模型視覺定位難題怎么解？

機器之心Pro 2026-06-10 11:31:45
0 跟貼 0
中山大學香港高等研究院院長徐某某回應Nature子刊論文的質(zhì)疑？

文憶天下 2026-06-29 08:26:58
21 跟貼 21
河南一農(nóng)村女孩高考699分，其母親患病臥床，靠父親打零工維持生計，她說“要通過學習讓父母過上好日子”

極目新聞 2026-06-29 17:19:28
425 跟貼 425
大灣區(qū)首個200億具身大腦來了！自變量兩個月連融四輪，完成交割

量子位 2026-06-29 13:53:25
1 跟貼 1
108零件拼機械魔鬼魚！胸鰭巡航+呼吸燈太酷了吧！#ROKR機械模型

制造科技 2026-06-29 13:54:19
0 跟貼 0
剛治完僅4天就“復出”，到底誰在慣著開屏廣告？

齊魯壹點 2026-06-29 17:43:05
128 跟貼 128
運-20最新大片片尾"彩蛋"提到的"小六"是誰專家分析

上觀新聞 2026-06-29 14:54:45
426 跟貼 426
牛肉供應鏈“換血”：澳洲“牛肉”出局，誰會成為新主力？

藍鯨新聞 2026-06-29 10:45:31
175 跟貼 175
心理學：女人一旦問你以下這兩個問題，就沒必要再聯(lián)系了，她看不上你

心理觀察局 2026-06-30 07:36:18
3 跟貼 3
初中道法這樣答題，考試次次能拿高分！

好爸育兒 2026-06-29 08:31:28
2 跟貼 2

71歲盧卡申科新伴僅22歲，常年被美女模特環(huán)繞，分居妻子杳無音信

71歲盧卡申科新伴僅22歲，常年被美女模特環(huán)繞，分居妻子杳無音信

譯言

2026-06-21 07:11:28

廣州首富完了，終審被判無期

鳴金網(wǎng)

2026-06-30 00:30:12

浙江一女子母親車禍去世賠償80萬元，弟弟拿走74萬元，弟媳稱“嫁出去的女兒潑出去的水”；當事人：難以接受

浙江一女子母親車禍去世賠償80萬元，弟弟拿走74萬元，弟媳稱“嫁出去的女兒潑出去的水”；當事人：難以接受

洪觀新聞

2026-06-29 11:31:51

剩1年250萬！湖人拒執(zhí)行尼克·史密斯球隊選項有意追射手特倫特

剩1年250萬！湖人拒執(zhí)行尼克·史密斯球隊選項有意追射手特倫特

醉臥浮生

2026-06-30 09:07:27

死亡人數(shù)飆升，巴黎2家殯儀館爆滿！法國大量醫(yī)院沒空調(diào)，急購3萬臺！中國“避暑神器”在歐洲賣爆，有游客落地第一天就被曬脫水

死亡人數(shù)飆升，巴黎2家殯儀館爆滿！法國大量醫(yī)院沒空調(diào)，急購3萬臺！中國“避暑神器”在歐洲賣爆，有游客落地第一天就被曬脫水

每日經(jīng)濟新聞

2026-06-29 12:23:13

阿三又作妖！張家界玻璃棧道堵死！印度游客霸占通道不肯走

阿三又作妖！張家界玻璃棧道堵死！印度游客霸占通道不肯走

行者聊官

2026-06-28 17:29:16

日本球迷輸球后照樣集體撿垃圾！日媒開心壞了：全世界都在夸我們

日本球迷輸球后照樣集體撿垃圾！日媒開心壞了：全世界都在夸我們

風過鄉(xiāng)

2026-06-30 05:47:54

中國已經(jīng)成為全球第一個集體拒接電話的國家

中國已經(jīng)成為全球第一個集體拒接電話的國家

黯泉

2026-06-26 10:44:35

為什么廣東各地長途大巴又開始興旺了？因為再也不用坐水魚號了

為什么廣東各地長途大巴又開始興旺了？因為再也不用坐水魚號了

娛樂圈的筆娛君

2026-06-30 02:00:25

伊拉克要求親伊朗武裝9月30日前解除武裝，綠區(qū)一夜抓走47名官員

伊拉克要求親伊朗武裝9月30日前解除武裝，綠區(qū)一夜抓走47名官員

桂系007

2026-06-29 23:17:57

29日美國大滿貫曝出大冷門，溫瑞博少一勁敵，莫雷加德漁翁得利

29日美國大滿貫曝出大冷門，溫瑞博少一勁敵，莫雷加德漁翁得利

南海浪花

2026-06-29 17:02:07

蘋果對印度供應商塔塔泄露iPhone 18 Pro機密數(shù)據(jù)表達擔憂

蘋果對印度供應商塔塔泄露iPhone 18 Pro機密數(shù)據(jù)表達擔憂

cnBeta.COM

2026-06-30 09:01:05

世界杯清純花魁，葡萄牙太太團新寵，比喬治娜還吸睛笑容好甜

世界杯清純花魁，葡萄牙太太團新寵，比喬治娜還吸睛笑容好甜

瘋狂的豆芽

2026-06-29 13:01:51

最高院：提供 “口交” “肛交”等進入式性服務，是否屬賣淫行為？

最高院：提供 “口交” “肛交”等進入式性服務，是否屬賣淫行為？

周軍律師聊案子

2026-04-21 09:50:16

李谷一道出實情，揭曉宋祖英走上高位的真相，觀眾：原來如此！

李谷一道出實情，揭曉宋祖英走上高位的真相，觀眾：原來如此！

動物奇奇怪怪

2026-06-29 18:46:04

費薩爾將訪華

澎湃新聞

2026-06-29 17:05:12

上海球迷穿日本隊球衣慶祝！上海市足協(xié)回應：足球無國界

上海球迷穿日本隊球衣慶祝！上海市足協(xié)回應：足球無國界

去山野間追風

2026-06-29 12:38:02

500萬粉絲2歲吃播米樂人設崩塌，光鮮鏡頭背后寶媽看著格外揪心

500萬粉絲2歲吃播米樂人設崩塌，光鮮鏡頭背后寶媽看著格外揪心

天天熱點見聞

2026-06-30 08:16:39

俄鷹派敦促對烏進行核打擊，布達諾夫：你動核武器試試

俄鷹派敦促對烏進行核打擊，布達諾夫：你動核武器試試

史政先鋒

2026-06-27 21:48:03

歷史首次，德國隊在世界杯決賽前被南美球隊淘汰

歷史首次，德國隊在世界杯決賽前被南美球隊淘汰

懂球帝

2026-06-30 07:37:13

最前沿、最有趣的生命科學研究

9644文章數(shù) 145112關注度

往期回顧全部

科技要聞

DeepSeek V4正式版要來高峰期API價格翻倍

頭條要聞

牛彈琴：韓國對男足恥辱出局激烈反應全世界震驚不已

頭條要聞

牛彈琴：韓國對男足恥辱出局激烈反應全世界震驚不已

體育要聞

日本眾將掩面痛哭連續(xù)3屆先破門卻被逆轉(zhuǎn)

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經(jīng)要聞

中歐貿(mào)易投資磋商機制聯(lián)合聲明

汽車要聞

開著B級轎車跑山邁騰PHEV 挑戰(zhàn)龍脊天路

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

房產(chǎn)

數(shù)碼

公開課

本地新聞

貴州小城的新目標：舉辦“村超”世界杯！

旅游要聞

文化遺產(chǎn)耀中原|走進《岳陽樓記》的誕生地——南陽鄧州花洲書院

房產(chǎn)要聞

20.8億元！保利拿下三亞超級宅地！

數(shù)碼要聞

618智能投影線上銷量下滑超20% 極米獲DLP銷量榜首

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關懷版