无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<span id="bwshc"><th id="bwshc"></th></span>

<sub id="bwshc"><tr id="bwshc"><th id="bwshc"></th></tr></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

僅僅兩周，AI看病從80%誤診“躍升”到比醫生強，這到底是怎么回事？

2026-05-14 08:53:51　來源: 一個生物狗的科普小園

上海舉報

0

分享至

點擊藍字關注，多點在看防失聯

個人觀點，不代表任何組織與單位

前段時間，我的朋友圈被一條AI看病誤診率80%的新聞刷屏了，說不定你也看到過這條消息：

可后來，我的新聞推送又給了另一條消息，AI在復雜醫療診斷里表現出色，比急診室醫生還厲害：

兩個新聞都是基于頂級學術期刊上發表的研究，“誤診80%”是4月16日發表在JAMA上：

“比急診醫生強”是4月30日發表在《科學》上：

兩篇論文相隔正好兩周，而且都是哈佛醫學院的研究人員，不過是不同研究組。

不知道你看到這兩個似乎完全矛盾的研究是什么感覺？

有一個解釋可以讓兩篇論文不矛盾：急診醫生水平太差，說不定誤診率90%，就算AI誤診率80%也吊打。

顯然這是開玩笑。

下面我們還是正經分析一下，兩項研究里為什么一個看上去很不靠譜，一個看上去很靠譜。

最關鍵的地方，或許是兩項研究測試的內容與評判標準都不一樣。

JAMA上的研究，也就是AI一趟糊涂的那篇論文，研究人員給AI出的考題是默沙東診療手冊里的29個病例情景，這與《科學》上側重急診室診斷不同，病例范圍更廣。

更重要的是，JAMA論文里，評判是AI從拿到病例那一刻起就開始，初步鑒別診斷，再到實驗檢查，最終診斷，以及治療方案，每一步的表現都“考”。在這個評判體系里，即便AI給出的最終診斷對了，但在最初的鑒別診斷里有失誤，也會被記錄扣分。

其實，誤診超過80%是在初步鑒別診斷這一步，可在最終診斷方面，失敗率不到40%——不同模型失敗率是9-39%。

而《科學》上打敗急診室醫生的研究，側重的恰恰是最終診斷。從某種程度上看，實際上兩個研究都暗示AI在最終診斷判斷上做得還不錯。

此外，必須注意JAMA論文里初步鑒別診斷失敗率高，建立在病例情景里，患者的信息是一點點輸入給AI，比如先是患者年齡、病癥表現，再加上實驗檢查結果，每輸入一點，研究人員問一部分問題，而每一步里AI給出的答案，都會與標準答案對比，不準確就被歸入失敗。

這是非常嚴苛的標準。但這個設計很重要，因為它更接近真實的臨床工作方式。醫生在門診或急診里，永遠是從一個不完整的畫面開始：先聽主訴，再做體檢，再等化驗結果回來。每一步都要在信息不全的情況下做判斷，并隨時準備推翻自己的初步猜測。JAMA的測試捕捉到的，正是這種在不確定性下持續推論的能力，而這目前看來，恰恰是AI最薄弱的環節。

相比之下，《科學》論文里即便是真實病例，也是把完整的電子病歷一次性輸入。這更像是讓AI做"事后諸葛"：所有線索已經擺在桌上，任務是從中歸納出答案，而不是在信息殘缺時就要開始押注。兩種測試場景，對應的其實是醫生工作流程里完全不同的兩個時刻：一個是診斷的起點，另一個更接近終點。

考慮到JAMA研究里，到最后診斷階段，隨著輸入信息變多，成功率上升，再結合《科學》論文里的測試方法，可能都在暗示，有較多信息時，AI的表現會更好。

那AI看病到底行不行呢？它是那個誤診80%，還是比現實世界的醫生強呢？

個人認為這其實都不是現在AI醫療需要關注的問題。

因為當下AI在醫療領域的應用，尤其是用大語言模型做診療，還在非常早期的階段。

好比我們問一個讀中學的孩子，啥時候能成為科學家，拿諾獎。這不光是做不做的到的問題，而是問這樣的問題，對孩子沒什么幫助，不會有助于他成長，去接近我們期望的結果。

最值得關注的，未必是當下的AI在醫療場景下做得有多好或多差，而是做得好的地方，為什么好；做得差的地方，原因是什么，有沒有辦法改進。可這恰恰是兩篇論文都沒有深入回答的地方：

下一步，我們怎么做，才能讓模型的表現更好。

比如，AI在逐步獲取信息時鑒別診斷能力差，是因為訓練數據里缺乏這類"漸進式推理"的樣本？還是模型本身在處理不確定性時存在結構性缺陷？如果是前者，針對性地用模擬臨床對話的數據做訓練或許有幫助；如果是后者，換一個更新的模型未必能解決問題，需要的可能是完全不同的架構思路。

這才是AI醫療研究下一步真正該啃的硬骨頭——不是再做一個"AI能不能打敗醫生"的對比實驗，而是設計能夠定位失敗根源的研究：在哪一步出錯，為什么出錯，改變哪個變量之后，可能有好轉。沒有這類研究，我們只能在"AI很厲害"和"AI很爛"之間反復橫跳，卻對如何推進毫無頭緒。

讀了這兩篇論文后，其實我做了一件事，把兩篇論文都傳到ChatGPT與Claude上，問同一個問題，為什么都是做AI診療，這兩篇論文得出了完全相反的結論。

ChatGPT和Claude都很聰明地抓住了兩篇論文在方法學、評判標準上的差別。可也都犯了讓我感到不可思議的錯誤，或者說是誤解。

例如，ChatGPT在分析為什么AI在一個研究里看上去很成功，另一個很失敗時，提出最關鍵的差別是，一項研究——JAMA那項，用了沒有噪音的干凈數據，大語言模型在這種環境下更出色：

這個解釋等于是完全誤解了兩篇論文的結果。JAMA是用了“干凈”的情景病例，可恰恰是在這項研究里，AI的成功率不高。

《科學》的論文是用了真實病例，存在潛在的“噪音干擾”，但AI在那篇論文里的表現并不差。

至于Claude，它沒有犯ChatGPT的錯，但它的解釋里強調JAMA用了普通的大語言模型，《科學》用了OpenAI的o1推理模型，推理模型在回答診療這種復雜問題時更強大：

和ChatGPT一樣，看似有道理，可惜不符合事實。JAMA的論文里除了用普通模型，也用了o1這樣的推理模型。

《科學》那篇論文，其實也同時用了GPT4與o1，在有些檢驗上二者沒有顯著差別。

這些錯誤涉及的是對兩篇論文最基礎事實的了解，我完全沒料到兩個模型能出現這樣的低級失誤。

這或許也是當下AI用于醫療的風險：它們可以既“理解”復雜問題（兩篇看似矛盾的論文，是方法與研究目的上有差異），給出看上去很好的答案，可又在一些基礎事實上出錯。

最后，同樣值得指出的是，ChatGPT與Claude指出的“數據干凈”，“推理模型”（更強更新的模型），是很多人回應AI不夠好時的口頭禪。似乎只要輸入內容噪音小，或者用了下一代模型，之前做不到的都能實現。

這背后與其說是基于證據的合理推測，倒不如說是近乎信仰崇拜，甚至可能在干擾我們，人，做出正確的判斷。

例如在《科學》這篇論文發表后，NPR做了報道，里面提到“過去的模型”表現不佳，《科學》論文展示了過去幾年技術的巨大進步：

這篇報道里的“過去表現不佳的模型”，直接鏈接到JAMA那篇論文，也就是在記者看來，JAMA論文里的“矬”，是用了比《科學》論文里更老的模型。

這是NPR報道里極為罕見的事實錯誤，真相是：JAMA里用的模型比《科學》里更新。

《科學》用的是2024年9月發布的o1-preview，JAMA不僅用了o1，還一直跟蹤到25年底的各個主流大語言模型：

就像我們不該默認AI會給出正確的答案，我們或許也不該默認，下一個AI會給出更準確的答案。

訂閱關注防失聯

前沿醫藥，請關注

參考資料

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2847679

https://www.science.org/doi/10.1126/science.adz4433

更多精彩內容見Youtube：Y博的科普園

Y博也有播客了，歡迎關注《說醫解藥》

小宇宙、蘋果播客、Spotify同步更新

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

超越谷歌等巨頭，重慶自研從容大模型何以登頂全球多模態榜首

上游新聞 2026-06-12 13:26:36
4 跟貼 4
北大聯手讓AI跨界「造物」，業界最強復合纖維誕生！

新智元 2026-06-12 10:10:54
0 跟貼 0

“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0

被看見、被支持、被放大，鴻蒙生態釋放了什么吸引力？

新周刊 2026-06-12 14:35:38
0 跟貼 0
4位AI大牛對話50分鐘！編程是AI勝負手、Claude“神話”模型是自然結果、降token是正確的

智東西 2026-06-12 14:52:40
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

AI 給土豆編了一門學科，我去查了查，它竟然是真的

愛范兒 2026-06-12 14:10:36
0 跟貼 0
二胎產婦意外懷上三胞胎，胎兒體重高達二十斤，醫生勸阻放棄分

科普世界奇聞 2026-06-09 07:56:24
0 跟貼 0

國外最變態的職業測試，用針扎氣球測試醫生專業功底，網友：太扯

搞笑傲風 2026-06-08 16:11:26
1 跟貼 1
第一次見到病人和醫生，如此和諧的，這也太八卦了！

奇葩逗趣展覽館 2026-06-10 20:29:00
1 跟貼 1
耿同學：道德水平高，導致學術造假多？

遠方的青木 2026-06-08 00:19:45
45 跟貼 45
豪斯醫生的騷操作

三鴨侃劇 2026-06-09 10:38:05
1 跟貼 1
醫生為女報仇手段狠，兇手慘遭變性成女人，最終結局令人深思

墨林電影 2026-06-09 17:33:13
1 跟貼 1
難怪你經常生病，原來你洗手從來都不對，醫生手把手教你怎么洗！

曾博士 2026-06-10 19:01:00
13 跟貼 13
精神病小姐姐和別人不一樣，醫生以為把她治好，反轉讓人猝不及防

藍精靈愛搞笑 2026-06-11 22:33:50
1 跟貼 1
半夜上廁所被毒蛇咬傷，男子淡定拍下蛇的圖片，再對傷肢捆扎自救

星視頻 2026-06-11 18:06:39
0 跟貼 0
今天排了三臺手術，有早有晚，但都很順利！

鄭于臻醫生 2026-06-08 17:10:45
0 跟貼 0
寫論文為什么總有AI味道

小翁愛美食 2026-06-11 12:37:23
0 跟貼 0
科學vs玄學

枕山月觀世 2026-06-08 02:27:38
2 跟貼 2
醫生操刀男孩變女孩，手術背后藏巨大陰謀，背后真相令人深思

墨林電影 2026-06-09 17:33:12
1 跟貼 1
孩子傷口反復發作，醫生發現不對勁立馬報警！

盛世論壇 2026-06-09 00:57:40
0 跟貼 0
學校的魚都被男子釣光了，因為他的論文就是寫釣魚的

探山城 2026-06-12 10:35:38
0 跟貼 0
護士這么輕輕的一撕開，十幾個w就沒了，醫生想攔都攔不住

鄉村阿生姐 2026-06-10 19:09:49
1 跟貼 1
【科研院校行】《科學通報》& Science Bulletin走進濟南大學

科學通報 2026-06-11 21:49:12
0 跟貼 0
當縣醫院也用上頂級三甲的“超瞳孔”

觀察者網 2026-06-10 09:39:07
1 跟貼 1
高考生“刷酸”美顏引風險，醫生緊急提醒：5分鐘“爛臉”危機！

TechDaily科技速覽 2026-06-12 10:12:40
0 跟貼 0
老師好！醫生好！沙坪壩"第三好"藏著怎樣的宜居秘密？

重慶全生活 2026-06-12 12:13:40
3 跟貼 3
前妻看病遇到前夫問醫生才知道丈夫離婚的原因當場就崩潰了

對齊看劇 2026-06-11 07:17:18
0 跟貼 0
山東中醫藥學會第一屆循證醫學專業委員會成立

金臺資訊 2026-06-12 11:10:24
2 跟貼 2
從東海之濱到帕米爾高原：一份病理報告背后的援疆答卷

上觀新聞 2026-06-08 21:58:08
0 跟貼 0
男子騎行時發病倒地，被路過醫生及時救下，家屬“隔空”表達感謝

星視頻 2026-06-12 11:46:13
0 跟貼 0
GLORY-2研究登頂《JAMA》：瑪仕度肽9mg實現“媲美手術”級減重，填補中國中重度肥胖治療空白

醫學界內分泌頻道 2026-06-08 20:35:43
2 跟貼 2
64歲大媽在菜地被毒蛇咬傷，用泥塊當場將蛇打死，在家對傷口簡單包扎后，由家人送醫就診，醫生：攜帶完整蛇體，能大幅縮短診斷時間

揚子晚報 2026-06-12 14:31:10
1 跟貼 1
24歲小伙在工地掄大錘，不料錘頭崩斷擊穿心臟，醫生血泊中搶救

星視頻 2026-06-09 17:45:02
0 跟貼 0
11歲男孩一頓飯吃2斤小龍蝦，當晚嘔吐小便帶血，確診急性腎損傷，醫生建議：兒童食用小龍蝦一次不超過10只

河南都市頻道 2026-06-11 14:44:37
0 跟貼 0
新來的醫生意外救治市長，從此走上人生巔峰

紅顏愛追劇 2026-06-12 09:29:20
0 跟貼 0
病人只需略微出手，就能讓麻醉師當場破防

小魚二動漫 2026-06-11 01:01:04
0 跟貼 0
十年之約，山城論道 | 羅素新教授在渝講述中國心肌病診療從規范到精準的跨越

醫學界心血管頻道 2026-06-12 11:36:20
0 跟貼 0
致力于“少打針、更長效”，銀屑病新藥研發方向正在轉變

醫藥觀瀾 2026-06-12 12:16:08
0 跟貼 0
女生的論文少打一頁頁碼，一個小妙招解決難題！

財經時間官方 2026-06-11 22:58:35
0 跟貼 0

+262！唐斯創下NBA歷史單次季后賽正負值最高紀錄

+262！唐斯創下NBA歷史單次季后賽正負值最高紀錄

北青網-北京青年報

2026-06-11 19:51:04

日本向“臺獨”釋放危險信號

環球時報國際

2026-06-12 14:42:32

每天一杯“抗炎果汁”，連喝28天！美研究：體內炎癥指標明顯下降

每天一杯“抗炎果汁”，連喝28天！美研究：體內炎癥指標明顯下降

愛醫斯坦

2026-06-10 12:20:08

鎧俠超越豐田成為日本市值最高的公司

鎧俠超越豐田成為日本市值最高的公司

界面新聞

2026-06-12 14:34:31

韓國隊直播事故泄露爭議言論：孫興慜遭嘲諷引發全韓公憤

韓國隊直播事故泄露爭議言論：孫興慜遭嘲諷引發全韓公憤

星耀國際足壇

2026-06-11 22:30:19

法國海軍：在南海遭遇40艘中國軍艦，法軍的龐大力量使中國冷靜

法國海軍：在南海遭遇40艘中國軍艦，法軍的龐大力量使中國冷靜

一曲一場談

2026-06-10 23:03:21

湖南女孩曬高考前后飯菜對比，差距明顯，媽媽看后：忍你很久了

湖南女孩曬高考前后飯菜對比，差距明顯，媽媽看后：忍你很久了

小談食刻美食

2026-06-11 07:26:51

601696，臨近午盤封漲停！券商股，突然異動拉升！

601696，臨近午盤封漲停！券商股，突然異動拉升！

證券時報e公司

2026-06-12 12:12:25

希門尼斯揭幕戰進球后為何雙手指天淚灑賽場？3個月前父親離世，他因比賽錯過葬禮

希門尼斯揭幕戰進球后為何雙手指天淚灑賽場？3個月前父親離世，他因比賽錯過葬禮

紅星新聞

2026-06-12 10:17:17

圖片報：墨西哥總統缺席世界杯開幕式，并轉贈門票給女足球員

圖片報：墨西哥總統缺席世界杯開幕式，并轉贈門票給女足球員

懂球帝

2026-06-12 01:52:05

中醫倪海廈：人可以節約，可以不買衣服，甚至吃差點，不修邊幅都可以，但一定要出門，不要將自己困在家里，只有在外面......

中醫倪海廈：人可以節約，可以不買衣服，甚至吃差點，不修邊幅都可以，但一定要出門，不要將自己困在家里，只有在外面......

背包旅行

2026-06-11 15:09:42

耗時13年，她做出了中國女人戴起來最美的首飾！

耗時13年，她做出了中國女人戴起來最美的首飾！

梳子姐

2026-06-11 12:12:50

黎巴嫩迎來至暗時刻，百萬黎民無家可歸，沒想到一國突然出手相助

黎巴嫩迎來至暗時刻，百萬黎民無家可歸，沒想到一國突然出手相助

云上烏托邦

2026-06-12 14:16:47

風俗業立國，韓國比日本走得更遠，連漢江水都滿含“西地那非”

風俗業立國，韓國比日本走得更遠，連漢江水都滿含“西地那非”

阿胡

2025-05-27 11:49:20

霍爾希望加盟曼聯，曝因無緣世界杯與紐卡鬧翻！轉會費至少5000萬

霍爾希望加盟曼聯，曝因無緣世界杯與紐卡鬧翻！轉會費至少5000萬

羅米的曼聯博客

2026-06-12 12:05:53

55國通用！歐洲給董路頒發“國際教練證”，能否得到足協認可？

55國通用！歐洲給董路頒發“國際教練證”，能否得到足協認可？

魔都姐姐雜談

2026-06-12 10:42:23

伊朗稱美軍炸毀250萬升儲水箱，45℃高溫中2萬人斷水！美方尚未回應

伊朗稱美軍炸毀250萬升儲水箱，45℃高溫中2萬人斷水！美方尚未回應

紅星新聞

2026-06-11 14:30:18

8戰世界杯揭幕戰，墨西哥隊終破不勝魔咒！單場3張紅牌直追上屆全部紅牌數

8戰世界杯揭幕戰，墨西哥隊終破不勝魔咒！單場3張紅牌直追上屆全部紅牌數

紅星新聞

2026-06-12 07:16:10

公安部提醒：使用小眾通聯軟件，當心被深度洗腦

公安部提醒：使用小眾通聯軟件，當心被深度洗腦

新京報

2026-06-12 11:13:11

日本女主播跳舞濾鏡突失效，真實容貌曝光引熱議

日本女主播跳舞濾鏡突失效，真實容貌曝光引熱議

情感大頭說說

2026-06-12 08:01:29

一個生物狗的科普小園

愛科普的科研民工

903文章數 11334關注度

往期回顧全部

科技要聞

SpaceX這筆潑天富貴，砸中了4000多名員工

頭條要聞

7萬字離職長文引發釘釘管理層地震作者再發長文

頭條要聞

7萬字離職長文引發釘釘管理層地震作者再發長文

體育要聞

比起總冠軍，更大的懸念成了FMVP？

娛樂要聞

與熱巴戀情曝光1天，陳飛宇現身

財經要聞

萬億美元順差背后，透露這些信號

汽車要聞

佟湘北：全新smart#6 自成一派好看更好開

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

藝術

游戲

公開課

軍事航空

本地新聞

AK劉彰邂逅河北南大港濕地

藝術要聞

盛夏清涼｜甘南 · 扎尕那暑期寫生

爆款游戲知名主播作弊！超牛記錄造假本人回應

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

軍事要聞

伊朗媒體：已故最高領袖葬禮推遲舉行

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<td id="nm1en"><tr id="nm1en"></tr></td>

<td id="nm1en"><tr id="nm1en"><th id="nm1en"></th></tr></td>