網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

醫(yī)療AI翻車現(xiàn)場：5大模型半數(shù)答案有問題

2026-04-15 17:11:25　來源: 摸魚算法

北京舉報(bào)

分享至

你問AI"這個(gè)藥能吃嗎"，它答得自信又專業(yè)。但最新研究潑了盆冷水——五大主流聊天機(jī)器人，一半回答都有坑。

測試設(shè)計(jì)：250道題，專挑軟柿子捏

研究團(tuán)隊(duì)沒客氣。ChatGPT、Gemini、Grok、Meta AI、DeepSeek全被拉進(jìn)考場，考題覆蓋癌癥、疫苗、干細(xì)胞、營養(yǎng)、運(yùn)動(dòng)表現(xiàn)五大領(lǐng)域。

題目分兩類。封閉式像選擇題，答案范圍鎖死；開放式隨便聊，"這療法有用嗎""疫苗安全嗎"這種日常問法。

結(jié)果開放式全面崩盤。問題越寬泛，機(jī)器人越放飛，高問題回答比例遠(yuǎn)超預(yù)期。但真人看病誰玩選擇題？都是張嘴就問。

核心漏洞：三重崩塌

第一重，答案本身摻水。 solid evidence（可靠證據(jù)）和weak claims（薄弱主張）攪在一起，外行根本分不清哪句是真金。

第二重，引用文獻(xiàn)集體擺爛。平均完整度40%，沒有一家能交出全對(duì)的參考文獻(xiàn)清單。你以為有出處就靠譜？查一下全露餡。

第三重最離譜：瞎編引用。機(jī)器人照樣斬釘截鐵，幾乎不加任何風(fēng)險(xiǎn)提示。自信滿滿地胡說，比承認(rèn)自己不知道更危險(xiǎn)。

為什么這事值得較真

研究團(tuán)隊(duì)留了后路：只測了五家，模型迭代快，題目設(shè)計(jì)偏難，日常可能沒這么糟。但核心結(jié)論躲不掉——循證醫(yī)學(xué)（evidence-based medicine）這種有標(biāo)準(zhǔn)答案的科目，AI都能錯(cuò)一半。

更麻煩的是用戶習(xí)慣已經(jīng)形成。很多人把聊天機(jī)器人當(dāng)搜索引擎用，健康問題上更是如此。 polished and confident（ polished and confident）的回復(fù)風(fēng)格，天然讓人放松警惕。

醫(yī)療場景的特殊性在于：錯(cuò)誤成本極高，且用戶難以及時(shí)識(shí)別。買錯(cuò)東西能退貨，吃錯(cuò)藥可能進(jìn)急診。

產(chǎn)品層面的冷思考

這場測試暴露的不是技術(shù)天花板，而是產(chǎn)品設(shè)計(jì)的選擇。

開放式對(duì)話是用戶體驗(yàn)的賣點(diǎn)，卻成了質(zhì)量控制的死角。廠商可以優(yōu)化封閉式場景的表現(xiàn)，但真人不會(huì)配合你的格式。

引用功能本是信任錨點(diǎn)，現(xiàn)在成了幻覺（hallucination）的幫兇。40%的完整度說明系統(tǒng)沒做嚴(yán)格的事實(shí)核查，只是生成"看起來像引用"的文本。

確定性表達(dá)是訓(xùn)練目標(biāo)的副產(chǎn)品——模型被優(yōu)化成" helpful and confident"，但醫(yī)療場景需要"謹(jǐn)慎且透明"。目標(biāo)函數(shù)和場景需求錯(cuò)位。

DeepSeek、Grok這類新玩家入場時(shí)，醫(yī)療安全顯然不是優(yōu)先級(jí)。快速迭代、搶占心智，留下的是一地雞毛。

用戶該怎么辦

研究團(tuán)隊(duì)的結(jié)論很克制：AI可以幫你整理信息、準(zhǔn)備問診問題，但別用來做醫(yī)療決策。

翻譯成人話——當(dāng)維基百科用可以，當(dāng)醫(yī)生用會(huì)出事。

更實(shí)用的建議是：看到帶引用的健康回答，順手點(diǎn)進(jìn)去看一眼。如果鏈接失效、標(biāo)題對(duì)不上、或者根本搜不到，那整段話都值得懷疑。

廠商端的壓力測試應(yīng)該成為標(biāo)配。不是測"能不能答"，是測"開放式場景下錯(cuò)多少、錯(cuò)多狠"。

一個(gè)尷尬的行業(yè)現(xiàn)狀

醫(yī)療AI賽道燒了幾百億美元，聊天機(jī)器人卻連基礎(chǔ)問答都翻車。不是因?yàn)榧夹g(shù)做不到，而是因?yàn)闆]人愿意為"不 flashy"的安全投入買單。

Gemini們忙著做多模態(tài)、搞實(shí)時(shí)搜索，醫(yī)療準(zhǔn)確性的優(yōu)先級(jí)排第幾？財(cái)報(bào)不會(huì)告訴你，但這項(xiàng)研究打了分。

最諷刺的是用戶預(yù)期管理。模型越像人、越自信，用戶越難保持警惕。而醫(yī)療場景恰恰需要用戶保持警惕。

產(chǎn)品設(shè)計(jì)的悖論：你優(yōu)化的是engagement（用戶參與度），埋的雷是trust（信任）的濫用。

這項(xiàng)研究的價(jià)值，在于用可量化的方式戳破了幻覺。50%的問題率不是終點(diǎn)，是基線——而且是在被" stress test"（壓力測試）的情況下。日常使用中，用戶不會(huì)故意刁難模型，但模型也不會(huì)主動(dòng)承認(rèn)自己不知道。

下次再問AI健康問題時(shí)，記得：它的自信是訓(xùn)練出來的，不是你的病情真的簡單。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

2026人形機(jī)器人半馬周末開跑賽事規(guī)則發(fā)布首個(gè)沖線機(jī)器人未必是冠軍

每日經(jīng)濟(jì)新聞 2026-04-17 23:22:04
0 跟貼 0
首個(gè)沖線未必奪冠、四成選手扔掉遙控??2026人形機(jī)器人半馬賽前必看盤點(diǎn)！

每日經(jīng)濟(jì)新聞 2026-04-18 19:34:13
0 跟貼 0

Agent的苦澀覺醒：智能正從語言走向經(jīng)驗(yàn)

華爾街見聞官方 2026-03-02 09:43:30
8 跟貼 8

LLM數(shù)據(jù)量大管飽，機(jī)器人數(shù)據(jù)卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
首屆北京亦莊機(jī)器人勇士挑戰(zhàn)賽召開北京人形具身天工 3.0 全自主參賽登頂

財(cái)聯(lián)社 2026-04-18 20:00:36
0 跟貼 0

朱旻琦：具身智能用一天進(jìn)化一天、聰明一天機(jī)器人普及核心痛點(diǎn)是需要二次開發(fā)和適配

財(cái)聯(lián)社 2026-04-17 16:59:02
0 跟貼 0

宇樹科技王興興：給機(jī)器人行業(yè)多一點(diǎn)耐心

財(cái)聯(lián)社 2026-02-18 18:01:39
0 跟貼 0
新穎鰭足機(jī)器人，水陸兩棲行動(dòng)自如，適應(yīng)各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0

機(jī)器人打包運(yùn)輸?shù)恼_方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0
35歲以后不想被AI取代的能力是什么

虎嗅APP 2026-04-14 08:02:21
0 跟貼 0
當(dāng)老板與員工展開“蒸餾”對(duì)抗

經(jīng)濟(jì)觀察報(bào) 2026-04-18 17:48:45
13 跟貼 13
小心！你的AI正在一本正經(jīng)地忽悠你

財(cái)聯(lián)社 2026-02-05 16:35:01
0 跟貼 0
AI開始接管實(shí)驗(yàn)室了！玻爾·躍遷實(shí)驗(yàn)室1800+設(shè)備即插即用

量子位 2026-04-18 23:54:30
0 跟貼 0
具身智能缺數(shù)據(jù)？覓蜂科技發(fā)布MEgo：無本體采集，隨走隨采

雷科技 2026-04-18 19:44:51
0 跟貼 0
2026人形機(jī)器人馬拉松測試賽，一半狂飆一半翻車

每日經(jīng)濟(jì)新聞 2026-04-16 13:18:06
0 跟貼 0
人活著的唯一理由是善良

葉檀財(cái)經(jīng) 2026-02-01 17:07:04
0 跟貼 0
攻防技術(shù)同源！在 C3 安全大會(huì)上，亞信要用 AI 去對(duì)抗 AI

雷科技 2026-04-18 22:26:37
0 跟貼 0
MIT研究生用NotebookLM兩天學(xué)完一學(xué)期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
如何點(diǎn)亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個(gè)小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
這個(gè)時(shí)代必須以Agent為中心：三個(gè)趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0
博士生如何用龍蝦做知識(shí)管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
安心養(yǎng)蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
當(dāng)機(jī)器人在路上突然向男子跑去，男子害怕地趕忙從電車上跑了下去

歡趣速遞 2026-04-18 11:42:09
1 跟貼 1
機(jī)器人開問界，正在圍觀小米的學(xué)生無人問津，這波誰贏了！

咔咔看生活 2026-04-16 09:35:17
4 跟貼 4
輕松出國游，智能翻譯手表助力無障礙溝通！

貪睡的北北 2026-04-18 13:55:27
1 跟貼 1
北京馬拉松名場面，本以為是人類操控機(jī)器，下一秒機(jī)器人直接把操作員“甩飛”

觀象視頻 2026-04-16 18:04:40
2770 跟貼 2770
日本造球形攝影機(jī)器人，在國際空間站拍攝日常

裝甲鏟史官 2026-04-09 11:33:37
0 跟貼 0
得不到的就更加愛

若塵剪輯 2026-04-15 10:29:44
1 跟貼 1
生命是大模型，但不僅僅是大語言模型：辛頓 vs 楊立昆

尹燁 2026-04-18 02:25:56
0 跟貼 0
劉儀偉問機(jī)器人：你有男友？搞笑互動(dòng)引熱議！

雪里溫柔z 2026-04-15 06:33:23
0 跟貼 0
當(dāng)機(jī)器人遇上廣西三月三，穿上少數(shù)民族服飾起舞！

財(cái)經(jīng)時(shí)間官方 2026-04-18 18:31:42
0 跟貼 0
機(jī)器人穿上少數(shù)民族花裙在廣西街頭翩翩起舞動(dòng)作絲滑

星辰視頻 2026-04-18 17:41:06
296 跟貼 296
春日機(jī)器人北京馬拉松跑得飛快，工作人員抱著電腦在后面追

CQTV探索 2026-04-16 19:04:15
9 跟貼 9
自動(dòng)燒烤路子挺好用

清哥說片 2026-04-17 11:21:47
1 跟貼 1
機(jī)器人三月三到廣西跳竹竿舞，現(xiàn)場圍觀群眾大笑著鼓掌

眾橫四海 2026-04-17 11:17:18
293 跟貼 293
智元發(fā)布人形機(jī)器人遠(yuǎn)征A3 10小時(shí)長續(xù)航，開箱即用

甲子光年 2026-04-18 04:50:58
1 跟貼 1

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

醫(yī)療AI翻車現(xiàn)場：5大模型半數(shù)答案有問題

傳Meta下月擬裁8000 大舉清退人力為AI騰位

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

時(shí)隔25年重返英超！沒有人再嘲笑他了

劉德華回應(yīng)潘宏彬去世，拒談喪禮細(xì)節(jié)

"影子萬科"2.0：管理層如何吸血萬物云？

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

波蘭美女奧拉·卡茲馬雷克，絕美風(fēng)情讓人驚艷！

官宣簽約最強(qiáng)城更！海口樓市，突然殺入神秘房企！

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時(shí) 細(xì)節(jié)披露

伊朗革命衛(wèi)隊(duì)向油輪開火伊朗最高領(lǐng)袖發(fā)聲

伊朗革命衛(wèi)隊(duì)向油輪開火伊朗最高領(lǐng)袖發(fā)聲

奇瑞威麟R08 PRO正式上市售價(jià)14.48萬元起