亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

五大AI問診實(shí)測:一半回答有問題,但人們正在當(dāng)真

0
分享至

上周,一份醫(yī)學(xué)期刊的論文讓硅谷和健康圈同時(shí)安靜了幾分鐘——五個(gè)最主流的AI聊天機(jī)器人,面對(duì)250個(gè)真實(shí)醫(yī)療問題,有一半的回答踩了紅線。不是答不上來,而是答得流暢、自信、看起來很有道理,實(shí)則摻雜著誤導(dǎo)甚至潛在危險(xiǎn)。

更麻煩的是:普通人根本分不出來。


測試怎么做的,為什么讓人不安

研究團(tuán)隊(duì)選了ChatGPT、Gemini、Grok、Meta AI和DeepSeek,覆蓋了癌癥、疫苗、干細(xì)胞、營養(yǎng)和運(yùn)動(dòng)表現(xiàn)五個(gè)領(lǐng)域。這些不是刁鉆的醫(yī)學(xué)難題,而是普通人真的會(huì)搜的問題——某種療法有沒有用、疫苗安不安全、吃什么能提升運(yùn)動(dòng)表現(xiàn)。

設(shè)計(jì)很刁鉆:一半問題是開放式的,比如"干細(xì)胞療法能治我的病嗎";另一半是封閉式的,有明確選項(xiàng)限制。結(jié)果開放式問題的翻車率高得驚人。而現(xiàn)實(shí)中,沒人會(huì)對(duì)著AI做選擇題,都是隨口一問。

這直接戳破了一個(gè)幻覺:我們以為AI在醫(yī)療場景"能用",其實(shí)邊界極其狹窄。

五個(gè)關(guān)鍵發(fā)現(xiàn),逐條拆解

1. 流暢≠正確,自信≠可靠

問題回答的" polished and confident"( polished and confident,打磨過的自信感)是最大陷阱。研究顯示,機(jī)器人輸出時(shí)幾乎不加限定詞,不會(huì)說"這部分證據(jù)較弱"或"學(xué)界仍有爭議"。它們用同樣的語氣陳述共識(shí)和推測,讀者根本無法區(qū)分。

這背后是大語言模型的訓(xùn)練目標(biāo):預(yù)測最可能的下一個(gè)詞,而非判斷真假。醫(yī)療場景需要的精確性,和模型的優(yōu)化方向根本錯(cuò)位。

2. 參考文獻(xiàn)是擺設(shè),平均完整度僅40%

很多人信任AI回答,是因?yàn)榭吹轿哪熘撐逆溄印5芯繉?shí)測發(fā)現(xiàn),引用列表的平均完整度只有40%,沒有一個(gè)機(jī)器人交出完全準(zhǔn)確的參考文獻(xiàn)。

更糟的是"幻覺引用"——編造的論文、不存在的作者、錯(cuò)配的結(jié)論。這些假引用被包裝成學(xué)術(shù)背書,讀者順著鏈接點(diǎn)過去,要么404,要么發(fā)現(xiàn)文不對(duì)題。但大多數(shù)人不會(huì)點(diǎn)。

3. 開放式問題是照妖鏡

封閉提示(如"以下哪種說法被FDA批準(zhǔn)?")相對(duì)安全,因?yàn)檫x項(xiàng)本身限制了發(fā)揮空間。但開放式問題讓機(jī)器人自由組織答案,結(jié)果高度問題性內(nèi)容( highly problematic content)的比例飆升。

現(xiàn)實(shí)中,用戶提問方式完全是開放式的。"我體檢這個(gè)指標(biāo)高了怎么辦""朋友推薦的保健品能吃嗎"——這些才是真實(shí)場景。研究刻意設(shè)計(jì)的"壓力測試",恰恰模擬了日常。

4. 五大產(chǎn)品無一幸免,各有偏科

研究沒有公布具體哪家最差,但明確提到五個(gè)產(chǎn)品全部出現(xiàn)" flawed or incomplete"( flawed or incomplete,有缺陷或不完整)的回答。這意味著這不是某個(gè)模型的技術(shù)債,而是當(dāng)前AI醫(yī)療應(yīng)用的系統(tǒng)性風(fēng)險(xiǎn)。

不同產(chǎn)品的訓(xùn)練數(shù)據(jù)、對(duì)齊策略、安全護(hù)欄各有差異,但在復(fù)雜醫(yī)療語境下,都未能通過基礎(chǔ)測試。

5. 研究有局限,但核心結(jié)論站得住

作者主動(dòng)坦承三項(xiàng)限制:只測了五個(gè)產(chǎn)品、AI迭代太快、提示設(shè)計(jì)偏壓力測試可能高估風(fēng)險(xiǎn)。但這些是學(xué)術(shù)嚴(yán)謹(jǐn)性的標(biāo)準(zhǔn)表述,不是給行業(yè)開脫。

關(guān)鍵事實(shí)是:測試主題是" evidence-based medical topics"( evidence-based medical topics,有循證醫(yī)學(xué)基礎(chǔ)的主題),不是前沿爭議領(lǐng)域。連這種有標(biāo)準(zhǔn)答案的領(lǐng)域都有一半翻車,更模糊的灰色地帶呢?

為什么這件事現(xiàn)在特別危險(xiǎn)

研究提到一個(gè)已經(jīng)發(fā)生的用戶行為遷移:人們" already use AI chatbots like search engines for everyday health information"( already use AI chatbots like search engines for everyday health information,已經(jīng)在把AI聊天機(jī)器人當(dāng)搜索引擎用,查日常健康信息)。

這不是未來場景,是正在發(fā)生的習(xí)慣重塑。而搜索引擎至少會(huì)給出多個(gè)來源、有明確的時(shí)間戳、能追溯到原始機(jī)構(gòu);AI回答則是黑箱生成的單一敘事,帶著不可質(zhì)疑的權(quán)威感。

更隱蔽的風(fēng)險(xiǎn)是"答案的半真半假"——機(jī)器人會(huì)混合可靠證據(jù)和薄弱主張,用戶被前半句的科學(xué)性麻痹,連帶接受了后半句的誤導(dǎo)。這比完全錯(cuò)誤的答案更難識(shí)別。

研究者的務(wù)實(shí)建議,和沒說出口的

論文結(jié)論很克制:聊天機(jī)器人或許能" summarize information or shape follow-up questions"( summarize information or shape follow-up questions,總結(jié)信息或幫助形成后續(xù)問題),但" still don't look dependable enough for meaningful medical decisions"( still don't look dependable enough for meaningful medical decisions,對(duì)于有意義的醫(yī)療決策仍不夠可靠)。

翻譯一下:當(dāng)搜索引擎的替代品可以,當(dāng)真醫(yī)生的替代品不行。

但研究沒說的是:這個(gè)邊界在現(xiàn)實(shí)中幾乎無法執(zhí)行。用戶不會(huì)先查AI、再查文獻(xiàn)、最后問醫(yī)生——大多數(shù)人停在第一步。而AI產(chǎn)品的設(shè)計(jì)邏輯,恰恰在鼓勵(lì)這種"一站式"依賴。

冷幽默

這項(xiàng)研究最諷刺的注腳是:五個(gè)被測產(chǎn)品里,有四個(gè)的母公司正在或即將布局醫(yī)療健康業(yè)務(wù)。它們一邊向醫(yī)院賣AI診斷工具,一邊在消費(fèi)端輸出"平均40%完整度"的健康建議。或許未來的商業(yè)模式是——先用免費(fèi)聊天機(jī)器人制造患者,再用付費(fèi)醫(yī)療AI解決問題。閉環(huán)了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月17日精選熱點(diǎn):核聚變?cè)俅沃匕趵茫@些三大核心龍頭要大漲

4月17日精選熱點(diǎn):核聚變?cè)俅沃匕趵茫@些三大核心龍頭要大漲

元芳說投資
2026-04-16 21:12:07
大學(xué)生不慎弄濕同學(xué)電腦 緊急下單“JD快修”被收6190元 京東回應(yīng):不要上當(dāng)!

大學(xué)生不慎弄濕同學(xué)電腦 緊急下單“JD快修”被收6190元 京東回應(yīng):不要上當(dāng)!

閃電新聞
2026-04-16 16:06:11
世錦賽解簽:趙心童形勢明朗丁俊暉碰上克星,小特威爾遜都遇麻煩

世錦賽解簽:趙心童形勢明朗丁俊暉碰上克星,小特威爾遜都遇麻煩

楊華評(píng)論
2026-04-16 17:17:56
事實(shí)證明,被奶奶“雪藏”的神童王恒屹,如今已走上另一條大道

事實(shí)證明,被奶奶“雪藏”的神童王恒屹,如今已走上另一條大道

云景侃記
2026-04-15 19:45:04
預(yù)售破萬,上市即頂流!智己LS8震撼上市,橫掃30萬級(jí)豪華SUV市場

預(yù)售破萬,上市即頂流!智己LS8震撼上市,橫掃30萬級(jí)豪華SUV市場

大眾侃車
2026-04-16 22:45:20
灣灣知名主播建國分析汪小菲馬筱梅現(xiàn)狀——離婚的號(hào)角或已吹響了

灣灣知名主播建國分析汪小菲馬筱梅現(xiàn)狀——離婚的號(hào)角或已吹響了

小椰的奶奶
2026-04-16 20:33:22
中央定調(diào)!養(yǎng)老金22連漲定了,但是漲幅可能讓很多人沒想到

中央定調(diào)!養(yǎng)老金22連漲定了,但是漲幅可能讓很多人沒想到

小談食刻美食
2026-04-16 07:35:27
擔(dān)心的事還是發(fā)生,跑丟編制的女護(hù)士張水華,又回到了她的怪圈

擔(dān)心的事還是發(fā)生,跑丟編制的女護(hù)士張水華,又回到了她的怪圈

芭比衣櫥
2026-04-14 13:22:53
爆大瓜!克洛普距皇馬再近一步,1.21 億簽 3 人,利物浦巨星首選

爆大瓜!克洛普距皇馬再近一步,1.21 億簽 3 人,利物浦巨星首選

奶蓋熊本熊
2026-04-16 04:48:13
東北沒有黑幫,只有“刀槍炮”:一場對(duì)香港百年社團(tuán)的降維打擊

東北沒有黑幫,只有“刀槍炮”:一場對(duì)香港百年社團(tuán)的降維打擊

黃麗搞笑小能手
2026-04-15 06:27:15
我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

草莓解說體育
2026-04-12 17:05:01
楊子直播示好7次全撲空!90%財(cái)產(chǎn)+11克拉鉆戒,黃圣依頭都沒回

楊子直播示好7次全撲空!90%財(cái)產(chǎn)+11克拉鉆戒,黃圣依頭都沒回

草莓解說體育
2026-04-17 01:26:20
鄭愷一家外出聚餐,鄭爸出鏡走路要攙扶,苗苗冒雨送公公很孝順

鄭愷一家外出聚餐,鄭爸出鏡走路要攙扶,苗苗冒雨送公公很孝順

空樽對(duì)月花獨(dú)瘦
2026-04-15 21:23:54
恩愛劇本不演了?奚夢瑤提離婚,何猷君掀桌子私生子傳聞?wù)嫦啻蟀?>
    </a>
        <h3>
      <a href=秋姐居
2026-04-04 22:23:29
公開認(rèn)罪后,人民日?qǐng)?bào)對(duì)許家印稱呼變了,11字之差釋放信號(hào)不一般

公開認(rèn)罪后,人民日?qǐng)?bào)對(duì)許家印稱呼變了,11字之差釋放信號(hào)不一般

談史論天地
2026-04-16 07:55:41
廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

大象新聞
2026-04-15 12:57:04
抗以40年,還是服軟了,內(nèi)塔尼亞胡通告全球,即將占領(lǐng)真主黨重鎮(zhèn)

抗以40年,還是服軟了,內(nèi)塔尼亞胡通告全球,即將占領(lǐng)真主黨重鎮(zhèn)

黑鷹觀軍事
2026-04-16 16:25:49
全世界會(huì)發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個(gè)超級(jí)大國了

全世界會(huì)發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個(gè)超級(jí)大國了

傲傲講歷史
2026-04-15 03:43:24
向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
想念哈登!小卡被格林防的不會(huì)打球,登哥若在快船已晉級(jí)

想念哈登!小卡被格林防的不會(huì)打球,登哥若在快船已晉級(jí)

湖人侃球師
2026-04-16 16:44:29
2026-04-17 02:00:49
摸魚算法
摸魚算法
致力于用最前沿的AI技術(shù),換取更多發(fā)呆時(shí)間的三十歲青年。
1480文章數(shù) 16關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

美國威脅加大對(duì)伊朗制裁 伊朗回應(yīng)

頭條要聞

美國威脅加大對(duì)伊朗制裁 伊朗回應(yīng)

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

房產(chǎn)
本地
旅游
藝術(shù)
公開課

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會(huì),擠爆了!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

旅游要聞

社評(píng):讀懂“China Travel”持續(xù)圈粉的邏輯

藝術(shù)要聞

你絕對(duì)想不到!這幅油畫背后的美麗故事!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版