亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能給你看病嗎?

0
分享至


(來(lái)源:麻省理工科技評(píng)論)

AI 健康發(fā)展正盛。近日,微軟在旗下產(chǎn)品 Copilot 中推出了子模塊 Copilot Health,用戶可以在這個(gè)新板塊中接入自己的醫(yī)療記錄,并就健康問題進(jìn)行提問;幾天前,亞馬遜宣布此前僅限 One Medical 會(huì)員使用的 Health AI 將向公眾全面開放;同時(shí),這些產(chǎn)品加入了 OpenAI 今年 1 月發(fā)布的 ChatGPT Health 以及 Anthropic 的 Claude 的行列。

面向大眾的健康 AI 已經(jīng)正式成為一股趨勢(shì),市場(chǎng)對(duì)提供健康建議的聊天機(jī)器人有明確的需求,因?yàn)楹芏嗳穗y以通過現(xiàn)有醫(yī)療體系獲得幫助;一些研究也表明,當(dāng)前的大語(yǔ)言模型能夠給出安全且有用的建議。但研究人員表示,這些工具應(yīng)當(dāng)在大范圍發(fā)布之前接受獨(dú)立專家更嚴(yán)格的評(píng)估。

在健康這樣的高風(fēng)險(xiǎn)領(lǐng)域,信任公司自行評(píng)估自家產(chǎn)品可能并不明智,尤其是當(dāng)這些評(píng)估結(jié)果沒有公開供外部專家審查時(shí)。即使公司確實(shí)在做高質(zhì)量、嚴(yán)謹(jǐn)?shù)难芯?,它們?nèi)匀豢赡艽嬖诿^(qū),需要更廣泛的研究界來(lái)補(bǔ)充。

“在你始終需要更多醫(yī)療服務(wù)的前提下,我認(rèn)為我們確實(shí)應(yīng)該追求每一條可行的路徑,”牛津互聯(lián)網(wǎng)研究所的博士生安德魯·比恩(Andrew Bean)說(shuō),“在我看來(lái),這些模型完全有可能已經(jīng)到了值得推廣的水平?!?/p>

“但是,”他補(bǔ)充道,“評(píng)估必須非常嚴(yán)格?!?/p>



龐大的市場(chǎng)需求

在開發(fā)者看來(lái),這些健康產(chǎn)品之所以現(xiàn)在推出,是因?yàn)榇笳Z(yǔ)言模型確實(shí)已經(jīng)達(dá)到了能有效提供醫(yī)療建議的水平。微軟 AI 健康業(yè)務(wù)副總裁、前外科醫(yī)生多米尼克·金(Dominic King)將 AI 能力的進(jìn)步列為公司組建健康團(tuán)隊(duì)以及 Copilot Health 問世的核心原因?!拔覀兛吹缴墒?AI 在回答健康問題、給出優(yōu)質(zhì)回復(fù)方面取得了巨大進(jìn)步,”他說(shuō)。

另一個(gè)關(guān)鍵因素是需求。在 Copilot Health 推出前不久,微軟發(fā)布了一份報(bào)告和配套博文,詳細(xì)說(shuō)明了人們?nèi)绾问褂?Copilot 獲取健康建議。微軟表示,每天收到 5000 萬(wàn)個(gè)健康相關(guān)問題,健康是 Copilot 移動(dòng)端應(yīng)用上最熱門的討論話題

其他 AI 公司也注意到了這一趨勢(shì)并做出了回應(yīng)?!吧踔猎谖覀兺瞥鼋】诞a(chǎn)品之前,就已經(jīng)看到人們使用 ChatGPT 咨詢健康問題的速度在飛快增長(zhǎng),”O(jiān)penAI 健康 AI 團(tuán)隊(duì)負(fù)責(zé)人卡蘭·辛格爾(Karan Singhal)說(shuō)。(OpenAI 和微軟有長(zhǎng)期合作關(guān)系,Copilot 由 OpenAI 的模型驅(qū)動(dòng)。)

人們可能只是更喜歡向一個(gè) 24 小時(shí)在線、不帶評(píng)判的機(jī)器人傾訴自己的健康問題。但很多專家從當(dāng)前醫(yī)療體系的現(xiàn)狀來(lái)解讀這一現(xiàn)象。“這些工具的存在和它們?cè)谡麄€(gè)格局中的定位是有原因的,”西奈山醫(yī)療系統(tǒng)的首席 AI 官吉里什·納德卡尼(Girish Nadkarni)說(shuō),“因?yàn)楂@取醫(yī)療服務(wù)很難,對(duì)某些人群來(lái)說(shuō)尤其難。”

面向消費(fèi)者的健康聊天機(jī)器人的理想愿景在于,它們可以在改善用戶健康的同時(shí),減輕醫(yī)療系統(tǒng)的壓力。這可能包括幫助用戶判斷自己是否需要就醫(yī),這項(xiàng)任務(wù)被稱為分診。如果聊天機(jī)器人的分診功能有效,那些需要急救的患者可能比原本更早地尋求治療,而癥狀較輕的患者則可能安心地在家根據(jù)聊天機(jī)器人的建議管理癥狀,而不是給急診室和診所增加不必要的負(fù)擔(dān)。

但納德卡尼和西奈山其他研究人員最近發(fā)表的一項(xiàng)廣受討論的研究發(fā)現(xiàn),ChatGPT Health 有時(shí)會(huì)對(duì)輕癥建議過度治療,同時(shí)未能識(shí)別緊急情況。雖然辛格爾和其他一些專家認(rèn)為該研究的方法論可能無(wú)法全面反映 ChatGPT Health 的能力,但這項(xiàng)研究引發(fā)了人們對(duì)這些工具在面向公眾發(fā)布前缺乏外部評(píng)估的擔(dān)憂。

為本文接受采訪的大多數(shù)學(xué)術(shù)專家都認(rèn)為,考慮到一些人獲取醫(yī)療服務(wù)的渠道多么有限,健康聊天機(jī)器人確實(shí)可能帶來(lái)實(shí)際好處。但六位專家全部表達(dá)了擔(dān)憂:這些工具在沒有經(jīng)過獨(dú)立研究者安全評(píng)估的情況下就上線了。這些工具的一些用途相對(duì)無(wú)害,比如推薦鍛煉計(jì)劃或建議用戶向醫(yī)生提什么問題,但另一些用途有明顯風(fēng)險(xiǎn)。分診是其中之一,讓聊天機(jī)器人提供診斷或治療方案是另一個(gè)。

ChatGPT Health 的界面上有醒目的免責(zé)聲明,表示該工具不用于診斷或治療;Copilot Health 和亞馬遜 Health AI 的發(fā)布公告中也包含類似警告。但這些警告很容易被忽略?!拔覀兌贾廊藗儠?huì)拿它來(lái)做診斷和管理病情,”貝斯以色列女執(zhí)事醫(yī)療中心的內(nèi)科醫(yī)生和研究員、Google 訪問研究員亞當(dāng)·羅德曼(Adam Rodman)說(shuō)。



嚴(yán)謹(jǐn)?shù)尼t(yī)學(xué)測(cè)試

這些公司表示,他們?cè)跍y(cè)試聊天機(jī)器人以確保它們?cè)诮^大多數(shù)情況下提供安全回復(fù)。OpenAI 設(shè)計(jì)并發(fā)布了 HealthBench,這是一個(gè)基準(zhǔn)測(cè)試,評(píng)估大語(yǔ)言模型在模擬真實(shí)健康對(duì)話中的表現(xiàn)。去年 GPT-5 發(fā)布時(shí)(GPT-5 同時(shí)驅(qū)動(dòng) ChatGPT Health 和 Copilot Health),OpenAI 公布了該模型的 HealthBench 得分:它大幅優(yōu)于此前的 OpenAI 模型,但整體表現(xiàn)遠(yuǎn)非完美。

但 HealthBench 這類評(píng)估存在局限性。比恩和同事上月發(fā)表的一項(xiàng)研究發(fā)現(xiàn),即使大語(yǔ)言模型能獨(dú)立從虛構(gòu)的書面場(chǎng)景中準(zhǔn)確識(shí)別出一種疾病,一個(gè)沒有醫(yī)學(xué)背景的用戶拿到同樣的場(chǎng)景后借助 LLM 輔助判斷,可能只有三分之一的時(shí)間能得出正確結(jié)論。如果用戶缺乏醫(yī)學(xué)知識(shí),他們可能不知道場(chǎng)景中哪些信息(或自身真實(shí)經(jīng)歷中哪些信息)對(duì)提問來(lái)說(shuō)是重要的,也可能誤讀大語(yǔ)言模型給出的信息。

比恩說(shuō),這個(gè)表現(xiàn)差距對(duì) OpenAI 的模型來(lái)說(shuō)可能意義重大。在最初的 HealthBench 研究中,OpenAI 報(bào)告其模型在需要向用戶追問更多信息的對(duì)話中表現(xiàn)相對(duì)較差。如果情況確實(shí)如此,那些缺乏足夠醫(yī)學(xué)知識(shí)、無(wú)法一開始就為健康聊天機(jī)器人提供所需信息的用戶,可能會(huì)收到無(wú)用甚至不準(zhǔn)確的建議。

OpenAI 的辛格爾指出,公司當(dāng)前的 GPT-5 系列模型在最初的 HealthBench 研究進(jìn)行時(shí)尚未發(fā)布,這一代模型在主動(dòng)追問信息方面比前代有很大改進(jìn)。不過 OpenAI 也報(bào)告稱,當(dāng)前的旗艦?zāi)P?GPT-5.4 在主動(dòng)獲取上下文方面實(shí)際上不如早期版本 GPT-5.2。

比恩認(rèn)為,理想情況下,健康聊天機(jī)器人應(yīng)該像他的研究那樣,在發(fā)布前先經(jīng)過有真人用戶參與的對(duì)照測(cè)試。這可能是一項(xiàng)艱巨的任務(wù),尤其考慮到 AI 領(lǐng)域的發(fā)展速度和人類研究所需的時(shí)間。比恩自己的研究用的還是將近一年前發(fā)布的 GPT-4o,現(xiàn)在已經(jīng)過時(shí)了。

本月早些時(shí)候,Google 發(fā)布了一項(xiàng)符合比恩標(biāo)準(zhǔn)的研究。在這項(xiàng)研究中,患者先與 Google 的 AMIE(Articulate Medical Intelligence Explorer,一款尚未公開發(fā)布的醫(yī)療大語(yǔ)言模型聊天機(jī)器人)討論醫(yī)療問題,然后再去見真人醫(yī)生??傮w來(lái)看,AMIE 的診斷準(zhǔn)確率與醫(yī)生持平,研究人員也未在任何對(duì)話中發(fā)現(xiàn)重大安全隱患。

盡管結(jié)果令人鼓舞,Google 并不打算近期發(fā)布 AMIE?!半m然研究取得了進(jìn)展,但在系統(tǒng)真正應(yīng)用于診斷和治療之前,還有重大局限性需要解決,包括在公平性、公正性和安全性測(cè)試方面的進(jìn)一步研究,”Google DeepMind 的研究科學(xué)家艾倫·卡蒂克薩林加姆(Alan Karthikesalingam)在郵件中寫道。Google 最近透露,它與 CVS 合作搭建的健康平臺(tái) Health100 將包含一個(gè)由旗艦 Gemini 模型驅(qū)動(dòng)的 AI 助手,不過這個(gè)工具大概不會(huì)用于診斷或治療。

羅德曼與卡蒂克薩林加姆共同主導(dǎo)了 AMIE 研究,他并不認(rèn)為這種耗時(shí)數(shù)年的大型研究一定是評(píng)估 ChatGPT Health 和 Copilot Health 這類聊天機(jī)器人的正確方式。“臨床試驗(yàn)的范式在生成式 AI 領(lǐng)域并不總是適用,原因很多,”他說(shuō),“這就是基準(zhǔn)測(cè)試討論的意義所在。有沒有一個(gè)來(lái)自可信第三方的基準(zhǔn)測(cè)試,大家都認(rèn)可它是有意義的,各實(shí)驗(yàn)室可以用它來(lái)自我約束?”

這里的關(guān)鍵是“第三方”。無(wú)論公司對(duì)自家產(chǎn)品做了多全面的評(píng)估,要完全信任他們的結(jié)論仍然很難。第三方評(píng)估帶來(lái)的不僅是公正性,如果有多個(gè)第三方參與,還能幫助彌補(bǔ)盲區(qū)。

OpenAI 的辛格爾表示他非常支持外部評(píng)估?!拔覀儽M力支持學(xué)術(shù)社區(qū),”他說(shuō),“我們發(fā)布 HealthBench 的部分原因就是給學(xué)術(shù)界和其他模型開發(fā)者提供一個(gè)高質(zhì)量評(píng)估的范例。”

他說(shuō),鑒于產(chǎn)出一項(xiàng)高質(zhì)量評(píng)估的成本很高,他懷疑任何單個(gè)學(xué)術(shù)實(shí)驗(yàn)室能否做出他所說(shuō)的“統(tǒng)治一切的唯一評(píng)估”。但他高度評(píng)價(jià)了學(xué)術(shù)團(tuán)體將已有評(píng)估和新評(píng)估整合成綜合評(píng)估套件的努力,比如斯坦福的 MedHELM 框架,它在各種醫(yī)療任務(wù)上對(duì)模型進(jìn)行測(cè)試。目前,OpenAI 的 GPT-5 在 MedHELM 上擁有最高分。

斯坦福大學(xué)醫(yī)學(xué)教授、MedHELM 項(xiàng)目負(fù)責(zé)人尼加姆·沙阿(Nigam Shah)說(shuō),這個(gè)框架也有局限性。它只評(píng)估聊天機(jī)器人的單輪回復(fù),但一個(gè)向聊天機(jī)器人尋求醫(yī)療建議的人可能會(huì)進(jìn)行多輪來(lái)回對(duì)話。他說(shuō)自己和一些合作者正在著手構(gòu)建一個(gè)能夠評(píng)估這類復(fù)雜對(duì)話的體系,但這需要時(shí)間和資金。“你我完全沒有能力阻止這些公司發(fā)布面向健康的產(chǎn)品,它們想干嘛就干嘛,”他說(shuō),“像我們這樣的人唯一能做的就是想辦法為基準(zhǔn)測(cè)試找到資金?!?/p>

不過,醫(yī)生自己也會(huì)犯錯(cuò)——對(duì)于一個(gè)只能偶爾看到醫(yī)生的人來(lái)說(shuō),一個(gè)隨時(shí)可用但偶爾出錯(cuò)的大語(yǔ)言模型仍然可能比現(xiàn)狀好得多,只要它的錯(cuò)誤不會(huì)太嚴(yán)重。

但以目前的證據(jù)水平來(lái)看,我們無(wú)法確切判斷現(xiàn)有的這些工具是否真的帶來(lái)了改善,還是它們的風(fēng)險(xiǎn)超過了收益。

https://www.technologyreview.com/2026/03/30/1134795/there-are-more-ai-health-tools-than-ever-but-how-well-do-they-work/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)財(cái)長(zhǎng)貝森特:汽油價(jià)格將很快開始下降

美國(guó)財(cái)長(zhǎng)貝森特:汽油價(jià)格將很快開始下降

財(cái)聯(lián)社
2026-04-15 20:20:23
湖人隊(duì)詹姆斯看黃蜂打熱火直播史詩(shī)級(jí)失誤后,一度以為自己眼花了

湖人隊(duì)詹姆斯看黃蜂打熱火直播史詩(shī)級(jí)失誤后,一度以為自己眼花了

好火子
2026-04-15 21:15:31
被封禁賬號(hào)僅2月,coco再次曝出猛料,這次謝賢的體面徹底被撕

被封禁賬號(hào)僅2月,coco再次曝出猛料,這次謝賢的體面徹底被撕

橙星文娛
2026-04-15 11:11:07
帕勞通告全球,拒與臺(tái)灣“斷交”,大陸宣布統(tǒng)一后安排戳破幻想

帕勞通告全球,拒與臺(tái)灣“斷交”,大陸宣布統(tǒng)一后安排戳破幻想

一個(gè)有靈魂的作者
2026-04-16 09:45:43
安徽2名干部主動(dòng)投案!

安徽2名干部主動(dòng)投案!

阜陽(yáng)發(fā)布
2026-04-15 21:38:19
忽悠1年終得手 馬云12年前被許家印用15分鐘說(shuō)服:投12億入股恒大

忽悠1年終得手 馬云12年前被許家印用15分鐘說(shuō)服:投12億入股恒大

風(fēng)過鄉(xiāng)
2026-04-15 18:22:50
湖南衛(wèi)視播出!69集諜戰(zhàn)劇,開播3集,收視全國(guó)第一,不看后悔!

湖南衛(wèi)視播出!69集諜戰(zhàn)劇,開播3集,收視全國(guó)第一,不看后悔!

可樂談情感
2026-04-16 10:00:27
美軍打擊伊朗,動(dòng)用多少實(shí)力及總占比?

美軍打擊伊朗,動(dòng)用多少實(shí)力及總占比?

高博新視野
2026-04-12 08:00:17
改年齡的危害有多大?國(guó)青天才少年打不了CBA,27歲就退役

改年齡的危害有多大?國(guó)青天才少年打不了CBA,27歲就退役

蝸??辞?/span>
2026-04-14 18:25:35
隨著41歲C羅造制勝球+利雅得勝利1-0,沙特聯(lián)最新積分榜出爐

隨著41歲C羅造制勝球+利雅得勝利1-0,沙特聯(lián)最新積分榜出爐

側(cè)身凌空斬
2026-04-16 06:19:32
新華社權(quán)威快報(bào)|一季度中國(guó)GDP同比增長(zhǎng)5.0%

新華社權(quán)威快報(bào)|一季度中國(guó)GDP同比增長(zhǎng)5.0%

新華社
2026-04-16 10:02:04
李兆基女兒現(xiàn)狀:老大未晉升集團(tuán)高層,老二丁克,老三修佛未婚

李兆基女兒現(xiàn)狀:老大未晉升集團(tuán)高層,老二丁克,老三修佛未婚

白面書誏
2026-04-15 19:03:36
采訪時(shí)才知道孔帕尼停賽,埃貝爾:我們本在慶祝沒球員停賽

采訪時(shí)才知道孔帕尼停賽,埃貝爾:我們本在慶祝沒球員停賽

懂球帝
2026-04-16 07:35:07
醫(yī)院檢驗(yàn)科原主任,狂買30多處房產(chǎn),遍布海南、浙江、四川等地,被查時(shí)反問“抓我做什么?”

醫(yī)院檢驗(yàn)科原主任,狂買30多處房產(chǎn),遍布海南、浙江、四川等地,被查時(shí)反問“抓我做什么?”

南方都市報(bào)
2026-01-23 09:19:58
傷得很深!男子打賞女主播近300萬(wàn),想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛沖鋒,結(jié)果她全是假話

傷得很深!男子打賞女主播近300萬(wàn),想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛沖鋒,結(jié)果她全是假話

臺(tái)州交通廣播
2026-04-10 16:23:25
迪拜帆船酒店:將停業(yè)1年半

迪拜帆船酒店:將停業(yè)1年半

第一財(cái)經(jīng)資訊
2026-04-15 19:05:49
我是河南人,退休后旅居浙江寧波半年,給想來(lái)這里養(yǎng)老的人幾句實(shí)話

我是河南人,退休后旅居浙江寧波半年,給想來(lái)這里養(yǎng)老的人幾句實(shí)話

林子說(shuō)事
2026-04-15 13:22:04
河南62歲務(wù)工人員清理垃圾時(shí)猝死,因超法定退休年齡未被認(rèn)定工傷,檢察院介入:視同工傷,賠償87萬(wàn)

河南62歲務(wù)工人員清理垃圾時(shí)猝死,因超法定退休年齡未被認(rèn)定工傷,檢察院介入:視同工傷,賠償87萬(wàn)

極目新聞
2026-04-15 17:24:12
大批五一航班突然取消!廣東市民出行受到這些影響

大批五一航班突然取消!廣東市民出行受到這些影響

南方都市報(bào)
2026-04-15 20:44:18
這部日劇讓Netflix全球第四,憑什么?

這部日劇讓Netflix全球第四,憑什么?

像素與芯片
2026-04-15 09:48:13
2026-04-16 10:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16580文章數(shù) 514880關(guān)注度
往期回顧 全部

科技要聞

39.98萬(wàn)!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

牛彈琴:伊朗迎來(lái)一位非常特殊客人 全世界大舒一口氣

頭條要聞

牛彈琴:伊朗迎來(lái)一位非常特殊客人 全世界大舒一口氣

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

油輪被困波斯灣1個(gè)多月 船員飽受煎熬

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
手機(jī)
房產(chǎn)
教育

赫本愛穿的傘裙,好優(yōu)雅!

藝術(shù)要聞

鄭麗文平底鞋爭(zhēng)議未平,馬英九書法引熱議。

手機(jī)要聞

IDC全球Q1報(bào)告出爐,三星還是第一,OPPO第四,vivo第五

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

教育要聞

重磅政策:得州理工將取消所有“性別與性取向”相關(guān)專業(yè)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版