網易首頁 > 網易號 > 正文申請入駐

美國醫療市場AI爭奪戰：巨頭押注，創業公司能贏嗎？

2026-03-12 14:04:34　來源: 硅谷101

上海舉報

分享至

（點擊收聽本期音頻）

采訪｜泓君

圖文｜朱婕

每周，有超過2.3億人在ChatGPT上詢問健康和保健問題。在人類創造的所有數據中，有30%來自醫療領域，但其中真正被利用起來的，不足5%。一邊是巨大的數據金礦，一邊是與未被滿足的龐大需求，這正是AI的機會。

在今年摩根大通醫療健康大會上，我們看到醫療與AI正在加速“雙向奔赴”。禮來與英偉達達成10億美元合作，試圖用算力重塑藥物發現的底層范式；在OpenAI發布ChatGPT for Health之后幾天，Anthropic也迅速跟進，推出了Claude for Healthcare。而一家成立僅三年的初創公司OpenEvidence，以120億美元的估值躋身AI醫療新貴。——2026年，一場火熱的AI醫療爭奪戰正在美國上演。

本期播客，我們邀請到Fusion Fund創始管理合伙人張璐，遺傳學博士周葉斌，一起聊聊AI到底在解決醫療的什么問題？我們從一位急診室醫生的真實經歷聊起，他常常在凌晨三四點完成生死搶救后，站在傳真機前處理medical coding（醫療編碼）。這不是個例——美國全科醫生的周平均工作時長高達61.8小時，相當大的一部分精力耗費在了病歷錄入、保險對接、醫療編碼這些瑣碎卻容錯率極低的行政事務上，而這恰恰是AI最容易切入的場景。

歡迎關注《硅谷101視頻號》的音頻欄目直接收聽本期播客。如果你喜歡我們的節目，更推薦大家使用音頻客戶端來收聽，《硅谷101》已覆蓋各大主流音頻平臺（渠道見文末），歡迎訂閱！

以下是這次對話內容的精選：

藥企集體“轉身”

AI從“可選項”變為“必答題”

泓君：今年是一個AI醫療的大年，不管是中國還是美國的這些模型廠商，都在開始做醫療了。璐，你要不要先跟大家總結一下，在今年的J.P. Morgan大會回來看到了什么變化？

張璐：每年的J.P.Morgan Healthcare Conference是美國全年最大的一次醫療盛會。今年我覺得有更大一點不同是，大型的藥企和醫療公司，思維理念和前一年有了本質的改變。之前還會討論要不要和AI進行整合，現在很明確，一定要整合，而且整合的力度也非常大，速度也快。

在大會期間，有一個比較重要的發布，就是Eli Lilly

（禮來）

和英偉達做了一個戰略合作的發布，而且宣布的預算初步就是十億美金的體量。我們也有幾個初創企業，其實本來就在和Eli Lilly還有英偉達兩邊都在合作，他們新的項目成立之后，整合的速度是非常快的。

包括我和一些比較大的醫療公司的CEO在聊的時候，經常會聽到他們提到的一個概念，就是公司內部已經成立了像“人工智能大學”這樣的機構。他們會要求全公司的員工，包括管理層還有董事會層級的人，都要去參與課程的訓練，更好地通過人工智能去處理醫療數據，挖掘醫療數據的價值，推動一些新項目的發布和醫療創新公司的合作。

泓君：葉斌，你在藥企，你自己覺得今年大家討論AI更多了嗎？

周葉斌：我們平時也在應用了。藥企比較講究保密性，一方面對于外面的模型會有一點謹慎，比如說你的資料肯定不能上傳到ChatGPT。但另外一方面，藥企也希望能夠引入一點公司內部可以使用的，比如說是Microsoft它的Copilot。哪怕是醫院，他們采用的一些信息的服務商，都在引入AI這一塊。這個幾乎就是不可避免的。只不過怎樣是最好的使用方式，這個還在探討中。

Eli Lilly好像前兩年還開放了一個自己的AI平臺，就說你們其他小公司也都能來用。這也提出一個挑戰，有些小公司可能覺得，如果我加入，我的信息是不是就交給你了？另外一些公司想的是，這樣是不是我能夠加強和禮來這樣一個大藥企的合作。

醫生困境

與待挖掘的數據“金礦”

泓君：除了禮來跟NVIDIA 10億美元AI藥物研發實驗室的合作，其實我注意到，在這次J.P.Morgan的大會上，Anthropic它也推出了一個Claude for Healthcare。還有一家創業公司叫做OpenEvidence，它現在的估值也到了120億美元了，可以說今年是在整個AI醫療領域的一個非常大的獨角獸。ChatGPT也上線了GPT Healthcare，我是有一天突然打開網頁的時候，發現它上線了這個功能，而且它是ToB跟ToC兩邊都有。所以現在看起來，確實在2026年的這個一開年，醫療領域跟人工智能的結合，它是打得火熱的一個狀態。

我們提到的這些公司，接下來我們可以一個一個分析商業模式，看看它們是怎么用AI去跟醫療結合的。在此之前，我想跟各位也討論一下，從醫療體系看，現在中美醫療它的痛點在哪里？葉斌，因為你在藥企工作，平時從你接觸到的醫生來看，你覺得他們痛點是什么？

周葉斌：其實我太太就是醫生，她經常和我聊到這些。去年10月份的時候有一篇論文，跟蹤的是MGH

（Mass General，美國麻省總醫院，哈佛醫學院的附屬醫院）

全科醫生的一個工作狀態。最后發現，全科醫生每個禮拜平均工作時間是61.8個小時，相當于是你可能只有單休，然后你剩下的6天每天要工作10個小時以上。

但是另外一方面，我們也都知道，一個全科醫生平均每天實際上只有15到20個病人，每個面診的時間其實也就在15分鐘左右。中間的大部分時間顯然都不是在給病人看病，主要是看病引入的其他工作。行政工作是很大的一塊。他要和保險公司處理很多事情，他看診的記錄要記錄下來。

這帶來很大的一個問題。一個是效率的問題，美國醫療最大的一塊成本其實是行政成本，醫生他們花很多時間在行政上面。另外一個，由于工作時長長，也造成醫生過勞，讓他覺得沒有滿意度。

麻省總醫院圖片來源：MGH

泓君：醫生在行政問題上花的時間為什么這么長呢？是因為他要跟保險對接，還是說整個美國的醫療體系在不停地模塊化的時候，用于流程的時間會越來越多？

周葉斌：是的，用于流程的時間消耗越來越多。其中和保險打交道是很大的一塊。因為像保險里面有一些治療，你需要有事前授權，那就是事先要經過保險同意做這個，否則的話這個錢是報不了的。另外一方面，作為一個醫生，看病之后他還要做一個記錄，這些都會引入很多的行政工作。

張璐：對，在美國比較大的一個問題就是，EHR

（電子健康記錄）

的這個系統，本來是為了讓我們更好地做自動化和數據化，但是它反而讓醫生花了很多時間去，有點像一個記錄員一樣，把很多信息轉成數字化的記錄。醫生要花很多時間，確保醫療編碼是做得正確的，讓保險賠付這個過程能夠流暢。你會發現，最后他日常做的工作，他是一個巨大的資源錯配。可能只有1/3的時間是在做實際醫生的工作，剩下的全都是行政工作，再加上和保險公司打交道，像事前授權，還有另外一個叫medical coding

（醫療編碼）

、medical billing

（醫療賬單）

為什么美國民眾對醫療公司有這么大的怨言？因為現在整個醫療的支付系統，非常復雜，還是會有很多賠付的要求會被拒絕。被拒絕的這些支付的要求，只有10%左右會進入申訴的過程，但是進入申訴的這些訴求，它80%都會被推翻，也就是說它實際上是應該被支付的。為什么有這么高的一個推翻比例呢？就是因為實際上，它被拒絕支付的原因不是醫學的問題，它是一個文書和流程的問題。所以這就給醫生帶來了更大的壓力。

我記得我之前有一個創始人，他為什么會出來做這家公司，就是因為他以前是洛杉磯非常頂尖醫院的一個急診室醫生。急診室來的人都其實是一個生死存亡的階段，他完成了這些工作之后，還要在半夜，可能凌晨3點、凌晨4點，站在傳真機前面去處理這些醫療編碼，他就覺得自己的時間簡直就是完全錯配。這也是為什么他辭職要去做相關領域的初創企業。

圖片來源：The Pitt

其實還想給大家分享一個宏觀的數據。在我們人類社會里面，所有產生的數據里面有30%是醫療相關的，但這些數據其實也在被數字化收集起來，但我們現在真正去應用使用到的連5%都不到。而在美國的話，整個醫療體系又是美國GDP的20%以上，所以這是一個巨大的潛在的“金礦”。現在也是到了一個非常好的時間節點，整個產業愿意去合作，這也是現在一個非常好的時機去做醫療AI創新的原因。

Anthropic的基建打法

從醫療編碼到數據合規

泓君：在提到了美國醫療的這些行政問題、保險問題、流程問題，哪些公司是在解決這些問題？

張璐：其實還比較多。包括Claude，Anthropic它們做的Claude for Healthcare，和其他的幾家不一樣，它走的是一個基礎設施的路線。比如說是針對醫療賬單、醫療編碼，還有它的HIPAA系統的明確性，還有一些合規的和連接層的API的需求。所以這個方向，雖然它不是一個特別性感的直接通到應用端的或用戶端的技術解決方案，但其實對于醫療行政成本來講，是比較關鍵的一層。這也是很多初創企業關注的方向，核心是我剛才提到的醫療賬單和醫療編碼，這兩個層面本身就是一個巨大的市場。

另外一方面，它用AI做自動化也相對比較好做，因為它沒有新的數據生成的需求，它更多是一個基于規則的人工智能的應用，所以它的解決方案相對比較簡單。但是它的系統植入的過程可能需要的時間長一點，因為你還是要符合現在所有醫療系統，包括保險公司對于很多合規的需求，連接層的一些需求，哪些數據怎么樣去托管的一些需求。這個方向我們會看得比較多。

另外就還是數據隱私。像我們有一家公司，它就是我剛才提到的和Eli Lilly還有英偉達都在重點合作的一家公司，它做的就是有點偏向于數據隱私的方向。但它做的是聯邦學習

（Federated Computing）

。所以它的系統第一步就是植入了美國可能60多家大型醫療體系。這樣的話，醫院就可以在安全的語境下，把自己的內部數據分享給第三方去合作，它不用在物理層級上轉移或者是分享自己的數據，它可以直接通過聯邦學習的平臺進行數據的共享。它在某種程度上也解決了敏感數據合規的問題，所以現在在整個醫療領域推行的速度很快。這家公司也是Eli Lilly重點合作方之一，而且他們和ChatGPT也合作了。因為ChatGPT他們也開始做醫療層面上的應用，所以怎么樣可以把合規這一層先去解決掉，對于他們鋪設應用層是很關鍵的。

泓君：醫療賬單我可以理解，醫療編碼是指什么？

張璐：醫療編碼就是把醫生的診斷和治療行為翻譯成一個標準化代碼。就像在中國你有個病歷本，上面會寫你得了什么什么病，但是保險公司它只認代碼。所以這個翻譯的過程很重要。如果你的代碼錯了，保險就會第一拒付。拒付之后醫院就要去申訴，它收款的周期就會拉長很多。從醫院的角度，它是要等著收款來去支持它日常的運營的，所以醫院就會給到醫生壓力。

醫療編碼是非常巨大的市場，幾十億美金級別的量級。它會直接影響醫院的營收。如果你的編碼錯誤比較多，那對于醫院的評估也會受到影響。如果你這個代碼編碼過高，會被罰款，還覺得你有欺詐風險。

所以你會發現，這個過程它其實一點都不復雜，但是對錯誤的容錯率又非常低，那它對于AI來講就非常合適。它首先規則很明確，又是個結構化的任務，又是一個大量重復的任務，它是有一個明確答案的。所以我們其實看到一些做編碼的公司，說實話，都不一定需要用生成式AI，其實它就是基于規則的，就很簡單的這樣的一個對應的過程。它自動從你的病歷提取診斷信息，然后去匹配代碼。

當然用生成式AI的話，你還可以檢查Supporting documents，就是你支撐的這些材料是不是足夠的，或者說你還可以再做一些預估，比如說我們現在提交的這個是不是可能會有被拒付的風險等等。這也是為什么Anthropic看到這個巨大的機會，來去做這樣的一個解決方案。

泓君：你知道它做的是具體的哪幾個環節嗎？

張璐：它有做編碼，這個產品里有一個專門針對 ICD-10 診斷代碼的應用功能。HIPAA的合規這方面，它也有一個具體的解決方案。

泓君：葉斌你要不要也跟大家解釋一下，HIPAA合規在美國是什么意思？HIPAA合規大概是一個多大的市場量級？

周葉斌：HIPAA合規是能不能進入醫院的一個關鍵。HIPAA關系到醫療的隱私，比如說我太太在醫院里面工作，她和其他人聊到這個病人的情況的時候，哪些信息是可以告訴誰的，哪些是不能告訴的，都有嚴格規定。如果它根本就不是HIPAA合規的，比如說ChatGPT，醫生一旦把病人病例傳上去，就違反了HIPAA，被發現的話那是很嚴重的問題。在制藥公司里面也是一樣，藥企每個員工都要進行HIPAA的培訓，保證在醫療方面的隱私數據能夠達到美國這邊的法律規定。

張璐：對，HIPAA它其實是一個保護醫療隱私數據的聯邦法律，它違規的處罰是非常高的，可能是百萬美金級別的，而且很容易就觸發集體的訴訟。

我記得當時OpenAI公布了一個數據，其實很驚人，它說每周大概有2億多的用戶是在OpenAI的ChatGPT上去問和醫療相關的話題。這也是為什么，他想專門發布一個產品是針對ChatGPT Health。而且它很明確地說，如果是ChatGPT Health，你在這里面的對話它不會用于訓練模型，這個也是為了HIPAA合規。

Anthropic做的其實是更偏向于基礎設施層面的，所以他們明確說，他們一定是提供HIPAA合規的云部署。而且非常強調說，你的企業是直接控制數據的。它提供的是一個企業的底層解決方案，在某種程度上，它也避免了更加復雜的、隱私風險更高的場景，所以我覺得Anthropic在Claude for Healthcare這方面的打法還是非常非常聰明的。

OpenAI的醫療toB之戰

前有微軟，后有開源

泓君：對，剛剛我們是分析了Anthropic切入的模式。我們再說一下OpenAI，我注意到OpenAI它其實同時推了兩端。一端是它的ChatGPT Health，就是我們剛剛提到的，它是面向于普通用戶的，大家可以通過連接自己的蘋果手表的健康記錄、醫療記錄，包括自己的鍛煉數據的記錄，在上面去問一些健康的問題。另一個是ChatGPT for Healthcare，是面向于醫院的，我注意到有6家醫院是跟他們進行了一個首批的合作。

你們怎么去看OpenAI它切入醫療的這個模式？我的問題其實可以拆分成兩個，一個是它To C的這一端，除了可以更加保護患者的隱私，它還有什么特別的吸引力？然后To B的這一端它是怎么合作的？

張璐：我覺得OpenAI有兩個動力，一方面是希望在ToB層面上通過醫療體系去進行一個巨大的商業化的探索。OpenAI從去年就考慮怎樣向ToB轉向。因為C端的話，確實付費是一個巨大的問題。

而且ToB其實你就要看，哪個市場比較巨大，而且它有海量的高質量的數據，適合去做初始的To B的這些整合。醫療當然就是一個巨大的市場。一方面美國GDP的20%都在醫療系統，30%的人類社會的數據醫療相關。現在應用得比較少，不代表它沒有數據化，這些數字化的數據都在EHR的系統和醫院體系里。

OpenAI它面臨的一個挑戰，就是怎樣進一步提升模型的能力。通過ToB拿到更多的高質量的，比如說醫院內部的數據，這對它模型能力的增加是非常有益處的。所以這是一個商業化層面上的探索，同時也是一個模型能力戰略層面上的一個探索。

周葉斌：璐說得非常好。我們說了很多行政，但醫學本身也是一個科學，每天都有大量的文獻出來，這就有大量的知識更新的一個過程。在過去，醫生每年都要去修多少個這樣的學分，但不是每個醫生的知識都更新得很及時。

ChatGPT for Healthcare，我看介紹，似乎是這兩個方面都有提升。一個是行政方面的事先授權的文書，它幫你來撰寫。另外一個方面，它是可以有很多大量的研究、公共的診療方案。比如說看到一個病人之后，它可以幫助你設計一個可能比較好的診療方案。但我個人覺得，這兩個方向對整個醫療顯然都是非常有意義的。

張璐：ChatGPT for Healthcare這個C端應用，它有非常明確的免責聲明，明確說你還是要去咨詢醫生，它并不進入診斷領域，它不承擔責任。

但是B端就不一樣了，它希望未來成為醫院的AI操作系統，并不是一個工具。它想直接去嵌入到工作的流程，成為基礎層。它希望成為一個開發平臺，可以讓醫院在它的這個平臺上去開發各種各樣的智能體。所以我覺得它的野心還是很大的。OpenAI是希望，可以跟醫院內部EHR的工作流程直接去整合，直接去給你自動總結、自動補充資料、解釋。

但是這個過程，很有意思的一點是，大部分醫院用的軟件系統其實是微軟。微軟現在在ToB層面上和OpenAI是有競爭的關系的。OpenAI想嵌入工作流程，但微軟的產品已經是在工作流程內部嵌入到里面去了。就比如說像病例自動總結，如果說醫院醫生用的都是Outlook系統的話，非常容易在內部增加一個新的功能。所以我現在也在關注微軟的反應會是怎么樣。

OpenAI它現在也在說，我們是一個開發平臺，醫院也可以在上面構建你自己需要的這些智能體，像醫療編碼，還有輔助溝通。所以你會發現，它是一個生態打法，野心當然很大，而且生態打法可能也會對于他們未來的價值最高。但我并不知道，這樣的一個生態打法對于醫院的接受度有多高。其實現在它合作的醫院數量還是比較少的。我記得斯坦福這邊是兒童醫院在跟它合作，但目前還沒有聽到比較多的反饋。

泓君：感覺美國這些大的巨頭，他們都在搶占AI的“SaaS系統”。而且現在模型的質量已經在慢慢地拉平了。如果能在不更改現有基礎的情況下，只是升級軟件，讓Outlook有各種的醫療總結的能力，其實我覺得也可能是走得通的。所以這一塊競爭還是感覺蠻火熱的。

張璐：對，而且最近還有好幾個開源生態模型的發布。你會發現，現在是開源模型能力和閉源模型能力的彼此之間的差異最小的這一段時間。開源的這些模型既便宜又好用，對于很多高監管行業來講，他們確實也有可能去考慮。有些太敏感的數據、太敏感的應用，是不是可以以低成本的方式直接自己內部去建？或者說初創企業可以以更加低成本、更快速的迭代方式，把這些應用場景搭建起來，然后去和這些行業進行合作？

在這個基礎之上，我們要考慮——為什么要做小語言模型，做特定的垂直領域的部署，就是因為要消除幻覺。醫療領域對幻覺是沒有容忍度的，所以這也是為什么，雖然很多公司去做醫療相關的AI Agent，但我們總是需要叫Human-in-the-loop

（人機回環）

，還是需要醫生，由醫生去使用它，而不是用它去替代醫生。

OpenEvidence

AI醫療獨角獸“護城河”有多寬？

泓君：接下來我們聊一聊創業公司OpenEvidence。它是今年整個醫療領域的一匹黑馬，2026年1月，它的估值達到了120億美元，有40%的美國醫生每天都在用。它是跟美國的頂級的期刊簽了一些獨家內容的合作的，相當于它是一個幫助醫生的模型，對吧？

周葉斌：對的。美國的醫生如果遇到什么問題，他可以直接去問OpenEvidence。OpenEvidence我理解是，如果它用的完全是最頂級的權威的期刊，然后又限制在了標準的診療方案，那么它把它的數據的質量以及它的回答的質量都控制得非常好了。同時它也針對的目標人群非常簡單，就是針對醫生，甚至它針對醫生也就做一件事情，就是你需要最新的知識時，我就給你最新最權威的知識，最后它讓回答的質量非常穩定。這或許是為什么它現在那么成功，有那么多醫生愿意去使用它。

OpenEvidence 圖片來源：Appstore

泓君：這不就是一個更加智能的搜索庫嗎？只是說這個搜索融入了更多的智能。

張璐：就像你剛才對它的一個評斷，它其實是一個高度優化的RAG

（檢索增強生成）

檢索的架構，去保證它不要自由發揮，不要有幻覺的內容。同時它還是針對醫療場景進行了優化，這和你實際上用ChatGPT、Anthropic Claude對話的語境還是不太一樣的。它是一個火爆的公司，估值也很高，但我并不覺得它是一個具有核心AI能力的公司。

我覺得它的核心的競爭能力，實際上是它的數據。它能夠拿到這些高質量的醫學內容的授權，在醫生使用群體的滲透也很快，年輕醫生的使用率是非常高的。

它商業模式很聰明，但是我也不知道它有多可持續發展。它現在的年收入大概是1億美金左右，增長速度是比較快的。所有的醫生是免費使用的。它的賺錢就是像廣告商一樣，比如說醫療廣告，內容推廣，將來它可能也會做企業版本。

所以它用的是哪部分的預算？你想所有的醫藥公司，都有藥物代表，要去醫院里面和醫生打交道，去說服醫生說，你要考慮向患者推薦我的新藥，這是醫藥公司是非常高的一筆預算。現在它拿出這個預算的一小部分，直接用在OpenEvidence，只要你是一個免費的醫生用戶，你就每天會看到這些廣告信息。

但在這個過程中，醫學的客觀性怎么保證？比如說藥物公司想推廣某種藥，它是不是會優先推送和這個藥相關的一些研究成果？這個也是它未來商業模式可能遇到的挑戰之一。

現在它的估值確實比較高，應該是有120億，但它的收入只有1億美金，我們對這個公司還是處于觀望的態度。C端的遷移成本是比較低的，醫生如果有另外一個解決方案，也是免費的，而且沒有廣告這些的客觀性的疑慮，他可以直接使用。或者在未來，Gemini、Claude或ChatGPT Health，直接在你日常使用的AI的應用里面直接加了一個醫療的附屬或獨立的應用，那OpenEvidence是不是還有現在這樣的優勢？我覺得這些都是值得關注的未來的一些發展點。

泓君：OpenEvidence是用RAG的方式解決準確性的問題。因為你給人看病，不能出現任何的錯誤，也不能有幻覺。垂直的醫療模型跟垂直的醫療語料的訓練是有必要的嗎？還是說它會被大模型的能力給覆蓋掉？

周葉斌：我個人覺得還是有必要的。OpenEvidence就是個例子，它都不是垂直了，它是垂直里面引出很小一塊。它限定了自己數據的來源，但也提升了質量。這或許是垂直領域的一個優勢。現在有很多文獻工廠、灌水的醫療文章論文，可能讓AI編一篇就發表出來了，實際上造成數據污染。如果是完全的大模型，它引用的數據會更多，一提到健康，它可能會把網上養生博主的一些觀點也引入到里面。那些東西也有很多人信，很多人引用。但是這個和《新英格蘭醫學雜志》上面的論文，從證據的質量和可靠性上還是有很大差異的。

張璐：我非常同意葉斌說的，醫療AI領域是一個非常需要垂直語言模型的應用的方向。醫療領域還有一個天然的特點，就是它有很多邊緣設備，海量的電子化設備。這些醫療設備上面，都可以去進行端的AI的部署。如果你要做端AI的話，你必須是一個小模型。大模型在端層面上很難去運行。再加上我們提到說醫療領域，它不管怎么樣都是高監管行業，有數據隱私的要求，你就不可能把所有的數據全部傳到云端。哪怕云端符合HIPAA，你也希望有些核心數據是在本地化。這不僅是醫療行業的需求，甚至說是終端患者的需求。所以我覺得，所有這些醫療領域的特性，會更適合于垂直小模型的特定應用場景的這樣一個部署和發展。

HealthBench

在場景中評估AI專業能力

泓君：我想問葉斌，比如說你自己，或你的家人有一點不舒服，你會去問AI嗎，你覺得AI給的診斷建議現在是可以相信的嗎？

周葉斌：我會去問AI。這個問題不光是“用不用”，還有“怎么用”。你是完全相信AI，還是你想辦法繼續用更多的問題問這個AI，確定它是怎么推出這個結論的，它的依據是什么……這可以幫助你判斷AI的結論到底對不對。

在這里面，其實AI做了一個分層診療的事情。由于我們醫療資源的局限性，這種分流分層我個人感覺都是非常有意義的。

泓君：關于這些醫療的回答是不是專業的？OpenAI發了一個評價標準——HealthBench，它可以用真實的對話場景，而不是選擇題，來去測AI的能力基準。而且它是由262位來自于60個國家、26個專科的設計，用49種語言去做的一個評分標準。我看它的評分結果，OpenAI o3模型的得分是60%。如果你把題變成hard模式，最高分是32%。我想請葉斌科普一下，在HealthBench之前，我們去測這些AI的醫療能力主要是用什么方法？它現在60%的得分是什么意思？就是說它僅僅拿了一個60分嗎？我們可以去相信AI嗎？

周葉斌：HealthBench的想法非常好。以前對AI的評分，如果是醫學方面的，比如ChatGPT考美國的醫生執照考試，比很多醫生考得都高，那個就是選擇題。

HealthBench是看一個具體的醫療場景。它是通過幾百位醫生總共篩選出來一個評分標準。它模擬出來的是怎么樣去進行對話，病人來問你一個問題，你的回答要覆蓋到哪幾個點，你的回答要用什么樣的語言，要能夠安撫這個患者。比如說有個人說，我看到我的鄰居昏倒了，應該怎么辦？不再是單純考知識點，就和以前的MedQA、PubMedQA，完全不一樣了。

泓君：所以簡單來說，以前測AI醫療的水平就是讓它去做選擇題，那ChatGPT它很早就能考到90分以上。但是HealthBench相當于讓AI真的去坐診，然后讓200多個醫生從十幾個維度去打分。而且我發現這個測試它還有一個扣分項，就是說如果AI它犯的錯誤很危險，就會被扣分，有可能扣到0分甚至負分。所以這個60%的含金量，是比選擇題的90分要高得多的，是這樣嗎？

周葉斌：是的。

泓君：最后其實我還有一個問題，就是你們覺得是不是AI醫療這條路還是巨頭的天下？

張璐：我并不覺得它會是巨頭的天下。因為一來是說醫療場景市場很巨大，同時它也非常多樣，它的應用場景是非常多變的，巨頭不太可能整體覆蓋。二來，在醫療領域，大部分的核心醫療數據實際上是在不同的機構手中，這些大公司是不會愿意把自己所有數據都分享給科技巨頭的，他們更愿意和初創企業合作，覺得自己的掌控度會更高。

而且初創企業它可能做的產品也會更加細分、更加垂直。當然有些底層的、偏軟件層的，EHR這些系統本身它也是軟件層，可能從科技公司的角度進行工作流程的植入會更好做。但即使這樣，你會看到圍繞工作流程的各種各樣的細分的應用、初創企業崛起，成長速度非常快。

還有最后一點，這個行業它是一個高監管行業，信任值很重要。你的數據怎么部署，誰去托管，誰去擁有，這個對于很多醫療公司還有醫療領域的機構來講，是非常關鍵的。在過去這些年，整個醫療系統對于科技行業在數據隱私層面上的信任度是相對比較低的。更不用說如果說很多數據要去放在云服務層面上，哪怕是它HIPAA合規，它還是有很多的不確定性。一旦任何這些合規風險出現，像我提到的，集體訴訟情況出現，最后的確要承擔這個責任或者說后果的還是醫療公司。所以從他們風險控制的角度，他也更不愿意把一個巨大的風險綁定在一家大企業上，而是說把各個小風險分散到多家的技術供應商或者AI技術的服務商。

【音頻收聽渠道】

公眾號：硅谷101

收聽渠道：蘋果｜小宇宙｜喜馬拉雅｜蜻蜓FM｜網易云音樂｜QQ音樂｜荔枝播客｜嗶哩嗶哩

海外用戶：Apple Podcast｜Spotify｜TuneIn｜Amazon Music

聯系我們：podcast@sv101.net

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.