IT之家 6 月 22 日消息,百川智能與清華大學研究團隊今日聯合發布新一代醫療增強大模型 Baichuan-M4。
該模型在 HealthBench 及其 Hard、Professional 三個榜單上同時位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻覺率低至 3.3%。
在 OpenAI 提出的醫療評測 HealthBench 上,M4 綜合得分 68.6,位列世界第一,領先第二名 GPT-5.5 超過 10 分;在最考驗復雜臨床決策的 Hard 子集上,M4 領先達 15.9 分。
![]()
M4 會主動追問癥狀的性質與誘因,優先識別和排查危急重癥,而不是被動等待用戶提供完整信息,更不會為了盡快給出答案而跳過該問的關鍵病史。
百川智能介紹稱,該公司借鑒醫學教育中長期使用的 OSCE(客觀結構化臨床考試)方法,聯合 150 多位一線醫生,構建了動態問診評測體系 SCAN-bench。它不考查靜態記憶,而是以真實臨床經驗為評分標準,通過多輪、動態的方式完整模擬醫生從接診到確診的全過程。
在這套評測中,M4 初診 79.0、復診 74.7,均明顯領先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。
![]()
此外,Baichuan-M4 推出「全病程記憶」,打通歷史病歷、多輪問診、化驗趨勢與用藥反饋,讓模型在多次對話中始終掌握患者是誰、既往有過哪些疾病、各項指標如何變化,而不必每次從零開始。
在長上下文臨床記憶評測中,M4 取得 86.9 分,為同類最高,較上一代 M3 提升 21.1 分。
百川還首創“證據錨定”,要求模型生成的每一句醫學結論,都精確對應到原始論文或指南中的具體段落,而不只是標注引自哪篇文獻。依托六源循證范式,模型只在權威醫學來源中檢索,不從開放網絡抓取資料。
M4 在此之上,把權威指南、專家共識與真實診療流程,進一步拆解為標準化、可復用的臨床路徑單元,目前已超過 1000 個、覆蓋 200 余種疾病,每一條都由資深臨床專家定義和校驗。
在百川構建的循證醫學評測 Baichuan-EBM 上,M4 的循證引用精度達到 90.0,GPT-5.5 為 54.7,OpenEvidence 為 55.9。
IT之家附技術報告鏈接如下:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.