網易首頁 > 網易號 > 正文申請入駐

百川發布新一代醫療增強大模型 M4：登頂 HealthBench

2026-06-22 22:02:14　來源: TechWeb

北京舉報

分享至

【TechWeb】6月22日消息，近日，百川智能與清華大學研究團隊聯合發布新一代醫療增強大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三個榜單上同時位列世界第一，全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro，幻覺率低至 3.3%。從 M1 到 M4，百川始終在做同一件事：讓模型跨過“會答題”與“會看病”之間那道最難的坎。

在 OpenAI 提出的權威醫療評測 HealthBench 上，M4 綜合得分 68.6，位列世界第一，領先第二名 GPT-5.5 超過 10 分；在最考驗復雜臨床決策的 Hard 子集上，領先達 15.9 分。事實性幻覺率降至 3.3%，為全行業最低——同口徑下，GPT-5.5 為 3.8%、Claude Opus 4.7 為 6.9%、DeepSeek-V4-Pro 高達 9.8%。這些分數指向的不是考試能力，而是四項貼著臨床走的核心能力：問診、記憶、循證、調度。

M4 會主動追問癥狀的性質與誘因，優先識別和排查危急重癥，而不是被動等待用戶提供完整信息，更不會為了盡快給出答案而跳過該問的關鍵病史。一位用戶深夜腳痛，打開產品后配合完成了十輪問詢：哪個腳趾、疼了多久、有無外傷、近期是否飲酒、既往血尿酸是否偏高。M4 逐步縮小范圍，懷疑為急性痛風，建議其前往醫院風濕免疫科就診，并將病史與癥狀整理成一張問診卡。到院后，他將卡片出示給醫生，經二次問詢和檢查，確診為痛風。

百川借鑒醫學教育中長期使用的 OSCE（客觀結構化臨床考試）方法，聯合 150 多位一線醫生，構建了動態問診評測體系 SCAN-bench。它不考查靜態記憶，而是以真實臨床經驗為評分標準，通過多輪、動態的方式完整模擬醫生從接診到確診的全過程。在這套評測中，M4 初診 79.0、復診 74.7，均明顯領先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另外，M4這一代推出的「全病程記憶」打通歷史病歷、多輪問診、化驗趨勢與用藥反饋，讓模型在多次對話中始終掌握患者是誰、既往有過哪些疾病、各項指標如何變化，而不必每次從零開始。在長上下文臨床記憶評測中，M4 取得 86.9 分，為同類最高，較上一代 M3 提升 21.1 分。而記得住只是基礎——當模型真正掌握了一個人的完整病史與身體狀況，它給出的判斷便不再是套用一份通用答案，而是因人而異、貼合其自身情況，這正是精準醫療的前提。

百川首創的"證據錨定"要求模型生成的每一句醫學結論，都精確對應到原始論文或指南中的具體段落，而不只是標注引自哪篇文獻。依托六源循證范式，模型只在權威醫學來源中檢索，不從開放網絡抓取資料。M4 在此之上，把權威指南、專家共識與真實診療流程，進一步拆解為標準化、可復用的臨床路徑單元，目前已超過 1000 個、覆蓋 200 余種疾病，每一條都由資深臨床專家定義和校驗。在百川構建的循證醫學評測 Baichuan-EBM 上，M4 的循證引用精度達到 90.0，GPT-5.5 為 54.7，OpenEvidence 為 55.9。

M系列模型是醫療 Agent 的大腦，它是調度這個大腦的中樞神經：何時追問、何時檢索證據、何時調出既往病史，均由模型自主決定，無需人工逐步指令。面對文獻檢索、長病史梳理這類繁重任務，它會拆分成子任務并行處理，讓模型專注于整體診療路徑的判斷；而每一步動作，都在實時的安全約束下完成，違規的工具調用、越權的數據訪問、不合臨床規范的操作，都會被當場攔下。這套系統是在真實診療中持續迭代：線上的疑難案例、用戶的追問、醫生的糾偏，經脫敏與歸因后回流，成為模型繼續改進的依據。問診、記憶、循證由此被編排成一個完整的整體，M4從一個最強的醫療大腦，成為能獨立完成連續診療的醫療智能體。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.