【TechWeb】6月22日消息,近日,百川智能與清華大學研究團隊聯合發布新一代醫療增強大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三個榜單上同時位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻覺率低至 3.3%。從 M1 到 M4,百川始終在做同一件事:讓模型跨過“會答題”與“會看病”之間那道最難的坎。
![]()
在 OpenAI 提出的權威醫療評測 HealthBench 上,M4 綜合得分 68.6,位列世界第一,領先第二名 GPT-5.5 超過 10 分;在最考驗復雜臨床決策的 Hard 子集上,領先達 15.9 分。事實性幻覺率降至 3.3%,為全行業最低——同口徑下,GPT-5.5 為 3.8%、Claude Opus 4.7 為 6.9%、DeepSeek-V4-Pro 高達 9.8%。這些分數指向的不是考試能力,而是四項貼著臨床走的核心能力:問診、記憶、循證、調度。
M4 會主動追問癥狀的性質與誘因,優先識別和排查危急重癥,而不是被動等待用戶提供完整信息,更不會為了盡快給出答案而跳過該問的關鍵病史。一位用戶深夜腳痛,打開產品后配合完成了十輪問詢:哪個腳趾、疼了多久、有無外傷、近期是否飲酒、既往血尿酸是否偏高。M4 逐步縮小范圍,懷疑為急性痛風,建議其前往醫院風濕免疫科就診,并將病史與癥狀整理成一張問診卡。到院后,他將卡片出示給醫生,經二次問詢和檢查,確診為痛風。
百川借鑒醫學教育中長期使用的 OSCE(客觀結構化臨床考試)方法,聯合 150 多位一線醫生,構建了動態問診評測體系 SCAN-bench。它不考查靜態記憶,而是以真實臨床經驗為評分標準,通過多輪、動態的方式完整模擬醫生從接診到確診的全過程。在這套評測中,M4 初診 79.0、復診 74.7,均明顯領先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。
另外,M4這一代推出的「全病程記憶」打通歷史病歷、多輪問診、化驗趨勢與用藥反饋,讓模型在多次對話中始終掌握患者是誰、既往有過哪些疾病、各項指標如何變化,而不必每次從零開始。在長上下文臨床記憶評測中,M4 取得 86.9 分,為同類最高,較上一代 M3 提升 21.1 分。而記得住只是基礎——當模型真正掌握了一個人的完整病史與身體狀況,它給出的判斷便不再是套用一份通用答案,而是因人而異、貼合其自身情況,這正是精準醫療的前提。
百川首創的"證據錨定"要求模型生成的每一句醫學結論,都精確對應到原始論文或指南中的具體段落,而不只是標注引自哪篇文獻。依托六源循證范式,模型只在權威醫學來源中檢索,不從開放網絡抓取資料。M4 在此之上,把權威指南、專家共識與真實診療流程,進一步拆解為標準化、可復用的臨床路徑單元,目前已超過 1000 個、覆蓋 200 余種疾病,每一條都由資深臨床專家定義和校驗。在百川構建的循證醫學評測 Baichuan-EBM 上,M4 的循證引用精度達到 90.0,GPT-5.5 為 54.7,OpenEvidence 為 55.9。
M系列模型是醫療 Agent 的大腦,它是調度這個大腦的中樞神經:何時追問、何時檢索證據、何時調出既往病史,均由模型自主決定,無需人工逐步指令。面對文獻檢索、長病史梳理這類繁重任務,它會拆分成子任務并行處理,讓模型專注于整體診療路徑的判斷;而每一步動作,都在實時的安全約束下完成,違規的工具調用、越權的數據訪問、不合臨床規范的操作,都會被當場攔下。這套系統是在真實診療中持續迭代:線上的疑難案例、用戶的追問、醫生的糾偏,經脫敏與歸因后回流,成為模型繼續改進的依據。問診、記憶、循證由此被編排成一個完整的整體,M4從一個最強的醫療大腦,成為能獨立完成連續診療的醫療智能體。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.