你問AI"這個(gè)藥能吃嗎",它答得自信又專業(yè)。但最新研究潑了盆冷水——五大主流聊天機(jī)器人,一半回答都有坑。
測試設(shè)計(jì):250道題,專挑軟柿子捏
![]()
研究團(tuán)隊(duì)沒客氣。ChatGPT、Gemini、Grok、Meta AI、DeepSeek全被拉進(jìn)考場,考題覆蓋癌癥、疫苗、干細(xì)胞、營養(yǎng)、運(yùn)動(dòng)表現(xiàn)五大領(lǐng)域。
題目分兩類。封閉式像選擇題,答案范圍鎖死;開放式隨便聊,"這療法有用嗎""疫苗安全嗎"這種日常問法。
結(jié)果開放式全面崩盤。問題越寬泛,機(jī)器人越放飛,高問題回答比例遠(yuǎn)超預(yù)期。但真人看病誰玩選擇題?都是張嘴就問。
核心漏洞:三重崩塌
第一重,答案本身摻水。 solid evidence(可靠證據(jù))和weak claims(薄弱主張)攪在一起,外行根本分不清哪句是真金。
第二重,引用文獻(xiàn)集體擺爛。平均完整度40%,沒有一家能交出全對(duì)的參考文獻(xiàn)清單。你以為有出處就靠譜?查一下全露餡。
第三重最離譜:瞎編引用。機(jī)器人照樣斬釘截鐵,幾乎不加任何風(fēng)險(xiǎn)提示。自信滿滿地胡說,比承認(rèn)自己不知道更危險(xiǎn)。
為什么這事值得較真
研究團(tuán)隊(duì)留了后路:只測了五家,模型迭代快,題目設(shè)計(jì)偏難,日常可能沒這么糟。但核心結(jié)論躲不掉——循證醫(yī)學(xué)(evidence-based medicine)這種有標(biāo)準(zhǔn)答案的科目,AI都能錯(cuò)一半。
更麻煩的是用戶習(xí)慣已經(jīng)形成。很多人把聊天機(jī)器人當(dāng)搜索引擎用,健康問題上更是如此。 polished and confident( polished and confident)的回復(fù)風(fēng)格,天然讓人放松警惕。
醫(yī)療場景的特殊性在于:錯(cuò)誤成本極高,且用戶難以及時(shí)識(shí)別。買錯(cuò)東西能退貨,吃錯(cuò)藥可能進(jìn)急診。
產(chǎn)品層面的冷思考
這場測試暴露的不是技術(shù)天花板,而是產(chǎn)品設(shè)計(jì)的選擇。
開放式對(duì)話是用戶體驗(yàn)的賣點(diǎn),卻成了質(zhì)量控制的死角。廠商可以優(yōu)化封閉式場景的表現(xiàn),但真人不會(huì)配合你的格式。
引用功能本是信任錨點(diǎn),現(xiàn)在成了幻覺(hallucination)的幫兇。40%的完整度說明系統(tǒng)沒做嚴(yán)格的事實(shí)核查,只是生成"看起來像引用"的文本。
確定性表達(dá)是訓(xùn)練目標(biāo)的副產(chǎn)品——模型被優(yōu)化成" helpful and confident",但醫(yī)療場景需要"謹(jǐn)慎且透明"。目標(biāo)函數(shù)和場景需求錯(cuò)位。
DeepSeek、Grok這類新玩家入場時(shí),醫(yī)療安全顯然不是優(yōu)先級(jí)。快速迭代、搶占心智,留下的是一地雞毛。
用戶該怎么辦
研究團(tuán)隊(duì)的結(jié)論很克制:AI可以幫你整理信息、準(zhǔn)備問診問題,但別用來做醫(yī)療決策。
翻譯成人話——當(dāng)維基百科用可以,當(dāng)醫(yī)生用會(huì)出事。
更實(shí)用的建議是:看到帶引用的健康回答,順手點(diǎn)進(jìn)去看一眼。如果鏈接失效、標(biāo)題對(duì)不上、或者根本搜不到,那整段話都值得懷疑。
廠商端的壓力測試應(yīng)該成為標(biāo)配。不是測"能不能答",是測"開放式場景下錯(cuò)多少、錯(cuò)多狠"。
一個(gè)尷尬的行業(yè)現(xiàn)狀
醫(yī)療AI賽道燒了幾百億美元,聊天機(jī)器人卻連基礎(chǔ)問答都翻車。不是因?yàn)榧夹g(shù)做不到,而是因?yàn)闆]人愿意為"不 flashy"的安全投入買單。
Gemini們忙著做多模態(tài)、搞實(shí)時(shí)搜索,醫(yī)療準(zhǔn)確性的優(yōu)先級(jí)排第幾?財(cái)報(bào)不會(huì)告訴你,但這項(xiàng)研究打了分。
最諷刺的是用戶預(yù)期管理。模型越像人、越自信,用戶越難保持警惕。而醫(yī)療場景恰恰需要用戶保持警惕。
產(chǎn)品設(shè)計(jì)的悖論:你優(yōu)化的是engagement(用戶參與度),埋的雷是trust(信任)的濫用。
這項(xiàng)研究的價(jià)值,在于用可量化的方式戳破了幻覺。50%的問題率不是終點(diǎn),是基線——而且是在被" stress test"(壓力測試)的情況下。日常使用中,用戶不會(huì)故意刁難模型,但模型也不會(huì)主動(dòng)承認(rèn)自己不知道。
下次再問AI健康問題時(shí),記得:它的自信是訓(xùn)練出來的,不是你的病情真的簡單。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.