一位字節員工的醫生媳婦跟他吐槽:當病人學會了AI看病,我解釋起來有種欲哭無淚的感受......。而作為研發大模型的老公,一時不知道該怎么安慰她了。
![]()
關于現在很多病人學會用AI看病,我記著曾經看過一位知名三甲醫生是這樣的一種看法。他在視頻中表示:醫生有時候也會用AI提升工作效率,但是跟病人最大的不同是,他們是帶著批判的眼光,AI給出的回答不能它說什么就是什么,肯定是根據自身的醫學知識去篩選有用的、正確的。曾經他用AI搜索關于一個醫學論題的知識文獻,發現系統給他胡謅了一篇文獻知識。他后面經過閱讀發現,AI把兩篇觀點類似的文獻混為一談,給出了完全錯誤的答案。這些在沒有專業醫學知識的患者那里是根本發現不了的。
他在工作實踐中發現:參考AI看一些簡單的小毛病準確率挺高的,然而越是疑難雜癥,越容易“胡說”。AI普及的時代,可以用來做一些醫學科普挺不錯的,但是把AI當成看病神器那就本末倒置了。
大喇叭對此深有感受,我用AI一般是在某些突發情況下查詢某個自己不了解的知識使用,但是在使用過程中,發現有時候真的會出錯。就比如一道初中數學題,我用了兩、三個主流AI平臺,發現有的是計算錯誤,也有思路錯誤的。思路錯誤我還要跟它不停地掰扯糾正思路,但AI還挺固執的,堅持認為自己是對的。所以,對于某些專業領域來說,還是以行業權威為準,去醫院的話肯定是以醫生說的為準。即便你認為醫生不對,所做的應該是多看幾家,而不是一直盲目聽從AI。
AI為什么會出錯,特別是它會一本正經的胡說八道,行業內叫做出現“幻覺”。其實,這些從技術的角度看,除了模型理解、推理能力弱,更大的原因是數據訓練方面出現問題。
1、訓練數據有缺陷。大模型可能把互聯網上的一些錯誤信息納入訓練數據庫中,導致用戶在詢問時出現錯誤的回答。曾經有研究發現,大模型在數據訓練過程中,僅僅有 0.01% 的錯誤文本時,錯誤輸出的概率會提升至 11.2%。
2、知識覆蓋不全。特別是一些冷門、小眾的領域,由于專業數據、實時事件在訓練數據庫的出現次數較少,就好比你對某項領域內容了解不對,在回答這個領域的問題時,很大概率會出現錯誤。
3、引用的信息時間有限制。AI在訓練數據的時候存在知識截止時間,所以不知道截止日后發生的事情也是經常發生。所以,現在很多模型需要聯網回答,提升準確度。
用簡單,通俗且易懂的話來回答。那就是,任何大模型(AI)的核心是通過統計概率生成文本的,它并不真正理解語義,學的是"說話的模式"而不是"事實"。當遇到訓練數據不足或者數據庫中沒有的問題時,它會按最相似的模式"腦補"拼湊出一個看起來通順合理,實則漏洞百出的回答。就像我們學習英語,記憶了很多單詞但不知道語法,最終寫出來的句子,看似沒問題,但已經錯誤很多。
這也是主流大模型在發布新版本的時候,降低整體幻覺率也是一項很重要的指標。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.