做AI文檔搜索的人,大概都迷信過一件事:語義理解終將淘汰關(guān)鍵詞匹配。就像智能手機淘汰功能機,只是時間問題。
作者也是這么想的。他給處理PDF的AI Agent搭了兩套搜索系統(tǒng),一套用向量嵌入,一套用老派的關(guān)鍵詞匹配。測試前幾輪,語義搜索的表現(xiàn)堪稱教科書——搜"income growth",它能找到寫著"revenue increased"的頁面,倆詞完全不沾邊,意思卻精準(zhǔn)命中。關(guān)鍵詞搜索當(dāng)場懵圈,這局毫無懸念。
直到他隨手輸了一個發(fā)票號。
語義搜索居然也返回了正確頁面。但作者很快發(fā)現(xiàn)不對勁:系統(tǒng)根本沒"理解"那個數(shù)字,它只是碰巧把發(fā)票號所在的段落和某個查詢向量算成了近鄰。「The tool found the right page. But it found it for the wrong reason.」換句話說,換一份真實文檔,這頁根本不會出現(xiàn)。
關(guān)鍵詞搜索反而穩(wěn)得很。發(fā)票號就是發(fā)票號,匹配就是匹配,不搞玄學(xué)。
作者最后把兩套系統(tǒng)都保留了。語義搜索負責(zé)"大概什么意思",關(guān)鍵詞兜底"具體是什么"。這個組合看起來不夠優(yōu)雅,但在真實業(yè)務(wù)場景里,沒人關(guān)心你的技術(shù)路線夠不夠先進——只關(guān)心發(fā)票號能不能找對。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.