網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從詞頻到混合搜索：提升檢索質(zhì)量的稀疏嵌入技術(shù)

2026-05-30 06:42:18　來(lái)源: 硅嶼手記

北京舉報(bào)

分享至

我們?cè)谇懊娴奈恼吕镉懻撨^(guò)稀疏嵌入的基本思路，其中詞頻（TF）方法有一個(gè)明顯短板：當(dāng)文檔里的某個(gè)詞反復(fù)出現(xiàn)時(shí)，TF分?jǐn)?shù)會(huì)過(guò)度偏向高頻詞，反而淹沒(méi)了真正關(guān)鍵的稀有術(shù)語(yǔ)。為了修補(bǔ)這個(gè)缺陷，研究者給出了逆文檔頻率（IDF）這個(gè)視角。

IDF的核心邏輯很簡(jiǎn)單——一個(gè)詞在整個(gè)文檔庫(kù)里出現(xiàn)的頻率越低，它的信息價(jià)值越高。IDF會(huì)計(jì)算詞的“稀有度”：越是稀有的詞，IDF分?jǐn)?shù)就越高；如果某個(gè)詞幾乎在每篇文檔里都能找到，那它的IDF分?jǐn)?shù)就非常低。用IDF來(lái)查詢時(shí)，高頻詞的檢索結(jié)果往往質(zhì)量平平，而用稀有詞去搜，命中內(nèi)容的精準(zhǔn)度會(huì)明顯提升。但這個(gè)方法也有直接的局限。

舉個(gè)具體場(chǎng)景：假如你在搜索“Kubernetes”這個(gè)術(shù)語(yǔ)，它恰好在文檔庫(kù)中只出現(xiàn)在某一篇文檔里。IDF機(jī)制會(huì)把這唯一命中的文檔推給你，問(wèn)題在于，這篇文檔可能只是順帶提了一次Kubernetes，根本沒(méi)有做深入介紹。于是返回的結(jié)果雖然精確，但在內(nèi)容深度上可能并不實(shí)用。這正是IDF只關(guān)心詞的存在與否，卻忽略了詞語(yǔ)在單篇文檔內(nèi)的重要性所導(dǎo)致的盲區(qū)。

于是自然催生了TF-IDF方案：把TF和IDF的分?jǐn)?shù)直接相乘。這樣一來(lái)，一個(gè)詞既要對(duì)當(dāng)前文檔足夠重要（TF高），又要在全局看來(lái)足夠稀少（IDF高），才能在排序中得到更高的權(quán)重。TF-IDF比單純的TF或IDF更能平衡局部與全局的信號(hào)。在此基礎(chǔ)上，BM-25算法（Best Match 25）進(jìn)一步優(yōu)化了權(quán)重計(jì)算方式，其中“25”指的是排序時(shí)重點(diǎn)考慮前25個(gè)匹配詞。實(shí)際應(yīng)用表明，BM-25在大多數(shù)情況下能給出比傳統(tǒng)TF-IDF更貼合需求的結(jié)果。

但歸根結(jié)底，基于稀疏嵌入的方法做的是關(guān)鍵詞匹配，很難獨(dú)自撐起一個(gè)完整的RAG（檢索增強(qiáng)生成）流程。真正發(fā)揮兩者長(zhǎng)處的做法，是將稀疏嵌入的關(guān)鍵詞搜索與密集嵌入的語(yǔ)義相似度結(jié)合起來(lái)，這就是所謂的混合搜索。在實(shí)踐中，密集嵌入部分可以使用句子轉(zhuǎn)換器（sentence transformer）來(lái)捕捉語(yǔ)義層面的關(guān)聯(lián)，而稀疏嵌入部分則交由BM-25算法負(fù)責(zé)精確的關(guān)鍵詞命中。這種雙路召回策略，正在讓RAG系統(tǒng)的檢索質(zhì)量向前邁出一大步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.