我們?cè)谇懊娴奈恼吕镉懻撨^(guò)稀疏嵌入的基本思路,其中詞頻(TF)方法有一個(gè)明顯短板:當(dāng)文檔里的某個(gè)詞反復(fù)出現(xiàn)時(shí),TF分?jǐn)?shù)會(huì)過(guò)度偏向高頻詞,反而淹沒(méi)了真正關(guān)鍵的稀有術(shù)語(yǔ)。為了修補(bǔ)這個(gè)缺陷,研究者給出了逆文檔頻率(IDF)這個(gè)視角。
IDF的核心邏輯很簡(jiǎn)單——一個(gè)詞在整個(gè)文檔庫(kù)里出現(xiàn)的頻率越低,它的信息價(jià)值越高。IDF會(huì)計(jì)算詞的“稀有度”:越是稀有的詞,IDF分?jǐn)?shù)就越高;如果某個(gè)詞幾乎在每篇文檔里都能找到,那它的IDF分?jǐn)?shù)就非常低。用IDF來(lái)查詢時(shí),高頻詞的檢索結(jié)果往往質(zhì)量平平,而用稀有詞去搜,命中內(nèi)容的精準(zhǔn)度會(huì)明顯提升。但這個(gè)方法也有直接的局限。
![]()
舉個(gè)具體場(chǎng)景:假如你在搜索“Kubernetes”這個(gè)術(shù)語(yǔ),它恰好在文檔庫(kù)中只出現(xiàn)在某一篇文檔里。IDF機(jī)制會(huì)把這唯一命中的文檔推給你,問(wèn)題在于,這篇文檔可能只是順帶提了一次Kubernetes,根本沒(méi)有做深入介紹。于是返回的結(jié)果雖然精確,但在內(nèi)容深度上可能并不實(shí)用。這正是IDF只關(guān)心詞的存在與否,卻忽略了詞語(yǔ)在單篇文檔內(nèi)的重要性所導(dǎo)致的盲區(qū)。
于是自然催生了TF-IDF方案:把TF和IDF的分?jǐn)?shù)直接相乘。這樣一來(lái),一個(gè)詞既要對(duì)當(dāng)前文檔足夠重要(TF高),又要在全局看來(lái)足夠稀少(IDF高),才能在排序中得到更高的權(quán)重。TF-IDF比單純的TF或IDF更能平衡局部與全局的信號(hào)。在此基礎(chǔ)上,BM-25算法(Best Match 25)進(jìn)一步優(yōu)化了權(quán)重計(jì)算方式,其中“25”指的是排序時(shí)重點(diǎn)考慮前25個(gè)匹配詞。實(shí)際應(yīng)用表明,BM-25在大多數(shù)情況下能給出比傳統(tǒng)TF-IDF更貼合需求的結(jié)果。
但歸根結(jié)底,基于稀疏嵌入的方法做的是關(guān)鍵詞匹配,很難獨(dú)自撐起一個(gè)完整的RAG(檢索增強(qiáng)生成)流程。真正發(fā)揮兩者長(zhǎng)處的做法,是將稀疏嵌入的關(guān)鍵詞搜索與密集嵌入的語(yǔ)義相似度結(jié)合起來(lái),這就是所謂的混合搜索。在實(shí)踐中,密集嵌入部分可以使用句子轉(zhuǎn)換器(sentence transformer)來(lái)捕捉語(yǔ)義層面的關(guān)聯(lián),而稀疏嵌入部分則交由BM-25算法負(fù)責(zé)精確的關(guān)鍵詞命中。這種雙路召回策略,正在讓RAG系統(tǒng)的檢索質(zhì)量向前邁出一大步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.