Make Any Collection Navigable: Methods for Constructing and Evaluating Hypergraph of Text
構(gòu)建和評估文本超圖的方法
https://arxiv.org/pdf/2604.25906
![]()
![]()
摘要
網(wǎng)絡(luò)比簡單的文檔集合更有用的一個原因是,超鏈接所創(chuàng)建的結(jié)構(gòu)使得能夠從一個網(wǎng)頁靈活地導(dǎo)航到另一個網(wǎng)頁。然而,超鏈接通常是手動創(chuàng)建的,且無法完全捕捉語料庫的隱含語義結(jié)構(gòu)。是否存在一種通用方法使任意集合可導(dǎo)航?近期的工作通常將這一問題形式化為構(gòu)建文本超圖(Hypergraph of Text, HoT),它為支持導(dǎo)航和瀏覽提供了形式化的數(shù)學(xué)結(jié)構(gòu)。然而,如何構(gòu)建和評估文本超圖仍然是一個挑戰(zhàn)。在本文中,我們提出并研究了幾種構(gòu)建HoT的方法。我們還提出了一種新的定量指標(biāo)——努力比率(effort ratio),用于評估所構(gòu)建HoT的結(jié)構(gòu)質(zhì)量。實驗結(jié)果表明,即使簡單的TF-IDF基線方法在我們提出的努力比率指標(biāo)上也能與基于LLM的方法相媲美。
1 引言
盡管過去幾十年信息檢索領(lǐng)域取得了巨大進步,但在分散的集合中發(fā)現(xiàn)和導(dǎo)航相關(guān)內(nèi)容仍然是一個挑戰(zhàn)。雖然大語言模型(LLM)的最新進展在一定程度上解決了這一挑戰(zhàn)(特別是通過直接支持問答),但對其可靠性的擔(dān)憂[14]以及它們無法獲取最新信息限制了其實用性。如何使用戶能夠直接訪問并發(fā)現(xiàn)最相關(guān)的原始信息仍然是一個開放的挑戰(zhàn)。
雖然搜索引擎和像ChatGPT這樣的LLM工具有助于幫助人們找到相關(guān)信息,但它們要求用戶構(gòu)建有效的查詢或問題,因此在存在詞匯鴻溝時限制了其實用性。此外,它們在幫助用戶發(fā)現(xiàn)相關(guān)但未知的信息方面作用有限。
瀏覽被提出作為一種克服這些困難的方法,它使用戶能夠探索信息空間,而無需任何關(guān)于如何構(gòu)建查詢、文檔集合中使用何種詞匯,或集合中究竟包含什么內(nèi)容的先驗知識。與LLM問答系統(tǒng)相比,瀏覽允許更大程度的用戶自主性和更清晰的信息出處,同時比傳統(tǒng)搜索允許更多的意外發(fā)現(xiàn)。這些特征使其成為探索式信息檢索或集合理解等任務(wù)的一個有吸引力的范式。
盡管瀏覽長期以來一直受到信息檢索和網(wǎng)絡(luò)社區(qū)中許多人的關(guān)注(例如見[6–8, 10, 11, 19, 25, 26, 34]),但與支持搜索和問答的技術(shù)相比,在支持瀏覽的通用技術(shù)方面的研究進展相對較少。瀏覽與搜索或問答之間的一個關(guān)鍵區(qū)別在于,雖然搜索和問答已經(jīng)享有統(tǒng)一的數(shù)學(xué)框架和直觀的定量指標(biāo),但瀏覽卻沒有。因此,盡管許多先前的研究都主張需要支持瀏覽(例如見[7, 19, 34]),并且在瀏覽方面已經(jīng)做了大量工作,但仍然缺乏一種通用工具來組織任意的文本集合并實現(xiàn)整個空間的導(dǎo)航;今天的用戶大多只能通過手動創(chuàng)建的鏈接進行導(dǎo)航,例如網(wǎng)絡(luò)上的眾多超鏈接。
最近,文本超圖(HoT)[4]被提出作為一種數(shù)學(xué)結(jié)構(gòu),用于將任意文本文檔集合組織成超圖語義結(jié)構(gòu)并使其可導(dǎo)航。其直觀想法是,超邊提供了一種定義任何語義鄰域的通用方法,這是實現(xiàn)語義導(dǎo)航的關(guān)鍵概念。HoT可以作為構(gòu)建通用導(dǎo)航系統(tǒng)的理論框架,其意義在于可以將任何可瀏覽的文檔集合表示為HoT,并且任何HoT都可以在統(tǒng)一界面上進行可視化瀏覽。事實上,文本信息導(dǎo)航工具包[5]可用于可視化任何HoT,并使用戶能夠?qū)Ш接蒆oT表示的信息空間。
然而,如何構(gòu)建HoT以及如何評估HoT為用戶提供的瀏覽支持的實用性,仍然是未被充分研究的開放性挑戰(zhàn)問題;原始工作[4]僅介紹了一種單一方法,且僅進行了定性評估。在本文中,我們試圖通過研究如何應(yīng)對這兩個挑戰(zhàn)來解決這一知識空白。具體而言,我們研究了幾種HoT構(gòu)建方法,例如LLM、嵌入和TF-IDF過濾。我們通過提出一種新指標(biāo)來解決評估挑戰(zhàn),該指標(biāo)量化了HoT超邊對瀏覽的實用性。使用所提出的評估方法,我們在一個網(wǎng)絡(luò)數(shù)據(jù)集上系統(tǒng)比較了多種HoT構(gòu)建方法。實驗結(jié)果表明,雖然各種方法都能創(chuàng)建有效的鏈接,但每種方法都涉及不同的權(quán)衡,并且在結(jié)構(gòu)導(dǎo)航方面,基于LLM的方法并不總是優(yōu)于更簡單的統(tǒng)計方法。
總之,本文的貢獻包括: (1)我們提出并研究了三種方法(TF-IDF過濾、LLM主題提取和兩步“相似度-后接LLM”)來解決HoT構(gòu)建問題。 (2)我們提出了一種新指標(biāo),它使得能夠?qū)oT構(gòu)建算法進行定量評估。 (3)我們進行實驗以評估HoT構(gòu)建算法,發(fā)現(xiàn)LLM-doc實現(xiàn)了最低的努力比率,但代價是38%的相關(guān)對未連接,而基于TF-IDF的All-Words方法盡管成本低幾個數(shù)量級,但在結(jié)構(gòu)上仍具有競爭力。
總體而言,我們的工作展示了基于HoT構(gòu)建開發(fā)支持瀏覽的通用技術(shù)的巨大潛力。
2 相關(guān)工作
信息抽取: 信息抽取[38]已被廣泛研究數(shù)十年,近期的一些工作側(cè)重于抽取實體和關(guān)系以構(gòu)建知識圖譜[42]。傳統(tǒng)方法依賴于監(jiān)督學(xué)習(xí),特別是條件隨機場方法[16, 28],并且更側(cè)重于預(yù)定義的實體和關(guān)系類型。后來的方法探索了如何使用開放實體和關(guān)系進行信息抽取[21]。 近期,大語言模型已被用于知識圖譜構(gòu)建[23, 36]。盡管知識圖譜可用于組織文本數(shù)據(jù),但其對文本內(nèi)容的覆蓋僅限于知識圖譜中包含的實體和關(guān)系;相比之下,為HoT構(gòu)建生成的鏈接覆蓋整個信息空間,并使用戶能夠?qū)Ш降叫畔⒖臻g中潛在的任何區(qū)域。就所抽取的信息而言,HoT構(gòu)建旨在抽取主題信息,而信息抽取更側(cè)重于抽取實體和關(guān)系。HoT構(gòu)建中抽取的信息對支持用戶導(dǎo)航更有用,而抽取的實體和關(guān)系往往對構(gòu)建知識圖譜更有用,以進一步支持自然語言處理中的各種下游應(yīng)用。
主題模型: 概率主題模型[1, 31]是發(fā)現(xiàn)和分析文本數(shù)據(jù)中所涵蓋主題的通用技術(shù)。抽取出的主題通常表示為詞分布。發(fā)現(xiàn)的主題及其在文檔中的覆蓋范圍有許多應(yīng)用,尤其是意見分析、時空主題趨勢分析以及基于主題的文檔表示。與我們工作最相關(guān)的是,使用主題模型從文本中發(fā)現(xiàn)的主題結(jié)構(gòu)也可用于組織文本。然而,這種結(jié)構(gòu)在支持用戶導(dǎo)航方面存在各種局限性[4](例如,只能很好地覆蓋主要主題)。HoT中的超邊可以覆蓋所有類型的語義鏈接,并在文本片段級別進行覆蓋。因此,它們在支持導(dǎo)航方面比主題模型更有用。
文本聚類: HoT構(gòu)建也可以與文本聚類[2, 3]和分段[22]相關(guān)聯(lián)。盡管這兩項任務(wù)都專注于對文本集合進行分組,但傳統(tǒng)的聚類方法將對象劃分到非重疊的集合中。這使得傳統(tǒng)文本聚類方法不適合HoT構(gòu)建,因為具有非重疊超邊的HoT僅能實現(xiàn)簇內(nèi)導(dǎo)航。相比之下,HoT允許超邊重疊,這意味著節(jié)點可以是多個集合的成員。這實現(xiàn)了更廣泛的連接性,使其成為支持瀏覽的更合適框架。
語義匹配、超鏈接生成與語義標(biāo)注: 在文本語義匹配方面已開展了大量工作[17, 18],主要用于信息檢索、問答、文本聚類和抄襲檢測等應(yīng)用[13]。一些近期方法基于大語言模型[39]。一些工作(例如[27])也使用相似度度量來創(chuàng)建鏈接,從而將線性文本轉(zhuǎn)換為超文本。實際上,超文本和超鏈接的自動生成也得到了廣泛研究[35, 37]。雖然語義文本匹配和自動超鏈接生成實現(xiàn)的文檔點對點鏈接確實可以促進瀏覽,但它們無法實現(xiàn)主題瀏覽。由于HoT既能實現(xiàn)點對點瀏覽(通過大小為2的超邊)又能實現(xiàn)主題瀏覽,它是一個比舊范式更通用的框架。 一些近期工作也探索了使用大語言模型對文本數(shù)據(jù)進行語義標(biāo)注(例如[9, 32],其中可以將層次結(jié)構(gòu)中的語義標(biāo)簽分配給文本文檔,實質(zhì)上實現(xiàn)了層次化文本分類。與文本聚類類似,該任務(wù)的目標(biāo)與HoT構(gòu)建相似。事實上,語義標(biāo)注與HoT更為接近,因為各組具有自然語言標(biāo)簽。然而,與文本聚類一樣,語義標(biāo)注/標(biāo)記通常專注于將文本分類到互不相交的組中。盡管我們可以從其方法中汲取靈感,但由于HoT構(gòu)建專注于瀏覽,要求節(jié)點屬于多個組,HoT與語義標(biāo)注的計算任務(wù)最終是不同的。
大語言模型(LLMs): 近年來,大語言模型在許多自然語言處理[20]和信息檢索任務(wù)[40]中的應(yīng)用工作呈爆炸式增長,例如文本摘要[41]、信息抽取[36]和問答[29]。我們的工作引入了大語言模型用于HoT構(gòu)建的新應(yīng)用,這在此前尚未被探索,并直接支持大型文檔空間中的語義瀏覽。
3 文本超圖
如前所述,盡管用戶在信息搜尋中同時使用查詢和瀏覽,但對查詢的支持遠比對瀏覽的支持成熟。盡管搜索引擎技術(shù)已取得巨大進步,但我們尚無任何類似的通用技術(shù),能將任意分散內(nèi)容集合轉(zhuǎn)化為組織良好的鏈接內(nèi)容以提供通用瀏覽支持。這里的一個主要障礙是將瀏覽形式化為計算問題的困難;如果沒有為瀏覽定義明確的計算問題,就很難研究或評估任何算法。 一項近期研究表明,可瀏覽的集合可以正式表示為文本超圖(HoT)[4]。這項工作為如何消除這一長期存在的障礙提供了一些思路,因為我們現(xiàn)在可以將支持瀏覽的問題正式定義為一個計算問題,其中輸入是任意文檔集合,輸出是以每個文檔為節(jié)點的HoT。因此,HoT可以作為組織分散內(nèi)容的通用數(shù)學(xué)結(jié)構(gòu)。以這種方式構(gòu)建瀏覽問題的一個顯著好處是,一旦構(gòu)建了HoT,就可以使用通用系統(tǒng)(如TINK系統(tǒng)[5])將其可視化顯示給用戶進行瀏覽。這意味著同一個瀏覽系統(tǒng)可用于支持瀏覽任何HoT。因此,如何提供通用瀏覽支持的整個問題現(xiàn)在可以歸結(jié)為如何為任意文檔集合構(gòu)建HoT。本文的一個主要目標(biāo)是開發(fā)用于構(gòu)建HoT的算法,并且關(guān)鍵的是,開發(fā)一種評估已構(gòu)建HoT的方法。
作為背景,我們首先簡要介紹文獻 [4] 中提出的文本超圖(Hypergraph of Text, HoT)結(jié)構(gòu)。我們從其定義開始:
定義 3.1(文本超圖)。
![]()
這一定義可以看作是文本圖(textual graph)的泛化,當(dāng)應(yīng)用于文本集合時,它為導(dǎo)航和各種類型的分析提供了基礎(chǔ)。
持懷疑態(tài)度的讀者可能會問:超越圖(graphs)進行泛化有什么好處?為了回答這個問題,我們可以回顧瀏覽方面的基礎(chǔ)性工作。在闡述信息系統(tǒng)“采莓模型”(berrypicking model)的開創(chuàng)性著作 [7] 中,Bates 闡述了六種瀏覽技術(shù):
(1) 腳注追蹤(Footnote chasing)
(2) 引用搜索(Citation searching)
(3) 期刊瀏覽(Journal run)
(4) 區(qū)域掃描(Area scanning)
(5) 主題搜索(Subject searching)
(6) 作者搜索(Author searching)
我們對 Bates 的這六種方法有以下觀察:在這六種方法中,只有腳注追蹤和引用搜索是點對點的。在另外四種方法中,用戶感興趣的是文檔組(在作者搜索中是作者組,在其余方法中是主題組)。因此,為了最好地支持所有瀏覽模式,我們需要一種既能支持點對點連接(如同標(biāo)準(zhǔn)圖那樣)又能支持 N 元連接(n-ary connections)的結(jié)構(gòu)。超圖正是這種結(jié)構(gòu)。
4 方法
在本節(jié)中,我們討論三種 HoT 構(gòu)建方法及其相應(yīng)的實現(xiàn)。第一種方法“All-Words”(全詞法)將文檔中的所有單詞視為一個超邊,然后使用 TF-IDF 分?jǐn)?shù)對超邊進行加權(quán)和剪枝。第二種方法“LLM-Doc”和“LLM-Sentence”利用大語言模型(LLMs)在句子和文檔兩個層面提取主題。最后,我們要提出的基于相似度的兩步法結(jié)合了語義相似度測量與 LLM 引導(dǎo)的主題提取,試圖解決前述方法的弱點。
在討論這些方法時,我們會提到使用 LLM 和句子轉(zhuǎn)換器(sentence transformer)。在我們的實現(xiàn)中,我們使用 llama3-8b-instruct [12] 作為我們的 LLM。對于句子轉(zhuǎn)換器,我們利用 sentence transformers 包 [24],并選用 All-MiniLM-L6-v2 作為我們的特定模型 [33]。這些方法的完整代碼,包括 LLM 提示詞(prompts),將在 GitHub 上公開。
4.1 All-Words(全詞法)
這種方法背后的核心思想是將文檔之間共享的“所有單詞”(All words)視為一個潛在的超邊。自然地,包含所有單詞對于導(dǎo)航或分析來說是多余的。因此,我們只包含那些具有較高平均 TF-IDF 分?jǐn)?shù)的單詞(即按平均 TF-IDF 衡量的前 n% 的超邊)。
![]()
![]()
4.2 LLM-Doc 和 LLM-Sentence
先前的工作表明 LLM 可用于創(chuàng)建 HoT [4]。具體而言,他們將每個文檔拆分為句子,并提示 LLM 提取每個句子的主題并將其輸出為列表。先前的工作指出,這種方法產(chǎn)生的主題數(shù)量比文檔數(shù)量多出兩個數(shù)量級。為了避免這種情況,我們提出了一種額外的基于 LLM 的 HoT 構(gòu)建方法。該方法與先前的方法大體相似,不同之處在于主題是在文檔級別而非句子級別提取的。
4.3 兩步相似度(Two-Step Similarity)
對先前方法的初步調(diào)查表明,雖然 LLM 顯示出前景,但也并非沒有問題。具體而言,句子級別的方法傾向于產(chǎn)生過多的超邊,而文檔級別的方法則傾向于產(chǎn)生過少的超邊。為了使 LLM 專注于提取既具有細粒度細節(jié)又與集合相關(guān)的主題,我們建議首先選取句子對,然后使用 LLM 提取這些預(yù)定句子之間的語義鏈接。
為了確保我們只考慮最具信息量的句子,我們使用了一個結(jié)合 TF-IDF 分?jǐn)?shù)和嵌入余弦相似度的兩步過濾過程。我們計算每個句子的平均 TF-IDF 分?jǐn)?shù),從而可以用一個單一的數(shù)字來表示句子的重要性。平均 TF-IDF 分?jǐn)?shù)如下所示,其中 的緩存 TF-IDF 向量表示:
![]()
我們計算每個文檔中每個句子的上述分?jǐn)?shù)。然后,我們按文檔對分?jǐn)?shù)進行排序,并僅保留每個文檔中排名前 k 的句子。
在過濾步驟之后,我們接下來希望利用句子嵌入來為每個句子尋找最相似的句子。盡管由于先前的過濾步驟該方法已經(jīng)提速,但我們?nèi)允褂?FAISS 的 GPU 版本 [15] 以確保高效執(zhí)行。最后,根據(jù)以下邏輯選擇前 k 個句子對:首先嘗試選擇余弦相似度最高的句子對,且不重復(fù)句子或文檔;如果無法做到,則允許重復(fù)以填補剩余的句子對。選擇這種方法而不是簡單地按余弦相似度選擇前 k 個對,是為了促進連接的多樣性。
對于每一對句子,我們使用 LLM 提取共同主題。每個共同主題成為一個超邊,包含來自該對的文檔。任何后續(xù)被發(fā)現(xiàn)也共享此主題的文檔都會相應(yīng)地添加到該超邊中。與“All-Words”方法不同,該方法在無需任何額外剪枝的情況下就相當(dāng)可用。然而,該方法確實會產(chǎn)生大量基于僅由兩個文檔共享的主題的語義鏈接。雖然超邊擁有兩個成員是明確定義的,但人們也可能希望剪枝這些大小為 2 的超邊,以聚焦于更實質(zhì)性的主題組。我們在結(jié)果中探討了剪枝版本和未剪枝版本。
5 評估 HoT 構(gòu)建
如何評估 HoT 構(gòu)建是一個具有挑戰(zhàn)性的問題。確實,目前尚無先前的定量指標(biāo)能夠表明用于瀏覽目的的 HoT 的質(zhì)量。這一挑戰(zhàn)因存在許多潛在有用的創(chuàng)建超邊的方法而變得更加復(fù)雜。為了緩解這一問題,我們引入了一種通用方法論,用于定量評估 HoT 結(jié)構(gòu)的質(zhì)量。
![]()
![]()
![]()
![]()
![]()
![]()
努力比為 1 表示相對于隨機導(dǎo)航?jīng)]有優(yōu)勢;低于 1 的值表示相關(guān)文檔比隨機文檔距離更近;高于 1 的值則表明相關(guān)文檔之間的距離反常地比隨機集合更遠。直觀地說,如果 DRel = 2 且 DRand = 5,那么 ER = 0.4,這意味著在相關(guān)節(jié)點之間導(dǎo)航所需的平均跳數(shù)僅為在隨機節(jié)點對之間導(dǎo)航所需跳數(shù)的 40%。
這個努力比將是我們用于評估的主要指標(biāo)。值得重申的是,這種評估方法和這些指標(biāo)對于評估 HoT 構(gòu)建是非常通用的。雖然我們在實驗中選擇了一類特定的數(shù)據(jù)集,但有許多方法可以找到具有已知相關(guān)性的文檔。一些例子包括網(wǎng)絡(luò)日志、綜述論文和問答數(shù)據(jù)集。
5.1 努力比的屬性
努力比具有若干關(guān)鍵特性,使其非常適用于評估超文本(HoT)的構(gòu)建。在本節(jié)中,我們將花一些時間逐一探討這些特性。我們首先從幾個有用的定義開始。
![]()
換句話說,如果超邊中至少有 α 比例的(無序)文檔對彼此相關(guān),則該超邊是 α -相關(guān)性對齊的。同樣地,如果少于 β 比例的文檔對彼此相關(guān),則該超邊是 β -非相關(guān)性對齊的。請注意,分子和分母計算的都是無序?qū)Γ虼嗽摫嚷饰挥? [ 0 , 1 ] 之間。
定義 5.3(飽和度度量)。 對于超圖 H ,我們定義以下兩個飽和度度量:
![]()
![]()
![]()
![]()
![]()
![]()
這里的關(guān)鍵見解在于,除了在超圖結(jié)構(gòu)高度不平衡且隨機節(jié)點比相關(guān)節(jié)點連接得更緊密的異常情況下,努力比會對添加那些連接了更多不相關(guān)文檔(而非相關(guān)文檔)的超邊進行懲罰。這正是我們在導(dǎo)航指標(biāo)中所期望的行為。
導(dǎo)航指標(biāo)的另一個理想特性是能夠懲罰過載。也就是說,我們不想給那些僅僅通過濫加邊來實現(xiàn)良好連接的方法打高分。我們需要一個能對超圖中邊的總數(shù)產(chǎn)生一定正則化作用的指標(biāo)。這就引出了我們的下一個結(jié)果。
![]()
![]()
![]()
5.1.3 努力比的局限性。 雖然努力比允許對 HoT(超文本主題)進行定量評估,但它確實有兩個關(guān)鍵的局限性。首先,如果超圖包含不連通的組件,它的定義就不明確(或無法良好定義)。這是該指標(biāo)基于節(jié)點間距離這一事實的直接結(jié)果。因此,在考慮努力比時,應(yīng)始終結(jié)合考慮項目不連通的嚴(yán)重程度。出于這個原因,我們提出了另一個指標(biāo):相關(guān)斷開比例(Relevant Disconnect Proportion, RDP)。這個指標(biāo)僅僅是指彼此不連通的相關(guān)文檔對的比例。結(jié)合努力比來看,RDP 讓我們能夠知道 HoT 構(gòu)建方法是否本質(zhì)上是通過選擇偏差來“欺騙”該指標(biāo)。
![]()
6 實驗結(jié)果
在我們的實驗中,我們在一個 MultiHop-RAG 問答數(shù)據(jù)集 [30] 上使用了第 5 節(jié)提出的指標(biāo)。該數(shù)據(jù)集包含 609 篇文章和 2556 個多跳查詢,這些查詢分布在 2 到 4 篇文檔之間。雖然 MultiHop-RAG 論文未指明任何主題分布,但人工檢查顯示其主題包括時事、金融市場與股票、體育賽事以及電子游戲。出于實驗?zāi)康模覀儗⒚總€與文檔關(guān)聯(lián)的查詢視為一組彼此相關(guān)的文檔集合。這意味著我們的集合 R R(如第 5 節(jié)所述)是一個包含 2556 個元素的集合族,其中每個成員集合的大小為 2 到 4。
我們的實驗揭示了不同 HoT 構(gòu)建方法在性能上的有趣差異。結(jié)果總結(jié)于表 1。在深入結(jié)果之前,首先值得注意每種方法的相對計算需求。兩種"全詞"(All-Words)方法相當(dāng)輕量,不需要任何具備機器學(xué)習(xí)能力的硬件。而基于 LLM 的方法計算需求則高得多,需要大量的 LLM 調(diào)用。兩步式 LLM 方法同樣需要 LLM 調(diào)用,但由于存在過濾步驟,其調(diào)用量顯著減少。
![]()
LLM 類方法表現(xiàn)出最大的方差:其中句子級方法和文檔級方法分別獲得了最高(非隨機)和最低的努力比。這或許并不令人意外,因為這兩種方法在超邊數(shù)量上也顯示出最大差異——句子級方法的超邊數(shù)量比文檔級方法高出一個數(shù)量級。雖然文檔級方法在所有提出的方法中實現(xiàn)了最低的努力比,但值得注意的是,近 40% 的相關(guān)文檔對處于斷開狀態(tài)。由于斷開的文檔無法計入平均距離(否則會使平均距離變?yōu)闊o窮大),該方法具有最低的努力比可能表明它僅能建立那些"容易"的連接。斷開率較低的方法必須處理這些"困難"的連接,而這些連接通常相距更遠,因此會對其平均相關(guān)距離造成懲罰。
相比之下,"全詞"方法和"兩步"方法均取得了努力比在 0.50 至 0.60 范圍內(nèi)的結(jié)果。盡管"全詞"方法的超邊數(shù)量較少,但兩種變體均表現(xiàn)良好。需要注意的是,"全詞"方法創(chuàng)建的語義鏈接是單詞主題,這是其語義鏈接的質(zhì)量局限。例如,除非一個人能輕易通過單個名字被識別(如柏拉圖),否則該方法無法很好地捕捉與該人物相關(guān)的主題。"兩步"方法則沒有這一缺點。由于"兩步"方法的運行時間遠比"全詞"方法長,最佳方法的選擇可能取決于用戶的限制條件和使用場景,因為每種方法各有優(yōu)劣。在預(yù)算受限的場景下,或在主題細微差別不太重要的場景中,top-5% 的"全詞"方法在努力比上僅比"兩步"方法高出 0.02,但其超邊數(shù)量僅為后者的五分之一,且無需調(diào)用 LLM。
7 局限性
作為對超文本主題(HoT)構(gòu)建的初步研究,我們僅在一個數(shù)據(jù)集上研究了 HoT 構(gòu)建。在未來,重要的是通過使用所提出的模擬評估策略在更多數(shù)據(jù)集上進行實驗,以進一步驗證我們的發(fā)現(xiàn)。一旦構(gòu)建了 HoT,就可以應(yīng)用多種算法(例如隨機游走、路徑發(fā)現(xiàn)、異常發(fā)現(xiàn))對 HoT 進行后處理,以揭示文本數(shù)據(jù)中許多有趣的潛在語義模式(例如爭議分析、對比分析或關(guān)聯(lián)分析)。此外,雖然定量評估使我們能夠比較多種 HoT 構(gòu)建方法,但從用戶角度來看,HoT 構(gòu)建的實際效用仍需通過用戶研究進行進一步評估。
8 結(jié)論與未來工作
在本文中,我們研究了如何構(gòu)建文本超圖(Hypergraph of Text, HoT),以語義化地組織任意文本集合,從而支持導(dǎo)航。我們研究了三種執(zhí)行 HoT 構(gòu)建的方法,包括利用大語言模型(LLM)的方法。為了定量評估瀏覽效果,我們提出了一種新穎的評估指標(biāo):努力比(effort ratio)。我們的實驗結(jié)果表明,雖然各種方法都能夠生成潛在有用的鏈接,但每種方法各有優(yōu)劣。以 HoT 為基礎(chǔ),我們的工作朝著開發(fā)一種通用技術(shù)邁出了一步,該技術(shù)旨在支持用戶瀏覽任意文檔集合,具有廣泛的應(yīng)用前景。一個重要的下一步是通過真實的用戶研究進一步驗證這些指標(biāo)和算法。另一個有前景的未來方向是將所提出的算法應(yīng)用于特定的應(yīng)用場景,例如構(gòu)建 HoT 來組織搜索結(jié)果、研究論文集合、組織由一群人創(chuàng)建的任何共享數(shù)字圖書館(例如班級中的學(xué)生論文),或組織任何個人內(nèi)容文件夾。
原文鏈接:https://arxiv.org/pdf/2604.25906
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.