網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

構(gòu)建和評估文本超圖的方法

2026-05-02 11:21:07　來源: CreateAMind

上海舉報

分享至

Make Any Collection Navigable: Methods for Constructing and Evaluating Hypergraph of Text

構(gòu)建和評估文本超圖的方法

https://arxiv.org/pdf/2604.25906

摘要

網(wǎng)絡(luò)比簡單的文檔集合更有用的一個原因是，超鏈接所創(chuàng)建的結(jié)構(gòu)使得能夠從一個網(wǎng)頁靈活地導(dǎo)航到另一個網(wǎng)頁。然而，超鏈接通常是手動創(chuàng)建的，且無法完全捕捉語料庫的隱含語義結(jié)構(gòu)。是否存在一種通用方法使任意集合可導(dǎo)航？近期的工作通常將這一問題形式化為構(gòu)建文本超圖（Hypergraph of Text, HoT），它為支持導(dǎo)航和瀏覽提供了形式化的數(shù)學(xué)結(jié)構(gòu)。然而，如何構(gòu)建和評估文本超圖仍然是一個挑戰(zhàn)。在本文中，我們提出并研究了幾種構(gòu)建HoT的方法。我們還提出了一種新的定量指標(biāo)——努力比率（effort ratio），用于評估所構(gòu)建HoT的結(jié)構(gòu)質(zhì)量。實驗結(jié)果表明，即使簡單的TF-IDF基線方法在我們提出的努力比率指標(biāo)上也能與基于LLM的方法相媲美。

1 引言

盡管過去幾十年信息檢索領(lǐng)域取得了巨大進步，但在分散的集合中發(fā)現(xiàn)和導(dǎo)航相關(guān)內(nèi)容仍然是一個挑戰(zhàn)。雖然大語言模型（LLM）的最新進展在一定程度上解決了這一挑戰(zhàn)（特別是通過直接支持問答），但對其可靠性的擔(dān)憂[14]以及它們無法獲取最新信息限制了其實用性。如何使用戶能夠直接訪問并發(fā)現(xiàn)最相關(guān)的原始信息仍然是一個開放的挑戰(zhàn)。

雖然搜索引擎和像ChatGPT這樣的LLM工具有助于幫助人們找到相關(guān)信息，但它們要求用戶構(gòu)建有效的查詢或問題，因此在存在詞匯鴻溝時限制了其實用性。此外，它們在幫助用戶發(fā)現(xiàn)相關(guān)但未知的信息方面作用有限。

瀏覽被提出作為一種克服這些困難的方法，它使用戶能夠探索信息空間，而無需任何關(guān)于如何構(gòu)建查詢、文檔集合中使用何種詞匯，或集合中究竟包含什么內(nèi)容的先驗知識。與LLM問答系統(tǒng)相比，瀏覽允許更大程度的用戶自主性和更清晰的信息出處，同時比傳統(tǒng)搜索允許更多的意外發(fā)現(xiàn)。這些特征使其成為探索式信息檢索或集合理解等任務(wù)的一個有吸引力的范式。

盡管瀏覽長期以來一直受到信息檢索和網(wǎng)絡(luò)社區(qū)中許多人的關(guān)注（例如見[6–8, 10, 11, 19, 25, 26, 34]），但與支持搜索和問答的技術(shù)相比，在支持瀏覽的通用技術(shù)方面的研究進展相對較少。瀏覽與搜索或問答之間的一個關(guān)鍵區(qū)別在于，雖然搜索和問答已經(jīng)享有統(tǒng)一的數(shù)學(xué)框架和直觀的定量指標(biāo)，但瀏覽卻沒有。因此，盡管許多先前的研究都主張需要支持瀏覽（例如見[7, 19, 34]），并且在瀏覽方面已經(jīng)做了大量工作，但仍然缺乏一種通用工具來組織任意的文本集合并實現(xiàn)整個空間的導(dǎo)航；今天的用戶大多只能通過手動創(chuàng)建的鏈接進行導(dǎo)航，例如網(wǎng)絡(luò)上的眾多超鏈接。

最近，文本超圖（HoT）[4]被提出作為一種數(shù)學(xué)結(jié)構(gòu)，用于將任意文本文檔集合組織成超圖語義結(jié)構(gòu)并使其可導(dǎo)航。其直觀想法是，超邊提供了一種定義任何語義鄰域的通用方法，這是實現(xiàn)語義導(dǎo)航的關(guān)鍵概念。HoT可以作為構(gòu)建通用導(dǎo)航系統(tǒng)的理論框架，其意義在于可以將任何可瀏覽的文檔集合表示為HoT，并且任何HoT都可以在統(tǒng)一界面上進行可視化瀏覽。事實上，文本信息導(dǎo)航工具包[5]可用于可視化任何HoT，并使用戶能夠?qū)Ш接蒆oT表示的信息空間。

然而，如何構(gòu)建HoT以及如何評估HoT為用戶提供的瀏覽支持的實用性，仍然是未被充分研究的開放性挑戰(zhàn)問題；原始工作[4]僅介紹了一種單一方法，且僅進行了定性評估。在本文中，我們試圖通過研究如何應(yīng)對這兩個挑戰(zhàn)來解決這一知識空白。具體而言，我們研究了幾種HoT構(gòu)建方法，例如LLM、嵌入和TF-IDF過濾。我們通過提出一種新指標(biāo)來解決評估挑戰(zhàn)，該指標(biāo)量化了HoT超邊對瀏覽的實用性。使用所提出的評估方法，我們在一個網(wǎng)絡(luò)數(shù)據(jù)集上系統(tǒng)比較了多種HoT構(gòu)建方法。實驗結(jié)果表明，雖然各種方法都能創(chuàng)建有效的鏈接，但每種方法都涉及不同的權(quán)衡，并且在結(jié)構(gòu)導(dǎo)航方面，基于LLM的方法并不總是優(yōu)于更簡單的統(tǒng)計方法。

總之，本文的貢獻包括：（1）我們提出并研究了三種方法（TF-IDF過濾、LLM主題提取和兩步“相似度-后接LLM”）來解決HoT構(gòu)建問題。（2）我們提出了一種新指標(biāo)，它使得能夠?qū)oT構(gòu)建算法進行定量評估。（3）我們進行實驗以評估HoT構(gòu)建算法，發(fā)現(xiàn)LLM-doc實現(xiàn)了最低的努力比率，但代價是38%的相關(guān)對未連接，而基于TF-IDF的All-Words方法盡管成本低幾個數(shù)量級，但在結(jié)構(gòu)上仍具有競爭力。

總體而言，我們的工作展示了基于HoT構(gòu)建開發(fā)支持瀏覽的通用技術(shù)的巨大潛力。

2 相關(guān)工作

信息抽取： 信息抽取[38]已被廣泛研究數(shù)十年，近期的一些工作側(cè)重于抽取實體和關(guān)系以構(gòu)建知識圖譜[42]。傳統(tǒng)方法依賴于監(jiān)督學(xué)習(xí)，特別是條件隨機場方法[16, 28]，并且更側(cè)重于預(yù)定義的實體和關(guān)系類型。后來的方法探索了如何使用開放實體和關(guān)系進行信息抽取[21]。近期，大語言模型已被用于知識圖譜構(gòu)建[23, 36]。盡管知識圖譜可用于組織文本數(shù)據(jù)，但其對文本內(nèi)容的覆蓋僅限于知識圖譜中包含的實體和關(guān)系；相比之下，為HoT構(gòu)建生成的鏈接覆蓋整個信息空間，并使用戶能夠?qū)Ш降叫畔⒖臻g中潛在的任何區(qū)域。就所抽取的信息而言，HoT構(gòu)建旨在抽取主題信息，而信息抽取更側(cè)重于抽取實體和關(guān)系。HoT構(gòu)建中抽取的信息對支持用戶導(dǎo)航更有用，而抽取的實體和關(guān)系往往對構(gòu)建知識圖譜更有用，以進一步支持自然語言處理中的各種下游應(yīng)用。

主題模型： 概率主題模型[1, 31]是發(fā)現(xiàn)和分析文本數(shù)據(jù)中所涵蓋主題的通用技術(shù)。抽取出的主題通常表示為詞分布。發(fā)現(xiàn)的主題及其在文檔中的覆蓋范圍有許多應(yīng)用，尤其是意見分析、時空主題趨勢分析以及基于主題的文檔表示。與我們工作最相關(guān)的是，使用主題模型從文本中發(fā)現(xiàn)的主題結(jié)構(gòu)也可用于組織文本。然而，這種結(jié)構(gòu)在支持用戶導(dǎo)航方面存在各種局限性[4]（例如，只能很好地覆蓋主要主題）。HoT中的超邊可以覆蓋所有類型的語義鏈接，并在文本片段級別進行覆蓋。因此，它們在支持導(dǎo)航方面比主題模型更有用。

文本聚類： HoT構(gòu)建也可以與文本聚類[2, 3]和分段[22]相關(guān)聯(lián)。盡管這兩項任務(wù)都專注于對文本集合進行分組，但傳統(tǒng)的聚類方法將對象劃分到非重疊的集合中。這使得傳統(tǒng)文本聚類方法不適合HoT構(gòu)建，因為具有非重疊超邊的HoT僅能實現(xiàn)簇內(nèi)導(dǎo)航。相比之下，HoT允許超邊重疊，這意味著節(jié)點可以是多個集合的成員。這實現(xiàn)了更廣泛的連接性，使其成為支持瀏覽的更合適框架。

語義匹配、超鏈接生成與語義標(biāo)注： 在文本語義匹配方面已開展了大量工作[17, 18]，主要用于信息檢索、問答、文本聚類和抄襲檢測等應(yīng)用[13]。一些近期方法基于大語言模型[39]。一些工作（例如[27]）也使用相似度度量來創(chuàng)建鏈接，從而將線性文本轉(zhuǎn)換為超文本。實際上，超文本和超鏈接的自動生成也得到了廣泛研究[35, 37]。雖然語義文本匹配和自動超鏈接生成實現(xiàn)的文檔點對點鏈接確實可以促進瀏覽，但它們無法實現(xiàn)主題瀏覽。由于HoT既能實現(xiàn)點對點瀏覽（通過大小為2的超邊）又能實現(xiàn)主題瀏覽，它是一個比舊范式更通用的框架。一些近期工作也探索了使用大語言模型對文本數(shù)據(jù)進行語義標(biāo)注（例如[9, 32]，其中可以將層次結(jié)構(gòu)中的語義標(biāo)簽分配給文本文檔，實質(zhì)上實現(xiàn)了層次化文本分類。與文本聚類類似，該任務(wù)的目標(biāo)與HoT構(gòu)建相似。事實上，語義標(biāo)注與HoT更為接近，因為各組具有自然語言標(biāo)簽。然而，與文本聚類一樣，語義標(biāo)注/標(biāo)記通常專注于將文本分類到互不相交的組中。盡管我們可以從其方法中汲取靈感，但由于HoT構(gòu)建專注于瀏覽，要求節(jié)點屬于多個組，HoT與語義標(biāo)注的計算任務(wù)最終是不同的。

大語言模型（LLMs）： 近年來，大語言模型在許多自然語言處理[20]和信息檢索任務(wù)[40]中的應(yīng)用工作呈爆炸式增長，例如文本摘要[41]、信息抽取[36]和問答[29]。我們的工作引入了大語言模型用于HoT構(gòu)建的新應(yīng)用，這在此前尚未被探索，并直接支持大型文檔空間中的語義瀏覽。

3 文本超圖

如前所述，盡管用戶在信息搜尋中同時使用查詢和瀏覽，但對查詢的支持遠比對瀏覽的支持成熟。盡管搜索引擎技術(shù)已取得巨大進步，但我們尚無任何類似的通用技術(shù)，能將任意分散內(nèi)容集合轉(zhuǎn)化為組織良好的鏈接內(nèi)容以提供通用瀏覽支持。這里的一個主要障礙是將瀏覽形式化為計算問題的困難；如果沒有為瀏覽定義明確的計算問題，就很難研究或評估任何算法。一項近期研究表明，可瀏覽的集合可以正式表示為文本超圖（HoT）[4]。這項工作為如何消除這一長期存在的障礙提供了一些思路，因為我們現(xiàn)在可以將支持瀏覽的問題正式定義為一個計算問題，其中輸入是任意文檔集合，輸出是以每個文檔為節(jié)點的HoT。因此，HoT可以作為組織分散內(nèi)容的通用數(shù)學(xué)結(jié)構(gòu)。以這種方式構(gòu)建瀏覽問題的一個顯著好處是，一旦構(gòu)建了HoT，就可以使用通用系統(tǒng)（如TINK系統(tǒng)[5]）將其可視化顯示給用戶進行瀏覽。這意味著同一個瀏覽系統(tǒng)可用于支持瀏覽任何HoT。因此，如何提供通用瀏覽支持的整個問題現(xiàn)在可以歸結(jié)為如何為任意文檔集合構(gòu)建HoT。本文的一個主要目標(biāo)是開發(fā)用于構(gòu)建HoT的算法，并且關(guān)鍵的是，開發(fā)一種評估已構(gòu)建HoT的方法。

作為背景，我們首先簡要介紹文獻 [4] 中提出的文本超圖（Hypergraph of Text, HoT）結(jié)構(gòu)。我們從其定義開始：

定義 3.1（文本超圖）。

這一定義可以看作是文本圖（textual graph）的泛化，當(dāng)應(yīng)用于文本集合時，它為導(dǎo)航和各種類型的分析提供了基礎(chǔ)。

持懷疑態(tài)度的讀者可能會問：超越圖（graphs）進行泛化有什么好處？為了回答這個問題，我們可以回顧瀏覽方面的基礎(chǔ)性工作。在闡述信息系統(tǒng)“采莓模型”（berrypicking model）的開創(chuàng)性著作 [7] 中，Bates 闡述了六種瀏覽技術(shù)：

(1) 腳注追蹤（Footnote chasing）

(2) 引用搜索（Citation searching）

(3) 期刊瀏覽（Journal run）

(4) 區(qū)域掃描（Area scanning）

(5) 主題搜索（Subject searching）

(6) 作者搜索（Author searching）

我們對 Bates 的這六種方法有以下觀察：在這六種方法中，只有腳注追蹤和引用搜索是點對點的。在另外四種方法中，用戶感興趣的是文檔組（在作者搜索中是作者組，在其余方法中是主題組）。因此，為了最好地支持所有瀏覽模式，我們需要一種既能支持點對點連接（如同標(biāo)準(zhǔn)圖那樣）又能支持 N 元連接（n-ary connections）的結(jié)構(gòu)。超圖正是這種結(jié)構(gòu)。

4 方法

在本節(jié)中，我們討論三種 HoT 構(gòu)建方法及其相應(yīng)的實現(xiàn)。第一種方法“All-Words”（全詞法）將文檔中的所有單詞視為一個超邊，然后使用 TF-IDF 分?jǐn)?shù)對超邊進行加權(quán)和剪枝。第二種方法“LLM-Doc”和“LLM-Sentence”利用大語言模型（LLMs）在句子和文檔兩個層面提取主題。最后，我們要提出的基于相似度的兩步法結(jié)合了語義相似度測量與 LLM 引導(dǎo)的主題提取，試圖解決前述方法的弱點。

在討論這些方法時，我們會提到使用 LLM 和句子轉(zhuǎn)換器（sentence transformer）。在我們的實現(xiàn)中，我們使用 llama3-8b-instruct [12] 作為我們的 LLM。對于句子轉(zhuǎn)換器，我們利用 sentence transformers 包 [24]，并選用 All-MiniLM-L6-v2 作為我們的特定模型 [33]。這些方法的完整代碼，包括 LLM 提示詞（prompts），將在 GitHub 上公開。

4.1 All-Words（全詞法）

這種方法背后的核心思想是將文檔之間共享的“所有單詞”（All words）視為一個潛在的超邊。自然地，包含所有單詞對于導(dǎo)航或分析來說是多余的。因此，我們只包含那些具有較高平均 TF-IDF 分?jǐn)?shù)的單詞（即按平均 TF-IDF 衡量的前 n% 的超邊）。

4.2 LLM-Doc 和 LLM-Sentence

先前的工作表明 LLM 可用于創(chuàng)建 HoT [4]。具體而言，他們將每個文檔拆分為句子，并提示 LLM 提取每個句子的主題并將其輸出為列表。先前的工作指出，這種方法產(chǎn)生的主題數(shù)量比文檔數(shù)量多出兩個數(shù)量級。為了避免這種情況，我們提出了一種額外的基于 LLM 的 HoT 構(gòu)建方法。該方法與先前的方法大體相似，不同之處在于主題是在文檔級別而非句子級別提取的。

4.3 兩步相似度（Two-Step Similarity）

對先前方法的初步調(diào)查表明，雖然 LLM 顯示出前景，但也并非沒有問題。具體而言，句子級別的方法傾向于產(chǎn)生過多的超邊，而文檔級別的方法則傾向于產(chǎn)生過少的超邊。為了使 LLM 專注于提取既具有細粒度細節(jié)又與集合相關(guān)的主題，我們建議首先選取句子對，然后使用 LLM 提取這些預(yù)定句子之間的語義鏈接。

為了確保我們只考慮最具信息量的句子，我們使用了一個結(jié)合 TF-IDF 分?jǐn)?shù)和嵌入余弦相似度的兩步過濾過程。我們計算每個句子的平均 TF-IDF 分?jǐn)?shù)，從而可以用一個單一的數(shù)字來表示句子的重要性。平均 TF-IDF 分?jǐn)?shù)如下所示，其中的緩存 TF-IDF 向量表示：

我們計算每個文檔中每個句子的上述分?jǐn)?shù)。然后，我們按文檔對分?jǐn)?shù)進行排序，并僅保留每個文檔中排名前 k 的句子。

在過濾步驟之后，我們接下來希望利用句子嵌入來為每個句子尋找最相似的句子。盡管由于先前的過濾步驟該方法已經(jīng)提速，但我們?nèi)允褂?FAISS 的 GPU 版本 [15] 以確保高效執(zhí)行。最后，根據(jù)以下邏輯選擇前 k 個句子對：首先嘗試選擇余弦相似度最高的句子對，且不重復(fù)句子或文檔；如果無法做到，則允許重復(fù)以填補剩余的句子對。選擇這種方法而不是簡單地按余弦相似度選擇前 k 個對，是為了促進連接的多樣性。

對于每一對句子，我們使用 LLM 提取共同主題。每個共同主題成為一個超邊，包含來自該對的文檔。任何后續(xù)被發(fā)現(xiàn)也共享此主題的文檔都會相應(yīng)地添加到該超邊中。與“All-Words”方法不同，該方法在無需任何額外剪枝的情況下就相當(dāng)可用。然而，該方法確實會產(chǎn)生大量基于僅由兩個文檔共享的主題的語義鏈接。雖然超邊擁有兩個成員是明確定義的，但人們也可能希望剪枝這些大小為 2 的超邊，以聚焦于更實質(zhì)性的主題組。我們在結(jié)果中探討了剪枝版本和未剪枝版本。

5 評估 HoT 構(gòu)建

如何評估 HoT 構(gòu)建是一個具有挑戰(zhàn)性的問題。確實，目前尚無先前的定量指標(biāo)能夠表明用于瀏覽目的的 HoT 的質(zhì)量。這一挑戰(zhàn)因存在許多潛在有用的創(chuàng)建超邊的方法而變得更加復(fù)雜。為了緩解這一問題，我們引入了一種通用方法論，用于定量評估 HoT 結(jié)構(gòu)的質(zhì)量。

努力比為 1 表示相對于隨機導(dǎo)航?jīng)]有優(yōu)勢；低于 1 的值表示相關(guān)文檔比隨機文檔距離更近；高于 1 的值則表明相關(guān)文檔之間的距離反常地比隨機集合更遠。直觀地說，如果 DRel = 2 且 DRand = 5，那么 ER = 0.4，這意味著在相關(guān)節(jié)點之間導(dǎo)航所需的平均跳數(shù)僅為在隨機節(jié)點對之間導(dǎo)航所需跳數(shù)的 40%。

這個努力比將是我們用于評估的主要指標(biāo)。值得重申的是，這種評估方法和這些指標(biāo)對于評估 HoT 構(gòu)建是非常通用的。雖然我們在實驗中選擇了一類特定的數(shù)據(jù)集，但有許多方法可以找到具有已知相關(guān)性的文檔。一些例子包括網(wǎng)絡(luò)日志、綜述論文和問答數(shù)據(jù)集。

5.1 努力比的屬性

努力比具有若干關(guān)鍵特性，使其非常適用于評估超文本（HoT）的構(gòu)建。在本節(jié)中，我們將花一些時間逐一探討這些特性。我們首先從幾個有用的定義開始。

換句話說，如果超邊中至少有 α 比例的（無序）文檔對彼此相關(guān)，則該超邊是 α -相關(guān)性對齊的。同樣地，如果少于 β 比例的文檔對彼此相關(guān)，則該超邊是 β -非相關(guān)性對齊的。請注意，分子和分母計算的都是無序?qū)Γ虼嗽摫嚷饰挥? [ 0 , 1 ] 之間。

定義 5.3（飽和度度量）。 對于超圖 H ，我們定義以下兩個飽和度度量：

這里的關(guān)鍵見解在于，除了在超圖結(jié)構(gòu)高度不平衡且隨機節(jié)點比相關(guān)節(jié)點連接得更緊密的異常情況下，努力比會對添加那些連接了更多不相關(guān)文檔（而非相關(guān)文檔）的超邊進行懲罰。這正是我們在導(dǎo)航指標(biāo)中所期望的行為。

導(dǎo)航指標(biāo)的另一個理想特性是能夠懲罰過載。也就是說，我們不想給那些僅僅通過濫加邊來實現(xiàn)良好連接的方法打高分。我們需要一個能對超圖中邊的總數(shù)產(chǎn)生一定正則化作用的指標(biāo)。這就引出了我們的下一個結(jié)果。

5.1.3 努力比的局限性。 雖然努力比允許對 HoT（超文本主題）進行定量評估，但它確實有兩個關(guān)鍵的局限性。首先，如果超圖包含不連通的組件，它的定義就不明確（或無法良好定義）。這是該指標(biāo)基于節(jié)點間距離這一事實的直接結(jié)果。因此，在考慮努力比時，應(yīng)始終結(jié)合考慮項目不連通的嚴(yán)重程度。出于這個原因，我們提出了另一個指標(biāo)：相關(guān)斷開比例（Relevant Disconnect Proportion, RDP）。這個指標(biāo)僅僅是指彼此不連通的相關(guān)文檔對的比例。結(jié)合努力比來看，RDP 讓我們能夠知道 HoT 構(gòu)建方法是否本質(zhì)上是通過選擇偏差來“欺騙”該指標(biāo)。

6 實驗結(jié)果

在我們的實驗中，我們在一個 MultiHop-RAG 問答數(shù)據(jù)集 [30] 上使用了第 5 節(jié)提出的指標(biāo)。該數(shù)據(jù)集包含 609 篇文章和 2556 個多跳查詢，這些查詢分布在 2 到 4 篇文檔之間。雖然 MultiHop-RAG 論文未指明任何主題分布，但人工檢查顯示其主題包括時事、金融市場與股票、體育賽事以及電子游戲。出于實驗?zāi)康模覀儗⒚總€與文檔關(guān)聯(lián)的查詢視為一組彼此相關(guān)的文檔集合。這意味著我們的集合 R R（如第 5 節(jié)所述）是一個包含 2556 個元素的集合族，其中每個成員集合的大小為 2 到 4。

我們的實驗揭示了不同 HoT 構(gòu)建方法在性能上的有趣差異。結(jié)果總結(jié)于表 1。在深入結(jié)果之前，首先值得注意每種方法的相對計算需求。兩種"全詞"（All-Words）方法相當(dāng)輕量，不需要任何具備機器學(xué)習(xí)能力的硬件。而基于 LLM 的方法計算需求則高得多，需要大量的 LLM 調(diào)用。兩步式 LLM 方法同樣需要 LLM 調(diào)用，但由于存在過濾步驟，其調(diào)用量顯著減少。

LLM 類方法表現(xiàn)出最大的方差：其中句子級方法和文檔級方法分別獲得了最高（非隨機）和最低的努力比。這或許并不令人意外，因為這兩種方法在超邊數(shù)量上也顯示出最大差異——句子級方法的超邊數(shù)量比文檔級方法高出一個數(shù)量級。雖然文檔級方法在所有提出的方法中實現(xiàn)了最低的努力比，但值得注意的是，近 40% 的相關(guān)文檔對處于斷開狀態(tài)。由于斷開的文檔無法計入平均距離（否則會使平均距離變?yōu)闊o窮大），該方法具有最低的努力比可能表明它僅能建立那些"容易"的連接。斷開率較低的方法必須處理這些"困難"的連接，而這些連接通常相距更遠，因此會對其平均相關(guān)距離造成懲罰。

相比之下，"全詞"方法和"兩步"方法均取得了努力比在 0.50 至 0.60 范圍內(nèi)的結(jié)果。盡管"全詞"方法的超邊數(shù)量較少，但兩種變體均表現(xiàn)良好。需要注意的是，"全詞"方法創(chuàng)建的語義鏈接是單詞主題，這是其語義鏈接的質(zhì)量局限。例如，除非一個人能輕易通過單個名字被識別（如柏拉圖），否則該方法無法很好地捕捉與該人物相關(guān)的主題。"兩步"方法則沒有這一缺點。由于"兩步"方法的運行時間遠比"全詞"方法長，最佳方法的選擇可能取決于用戶的限制條件和使用場景，因為每種方法各有優(yōu)劣。在預(yù)算受限的場景下，或在主題細微差別不太重要的場景中，top-5% 的"全詞"方法在努力比上僅比"兩步"方法高出 0.02，但其超邊數(shù)量僅為后者的五分之一，且無需調(diào)用 LLM。

7 局限性

作為對超文本主題（HoT）構(gòu)建的初步研究，我們僅在一個數(shù)據(jù)集上研究了 HoT 構(gòu)建。在未來，重要的是通過使用所提出的模擬評估策略在更多數(shù)據(jù)集上進行實驗，以進一步驗證我們的發(fā)現(xiàn)。一旦構(gòu)建了 HoT，就可以應(yīng)用多種算法（例如隨機游走、路徑發(fā)現(xiàn)、異常發(fā)現(xiàn)）對 HoT 進行后處理，以揭示文本數(shù)據(jù)中許多有趣的潛在語義模式（例如爭議分析、對比分析或關(guān)聯(lián)分析）。此外，雖然定量評估使我們能夠比較多種 HoT 構(gòu)建方法，但從用戶角度來看，HoT 構(gòu)建的實際效用仍需通過用戶研究進行進一步評估。

8 結(jié)論與未來工作

在本文中，我們研究了如何構(gòu)建文本超圖（Hypergraph of Text, HoT），以語義化地組織任意文本集合，從而支持導(dǎo)航。我們研究了三種執(zhí)行 HoT 構(gòu)建的方法，包括利用大語言模型（LLM）的方法。為了定量評估瀏覽效果，我們提出了一種新穎的評估指標(biāo)：努力比（effort ratio）。我們的實驗結(jié)果表明，雖然各種方法都能夠生成潛在有用的鏈接，但每種方法各有優(yōu)劣。以 HoT 為基礎(chǔ)，我們的工作朝著開發(fā)一種通用技術(shù)邁出了一步，該技術(shù)旨在支持用戶瀏覽任意文檔集合，具有廣泛的應(yīng)用前景。一個重要的下一步是通過真實的用戶研究進一步驗證這些指標(biāo)和算法。另一個有前景的未來方向是將所提出的算法應(yīng)用于特定的應(yīng)用場景，例如構(gòu)建 HoT 來組織搜索結(jié)果、研究論文集合、組織由一群人創(chuàng)建的任何共享數(shù)字圖書館（例如班級中的學(xué)生論文），或組織任何個人內(nèi)容文件夾。

原文鏈接：https://arxiv.org/pdf/2604.25906

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.