无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

基于派生關(guān)系的未登錄地名發(fā)現(xiàn)方法研究

0
分享至


江西地名研究

關(guān)注我們,獲取更多地名資訊

摘要:針對(duì)境外地名數(shù)據(jù)缺失的問題,該文提出了一種基于地名派生關(guān)系的未登錄地名發(fā)現(xiàn)方法。通過構(gòu)建地名時(shí)空派生關(guān)系知識(shí)圖譜,結(jié)合深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)未登錄地名發(fā)現(xiàn)與空間位置推理。首先,采用混合方法構(gòu)建地名派生關(guān)系知識(shí)圖譜,形式化表達(dá)地名派生規(guī)則;其次,基于BERT-CRF模型(F1值達(dá)0.9567)標(biāo)注地名成分,結(jié)合知識(shí)圖譜的語義與空間約束驗(yàn)證潛在地名,最終實(shí)現(xiàn)84.5%的發(fā)現(xiàn)準(zhǔn)確率;最后,通過通名映射類別和查詢知識(shí)圖譜空間關(guān)系,生成潛在地名位置,人工評(píng)估顯示77.1%的推理結(jié)果合理。實(shí)驗(yàn)證明該方法能有效補(bǔ)充欠發(fā)達(dá)地區(qū)地名數(shù)據(jù),未來將優(yōu)化多語言支持與動(dòng)態(tài)更新機(jī)制。

關(guān)鍵詞:未登錄地名;知識(shí)圖譜;時(shí)空派生關(guān)系;BERT-CRF;空間推理

0 引言

地名作為地理實(shí)體的重要標(biāo)識(shí),承載著豐富的地理、歷史和文化信息,是地理信息系統(tǒng)中不可或缺的關(guān)鍵數(shù)據(jù)。地名數(shù)據(jù)不僅為地理空間檢索與分析提供了直觀的參考,還在城市規(guī)劃、導(dǎo)航服務(wù)、災(zāi)害救援及基礎(chǔ)設(shè)施建設(shè)等領(lǐng)域發(fā)揮著重要作用。然而,由于數(shù)據(jù)采集的困難性,尤其是非洲等欠發(fā)達(dá)地區(qū)受限于經(jīng)濟(jì)條件和技術(shù)手段,大量地名未被正式收錄,形成“未登錄地名”問題。這些缺失的地名數(shù)據(jù)影響了地理信息系統(tǒng)的完整性和可用性,制約了區(qū)域資源管理和經(jīng)濟(jì)發(fā)展的效率。

地名派生作為一種特殊的地名命名方式,近些年受到研究學(xué)者的廣泛關(guān)注。從文化與歷史角度看,文獻(xiàn)通過約魯巴謎語揭示了地名派生與文化背景的關(guān)聯(lián)。從語言學(xué)角度來說文獻(xiàn)對(duì)比了英語和德語中的派生詞綴特征;文獻(xiàn)系統(tǒng)梳理了派生地名的概念框架、生成機(jī)制及譯寫規(guī)范;文獻(xiàn)則進(jìn)一步提出了“原生/派生”“對(duì)稱/聯(lián)稱”等分類體系。從地理信息科學(xué)角度來說,文獻(xiàn)提出了基于Geo Hash編碼的派生地名識(shí)別算法,解決了人工標(biāo)注效率低的問題;文獻(xiàn)則對(duì)地名時(shí)空派生關(guān)系進(jìn)行了規(guī)范化定義與網(wǎng)絡(luò)構(gòu)建,推動(dòng)了相關(guān)推理研究的發(fā)展。然而,現(xiàn)有研究多是從文化和語言學(xué)角度進(jìn)行分析,地理信息科學(xué)方面的研究停留于理論分析,缺乏實(shí)際應(yīng)用,利用地名派生關(guān)系價(jià)值尚未充分挖掘。

知識(shí)圖譜作為一種結(jié)構(gòu)化的知識(shí)表示方法,能夠有效建模實(shí)體間的語義關(guān)系,為地名派生關(guān)系的挖掘提供了新的技術(shù)途徑。地名時(shí)空派生關(guān)系(如“北京大學(xué)地鐵站”源自“北京大學(xué)”)不僅體現(xiàn)名稱的相似性,還隱含空間鄰近性,可用于推斷潛在未登錄地名的位置。盡管空間關(guān)系推理在模糊查詢和位置描述方面已有研究,但如何結(jié)合派生關(guān)系實(shí)現(xiàn)未登錄地名的發(fā)現(xiàn)仍屬空白。

針對(duì)上述問題,本文提出了一種集成知識(shí)圖譜與深度學(xué)習(xí)的未登錄地名發(fā)現(xiàn)與空間位置推理方法。本文的主要?jiǎng)?chuàng)新體現(xiàn)在以下兩個(gè)方面:①提出了一個(gè)融合多維度約束的地名派生關(guān)系形式化框架:通過構(gòu)建地名時(shí)空派生關(guān)系知識(shí)圖譜,統(tǒng)一表達(dá)了地名在語義、空間和類別上的派生規(guī)則與關(guān)聯(lián)關(guān)系,為未登錄地名發(fā)現(xiàn)提供了可計(jì)算的知識(shí)基礎(chǔ)。②構(gòu)建了從派生關(guān)系發(fā)現(xiàn)到空間位置生成的端到端推理鏈路:通過查詢知識(shí)圖譜中預(yù)定義的類別空間關(guān)系,將潛在地名的語義信息轉(zhuǎn)化為具體的空間坐標(biāo),實(shí)現(xiàn)了未登錄地名從“名稱”到“位置”的完整補(bǔ)全。

實(shí)驗(yàn)表明,本方法在欠發(fā)達(dá)地區(qū)地名數(shù)據(jù)補(bǔ)全中具有顯著效果。本研究不僅拓展了知識(shí)圖譜與深度學(xué)習(xí)技術(shù)在地理信息科學(xué)中的應(yīng)用深度,也為解決全球地名數(shù)據(jù)不均衡問題提供了一種新穎、自動(dòng)化的解決方案。

1 技術(shù)思路

本文提出了一種基于地名派生關(guān)系的未登錄地名發(fā)現(xiàn)方法,結(jié)合知識(shí)圖譜與深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)未登錄地名的自動(dòng)發(fā)現(xiàn)與空間位置推理。

首先,對(duì)核心概念“未登錄地名”進(jìn)行界定。傳統(tǒng)自然語言處理中的“未登錄詞”指未被收錄在分詞詞表中但必須被切分出來的詞。本文繼承并擴(kuò)展了這一概念:“未登錄地名”特指那些在現(xiàn)有權(quán)威或開源地名數(shù)據(jù)庫(如GeoNames、OpenStreetMap)中未被收錄,但在現(xiàn)實(shí)世界實(shí)際存在的地理實(shí)體。其名稱、空間位置及類別可以通過本文提出的派生關(guān)系推理方法從已登錄地名中推斷生成。本文將這一任務(wù)稱為未登錄地名發(fā)現(xiàn)任務(wù)。

為方便起見,下文統(tǒng)一將地名時(shí)空派生關(guān)系簡寫為派生關(guān)系。

研究整體框架如圖1所示。


整體技術(shù)思路分為以下4個(gè)階段:

1)地名派生關(guān)系的形式化表達(dá)。采用自頂向下和自底向上的混合方法構(gòu)建派生關(guān)系知識(shí)圖譜,定義核心類及其關(guān)系。

2)潛在派生關(guān)系發(fā)現(xiàn)。使用BERT-CRF模型標(biāo)注地名成分。將多通名地名作為候選派生地名,并通過知識(shí)圖譜的語義與空間約束驗(yàn)證潛在派生關(guān)系。

3)空間位置推理。通過通名映射類別確定潛在地名與候選派生地名的地理實(shí)體類型。查詢知識(shí)圖譜中的空間關(guān)系,結(jié)合候選派生地名的坐標(biāo)生成潛在地名位置。

4)實(shí)驗(yàn)驗(yàn)證。在非洲四國開源地理數(shù)據(jù)上進(jìn)行測試,評(píng)估未登錄地名發(fā)現(xiàn)的準(zhǔn)確率和空間推理的合理性。

2 關(guān)系規(guī)則及形式化表達(dá)

2.1 派生關(guān)系定義

派生關(guān)系是指在給新發(fā)現(xiàn)地物命名時(shí),經(jīng)過附加、并合和緊縮現(xiàn)有地名來命名新地名,以建立兩地名之間的關(guān)系,這種關(guān)系定義為“派生關(guān)系”。派生關(guān)系可進(jìn)一步分為繼承派生、影響派生、時(shí)空派生,其中地名時(shí)空派生關(guān)系是指基于最新更名的原生地名,新發(fā)現(xiàn)的地名位于原生地名周圍,所以在命名時(shí)借用原生地名作為新地名專名部分進(jìn)行命名。其核心特征是:

名稱相似性:派生地名通常保留原生地名部分(如“北京大學(xué)”→“北京大學(xué)地鐵站”)。

空間鄰近性:派生地物通常位于原生地物附近(如“北京西站南廣場”靠近“北京西站”)。

類別關(guān)聯(lián)性:派生地物與原生地物類別存在邏輯聯(lián)系(如“中關(guān)村”→“中關(guān)村軟件園”)。

2.2 派生關(guān)系判定規(guī)則

派生關(guān)系的判定規(guī)則是一個(gè)綜合考量語義、空間和類別特征的多維度分析過程。該規(guī)則主要基于以下3個(gè)核心條件:

第一,在語義相似性方面,需要計(jì)算原生地名與派生地名之間的名稱相似度。當(dāng)兩者的名稱相似度超過預(yù)設(shè)的閾值時(shí),表明它們?cè)诿洗嬖诿黠@的關(guān)聯(lián)性,這是判定派生關(guān)系的基礎(chǔ)條件。

第二,在空間關(guān)系方面,要求派生地物與原生地物之間必須存在特定的空間關(guān)聯(lián)模式。這種空間關(guān)系可能表現(xiàn)為包含、相鄰或觸碰等拓?fù)潢P(guān)系。關(guān)鍵的是,兩者的空間距離必須小于其對(duì)應(yīng)地物類別組合所設(shè)定的特定鄰近距離閾值。這一條件確保了派生關(guān)系具有地理空間上的合理性。第三,在類別關(guān)聯(lián)性方面,需要計(jì)算派生地物類別與原生地物類別的相似度。當(dāng)類別相似度超過特定閾值時(shí),表明兩者在功能或性質(zhì)上具有繼承或衍生關(guān)系。

只有當(dāng)兩個(gè)地名同時(shí)滿足上述3個(gè)條件時(shí),系統(tǒng)才會(huì)判定它們之間存在派生關(guān)系。這種多維度判定的方法既考慮了名稱的語義延續(xù)性,又兼顧了空間分布的合理性,同時(shí)還確保了類別特征的關(guān)聯(lián)性,從而有效提高了派生關(guān)系判定的準(zhǔn)確性。

設(shè)定語義相似度閾值為70%。具體依據(jù)為:首先,通過人工篩選確定訓(xùn)練集中的原生-派生地名對(duì)作為真值;隨后計(jì)算兩者之間的名稱相似度,并統(tǒng)計(jì)全部相似度數(shù)據(jù)后取平均值,最終確定70%為統(tǒng)一閾值。

類別相似度的計(jì)算與閾值設(shè)定方法如下:我們基于已知的派生地名對(duì),總結(jié)出常見的類別關(guān)聯(lián)組合(如“Park-Road”)。隨后,利用預(yù)訓(xùn)練的語義模型將地物類別名稱映射為語義向量,并通過計(jì)算向量間的余弦值來量化其語義相似度。在此基礎(chǔ)上,我們統(tǒng)計(jì)了所有真實(shí)派生地名對(duì)中類別相似度的數(shù)值,并取其平均值(70%)作為通用閾值。

空間鄰近距離閾值則根據(jù)地物類別動(dòng)態(tài)設(shè)定。具體流程包括:首先,基于訓(xùn)練數(shù)據(jù)中已確認(rèn)的派生地名對(duì),統(tǒng)計(jì)不同類別組合(如“Park-Road”“River-Bridge”)中派生地物與原生地物的空間距離,作為真值參考;隨后,取各組合空間距離的第85百分位數(shù)作為初始閾值,以覆蓋大多數(shù)真實(shí)關(guān)聯(lián)案例;最后,通過人工驗(yàn)證對(duì)該閾值進(jìn)行微調(diào)。例如,“River-Bridge”類別的空間鄰近距離閾值設(shè)定為200m,而“Park-Road”類別則放寬至500m。

所有閾值均在測試集上進(jìn)行了有效性驗(yàn)證,以確保其合理性和可靠性。

2.3 派生關(guān)系形式化表達(dá)

研究構(gòu)建了一個(gè)派生關(guān)系知識(shí)圖譜,能夠直觀地表達(dá)給定區(qū)域內(nèi)地名不同類別之間的派生關(guān)系及其判定規(guī)則。采用自頂向下和自底向上混合的方式構(gòu)建知識(shí)圖譜?;旌蠘?gòu)建結(jié)合了自底向上構(gòu)建和自頂向下構(gòu)建的方法,形成了一種綜合而協(xié)同的建模策略。主要由本體構(gòu)建、知識(shí)提取、實(shí)體填充等步驟組成。

2.3.1 本體設(shè)計(jì)

1)定義類

知識(shí)圖譜涉及到的類主要有原生地物類別、派生地物類別、原生通名和派生通名。

2)定義屬性


3)定義關(guān)系

根據(jù)派生規(guī)則可知,原生地物和派生地物之間存在語義關(guān)系和空間關(guān)系。其中,語義關(guān)系又分為等價(jià)關(guān)系、互斥關(guān)系、上下義關(guān)系和部分整體關(guān)系。在空間關(guān)系上,原生地物和派生地物之間存在特定的空間拓?fù)潢P(guān)系和鄰近關(guān)系。空間拓?fù)潢P(guān)系包含相交、包含、疊加、相離、重合等。

2.3.2 知識(shí)提取

1)空間拓?fù)潢P(guān)系與鄰近距離提取

采用基于維數(shù)擴(kuò)展的九交模型,通過分析地理實(shí)體a和b的內(nèi)部(interior,I)、邊界(boundary,B)、外部(exterior,E)的相交維度(dimension,DIM)構(gòu)建關(guān)系矩陣,以提取地理實(shí)體的拓?fù)潢P(guān)系,見式(1)。


式中:a和b代表兩個(gè)地理實(shí)體,I、B、E分別代表地理實(shí)體的內(nèi)部、邊界和外部,DIM表示維度??紤]到派生關(guān)系的特征,本研究主要提取包含、橫跨、等于、重疊、觸碰、被包含和相離等7類拓?fù)潢P(guān)系。

對(duì)于拓?fù)潢P(guān)系為相離的地理實(shí)體,將拓?fù)潢P(guān)系與鄰近距離閾值共同構(gòu)成空間關(guān)系屬性集,其中拓?fù)潢P(guān)系優(yōu)先于距離判斷。

2)相似度提取

利用Word2Vec計(jì)算地名相似度,針對(duì)地名的不同組成部分設(shè)計(jì)差異化的處理策略。以下是具體方法和實(shí)現(xiàn)步驟:

①名稱相似度計(jì)算。采用基于編輯距離(如Levenshtein距離)的字符串相似度算法,見式(2)。


式中:Lt1,Lt2表示兩個(gè)地名字符串的長度;De(t1,t2)表示將t1轉(zhuǎn)換成t2所需的最小編輯操作次數(shù)(插入、刪除、替換)。

②類別相似度計(jì)算。首先定義類別層級(jí):設(shè)類別集合為C={c1,c2,···,cn},每個(gè)類別ci包含一組同類別詞;其次計(jì)算類別中心向量:對(duì)每個(gè)類別ci,計(jì)算其所有成員詞向量的均值(中心向量),見式(3)。


2.3.3 實(shí)體填充

結(jié)合知識(shí)圖譜中本體的實(shí)體結(jié)構(gòu),從派生地名信息數(shù)據(jù)中,提取出相應(yīng)的實(shí)體實(shí)例數(shù)據(jù)以及屬性值數(shù)據(jù),進(jìn)行連接和融合。利用Neo4j圖數(shù)據(jù)庫存儲(chǔ)實(shí)體與關(guān)系,最后可得到派生關(guān)系知識(shí)圖譜。

3 潛在派生關(guān)系的發(fā)現(xiàn)

以派生關(guān)系為切入點(diǎn),挖掘派生地名中的潛在地名,所以首先需要發(fā)現(xiàn)潛在派生關(guān)系。根據(jù)派生關(guān)系規(guī)則的形式化表達(dá),從而實(shí)現(xiàn)潛在派生關(guān)系的發(fā)現(xiàn)。

3.1 BERT-CRF模型標(biāo)注

選取BERT-CRF模型進(jìn)行地名成分的序列標(biāo)注任務(wù),該模型結(jié)合了BERT(bidirectional encoder representations from Transformers)強(qiáng)大的上下文語義表征能力與CRF(conditional random field)在序列標(biāo)注上的全局約束優(yōu)勢(shì)。

1)模型結(jié)構(gòu)

編碼層:采用BERT-Base預(yù)訓(xùn)練模型作為編碼器,其結(jié)構(gòu)包含12層Transformer編碼器,隱藏層維度為768,并配備12個(gè)自注意力頭。該模型能夠動(dòng)態(tài)生成融合了上下文信息的字符級(jí)特征向量。

解碼層:使用CRF層作為解碼器。CRF通過引入標(biāo)簽之間的轉(zhuǎn)移矩陣,學(xué)習(xí)相鄰標(biāo)簽的約束關(guān)系(如“I-GN”標(biāo)簽不應(yīng)緊跟在“O”標(biāo)簽之后),從而有效避免非法標(biāo)簽序列的產(chǎn)生,獲得全局最優(yōu)的標(biāo)注序列。

2)訓(xùn)練參數(shù)與細(xì)節(jié)

模型在自行構(gòu)建的人工標(biāo)注數(shù)據(jù)集上進(jìn)行訓(xùn)練。訓(xùn)練時(shí),批量大?。╞atch size)設(shè)置為32,采用AdamW優(yōu)化器(adaptive moment estimation-weight decay),其初始學(xué)習(xí)率為5×10-5。模型共訓(xùn)練10個(gè)輪次(epoch),并配合線性學(xué)習(xí)率預(yù)熱與衰減策略。訓(xùn)練過程在單一NVIDIA RTX 3080 GPU上完成,耗時(shí)約35min。

3)標(biāo)注體系

利用BIO(begin,inside,outside)標(biāo)注規(guī)則對(duì)經(jīng)過分詞的文本進(jìn)行token標(biāo)注,標(biāo)注樣式如下。


BERT-CRF模型結(jié)構(gòu)如下圖所示:


首先從23個(gè)類別中按比例抽取地名數(shù)據(jù),進(jìn)行人工標(biāo)注,構(gòu)建數(shù)據(jù)集,共抽取了3000條數(shù)據(jù)。使用精確率、召回率和F1分?jǐn)?shù)3種參數(shù)作為評(píng)估模型預(yù)測精度的數(shù)據(jù)指標(biāo)。

對(duì)構(gòu)建的BERT-CRF模型進(jìn)行了全面地性能評(píng)估。評(píng)估結(jié)果顯示,BERT-CRF模型的F1值可達(dá)0.9567,這一指標(biāo)綜合考慮了精確率和召回率,表明模型在序列標(biāo)注任務(wù)中表現(xiàn)優(yōu)異,為后續(xù)的派生關(guān)系發(fā)現(xiàn)提供了可靠的成分分析基礎(chǔ)。

3.2 通名提取與切分

通名提取與切分是未登錄地名發(fā)現(xiàn)的關(guān)鍵步驟,其目標(biāo)是從復(fù)合地名中識(shí)別出可能的嵌套結(jié)構(gòu)和派生關(guān)系。具體流程如下:

1)標(biāo)簽序列統(tǒng)計(jì)與復(fù)合地名篩選

利用CRF層輸出的標(biāo)簽序列(如B-GN、I-GN等),統(tǒng)計(jì)每個(gè)地名中的通名(GN)標(biāo)簽數(shù)量。篩選出包含多個(gè)通名標(biāo)簽的復(fù)合地名,作為候選派生地名。記錄其通名位置和專名部分。

2)嵌套結(jié)構(gòu)切分與候選潛在地名生成

根據(jù)英語地名的構(gòu)成形式,結(jié)合BERT-CRF模型的標(biāo)注結(jié)果,對(duì)復(fù)合地名進(jìn)行層次化切分。例如,“Mataura River Bridge”可切分為“Mataura River”(嵌套地名)和“Bridge”(派生通名)。提取切分后的嵌套部分作為候選潛在地名。

為確保切分結(jié)果的準(zhǔn)確性,避免出現(xiàn)結(jié)構(gòu)性歧義(如將“北京南站廣場”錯(cuò)誤切分為“北京”+“南站廣場”),本方法制定了明確的切分規(guī)則與消歧策略:①最長匹配原則:在多個(gè)可能的切分方案中,優(yōu)先選擇能形成最長、最完整專名的方案。該原則基于地名命名中普遍存在的整體性偏好,旨在保留語義最完整的原生地名。②通名優(yōu)先原則:切分點(diǎn)的選擇應(yīng)確保切分出的后綴部分是一個(gè)在知識(shí)圖譜通名庫中明確存在的通名(如“廣場”、“Bridge”)。此原則確保派生部分類別明確。③知識(shí)圖譜驗(yàn)證驅(qū)動(dòng)消歧:將依據(jù)上述原則得到的潛在地名,立即在知識(shí)圖譜和背景地名庫中進(jìn)行查詢與驗(yàn)證。若該候選地名能被映射到一個(gè)合理的地物類別,且與該派生地名的類別存在預(yù)定義的強(qiáng)關(guān)聯(lián),則確認(rèn)該切分有效。若驗(yàn)證失敗,系統(tǒng)則回溯至次優(yōu)的切分方案(如“北京”+“南站廣場”)并重復(fù)驗(yàn)證過程,或?qū)⑵錁?biāo)記為需人工復(fù)審的歧義案例。通過上述規(guī)則的聯(lián)合應(yīng)用,本方法能夠穩(wěn)定地將“北京南站廣場”切分為“北京南站”+“廣場”,從而正確識(shí)別出核心的潛在地名。

3)通名歸類

對(duì)切分出的通名部分,需進(jìn)行歸類以確定其對(duì)應(yīng)的地理實(shí)體類別,這是后續(xù)進(jìn)行類別關(guān)聯(lián)性分析和空間關(guān)系推理的基礎(chǔ)。本方法依據(jù)預(yù)定義的“通名-類別”映射表完成此過程。該映射表是通過系統(tǒng)性地整合OpenStreetMap(OSM)標(biāo)簽體系中的關(guān)鍵類別與本研究涉及的地名通名構(gòu)建而成。

3.3 潛在派生關(guān)系判定

派生關(guān)系判定旨在驗(yàn)證候選潛在地名與候選派生地名之間的語義關(guān)系和空間關(guān)聯(lián)性。具體步驟如下:

1)知識(shí)圖譜查詢與類別關(guān)聯(lián)性分析

通過知識(shí)圖譜查詢候選潛在地名和派生地名的地物類別,檢查兩者是否滿足預(yù)定義的強(qiáng)關(guān)聯(lián)關(guān)系。“強(qiáng)關(guān)聯(lián)”的判定是一個(gè)綜合過程,主要依

據(jù)以下兩個(gè)條件:①定量計(jì)算:計(jì)算兩個(gè)類別之間的類別相似度Sim(ci,cj)。若該相似度值不低于70%(即≥0.7),則認(rèn)為在數(shù)值上滿足強(qiáng)關(guān)聯(lián)條件。②定性規(guī)則:結(jié)合知識(shí)圖譜中預(yù)定義的顯性類別關(guān)聯(lián)規(guī)則進(jìn)行最終裁定。這些規(guī)則編碼了領(lǐng)域知識(shí),用于處理僅靠數(shù)值相似度無法準(zhǔn)確判斷的情況。

例如:“學(xué)校”與“地鐵站”被顯式定義為強(qiáng)關(guān)聯(lián),因?yàn)樗鼈冊(cè)趯?shí)際空間中常因交通服務(wù)功能而緊密相鄰,即使其類別相似度計(jì)算值可能不高?!皩W(xué)?!迸c“河流”則被顯式定義為弱關(guān)聯(lián),因?yàn)閮烧咴诠δ芘c空間上缺乏直接的派生邏輯,即使其詞向量在某種語境下可能接近。

只有當(dāng)一對(duì)類別同時(shí)滿足“類別相似度≥70%”或在顯式關(guān)聯(lián)規(guī)則中被標(biāo)記為“強(qiáng)關(guān)聯(lián)”時(shí),才最終被判定為具有強(qiáng)關(guān)聯(lián)性。通過SPARQL(SPARQL protocol and RDF query language)查詢類別關(guān)聯(lián)強(qiáng)度的語句如下:


2)空間關(guān)系驗(yàn)證

通過知識(shí)圖譜中的空間關(guān)系(如“相鄰”“包含”)驗(yàn)證地名對(duì)的合理性。例如,“××學(xué)校”與“××地鐵站”若在空間中相鄰,則可能具有派生關(guān)系。

通過SPARQL查詢?cè)谥R(shí)圖譜中獲取兩類別的典型空間關(guān)系:


3)閾值過濾與關(guān)系確認(rèn)

低于閾值的地名對(duì)將被過濾。對(duì)于未達(dá)到閾值但具有顯著空間關(guān)聯(lián)的地名對(duì),需人工復(fù)審。

3.4 未登錄地名發(fā)現(xiàn)

在確認(rèn)派生關(guān)系后,需進(jìn)一步驗(yàn)證潛在地名的有效性。在地名數(shù)據(jù)庫中檢索潛在地名(如“北京南站”),若無匹配記錄,則進(jìn)入下一步。若存在記錄但描述不一致(如數(shù)據(jù)庫中僅有“北京南火車站”),需通過相似度匹配判斷是否為同一實(shí)體。若潛在地名滿足以上條件,則判定為未登錄地名。輸出結(jié)果包括:未登錄地名、派生地名、關(guān)聯(lián)關(guān)系。

4 未登錄地名空間位置推理

通過在知識(shí)圖譜中查詢派生地物類別與原生地物類別的空間關(guān)系,根據(jù)已知的派生地名位置推理潛在地名位置。

4.1 通名映射類別

潛在地名的空間位置推理首先需要明確其所屬的地理實(shí)體類別。通名作為區(qū)分地理實(shí)體類型的關(guān)鍵要素,可通過預(yù)定義的映射表實(shí)現(xiàn)精準(zhǔn)映射。具體步驟如下:

1)從潛在地名和候選派生地名中分離通名(如“Street”,“River”),并將其映射到更通用的地理實(shí)體類別(如“Road”,“Water”)。

2)當(dāng)處理一個(gè)通名時(shí),系統(tǒng)在映射表中進(jìn)行精確或模糊查詢,將其歸類到對(duì)應(yīng)的類別。對(duì)于復(fù)合通名(如“Suspension Bridge”),系統(tǒng)優(yōu)先匹配整個(gè)短語,若失敗則回退至核心通名(“Bridge”)進(jìn)行匹配。

3)歧義處理:對(duì)于極少數(shù)存在歧義的通名(如“Court”可表示“法庭”建筑或“死胡同”道路),系統(tǒng)將結(jié)合該地名中識(shí)別出的專名部分所提供的上下文信息,并從知識(shí)圖譜中查詢?cè)撏诓煌悇e下的使用頻率,選擇最可能的類別作為歸類結(jié)果。通過以上步驟,可為后續(xù)空間關(guān)系預(yù)測提供語義約束,確保推理結(jié)果符合地理實(shí)體的實(shí)際分布規(guī)律。

4.2 知識(shí)圖譜查詢

基于通名映射的類別,從知識(shí)圖譜中檢索候選派生地名與潛在地名之間的典型空間關(guān)系,支撐位置推理。輸入潛在地名類別和候選派生地名類別,使用SPARQL語言在構(gòu)建的知識(shí)圖譜中進(jìn)行查詢,輸出空間關(guān)系。

4.3 位置推理

根據(jù)知識(shí)圖譜返回的空間關(guān)系,結(jié)合候選派生地名的實(shí)際坐標(biāo)生成潛在地名的可能位置。例如關(guān)系為span且候選派生地名“Kohaihai River Suspension Bridge”坐標(biāo)為(x,y),則潛在地名“Kohaihai River”應(yīng)位于該懸索橋的下方。如圖所示是潛在地名位置推理的完整流程。


5 實(shí)驗(yàn)與分析

5.1 數(shù)據(jù)來源

實(shí)驗(yàn)數(shù)據(jù)來源于GeoNames官網(wǎng)。下載的地圖矢量數(shù)據(jù)包括納米比亞、博茨瓦納、萊索托、斯威士蘭等4個(gè)南非國家的矢量數(shù)據(jù)。該數(shù)據(jù)包括20209個(gè)地理實(shí)體和188個(gè)地理實(shí)體類別,主要包括類別如公園、河流、湖泊、學(xué)校、住宅道路、水、建筑、水庫、停車場、自然保護(hù)區(qū)等。

5.2 派生關(guān)系規(guī)則形式化表達(dá)

基于本文的構(gòu)建方法,將派生關(guān)系判定規(guī)則以三元組的形式存儲(chǔ)在Neo4j圖數(shù)據(jù)庫中。最終識(shí)別出派生關(guān)系地名對(duì)1153個(gè),這些關(guān)系構(gòu)成了復(fù)雜的地名派生關(guān)系知識(shí)圖譜,圖2為示例,圖3為具體的不同類別之間的派生關(guān)系。



5.3 未登錄地名發(fā)現(xiàn)和空間位置推理實(shí)驗(yàn)

5.3.1 實(shí)驗(yàn)步驟

用訓(xùn)練好的BERT-CRF模型對(duì)納米比亞、博茨瓦納、萊索托、斯威士蘭等4個(gè)南非國家的地名數(shù)據(jù)進(jìn)行標(biāo)注,按8∶2劃分訓(xùn)練集和測試集。匹配多通名的復(fù)合地名作為候選派生地名。從候選派生地名中提取嵌套子地名(如“Mataura River Brige”中的“Mataura River”)。在本地地名數(shù)據(jù)庫中查詢這些嵌套地名,若存在記錄,則該地名在現(xiàn)實(shí)中已存在(非未登錄地名)。若無記錄,則進(jìn)入下一步驗(yàn)證。

將未匹配的嵌套地名在OpenStreetMap(OSM)中進(jìn)一步查詢,確認(rèn)是否無記錄。若仍無記錄,則判定為潛在地名。對(duì)最終篩選出的潛在地名進(jìn)行人工核查,排除錯(cuò)誤案例。

使用潛在地名識(shí)別的結(jié)果作為未登錄地名輸入數(shù)據(jù),提取潛在地名和派生地名的通名,映射類別,確定潛在地名類別和候選派生地名類別。在知識(shí)圖譜中查詢兩類別之間的空間關(guān)系,結(jié)合候選派生地名的實(shí)際坐標(biāo)生成潛在地名的可能位置。

5.3.2 評(píng)價(jià)方法

在無法獲取潛在地名真實(shí)位置的情況下,評(píng)估空間位置推理結(jié)果的合理性需要采用間接方法或替代指標(biāo)。

1)基于已知地名的模擬驗(yàn)證

①從現(xiàn)有地名數(shù)據(jù)庫中隨機(jī)選取部分已知地名,人為隱藏其位置信息,將其作為“模擬的潛在地名”。

②使用相同的空間推理方法預(yù)測這些模擬潛在地名的位置,并與真實(shí)位置對(duì)比。

③計(jì)算位置誤差,以此間接評(píng)估對(duì)未登錄地名的推理能力。

2)人工合理性評(píng)估

邀請(qǐng)3名地理信息專家,對(duì)潛在地名的推理結(jié)果進(jìn)行評(píng)分,按合理、部分合理和不合理3個(gè)等級(jí)進(jìn)行評(píng)分。其中符合語義和空間邏輯為合理,位置大致正確但存在偏差為部分合理,推理位置存在明顯錯(cuò)誤為不合理。

3)多源數(shù)據(jù)驗(yàn)證

使用OSM地圖查找使用本文方法推理出的潛在地名位置,觀察推理位置附近是否存在未命名的相關(guān)地理實(shí)體(如無名道路、建筑),以間接證明推理的合理性。

5.3.3 未登錄地名發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證方法的有效性,通過人工識(shí)別潛在地名與本文方法進(jìn)行對(duì)比評(píng)價(jià)。從南非4個(gè)國家經(jīng)過預(yù)處理的地名數(shù)據(jù)中,隨機(jī)抽取10000條數(shù)據(jù)進(jìn)行驗(yàn)證分析。其中,人工識(shí)別的潛在地名共有1364個(gè),通過本文的方法發(fā)現(xiàn)的潛在地名共有1153個(gè)。具體的分析結(jié)果如表3。

進(jìn)一步分析發(fā)現(xiàn),盡管該方法在大多數(shù)情況下都表現(xiàn)出色,但仍存在一些識(shí)別錯(cuò)誤的情況。錯(cuò)誤案例進(jìn)一步分析表明,二詞通名及二詞以上的復(fù)合通名因訓(xùn)練語料中樣本稀少,導(dǎo)致模型識(shí)別能力下降;多級(jí)派生(如“Tauranga Bay Beach Road”包含“Tauranga Bay”與“Tauranga Bay Beach”兩級(jí)派生)因當(dāng)前模型僅支持單層切分,未能遞歸解析多層結(jié)構(gòu),構(gòu)成主要技術(shù)瓶頸。


針對(duì)上述瓶頸,未來的優(yōu)化工作將圍繞以下方向展開:①針對(duì)二詞通名及二詞以上的復(fù)合通名問題,需要構(gòu)建一個(gè)領(lǐng)域特定的通名詞典,并在模型預(yù)處理或后處理階段進(jìn)行集成,通過規(guī)則與統(tǒng)計(jì)相結(jié)合的方式提升低頻復(fù)合通名的識(shí)別率。

②針對(duì)多級(jí)派生問題,需要將現(xiàn)有的單層切分模型改進(jìn)為遞歸神經(jīng)網(wǎng)絡(luò)的層次化切分架構(gòu)。該架構(gòu)能夠?qū)η蟹趾蟮暮蜻x地名進(jìn)行迭代式再分析,直至無法發(fā)現(xiàn)新的派生結(jié)構(gòu)為止,從而實(shí)現(xiàn)對(duì)復(fù)雜嵌套地名的完整解析。

5.3.4 空間關(guān)系推理實(shí)驗(yàn)結(jié)果與分析

1)模擬驗(yàn)證結(jié)果

在1000個(gè)已知地名的測試中:82%的推理位置誤差≤100m。12%的誤差在100~500m。6%的誤差>500m。

對(duì)誤差大于500m的案例進(jìn)行深入分析后發(fā)現(xiàn),地名點(diǎn)位標(biāo)志方法的不一致性是導(dǎo)致重大空間偏差的一個(gè)重要原因。具體而言,開源地名數(shù)據(jù)庫中地理實(shí)體的空間坐標(biāo)通常以簡化后的幾何中心(如多邊形質(zhì)心)作為其位置代表,然而在實(shí)際地理語境中,該點(diǎn)位所承載的語義功能往往因地物類型與命名習(xí)慣的不同而存在顯著差異。

以“北京大學(xué)”與“北京大學(xué)地鐵站”的空間關(guān)系為例:在實(shí)際位置推理中,地鐵站的位置應(yīng)參照北京大學(xué)的主要入口或通行節(jié)點(diǎn)進(jìn)行推算;而在開源數(shù)據(jù)中,“北京大學(xué)”的坐標(biāo)可能被記錄為整個(gè)校區(qū)多邊形范圍的幾何質(zhì)心。若以質(zhì)心坐標(biāo)為基準(zhǔn)推理“北京大學(xué)地鐵站”的位置,其結(jié)果可能與以實(shí)際校門為參照的推理結(jié)果相距數(shù)百米甚至更遠(yuǎn),從而導(dǎo)致顯著的空間位置誤差。

未來研究需要考慮地物功能與位置標(biāo)志的語義,采用多位置點(diǎn)或概率分布模型來更精確地表征地理實(shí)體的空間屬性。

2)人工評(píng)估結(jié)果

對(duì)1153條潛在地名的推理結(jié)果:評(píng)分合理的占77.1%,部分合理的占16.5%,不合理的占6.4%。

3)多源數(shù)據(jù)驗(yàn)證結(jié)果

在OSM地圖中,約41%的推理位置附近存在未命名的相關(guān)地理實(shí)體,間接支持推理合理性。

通過模擬驗(yàn)證、人工評(píng)估和多源數(shù)據(jù)驗(yàn)證,實(shí)驗(yàn)表明本文方法能有效預(yù)測潛在地名位置(合理率77.1%)。代理指標(biāo)可替代真實(shí)位置缺失的評(píng)估需求。未來需結(jié)合多模態(tài)數(shù)據(jù)進(jìn)一步提升推理精度。

6 結(jié)束語

本文提出了一種融合知識(shí)圖譜與深度學(xué)習(xí)的未登錄地名發(fā)現(xiàn)與空間位置推理方法。首先構(gòu)建派生關(guān)系知識(shí)圖譜,建立包含語義、空間和相似度約束的規(guī)則庫;其次采用F1值達(dá)0.9567的BERT-CRF模型實(shí)現(xiàn)地名成分標(biāo)注,支持結(jié)構(gòu)解析。在Intel Xeon E5服務(wù)器上訓(xùn)練BERT-CRF模型耗時(shí)約3h,知識(shí)圖譜查詢平均響應(yīng)時(shí)間<100ms,具備了實(shí)際部署的可行性。實(shí)驗(yàn)表明,本方法對(duì)未登錄地名發(fā)現(xiàn)準(zhǔn)確率達(dá)84.5%,并能通過知識(shí)圖譜的空間關(guān)系進(jìn)行位置推導(dǎo),有效增強(qiáng)地理信息查詢準(zhǔn)確性,可為GIS系統(tǒng)提供自動(dòng)化地名補(bǔ)全功能,并為歷史地名研究和文化遺產(chǎn)保護(hù)提供技術(shù)支持。本文主要貢獻(xiàn)為:①知識(shí)圖譜與深度學(xué)習(xí)的協(xié)同應(yīng)用提升了地名發(fā)現(xiàn)效率與定位精度;②建立了可解釋的派生關(guān)系分析框架。

需要指出的是,該方法目前主要針對(duì)英語地名,對(duì)非洲土著語言(如斯瓦希里語、豪薩語)缺乏適應(yīng)性,主要受限于訓(xùn)練語料稀缺與字符編碼差異。針對(duì)類似局限性,未來工作將圍繞以下兩個(gè)核心方向展開:①多語言支持能力的深化。進(jìn)行跨語言詞向量與模型遷移、低資源命名實(shí)體識(shí)別。②知識(shí)圖譜動(dòng)態(tài)更新機(jī)制的構(gòu)建。為實(shí)現(xiàn)地名知識(shí)的持續(xù)演進(jìn),需解決靜態(tài)知識(shí)圖譜的滯后性問題。具體技術(shù)路線包括:流式數(shù)據(jù)處理與事件檢測、增量學(xué)習(xí)與模型更新、置信度評(píng)估與人工介入。



作者:張婷婷,毛曦,路文娟

來源:《測繪科學(xué)》2026年第4期

選稿:賀雨婷

編輯:杜佳玲

校對(duì):歐陽莉艷

審定:耿 曈

責(zé)編:杜佳玲

(由于版面內(nèi)容有限,文章注釋內(nèi)容請(qǐng)參照原文)


微信掃碼加入

中國地名研究交流群

QQ掃碼加入

江西地名研究交流群

歡迎來稿!歡迎交流!

轉(zhuǎn)載請(qǐng)注明來源:“江西地名研究”微信公眾號(hào)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香港首位航天員黎家盈,人上天還不到10天,提出一個(gè)破天荒的請(qǐng)求

香港首位航天員黎家盈,人上天還不到10天,提出一個(gè)破天荒的請(qǐng)求

荊楚寰宇文樞
2026-06-11 22:52:46
帶領(lǐng)美國隊(duì)拿下開門紅,波切蒂諾的能力或許要被重新評(píng)價(jià)了

帶領(lǐng)美國隊(duì)拿下開門紅,波切蒂諾的能力或許要被重新評(píng)價(jià)了

寫球的牧子
2026-06-13 17:25:06
普京說出了心里話:中印都是好朋友,俄羅斯不會(huì)選邊站

普京說出了心里話:中印都是好朋友,俄羅斯不會(huì)選邊站

空天力量
2026-06-12 13:17:09
美伊就和平協(xié)議最終文本達(dá)成一致,伊朗外長稱美國承諾不發(fā)動(dòng)戰(zhàn)爭,也不使用威脅手段,霍爾木茲海峽相關(guān)服務(wù)將收費(fèi)

美伊就和平協(xié)議最終文本達(dá)成一致,伊朗外長稱美國承諾不發(fā)動(dòng)戰(zhàn)爭,也不使用威脅手段,霍爾木茲海峽相關(guān)服務(wù)將收費(fèi)

每日經(jīng)濟(jì)新聞
2026-06-13 20:43:19
震撼,波黑球迷開始在多倫多街頭集結(jié),并高喊口號(hào)支持巴勒斯坦

震撼,波黑球迷開始在多倫多街頭集結(jié),并高喊口號(hào)支持巴勒斯坦

懂球帝
2026-06-13 01:18:15
英格蘭被“偷家”后續(xù):絕大部分被盜物品被追回

英格蘭被“偷家”后續(xù):絕大部分被盜物品被追回

體壇周報(bào)
2026-06-13 21:18:29
曇花六現(xiàn)!張雪機(jī)車奪賽季第6冠 德比斯最后一圈反超+逆轉(zhuǎn)絕殺

曇花六現(xiàn)!張雪機(jī)車奪賽季第6冠 德比斯最后一圈反超+逆轉(zhuǎn)絕殺

念洲
2026-06-13 20:33:46
直降10萬元!特斯拉新車突然降價(jià),13.4 萬元,全球最低

直降10萬元!特斯拉新車突然降價(jià),13.4 萬元,全球最低

科技堡壘
2026-06-12 09:37:51
哈佛10年追蹤:俯臥撐比血壓更準(zhǔn)!每周2-3次力竭,給全身換系統(tǒng)

哈佛10年追蹤:俯臥撐比血壓更準(zhǔn)!每周2-3次力竭,給全身換系統(tǒng)

健身狂人
2026-06-13 20:30:47
剛剛,馬斯克成人類史上首位萬億富翁,但全網(wǎng)最羨慕的是 SpaceX 焊工

剛剛,馬斯克成人類史上首位萬億富翁,但全網(wǎng)最羨慕的是 SpaceX 焊工

AppSo
2026-06-13 09:42:15
男子體檢查出2.1厘米肺結(jié)節(jié),多家醫(yī)院診斷為“肺癌”;醫(yī)生切開笑了:是個(gè)紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

男子體檢查出2.1厘米肺結(jié)節(jié),多家醫(yī)院診斷為“肺癌”;醫(yī)生切開笑了:是個(gè)紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

揚(yáng)子晚報(bào)
2026-06-13 15:44:05
演都不演了?泰國長公主去世僅1天,死因被扒,李嘉誠意外被牽連

演都不演了?泰國長公主去世僅1天,死因被扒,李嘉誠意外被牽連

花語舞者
2026-06-13 07:30:11
突發(fā)!網(wǎng)傳飛豬40%以上裁員,上午還在開啟新項(xiàng)目,下午就讓走人

突發(fā)!網(wǎng)傳飛豬40%以上裁員,上午還在開啟新項(xiàng)目,下午就讓走人

火山詩話
2026-06-13 09:59:27
黃日華回應(yīng)主動(dòng)上前擁抱劉德華但對(duì)方“黑臉”:演唱會(huì)結(jié)束后,他們通過電話,二人關(guān)系絕非網(wǎng)友所猜測

黃日華回應(yīng)主動(dòng)上前擁抱劉德華但對(duì)方“黑臉”:演唱會(huì)結(jié)束后,他們通過電話,二人關(guān)系絕非網(wǎng)友所猜測

臺(tái)州交通廣播
2026-06-13 18:19:03
河南一國企領(lǐng)導(dǎo)疑值班期間在辦公室飲酒,被紀(jì)委人員突擊檢查?河南省國資委回應(yīng)

河南一國企領(lǐng)導(dǎo)疑值班期間在辦公室飲酒,被紀(jì)委人員突擊檢查?河南省國資委回應(yīng)

極目新聞
2026-06-13 20:47:12
克洛普:世界杯中補(bǔ)水暫停就是個(gè)幌子,他們是為塞進(jìn)更多廣告

克洛普:世界杯中補(bǔ)水暫停就是個(gè)幌子,他們是為塞進(jìn)更多廣告

懂球帝
2026-06-13 19:53:05
烏克蘭襲擊導(dǎo)致燃料危機(jī)惡化,扎哈羅娃呼吁“友好國家”伸出援手

烏克蘭襲擊導(dǎo)致燃料危機(jī)惡化,扎哈羅娃呼吁“友好國家”伸出援手

山河路口
2026-06-13 21:03:30
45歲安以軒復(fù)出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

45歲安以軒復(fù)出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

無比
2026-06-13 20:42:09
他來了!NBA官方公布總決賽G5裁判:福斯特回歸擔(dān)任主裁判

他來了!NBA官方公布總決賽G5裁判:福斯特回歸擔(dān)任主裁判

懂球帝
2026-06-13 22:33:07
突發(fā)!取消澳門活動(dòng)!字母哥返美處理交易事宜!

突發(fā)!取消澳門活動(dòng)!字母哥返美處理交易事宜!

籃球大圖
2026-06-13 18:32:34
2026-06-14 00:04:49
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行業(yè)資訊。
3447文章數(shù) 312關(guān)注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補(bǔ) 維權(quán)后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補(bǔ) 維權(quán)后崗位直接取消

體育要聞

美國4比1巴拉圭:這統(tǒng)治力真是美國隊(duì)?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋?cè)W(wǎng)!

財(cái)經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍(lán)S07華為乾崑激光版增程車型上市 限時(shí)15.49萬元起

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
家居
本地
健康

夏天穿衣要杜絕土氣感!試試精致的小香風(fēng),優(yōu)雅與俏皮并存

數(shù)碼要聞

LGA 1700回歸:英特爾被曝將推Raptor Lake Next處理器

家居要聞

空間微調(diào) 移形換境

本地新聞

AK劉彰邂逅河北南大港濕地

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

無障礙瀏覽 進(jìn)入關(guān)懷版