通訊工程：融合數(shù)學(xué)建模與AI的無外部參照3D定位新范式

2026-05-20 16:15:47　來源: 集智俱樂部

北京舉報

分享至

拍攝者：高千惠、何逸銘、尚可可

導(dǎo)語

在低空飛行物實時定位領(lǐng)域，如何在無外部參照、無姿態(tài)測量的條件下實現(xiàn)高精度三維坐標(biāo)識別，始終是制約無人機(jī)監(jiān)管與反制技術(shù)發(fā)展的核心瓶頸。傳統(tǒng)視覺定位方法或依賴昂貴的慣性測量單元（IMU）和精密標(biāo)定設(shè)備，或受限于單幀圖像的幾何歧義，在復(fù)雜氣象條件下難以保持魯棒性。2026年3月發(fā)表于Communications Engineering的這項研究，提出了一套融合非線性時間序列分析與代數(shù)拓?fù)涞膶崟r定位框架。該框架將物理信息嵌入YOLOv12視覺檢測，并引入奇異值分解（SVD）實現(xiàn)2D到3D的幾何重構(gòu)，僅需三臺手持設(shè)備即可在強(qiáng)干擾環(huán)境下完成地心大地坐標(biāo)的精確解算。這項工作為低空安防提供了高效解決方案，也為人工智能前沿算法與傳統(tǒng)應(yīng)用數(shù)學(xué)的深度結(jié)合提供了可行路徑，對復(fù)雜系統(tǒng)建模具有推廣價值。

關(guān)鍵詞：物理信息神經(jīng)網(wǎng)絡(luò)（Physics-informed Neural Networks），奇異值分解（SVD），三維大地測量定位，非線性時間序列分析，低空飛行物追蹤，無姿態(tài)測量，復(fù)雜系統(tǒng)建模

何逸銘丨作者

靳子璇丨審校

論文題目：Bridging mathematical modeling and AI for 3D coordinate recognition of moving objects without external reference and attitude measurement 論文鏈接：https://www.nature.com/articles/s44172-026-00648-x 發(fā)表時間：2026年3月20日論文來源：Nature·Communications Engineering

無外部參照場景下的定位難題

如何在沒有GPS信號、沒有預(yù)置標(biāo)定物、沒有姿態(tài)傳感器的拒止環(huán)境中僅憑幾臺普通相機(jī)精準(zhǔn)捕捉無人機(jī)黑飛、突然出現(xiàn)的飛鳥等非合作目標(biāo)的三維軌跡，不僅是低成本城市低空安防的迫切需求，也是復(fù)雜系統(tǒng)建模領(lǐng)域的基礎(chǔ)科學(xué)問題。

近年來，深度學(xué)習(xí)為視覺感知帶來了革命性突破。YOLO系列模型能以毫秒級速度完成目標(biāo)檢測，為實時應(yīng)用提供了可能。然而，將2D圖像坐標(biāo)轉(zhuǎn)換為3D世界坐標(biāo)，始終面臨兩個難以調(diào)和的矛盾。

首先是精度與極簡的矛盾。傳統(tǒng)攝影測量方法依賴對極幾何和迭代優(yōu)化，需要精確的相機(jī)內(nèi)外參標(biāo)定，且對單幀誤檢極度敏感，任何飛鳥掠過或光線反射都可能導(dǎo)致系統(tǒng)崩潰。純數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法雖然端到端便捷，卻缺乏物理可解釋性，在未見場景下泛化能力堪憂。

其次是靜態(tài)與動態(tài)的矛盾。現(xiàn)有方法多將視頻流視為獨立圖像的集合，通過單幀幾何關(guān)系反推三維坐標(biāo)，忽略了時間維度上的運(yùn)動連續(xù)性。這種離線思維在氣象條件惡劣、目標(biāo)機(jī)動性強(qiáng)時，往往力不從心。

正是在這樣的背景下，南京大學(xué)計算傳播學(xué)實驗中心的尚可可副教授與西澳大學(xué)復(fù)雜系統(tǒng)中心的Michael Small教授合作，提出了全新的實時定位框架。其核心設(shè)計理念可以概括為物理約束、代數(shù)重構(gòu)、時序融合三個關(guān)鍵詞。

融合物理約束與代數(shù)重構(gòu)的新框架

該框架的工作流程分為兩個精密配合的階段：

第一階段：基于物理直覺的感知處理。

傳統(tǒng)YOLO檢測僅依據(jù)單幀圖像進(jìn)行判斷，容易將相似的靜止物體或者其它飛行物體等誤判為真實目標(biāo)。而該框架創(chuàng)新性地為YOLOv12植入了時間序列TS模塊，利用非線性動力學(xué)中的相空間重構(gòu)思想，通過分析目標(biāo)自身的物理速度及其在過去時間步長的演化軌跡，建立其運(yùn)動的流形結(jié)構(gòu)。

當(dāng)新的觀測數(shù)據(jù)進(jìn)入時，算法并非簡單接受像素坐標(biāo)，而是判斷該點是否符合既有的動力學(xué)流形。如果某幀檢測位置違背了物理慣性或運(yùn)動連續(xù)性，例如偏離吸引子軌道，TS模塊會將其識別為系統(tǒng)噪聲并剔除。這種基于動力學(xué)的清洗機(jī)制賦予系統(tǒng)極強(qiáng)的抗干擾能力，即使在體育場遭遇極端氣象條件，仍能保持穩(wěn)定追蹤。

第二階段：基于SVD的代數(shù)解算。

在獲得高純度時序數(shù)據(jù)后，再利用奇異值分解（SVD）從多視角時序數(shù)據(jù)中估計相機(jī)間的相對位姿，并進(jìn)一步求解相似變換矩陣，實現(xiàn)世界坐標(biāo)系下的高精度3D定位。

圖1 2D到3D轉(zhuǎn)換框架。該框架首先使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行基于人工智能的2D檢測，以獲得捕獲圖像中對象的2D坐標(biāo)時間序列。然后利用時間序列和速度的物理特征對這些坐標(biāo)進(jìn)行精化。核心方法利用時間序列和奇異值分解來估計攝像機(jī)的相對位姿。進(jìn)一步采用基于奇異值分解的方法計算相似變換矩陣，推導(dǎo)出攝像機(jī)到世界坐標(biāo)系的坐標(biāo)變換，最終實現(xiàn)世界坐標(biāo)系中的三維大地測量定位。

這種方法的顛覆性在于實現(xiàn)了無姿態(tài)測量。系統(tǒng)完全摒棄IMU等外部傳感器，僅憑視覺觀測的時間演化規(guī)律，便完成了對三維姿態(tài)的代數(shù)重構(gòu)。配合后端輕量級的光束法平差Bundle Adjustment，系統(tǒng)在保證實時性的同時，達(dá)到了理論上的全局最優(yōu)解。

性能驗證：從仿真到真實場景

研究團(tuán)隊設(shè)計了從虛擬到現(xiàn)實、從理論到工程的完整驗證鏈條，將新框架與基線方法進(jìn)行了正面交鋒。

數(shù)值模擬：理論精度測試

在正式走向野外之前（如圖3），研究團(tuán)隊首先在200×200×100m的虛擬3D空間中進(jìn)行了嚴(yán)格的數(shù)值模擬。三臺地面相機(jī)以120°間隔布設(shè)，觀測一段由15個控制點定義、經(jīng)三次樣條插值至900幀的螺旋上升軌跡。在Phase I-Batch Initialization積累300幀后，Phase II-Online Tracking進(jìn)行實時坐標(biāo)識別。

圖3 雙階段驗證的模擬場景

結(jié)果令人振奮：在零噪聲理想條件下，系統(tǒng)的RMSE僅為7.8×10?3m，MAE為7.6×10?3m，R2幾乎為1。這一近乎完美的精度證明，基于SVD的代數(shù)重構(gòu)在理論上是精確且自洽的，誤差僅來源于計算機(jī)數(shù)值求解的固有近似。這一結(jié)果表明SVD代數(shù)重構(gòu)方法在數(shù)學(xué)層面具有極高的精度。

真實世界：惡劣天氣下的性能檢驗

研究團(tuán)隊在南京大學(xué)仙林校區(qū)第一體育場開展無人機(jī)實地實驗，測試區(qū)域為100×100×30m。值得注意的是，為了驗證系統(tǒng)的魯棒性，團(tuán)隊特意選擇了雨天、光照嚴(yán)重退化的惡劣天氣條件下采集的飛行視頻作為測試集，這正是傳統(tǒng)視覺方法最容易失穩(wěn)的場景。

圖5 無人機(jī)三維坐標(biāo)實時識別實驗示意圖。(A)數(shù)據(jù)預(yù)處理：采集三個攝像頭拍攝的無人機(jī)飛行圖像，按8：2的比例分為訓(xùn)練集和測試集。(B)YOLOv12模型訓(xùn)練：用在各種場景中捕獲的無人機(jī)圖像訓(xùn)練集來訓(xùn)練基于YOLOv12框架的無人機(jī)檢測模型。(C)基于YOLOv12的無人機(jī)預(yù)測：訓(xùn)練好的模型用于預(yù)測三個攝像頭捕獲的視頻中無人機(jī)的包圍盒，這些原始的每幀輸出可能仍然包括漏檢和誤檢。(D)YOLOv12-TS：使用我們提出的雙階段YOLOv12-TS改進(jìn)預(yù)測的無人機(jī)探測：第一階段適用于軌跡完成和異常值拒絕；第二階段僅適用于異常值拒絕。(E)第一階段：批量初始化：使用精化的2D坐標(biāo)時間序列來估計相機(jī)姿勢，為3D坐標(biāo)識別做準(zhǔn)備。(F)第二階段：在線跟蹤：通過奇異值分解三角測量和相似性變換進(jìn)行實時三維坐標(biāo)識別。根據(jù)無人機(jī)機(jī)載定位設(shè)備提供的地面真實3D坐標(biāo)數(shù)據(jù)來評估重建的軌跡。使用的度量是RMSE、MAE、最大誤差和R平方。

實驗結(jié)果圖5、圖6表明，在僅使用三臺普通相機(jī)、無任何外部參照和姿態(tài)測量設(shè)備的配置下，系統(tǒng)取得了以下結(jié)果：RMSE：5.45 m、MAE：4.83 m、R2：0.91。

圖6 使用X、Y和Z軸上的地面真實數(shù)據(jù)對無人機(jī)3D坐標(biāo)識別結(jié)果進(jìn)行評估。該圖分為三部分：(A)顯示無人機(jī)3D坐標(biāo)沿X軸的偏差，(B)沿Y軸的偏差，以及(C)沿Z軸的偏差。紅色實線表示從識別過程中獲得的無人機(jī)3D坐標(biāo)，而黑虛線表示由機(jī)載定位設(shè)備提供的相應(yīng)地面真實無人機(jī)3D坐標(biāo)。

其中代表高度的Z軸定位精度最高，為RMSE 1.66 m，R2 0.98；X軸次之，達(dá)到RMSE 2.55 m，R2 0.93；Y軸受限于基線幾何布局，誤差相對較大，僅為RMSE 4.52 m，R2 0.80，但整體軌跡與機(jī)載GNSS真值高度吻合。

后端優(yōu)化的關(guān)鍵作用

如表3，消融實驗進(jìn)一步驗證了Bundle Adjustment后端的價值。

表3 展示BA后端優(yōu)化的消融實驗結(jié)果。RMSE：均方根誤差(M)；MAE：平均絕對誤差(M)；R2：R-平方(決定系數(shù))。“w/o BA”：不帶束調(diào)整(僅限SVD)；“w/BA”：帶背景束調(diào)整細(xì)化。

以YOLOv12為前端檢測器時，純SVD方法的RMSE為6.30 m，R2為0.87；而引入滑動窗口BA優(yōu)化后，RMSE降至5.45 m，R2提升至0.91。這一提升在Y軸和整體軌跡上尤為明顯，證明BA能有效抑制長時飛行中的累積漂移。

表4 仿真和無人機(jī)實驗的運(yùn)行時性能。所有計時結(jié)果在10次重復(fù)運(yùn)行中取平均值。實時系數(shù)以幀間隔與30 FPS的每幀延遲之比計算。

如表4，在實時性能方面，Phase I的批量初始化在2000幀數(shù)據(jù)上耗時僅0.33秒；進(jìn)入Phase II后，單幀3D坐標(biāo)識別的延遲僅為0.039毫秒，約為30 FPS視頻幀間隔的1/850。這意味著系統(tǒng)不僅能精確計算，還能實時跟蹤，滿足工程現(xiàn)場的實時性需求。

結(jié)論與展望

數(shù)學(xué)與AI的深度融合，能否在極簡硬件條件下實現(xiàn)傳統(tǒng)方法難以企及的定位精度？論文通過數(shù)值模擬與真實場景的雙重驗證，給出四個相互支撐的核心結(jié)論。

第一，理論精度可接近機(jī)器極限。在200×200×100 m的虛擬3D空間中，基于SVD的2D-3D坐標(biāo)轉(zhuǎn)換在理想條件下實現(xiàn)了RMSE僅7.8×10?3 m、R2幾乎為1的精度，誤差僅來源于計算機(jī)數(shù)值求解的固有近似。這證明SVD代數(shù)重構(gòu)在數(shù)學(xué)層面是精確且自洽的。

第二，工程場景下的魯棒性得到充分驗證。在南京大學(xué)體育場雨天的惡劣光照條件下，僅使用三臺普通智能手機(jī)相機(jī)，系統(tǒng)實現(xiàn)了RMSE 5.45 m、MAE 4.83 m、R2 0.91的三維定位精度，Z軸精度更是達(dá)到RMSE 1.66 m、R2 0.98。這意味著消費級設(shè)備在極端環(huán)境下也能完成可靠的大地測量定位。

第三，實時性能遠(yuǎn)超工程需求。Phase II在線跟蹤的單幀處理延遲僅為0.039 ms，約為30 FPS視頻幀間隔的1/850，實時系數(shù)超過800倍。配合后臺Bundle Adjustment的滑動窗口優(yōu)化，系統(tǒng)在長時間飛行中仍能有效抑制累積漂移。

第四，方法具有模型無關(guān)的普適性。如表2，時間序列模塊對YOLO v8至v12的所有版本均帶來性能提升，且物理信息門控與軌跡補(bǔ)全機(jī)制可被即插即用地集成到任何現(xiàn)有檢測框架中，無需重新訓(xùn)練主干網(wǎng)絡(luò)。

表2 在三個攝像頭視圖中使用和不使用時間序列(TS)模塊的YOLO變體(V8-V12)的綜合基準(zhǔn)。該表詳細(xì)說明了IOU加權(quán)精度(IOU-P)、召回(IOU-R)和F1-Score(IOU-F1)。改進(jìn)(?)表明TS模塊實現(xiàn)了性能提升。

一個無需外部參照、無需姿態(tài)測量的實時混合3D定位框架，可在諸多場景中大展身手。在低空經(jīng)濟(jì)監(jiān)管中，它可以作為核心感知引擎，實時追蹤未報備飛行物；在應(yīng)急救援中，它能為無人機(jī)集群提供拒止環(huán)境下的相對定位基準(zhǔn)；在生態(tài)保護(hù)中，它有望以非侵入方式追蹤鳥類等野生動物的遷徙軌跡；在基礎(chǔ)科研中，它為復(fù)雜系統(tǒng)的非線性動力學(xué)建模提供了可驗證的實驗平臺。

當(dāng)然，任何技術(shù)框架都有其邊界。當(dāng)前系統(tǒng)主要針對單目標(biāo)場景設(shè)計，多目標(biāo)并發(fā)追蹤時的數(shù)據(jù)關(guān)聯(lián)與軌跡分離仍是待解難題；論文以三臺相機(jī)為基準(zhǔn)，相機(jī)數(shù)量與空間布局的優(yōu)化也有進(jìn)一步挖掘空間，更多視角可能提升精度與魯棒性；此外，在建筑物密集的城市峽谷環(huán)境中，遮擋與多徑效應(yīng)將對系統(tǒng)性能提出更嚴(yán)苛的考驗。未來工作可沿三個方向展開：將多目標(biāo)數(shù)據(jù)關(guān)聯(lián)機(jī)制嵌入TS模塊，探索自適應(yīng)的相機(jī)網(wǎng)絡(luò)拓?fù)鋬?yōu)化，以及在更復(fù)雜的城市環(huán)境中開展長時連續(xù)觀測驗證。

復(fù)雜系統(tǒng)自動建模讀書會第二季

“復(fù)雜世界，簡單規(guī)則。”

集智俱樂部聯(lián)合復(fù)旦大學(xué)智能復(fù)雜體系實驗室青年研究員朱群喜、浙江大學(xué)百人計劃研究員李樵風(fēng)、清華大學(xué)電子工程系數(shù)據(jù)科學(xué)與智能實驗室博士后研究員丁璟韜、美國東北大學(xué)物理系A(chǔ)lbert-László Barabási指導(dǎo)的博士后高婷婷、北京大學(xué)博雅博士后曹文祺、復(fù)旦大學(xué)數(shù)學(xué)科學(xué)學(xué)院應(yīng)用數(shù)學(xué)方向博士研究生趙伯林、北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院博士研究生牟牧云，共同發(fā)起。

讀書會將于9月5日起每周四晚上20:00-22:00進(jìn)行，探討四個核心模塊：數(shù)據(jù)驅(qū)動的復(fù)雜系統(tǒng)建模、復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)推斷、具有可解釋性的復(fù)雜系統(tǒng)推斷（動力學(xué)+網(wǎng)絡(luò)結(jié)構(gòu)）、應(yīng)用-超材料設(shè)計和城市系統(tǒng)，通過重點討論75篇經(jīng)典、前沿的重要文獻(xiàn)，從黑盒（數(shù)據(jù)驅(qū)動）到白盒（可解釋性），逐步捕捉系統(tǒng)的“本質(zhì)”規(guī)律，幫助大家更好的認(rèn)識、理解、預(yù)測、控制、設(shè)計復(fù)雜系統(tǒng)，為相關(guān)領(lǐng)域的研究和應(yīng)用提供洞見。讀書會已完結(jié)，現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.