![]()
拍攝者:高千惠、何逸銘、尚可可
導(dǎo)語
在低空飛行物實時定位領(lǐng)域,如何在無外部參照、無姿態(tài)測量的條件下實現(xiàn)高精度三維坐標(biāo)識別,始終是制約無人機(jī)監(jiān)管與反制技術(shù)發(fā)展的核心瓶頸。傳統(tǒng)視覺定位方法或依賴昂貴的慣性測量單元(IMU)和精密標(biāo)定設(shè)備,或受限于單幀圖像的幾何歧義,在復(fù)雜氣象條件下難以保持魯棒性。2026年3月發(fā)表于Communications Engineering的這項研究,提出了一套融合非線性時間序列分析與代數(shù)拓?fù)涞膶崟r定位框架。該框架將物理信息嵌入YOLOv12視覺檢測,并引入奇異值分解(SVD)實現(xiàn)2D到3D的幾何重構(gòu),僅需三臺手持設(shè)備即可在強(qiáng)干擾環(huán)境下完成地心大地坐標(biāo)的精確解算。這項工作為低空安防提供了高效解決方案,也為人工智能前沿算法與傳統(tǒng)應(yīng)用數(shù)學(xué)的深度結(jié)合提供了可行路徑,對復(fù)雜系統(tǒng)建模具有推廣價值。
關(guān)鍵詞:物理信息神經(jīng)網(wǎng)絡(luò)(Physics-informed Neural Networks),奇異值分解(SVD),三維大地測量定位,非線性時間序列分析,低空飛行物追蹤,無姿態(tài)測量,復(fù)雜系統(tǒng)建模
何逸銘丨作者
靳子璇丨審校
![]()
論文題目:Bridging mathematical modeling and AI for 3D coordinate recognition of moving objects without external reference and attitude measurement 論文鏈接:https://www.nature.com/articles/s44172-026-00648-x 發(fā)表時間:2026年3月20日 論文來源:Nature·Communications Engineering
無外部參照場景下的定位難題
如何在沒有GPS信號、沒有預(yù)置標(biāo)定物、沒有姿態(tài)傳感器的拒止環(huán)境中僅憑幾臺普通相機(jī)精準(zhǔn)捕捉無人機(jī)黑飛、突然出現(xiàn)的飛鳥等非合作目標(biāo)的三維軌跡,不僅是低成本城市低空安防的迫切需求,也是復(fù)雜系統(tǒng)建模領(lǐng)域的基礎(chǔ)科學(xué)問題。
近年來,深度學(xué)習(xí)為視覺感知帶來了革命性突破。YOLO系列模型能以毫秒級速度完成目標(biāo)檢測,為實時應(yīng)用提供了可能。然而,將2D圖像坐標(biāo)轉(zhuǎn)換為3D世界坐標(biāo),始終面臨兩個難以調(diào)和的矛盾。
首先是精度與極簡的矛盾。傳統(tǒng)攝影測量方法依賴對極幾何和迭代優(yōu)化,需要精確的相機(jī)內(nèi)外參標(biāo)定,且對單幀誤檢極度敏感,任何飛鳥掠過或光線反射都可能導(dǎo)致系統(tǒng)崩潰。純數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法雖然端到端便捷,卻缺乏物理可解釋性,在未見場景下泛化能力堪憂。
其次是靜態(tài)與動態(tài)的矛盾。現(xiàn)有方法多將視頻流視為獨立圖像的集合,通過單幀幾何關(guān)系反推三維坐標(biāo),忽略了時間維度上的運(yùn)動連續(xù)性。這種離線思維在氣象條件惡劣、目標(biāo)機(jī)動性強(qiáng)時,往往力不從心。
正是在這樣的背景下,南京大學(xué)計算傳播學(xué)實驗中心的尚可可副教授與西澳大學(xué)復(fù)雜系統(tǒng)中心的Michael Small教授合作,提出了全新的實時定位框架。其核心設(shè)計理念可以概括為物理約束、代數(shù)重構(gòu)、時序融合三個關(guān)鍵詞。
融合物理約束與代數(shù)重構(gòu)的新框架
該框架的工作流程分為兩個精密配合的階段:
第一階段:基于物理直覺的感知處理。
傳統(tǒng)YOLO檢測僅依據(jù)單幀圖像進(jìn)行判斷,容易將相似的靜止物體或者其它飛行物體等誤判為真實目標(biāo)。而該框架創(chuàng)新性地為YOLOv12植入了時間序列TS模塊,利用非線性動力學(xué)中的相空間重構(gòu)思想,通過分析目標(biāo)自身的物理速度及其在過去時間步長的演化軌跡,建立其運(yùn)動的流形結(jié)構(gòu)。
當(dāng)新的觀測數(shù)據(jù)進(jìn)入時,算法并非簡單接受像素坐標(biāo),而是判斷該點是否符合既有的動力學(xué)流形。如果某幀檢測位置違背了物理慣性或運(yùn)動連續(xù)性,例如偏離吸引子軌道,TS模塊會將其識別為系統(tǒng)噪聲并剔除。這種基于動力學(xué)的清洗機(jī)制賦予系統(tǒng)極強(qiáng)的抗干擾能力,即使在體育場遭遇極端氣象條件,仍能保持穩(wěn)定追蹤。
第二階段:基于SVD的代數(shù)解算。
在獲得高純度時序數(shù)據(jù)后,再利用奇異值分解(SVD)從多視角時序數(shù)據(jù)中估計相機(jī)間的相對位姿,并進(jìn)一步求解相似變換矩陣,實現(xiàn)世界坐標(biāo)系下的高精度3D定位。
![]()
圖1 2D到3D轉(zhuǎn)換框架。該框架首先使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行基于人工智能的2D檢測,以獲得捕獲圖像中對象的2D坐標(biāo)時間序列。然后利用時間序列和速度的物理特征對這些坐標(biāo)進(jìn)行精化。核心方法利用時間序列和奇異值分解來估計攝像機(jī)的相對位姿。進(jìn)一步采用基于奇異值分解的方法計算相似變換矩陣,推導(dǎo)出攝像機(jī)到世界坐標(biāo)系的坐標(biāo)變換,最終實現(xiàn)世界坐標(biāo)系中的三維大地測量定位。
這種方法的顛覆性在于實現(xiàn)了無姿態(tài)測量。系統(tǒng)完全摒棄IMU等外部傳感器,僅憑視覺觀測的時間演化規(guī)律,便完成了對三維姿態(tài)的代數(shù)重構(gòu)。配合后端輕量級的光束法平差Bundle Adjustment,系統(tǒng)在保證實時性的同時,達(dá)到了理論上的全局最優(yōu)解。
性能驗證:從仿真到真實場景
研究團(tuán)隊設(shè)計了從虛擬到現(xiàn)實、從理論到工程的完整驗證鏈條,將新框架與基線方法進(jìn)行了正面交鋒。
數(shù)值模擬:理論精度測試
在正式走向野外之前(如圖3),研究團(tuán)隊首先在200×200×100m的虛擬3D空間中進(jìn)行了嚴(yán)格的數(shù)值模擬。三臺地面相機(jī)以120°間隔布設(shè),觀測一段由15個控制點定義、經(jīng)三次樣條插值至900幀的螺旋上升軌跡。在Phase I-Batch Initialization積累300幀后,Phase II-Online Tracking進(jìn)行實時坐標(biāo)識別。
![]()
圖3 雙階段驗證的模擬場景
結(jié)果令人振奮:在零噪聲理想條件下,系統(tǒng)的RMSE僅為7.8×10?3m,MAE為7.6×10?3m,R2幾乎為1。這一近乎完美的精度證明,基于SVD的代數(shù)重構(gòu)在理論上是精確且自洽的,誤差僅來源于計算機(jī)數(shù)值求解的固有近似。這一結(jié)果表明SVD代數(shù)重構(gòu)方法在數(shù)學(xué)層面具有極高的精度。
真實世界:惡劣天氣下的性能檢驗
研究團(tuán)隊在南京大學(xué)仙林校區(qū)第一體育場開展無人機(jī)實地實驗,測試區(qū)域為100×100×30m。值得注意的是,為了驗證系統(tǒng)的魯棒性,團(tuán)隊特意選擇了雨天、光照嚴(yán)重退化的惡劣天氣條件下采集的飛行視頻作為測試集,這正是傳統(tǒng)視覺方法最容易失穩(wěn)的場景。
![]()
圖5 無人機(jī)三維坐標(biāo)實時識別實驗示意圖。(A)數(shù)據(jù)預(yù)處理:采集三個攝像頭拍攝的無人機(jī)飛行圖像,按8:2的比例分為訓(xùn)練集和測試集。(B)YOLOv12模型訓(xùn)練:用在各種場景中捕獲的無人機(jī)圖像訓(xùn)練集來訓(xùn)練基于YOLOv12框架的無人機(jī)檢測模型。(C)基于YOLOv12的無人機(jī)預(yù)測:訓(xùn)練好的模型用于預(yù)測三個攝像頭捕獲的視頻中無人機(jī)的包圍盒,這些原始的每幀輸出可能仍然包括漏檢和誤檢。(D)YOLOv12-TS:使用我們提出的雙階段YOLOv12-TS改進(jìn)預(yù)測的無人機(jī)探測:第一階段適用于軌跡完成和異常值拒絕;第二階段僅適用于異常值拒絕。(E)第一階段:批量初始化:使用精化的2D坐標(biāo)時間序列來估計相機(jī)姿勢,為3D坐標(biāo)識別做準(zhǔn)備。(F)第二階段:在線跟蹤:通過奇異值分解三角測量和相似性變換進(jìn)行實時三維坐標(biāo)識別。根據(jù)無人機(jī)機(jī)載定位設(shè)備提供的地面真實3D坐標(biāo)數(shù)據(jù)來評估重建的軌跡。使用的度量是RMSE、MAE、最大誤差和R平方。
實驗結(jié)果圖5、圖6表明,在僅使用三臺普通相機(jī)、無任何外部參照和姿態(tài)測量設(shè)備的配置下,系統(tǒng)取得了以下結(jié)果:RMSE:5.45 m、MAE:4.83 m、R2:0.91。
![]()
圖6 使用X、Y和Z軸上的地面真實數(shù)據(jù)對無人機(jī)3D坐標(biāo)識別結(jié)果進(jìn)行評估。該圖分為三部分:(A)顯示無人機(jī)3D坐標(biāo)沿X軸的偏差,(B)沿Y軸的偏差,以及(C)沿Z軸的偏差。紅色實線表示從識別過程中獲得的無人機(jī)3D坐標(biāo),而黑虛線表示由機(jī)載定位設(shè)備提供的相應(yīng)地面真實無人機(jī)3D坐標(biāo)。
其中代表高度的Z軸定位精度最高,為RMSE 1.66 m,R2 0.98;X軸次之,達(dá)到RMSE 2.55 m,R2 0.93;Y軸受限于基線幾何布局,誤差相對較大,僅為RMSE 4.52 m,R2 0.80,但整體軌跡與機(jī)載GNSS真值高度吻合。
后端優(yōu)化的關(guān)鍵作用
如表3,消融實驗進(jìn)一步驗證了Bundle Adjustment后端的價值。
![]()
表3 展示BA后端優(yōu)化的消融實驗結(jié)果。RMSE:均方根誤差(M);MAE:平均絕對誤差(M);R2:R-平方(決定系數(shù))。“w/o BA”:不帶束調(diào)整(僅限SVD);“w/BA”:帶背景束調(diào)整細(xì)化。
以YOLOv12為前端檢測器時,純SVD方法的RMSE為6.30 m,R2為0.87;而引入滑動窗口BA優(yōu)化后,RMSE降至5.45 m,R2提升至0.91。這一提升在Y軸和整體軌跡上尤為明顯,證明BA能有效抑制長時飛行中的累積漂移。
![]()
表4 仿真和無人機(jī)實驗的運(yùn)行時性能。所有計時結(jié)果在10次重復(fù)運(yùn)行中取平均值。實時系數(shù)以幀間隔與30 FPS的每幀延遲之比計算。
如表4,在實時性能方面,Phase I的批量初始化在2000幀數(shù)據(jù)上耗時僅0.33秒;進(jìn)入Phase II后,單幀3D坐標(biāo)識別的延遲僅為0.039毫秒,約為30 FPS視頻幀間隔的1/850。這意味著系統(tǒng)不僅能精確計算,還能實時跟蹤,滿足工程現(xiàn)場的實時性需求。
結(jié)論與展望
數(shù)學(xué)與AI的深度融合,能否在極簡硬件條件下實現(xiàn)傳統(tǒng)方法難以企及的定位精度?論文通過數(shù)值模擬與真實場景的雙重驗證,給出四個相互支撐的核心結(jié)論。
第一,理論精度可接近機(jī)器極限。在200×200×100 m的虛擬3D空間中,基于SVD的2D-3D坐標(biāo)轉(zhuǎn)換在理想條件下實現(xiàn)了RMSE僅7.8×10?3 m、R2幾乎為1的精度,誤差僅來源于計算機(jī)數(shù)值求解的固有近似。這證明SVD代數(shù)重構(gòu)在數(shù)學(xué)層面是精確且自洽的。
第二,工程場景下的魯棒性得到充分驗證。在南京大學(xué)體育場雨天的惡劣光照條件下,僅使用三臺普通智能手機(jī)相機(jī),系統(tǒng)實現(xiàn)了RMSE 5.45 m、MAE 4.83 m、R2 0.91的三維定位精度,Z軸精度更是達(dá)到RMSE 1.66 m、R2 0.98。這意味著消費級設(shè)備在極端環(huán)境下也能完成可靠的大地測量定位。
第三,實時性能遠(yuǎn)超工程需求。Phase II在線跟蹤的單幀處理延遲僅為0.039 ms,約為30 FPS視頻幀間隔的1/850,實時系數(shù)超過800倍。配合后臺Bundle Adjustment的滑動窗口優(yōu)化,系統(tǒng)在長時間飛行中仍能有效抑制累積漂移。
第四,方法具有模型無關(guān)的普適性。如表2,時間序列模塊對YOLO v8至v12的所有版本均帶來性能提升,且物理信息門控與軌跡補(bǔ)全機(jī)制可被即插即用地集成到任何現(xiàn)有檢測框架中,無需重新訓(xùn)練主干網(wǎng)絡(luò)。
![]()
表2 在三個攝像頭視圖中使用和不使用時間序列(TS)模塊的YOLO變體(V8-V12)的綜合基準(zhǔn)。該表詳細(xì)說明了IOU加權(quán)精度(IOU-P)、召回(IOU-R)和F1-Score(IOU-F1)。改進(jìn)(?)表明TS模塊實現(xiàn)了性能提升。
一個無需外部參照、無需姿態(tài)測量的實時混合3D定位框架,可在諸多場景中大展身手。在低空經(jīng)濟(jì)監(jiān)管中,它可以作為核心感知引擎,實時追蹤未報備飛行物;在應(yīng)急救援中,它能為無人機(jī)集群提供拒止環(huán)境下的相對定位基準(zhǔn);在生態(tài)保護(hù)中,它有望以非侵入方式追蹤鳥類等野生動物的遷徙軌跡;在基礎(chǔ)科研中,它為復(fù)雜系統(tǒng)的非線性動力學(xué)建模提供了可驗證的實驗平臺。
當(dāng)然,任何技術(shù)框架都有其邊界。當(dāng)前系統(tǒng)主要針對單目標(biāo)場景設(shè)計,多目標(biāo)并發(fā)追蹤時的數(shù)據(jù)關(guān)聯(lián)與軌跡分離仍是待解難題;論文以三臺相機(jī)為基準(zhǔn),相機(jī)數(shù)量與空間布局的優(yōu)化也有進(jìn)一步挖掘空間,更多視角可能提升精度與魯棒性;此外,在建筑物密集的城市峽谷環(huán)境中,遮擋與多徑效應(yīng)將對系統(tǒng)性能提出更嚴(yán)苛的考驗。未來工作可沿三個方向展開:將多目標(biāo)數(shù)據(jù)關(guān)聯(lián)機(jī)制嵌入TS模塊,探索自適應(yīng)的相機(jī)網(wǎng)絡(luò)拓?fù)鋬?yōu)化,以及在更復(fù)雜的城市環(huán)境中開展長時連續(xù)觀測驗證。
復(fù)雜系統(tǒng)自動建模讀書會第二季
“復(fù)雜世界,簡單規(guī)則。”
集智俱樂部聯(lián)合復(fù)旦大學(xué)智能復(fù)雜體系實驗室青年研究員朱群喜、浙江大學(xué)百人計劃研究員李樵風(fēng)、清華大學(xué)電子工程系數(shù)據(jù)科學(xué)與智能實驗室博士后研究員丁璟韜、美國東北大學(xué)物理系A(chǔ)lbert-László Barabási指導(dǎo)的博士后高婷婷、北京大學(xué)博雅博士后曹文祺、復(fù)旦大學(xué)數(shù)學(xué)科學(xué)學(xué)院應(yīng)用數(shù)學(xué)方向博士研究生趙伯林、北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院博士研究生牟牧云,共同發(fā)起。
讀書會將于9月5日起每周四晚上20:00-22:00進(jìn)行,探討四個核心模塊:數(shù)據(jù)驅(qū)動的復(fù)雜系統(tǒng)建模、復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)推斷、具有可解釋性的復(fù)雜系統(tǒng)推斷(動力學(xué)+網(wǎng)絡(luò)結(jié)構(gòu))、應(yīng)用-超材料設(shè)計和城市系統(tǒng),通過重點討論75篇經(jīng)典、前沿的重要文獻(xiàn),從黑盒(數(shù)據(jù)驅(qū)動)到白盒(可解釋性),逐步捕捉系統(tǒng)的“本質(zhì)”規(guī)律,幫助大家更好的認(rèn)識、理解、預(yù)測、控制、設(shè)計復(fù)雜系統(tǒng),為相關(guān)領(lǐng)域的研究和應(yīng)用提供洞見。讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.