1972年Landsat衛(wèi)星的成功發(fā)射, 標志著地球科學數(shù)據(jù)的獲取進入了以衛(wèi)星遙感為核心、持續(xù)、系統(tǒng)化的地球觀測系統(tǒng)新時代. 此后數(shù)十年, Sentinel和MODIS等新一代遙感衛(wèi)星投入使用, 地球大數(shù)據(jù)得到了前所未有的擴張, 為理解地球系統(tǒng)提供了豐富資料 [1] . 與此同時, ERA5再分析、GRACE重力觀測與高分辨地形數(shù)據(jù)等信息, 以及諸如地理文本這類非結(jié)構(gòu)化數(shù)據(jù), 共同構(gòu)成了高度異質(zhì)的多模態(tài)數(shù)據(jù)體系, 標志著地球系統(tǒng)科學邁入了“PB級數(shù)據(jù)時代” [2] . 然而, 隨著數(shù)據(jù)量的不斷增加,數(shù)據(jù)分散、數(shù)據(jù)管理、多源和多模態(tài)數(shù)據(jù)融合使用等方面的問題日益突出, 制約了地球大數(shù)據(jù)在大尺度、自動化與智能化分析中的應用 [3] , 因此, 發(fā)展能夠在多模態(tài)數(shù)據(jù)條件下有效緩解標注依賴、并支持數(shù)據(jù)之間高效組織與融合利用的基礎(chǔ)模型體系, 已成為迫切需求 [ 4 , 5 ] .
為應對上述挑戰(zhàn), 地球系統(tǒng)基礎(chǔ)模型相繼涌現(xiàn), 代表性工作包括面向大氣與氣候的Aurora [6] 與FourCastNet [7] , 以及面向地表觀測的SatMAE [8] 與Prithvi [9] , 前者通過學習天氣或氣候狀態(tài)的時空演化規(guī)律實現(xiàn)高效預測, 后者在多源遙感觀測數(shù)據(jù)上學習具有通用性的特征表示, 并通過下游任務微調(diào)服務于多種地學應用. 2025年7月, Google DeepMind訓練了AlphaEarth Foundations模型 [10] , 區(qū)別于上述模型, AlphaEarth通過“嵌入場”(embedding field)將衛(wèi)星影像、環(huán)境數(shù)據(jù)、文本信息等異質(zhì)數(shù)據(jù)共同壓縮到一個 10?m 分辨率、64維的潛在空間, 這種嵌入式表示方法打破了地學長期存在的“數(shù)據(jù)孤島”現(xiàn)象, 實現(xiàn)了跨模態(tài)、跨時空的數(shù)據(jù)統(tǒng)一建模, 從根本上重構(gòu)了地球觀測信息的組織方式, 為地球智能提供了全新的“數(shù)據(jù)底座”.
AlphaEarth的架構(gòu)定義了一條明確且有約束的信息通路, 這條通路描述了從多源觀測輸入到嵌入場生成的完整過程, 如 圖1 所示. 輸入階段將Sentinel-2、Landsat、Sentinel-1、PALSAR-2、GEDI、ERA5-Land、GRACE、GLO-30等數(shù)據(jù)源按真實時間戳被組織為支持期(support period)內(nèi)的序列, 并以 1.28?km×1.28?km 為基本采樣塊. 隨后, 各類數(shù)據(jù)源經(jīng)由其特定的前置編碼器被映射至共享的潛空間(latent space), 以確保不同模態(tài)能夠在特征域中進行交互; 同時, 時間信息被顯式編碼為正弦時間碼, 以增強模型對時序連續(xù)性的表達能力. 經(jīng)過預處理的多源特征進入“空間-時間-精度編碼器”, 該模塊以重復的塊結(jié)構(gòu)單元同時捕獲空間精細信息與跨空間、跨時間的長程依賴, 隨后被輸入到摘要器(summarizer). 摘要器針對給定的有效期(valid period), 先在每個 10?m×10?m 網(wǎng)格的局部L×L鄰域內(nèi)融合特征, 再引入變分瓶頸實現(xiàn)降維, 同時估計出馮·米塞斯–費希爾(von Mises–Fisher)分布的參數(shù), 最終得到64維的單位嵌入向量, 在 10?m×10?m 的空間分辨率上產(chǎn)生穩(wěn)定的、濃縮了時空信息的表示. 這些嵌入向量和元數(shù)據(jù)被輸入一組解碼器, 隱式地重構(gòu)各類源的觀測, 因而能夠為任意指定時間點生成空間連續(xù)的重建.
![]()
圖 1 AlphaEarth Foundations總體架構(gòu)圖. 來源于文獻[10]
訓練過程采用多目標損失函數(shù)的組合, 如 式(1) 所示 [10] . 第一項為重建損失, 通過誤差函數(shù) fi 度量預測值 y i ′ " role="presentation" mpa-font-style="mnwvqerea2y">y′i 與真值 yi 之間的誤差, 其中分類任務的 fi 為交叉熵損失, 回歸任務 fi 為L1損失, wi 為數(shù)據(jù)權(quán)重. 第二項通過計算嵌入向量 ui 及其隨機旋轉(zhuǎn)后的向量 u i ′ " role="presentation" mpa-font-style="mnwvqere1n9x">u′i 之間的差異, 確保所有嵌入向量在特征空間中保持足夠的區(qū)分度, 防止嵌入向量發(fā)生聚集或坍縮. 第三項引入教師-學生(teacher–student)策略, u 為教師嵌入, u s 為學生嵌入, 結(jié)合輸入丟棄機制來提高對觀測稀疏性與傳感器缺失的魯棒性. 第四項采用對比學習機制, 將教師嵌入與文本描述向量 ut 進行對齊, 使教師嵌入能夠有效吸收文本中蘊含的語義知識. 最后通過不同權(quán)重 a 、 b 、 c 、 d 將四項損失組合得到AlphaEarth模型訓練的損失函數(shù).
![]()
AlphaEarth通過最小化 式(1) 所定義的聯(lián)合損失函數(shù)進行訓練, 并在分類、回歸與變化檢測等下游任務上開展了系統(tǒng)評估. 在300個樣本試驗規(guī)模場景下, AlphaEarth總體平均降低了約23.9%的誤差. 在10個樣本試驗中, AlphaEarth平均降低了約10.4%的誤差; 在1個樣本試驗中, AlphaEarth平均降低了約4.18%的誤差. 與此同時, AlphaEarth已經(jīng)成功應用于空氣質(zhì)量預測 [11] 、地下水氟化物濃度預測 [12] 、貧困區(qū)制圖等任務 [13] .
AlphaEarth在多個任務上展現(xiàn)出的高精度與強泛化能力, 證明了以統(tǒng)一時空嵌入為核心的表征范式可行性. 它通過在10 m分辨率上提供全球連續(xù)、可比較、跨模態(tài)的一致表征, 使研究者能夠在缺乏高質(zhì)量地面標注、觀測不完整的情形下依然獲得穩(wěn)定推斷結(jié)果, 從而緩解長期阻礙地球系統(tǒng)研究的“標注瓶頸”問題. 并且AlphaEarth的成功說明了地球系統(tǒng)過程的諸多關(guān)鍵信息(如地表結(jié)構(gòu)、植被狀況、土地利用等)可以在統(tǒng)一潛在空間中被表示和共享, 這為跨圈層耦合研究、時空連續(xù)過程重建和全球尺度比較研究提供了前所未有的技術(shù)基礎(chǔ), 也為構(gòu)建真正意義上的“地球觀測基礎(chǔ)層”提供了可行路徑. 換言之, AlphaEarth的貢獻不僅是提高了若干分類任務的精度, 更是為地球系統(tǒng)科學提供了一套新的表征數(shù)據(jù), 使研究者得以在更低數(shù)據(jù)成本下進行更大尺度、更高一致性的科學推斷.
然而, 地球系統(tǒng)的復雜性遠非單一模型可承載, AlphaEarth的意義更像是在漫長探索道路上的一個里程碑, 它所真正指向的是一系列更基礎(chǔ)的問題: 地球觀測是否需要一種新的數(shù)據(jù)組織方式? 是否需要一種能夠跨時間、跨空間、跨圈層理解地球過程的通用表征結(jié)構(gòu)? 以及地球系統(tǒng)科學是否正在從“任務驅(qū)動的遙感”邁向“表征驅(qū)動的地球科學”? 如今, 人工智能地球科學正身處在數(shù)據(jù)鴻溝、尺度鴻溝與標注鴻溝的困境當中, 如何打破長期存在的“數(shù)據(jù)孤島”, 重建關(guān)于地球的“共同語言”, 是構(gòu)建下一代智能地球數(shù)據(jù)底座的關(guān)鍵方向.
![]()
參考文獻
[1] Guo H, Liang D. The origin and research progress of Big Earth Data (in Chinese) . Chin Sci Bull , 2024 , 69: 58 -67
[2] Yang Y P, Jiang H, Sun J L. Practice of scientific data sharing: a case study of the national Earth system science data center (in Chinese). J Geo-Inf Sci, 2020, 22: 1358–1369 [楊雅萍, 姜侯, 孫九林. 科學數(shù)據(jù)共享實踐: 以國家地球系統(tǒng)科學數(shù)據(jù)中心為例. 地球信息科學學報, 2020, 22: 1358–1369].
[3] Guo H, Wang L, Liang D. Big Earth Data from space: a new engine for Earth science . Sci Bull , 2016 , 61: 505 -513
[4] Bauer P, Stevens B, Hazeleger W. A digital twin of Earth for the green transition . Nat Clim Chang , 2021 , 11: 80 -83
[5] Vance T C, Huang T, Butler K A. Big data in Earth science: emerging practice and promise . Science , 2024 , 383: eadh9607
[6] Bodnar C, Bruinsma W P, Lucic A, et al. A foundation model for the Earth system . Nature , 2025 , 641: 1180 -1187
[7] Pathak J, Subramanian S, Harrington P, et al. Fourcastnet: a global data-driven high-resolution weather model using adaptive Fourier neural operators.
[8] Cong Y Z, Khanna S, Meng C L, et al. Satmae: pre-training transformers for temporal and multi-spectral satellite imagery. Adv Neural Inf Process, 2022, 35: 197–211.
[9] Szwarcman D, Roy S, Fraccaro P, et al. Prithvi-eo-2.0: a versatile multi-temporal foundation model for Earth observation applications.
[10] Brown C F, Kazmierski M R, Pasquarella V J, et al. Alphaearth foundations: an embedding field model for accurate and efficient global mapping from sparse label data.
[11] Alvarez C I, Ulloa Vaca C A, Echeverria Llumipanta N A. Machine learning for urban air quality prediction using Google AlphaEarth foundations satellite embeddings: a case study of quito, ecuador . Remote Sens , 2025 , 17: 3472
[12] Wei Y, Zhong R, Yang Y. Groundwater fluoride prediction for sustainable water management: a comparative evaluation of machine learning approaches enhanced by satellite embeddings . Sustainability , 2025 , 17: 8505
[13] Pettersson M B, Daoud A. Leveraging compact satellite embeddings and graph neural networks for large-scale poverty mapping.
《科學通報》是中國科學院主管、中國科學院和國家自然科學基金委員會共同主辦的綜合性中文學術(shù)期刊,致力于快速報道自然科學各學科基礎(chǔ)理論和應用研究的最新研究動態(tài)、消息、進展, 點評研究動態(tài)和學科發(fā)展趨勢。
旬刊,每10天出版1期;
欄目:進展、評述、快訊、論文、觀點、科技前沿、科學訪談、亮點述評、悅讀科學等;
中國科學院文獻情報中心分區(qū)表綜合性大類1區(qū)TOP期刊;
中國科技期刊卓越行動計劃領(lǐng)軍期刊;
《中國科技論文與引文數(shù)據(jù)庫》和《中國科學引文數(shù)據(jù)庫》的源期刊,同時被EI、ESCI和Scopus等收錄;
期刊官網(wǎng):http://csb.scichina.com.
轉(zhuǎn)載、投稿請留言
| 關(guān)注科學通報 | 了解科學前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.