![]()
機(jī)器學(xué)習(xí)已經(jīng)習(xí)慣了處理序列:一句話中的詞、視頻中的幀、推薦系統(tǒng)中的點(diǎn)擊、金融市場(chǎng)中的訂單。但在很多真實(shí)場(chǎng)景里,數(shù)據(jù)并不是按固定步長(zhǎng)排好隊(duì)出現(xiàn)的。
神經(jīng)元在某個(gè)瞬間放電,社交平臺(tái)上一條帖子突然被轉(zhuǎn)發(fā),地震之后余震接連發(fā)生,交易系統(tǒng)里買賣訂單以毫秒級(jí)速度涌入。這些事件既有發(fā)生時(shí)間,也可能帶有類型、文本、空間位置、圖像或其他上下文信息;它們彼此影響,卻又不服從傳統(tǒng)時(shí)間序列的整齊采樣假設(shè)。
這類數(shù)據(jù),正是時(shí)間點(diǎn)過程(Temporal Point Processes, TPPs)試圖建模的對(duì)象。
近日,來自中國(guó)人民大學(xué)、廣東工業(yè)大學(xué)、東南大學(xué)等機(jī)構(gòu)的研究者在 TMLR 發(fā)表綜述論文 《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》,系統(tǒng)回顧了時(shí)間點(diǎn)過程近年來的進(jìn)展。
![]()
與以往側(cè)重統(tǒng)計(jì)模型或神經(jīng) TPP 的綜述不同,這篇論文把 Bayesian TPP、Neural TPP、LLM-based TPP、訓(xùn)練方法、應(yīng)用場(chǎng)景和開放挑戰(zhàn)放在同一個(gè)框架下討論,覆蓋文獻(xiàn)一直更新到 2025 年。
![]()
- 論文標(biāo)題:Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches
- 作者:Feng Zhou、Quyu Kong、Jie Qiao、Cheng Wan、Yixuan Zhang、Ruichu Cai
- 論文鏈接:https://openreview.net/forum?id=SXgGKkShhT
為什么還需要重新梳理 TPP?
TPP 并不是一個(gè)新概念。Poisson 過程、Hawkes 過程、自校正過程等經(jīng)典模型在統(tǒng)計(jì)學(xué)中已經(jīng)有很長(zhǎng)歷史,并被用于電話呼叫到達(dá)、地震余震、金融交易、神經(jīng) spike train、社交網(wǎng)絡(luò)傳播等任務(wù)。
但過去幾年,TPP 的研究對(duì)象和方法都發(fā)生了變化。
首先,傳統(tǒng)參數(shù)模型可解釋,但表達(dá)能力有限。Hawkes 過程可以直觀描述「過去事件提高未來事件發(fā)生概率」的自激效應(yīng),但真實(shí)世界中的事件影響往往非線性、非平穩(wěn)、多類型且伴隨復(fù)雜上下文。
其次,深度學(xué)習(xí)讓 TPP 變得更靈活。RNN、LSTM、Transformer、ODE/SDE、diffusion 等模型被引入事件序列建模后,研究者可以用更強(qiáng)的表示學(xué)習(xí)能力擬合復(fù)雜動(dòng)態(tài)。
第三,大語(yǔ)言模型開始改變 TPP 的邊界。過去的 TPP 多半只關(guān)心時(shí)間和事件類型,而現(xiàn)實(shí)事件往往還包含文本、圖像、外部知識(shí)與語(yǔ)義關(guān)系。LLM 的出現(xiàn)讓「預(yù)測(cè)下一個(gè)事件」擴(kuò)展為「理解一段帶時(shí)間戳的多模態(tài)事件歷史」。
因此,這篇綜述把近年來的 TPP 進(jìn)展概括為三條主線:
- Bayesian TPP:強(qiáng)調(diào)不確定性量化和原則化推斷;
- Neural TPP:強(qiáng)調(diào)表達(dá)能力、可擴(kuò)展性和端到端預(yù)測(cè);
- LLM-based TPP:強(qiáng)調(diào)語(yǔ)義理解、多模態(tài)建模和更開放的時(shí)間推理任務(wù)。
TPP 的核心:用強(qiáng)度函數(shù)描述「下一件事何時(shí)發(fā)生」
如果把一個(gè)事件序列寫成t1, t2, ..., tN,TPP 建模的就是這些時(shí)間點(diǎn)在連續(xù)時(shí)間窗口內(nèi)如何產(chǎn)生。更一般地,每個(gè)事件還可以帶有 mark,也就是事件類型,例如 ((t1, k1), ..., (tN, kN))。
論文首先回顧了 TPP 的兩個(gè)基本表述:條件密度函數(shù)和條件強(qiáng)度函數(shù)。后者是 TPP 中最核心的概念。直觀來說,條件強(qiáng)度函數(shù)回答這樣一個(gè)問題:
在已經(jīng)觀察到過去所有事件的前提下,未來某個(gè)很短時(shí)間窗口里發(fā)生某類事件的瞬時(shí)可能性有多大?
Poisson 過程假設(shè)事件之間彼此獨(dú)立,可以用固定或隨時(shí)間變化的強(qiáng)度描述。Hawkes 過程則進(jìn)一步引入歷史依賴:過去的事件會(huì)通過觸發(fā)函數(shù)影響未來事件的發(fā)生概率。多變量 Hawkes 過程還能描述不同事件類型之間的相互激發(fā)關(guān)系,例如買單是否會(huì)影響賣單,某個(gè)用戶的發(fā)帖是否會(huì)引發(fā)其他用戶轉(zhuǎn)發(fā)。
也正因?yàn)檫@種「歷史影響未來」的機(jī)制,TPP 不只適合做預(yù)測(cè),也天然適合做因果發(fā)現(xiàn),尤其是 Granger causality 意義下的事件類型依賴關(guān)系識(shí)別。
![]()
第一條路線:Bayesian TPP,讓模型知道自己有多不確定
經(jīng)典參數(shù)化 TPP 的問題在于,研究者需要提前假設(shè)強(qiáng)度函數(shù)的形式。但現(xiàn)實(shí)數(shù)據(jù)常常太復(fù)雜,很難用固定函數(shù)描述。貝葉斯非參數(shù) TPP 的核心思想是:不要把強(qiáng)度函數(shù)限制在某個(gè)有限維參數(shù)形式里,而是直接把強(qiáng)度函數(shù)本身當(dāng)作無限維對(duì)象,并為其設(shè)置先驗(yàn)。
論文重點(diǎn)討論了兩類 Bayesian nonparametric TPP:
- Bayesian nonparametric Poisson process
- Bayesian nonparametric Hawkes process
在 Poisson 場(chǎng)景中,常見做法是用 Gaussian Process 作為函數(shù)先驗(yàn),再通過 link function 保證強(qiáng)度非負(fù)。這樣一來,模型不僅能擬合復(fù)雜的時(shí)間變化強(qiáng)度,還能給出后驗(yàn)不確定性。但代價(jià)也很明顯:推斷非常困難。
論文指出,相關(guān)后驗(yàn)往往存在「雙重不可解」的問題,一方面似然里包含對(duì)時(shí)間的積分,另一方面還需要對(duì)函數(shù)空間積分。因此,研究者發(fā)展了 MCMC、Laplace approximation、variational inference、Pólya-Gamma 數(shù)據(jù)增強(qiáng)等方法來近似推斷。
在 Hawkes 過程中,難點(diǎn)進(jìn)一步增加。因?yàn)閺?qiáng)度函數(shù)通常由背景強(qiáng)度和觸發(fā)函數(shù)兩部分組成,二者在似然中耦合。一個(gè)常見技巧是引入 branching latent variable,用隱藏變量表示某個(gè)事件是由背景過程產(chǎn)生,還是由之前某個(gè)事件觸發(fā)。引入這個(gè)變量后,Hawkes 似然可以拆解成與背景強(qiáng)度和觸發(fā)函數(shù)相關(guān)的兩個(gè)部分,從而更容易套用非參數(shù) Poisson 過程中的推斷技術(shù)。
這條路線的優(yōu)點(diǎn)很清楚:可解釋、能量化不確定性、與統(tǒng)計(jì)理論聯(lián)系緊密。缺點(diǎn)也同樣明確:推斷復(fù)雜,擴(kuò)展到大規(guī)模數(shù)據(jù)時(shí)成本較高。
第二條路線:Neural TPP,用深度模型提升表達(dá)能力
深度學(xué)習(xí)給 TPP 帶來的直接變化,是用神經(jīng)網(wǎng)絡(luò)替代手工設(shè)計(jì)的強(qiáng)度函數(shù)或條件分布。論文把 Neural TPP 的主流架構(gòu)分為幾類。
第一類是 recurrent neural TPP。早期代表工作使用 RNN 或 LSTM 逐個(gè)讀取事件,把歷史壓縮成 hidden state,再用 hidden state 參數(shù)化下一個(gè)事件的時(shí)間和類型分布。
它的優(yōu)勢(shì)是在線預(yù)測(cè)效率高:歷史狀態(tài)更新完之后,預(yù)測(cè)下一步可以做到常數(shù)時(shí)間。但缺點(diǎn)是訓(xùn)練難以并行,長(zhǎng)程依賴建模能力有限。論文也特別提到一個(gè)新的方向:將 RWKV、S4、Mamba 等高效序列模型與 TPP 結(jié)合。這些模型仍具備遞歸式結(jié)構(gòu)的高效性,同時(shí)支持并行訓(xùn)練和長(zhǎng)程依賴建模,有望改善傳統(tǒng) RNN-TPP 的可擴(kuò)展性。
第二類是 autoregressive neural TPP,典型代表是 Transformer TPP。Transformer 可以通過 self-attention 捕捉長(zhǎng)距離事件依賴,并支持并行訓(xùn)練。2020 年之后,大量工作圍繞 Transformer TPP 改進(jìn)時(shí)間編碼、mark 編碼、注意力機(jī)制和條件強(qiáng)度函數(shù)設(shè)計(jì)。
但 Transformer 的代價(jià)也熟悉:訓(xùn)練復(fù)雜度通常隨序列長(zhǎng)度呈二次增長(zhǎng),長(zhǎng)事件流上的時(shí)間和顯存成本都很高。對(duì)于高頻交易、日志監(jiān)控這類超長(zhǎng)序列場(chǎng)景,如何降低復(fù)雜度仍是關(guān)鍵問題。
第三類是 differential equation-based neural TPP。RNN 和 Transformer 通常只在事件發(fā)生時(shí)更新隱藏狀態(tài),對(duì)事件間隔中的連續(xù)時(shí)間動(dòng)態(tài)表達(dá)不足。ODE/SDE-based TPP 則讓隱藏狀態(tài)在無事件發(fā)生時(shí)連續(xù)演化,在事件發(fā)生時(shí)發(fā)生跳變,從而更自然地刻畫連續(xù)時(shí)間中的條件強(qiáng)度變化。這類方法表達(dá)力強(qiáng),但訓(xùn)練和采樣都更慢,因?yàn)樗鼈兺枰獢?shù)值求解微分方程,并反復(fù)計(jì)算強(qiáng)度函數(shù)積分。
![]()
此外,論文還討論了 diffusion-based TPP。與傳統(tǒng)自回歸模型逐個(gè)預(yù)測(cè)未來事件不同,擴(kuò)散模型嘗試通過迭代去噪生成整段事件序列。這為長(zhǎng)時(shí)域預(yù)測(cè)和序列模擬提供了新視角,但也帶來計(jì)算開銷大、時(shí)間一致性難保證、似然評(píng)估不直接等問題。
不只模型結(jié)構(gòu),參數(shù)化方式也很關(guān)鍵
TPP 中一個(gè)容易被忽略的問題是:神經(jīng)網(wǎng)絡(luò)到底應(yīng)該預(yù)測(cè)什么?最常見的做法是預(yù)測(cè)條件強(qiáng)度函數(shù)。但最大似然訓(xùn)練時(shí),強(qiáng)度函數(shù)需要在時(shí)間窗口上積分,這在神經(jīng)模型中通常沒有閉式解,只能依賴數(shù)值積分,影響效率和精度。
因此,近年來不少工作轉(zhuǎn)向「intensity-free」建模,直接參數(shù)化條件密度函數(shù)、條件分布函數(shù)或累計(jì)強(qiáng)度函數(shù)。
例如,用 log-normal mixture 直接建模下一個(gè)事件的時(shí)間分布,或者用單調(diào)神經(jīng)網(wǎng)絡(luò) / 樣條函數(shù)建模累計(jì)強(qiáng)度。這樣可以避免數(shù)值積分,提高訓(xùn)練和采樣效率。論文將這些參數(shù)化方式放在一起比較,提醒讀者:Neural TPP 的進(jìn)展不只是換一個(gè)更大的 backbone,也包括對(duì)概率建模目標(biāo)本身的重新設(shè)計(jì)。
第三條路線:LLM-based TPP,事件流開始擁有語(yǔ)義
這篇綜述最有新意的部分,是把 LLM-based TPP 納入時(shí)間點(diǎn)過程研究版圖。論文認(rèn)為,LLM-based TPP 可以分為兩類。
第一類是 LLM-inspired TPP。它們并不直接用 LLM 取代 TPP 主干,而是借鑒 prompt learning、reasoning 等思想增強(qiáng)現(xiàn)有神經(jīng) TPP。例如 PromptTPP 使用可學(xué)習(xí) temporal prompts 適應(yīng)持續(xù)變化的數(shù)據(jù)分布;LAMP 則引入 LLM 的溯因推理能力,讓模型為候選未來事件生成可能原因,再?gòu)臍v史事件中檢索證據(jù)。
這類方法的優(yōu)點(diǎn)是相對(duì)高效,能增強(qiáng)適應(yīng)性或可解釋性;局限是時(shí)間動(dòng)態(tài)本身仍主要由傳統(tǒng)神經(jīng) TPP 建模。
第二類是 direct LLM-TPP integration,即直接把 LLM 作為事件序列的核心表示模型。TPP-LLM 將事件用文本描述表示,并通過時(shí)間嵌入注入時(shí)間信息,再用 LoRA 等參數(shù)高效微調(diào)方法適配事件預(yù)測(cè)任務(wù)。Language-TPP 則進(jìn)一步把連續(xù)時(shí)間間隔編碼為 byte-level tokens,讓時(shí)間和語(yǔ)言進(jìn)入同一 token 序列,由 LLM 統(tǒng)一建模。
![]()
這種方向的意義在于,TPP 不再只處理「時(shí)間 + 類型」的二維事件,而開始處理帶有自然語(yǔ)言描述、外部知識(shí)、多模態(tài)上下文的復(fù)雜事件流。
論文同時(shí)提醒,LLM-based TPP 正在擴(kuò)展傳統(tǒng) TPP 的邊界。經(jīng)典 TPP 的核心是連續(xù)時(shí)間事件發(fā)生過程的概率律,任務(wù)通常包括似然建模、預(yù)測(cè)、模擬和因果結(jié)構(gòu)發(fā)現(xiàn)。而 LLM 引入后,事件序列檢索、問答、多模態(tài)推理等任務(wù)也被納入討論。這些任務(wù)很有價(jià)值,但不一定都是嚴(yán)格意義上的點(diǎn)過程問題。未來社區(qū)需要更清楚地區(qū)分:哪些任務(wù)本質(zhì)上是 TPP,哪些任務(wù)只是把 TPP 作為更大時(shí)間推理系統(tǒng)中的一個(gè)組件。
數(shù)據(jù)集和評(píng)測(cè):TPP 社區(qū)還缺一個(gè)真正統(tǒng)一的基準(zhǔn)
模型越來越復(fù)雜之后,評(píng)測(cè)問題變得更加重要。論文指出,TPP 研究長(zhǎng)期面臨數(shù)據(jù)集碎片化、預(yù)處理不一致、訓(xùn)練 / 驗(yàn)證 / 測(cè)試劃分不同、指標(biāo)定義不統(tǒng)一等問題。這使得不同論文之間的性能比較并不總是可靠。
近年來,EasyTPP 等統(tǒng)一 benchmark 工具開始緩解這一問題,提供標(biāo)準(zhǔn)化預(yù)處理、模型實(shí)現(xiàn)、訓(xùn)練流程和評(píng)估腳本。論文認(rèn)為,benchmark 標(biāo)準(zhǔn)化的重要性不亞于新模型本身,因?yàn)橹挥锌杀容^、可復(fù)現(xiàn)的實(shí)驗(yàn)結(jié)果才能真正積累為社區(qū)知識(shí)。
TPP 的評(píng)測(cè)任務(wù)也在擴(kuò)展:
- next-event prediction:預(yù)測(cè)下一個(gè)事件的時(shí)間和類型;
- long-horizon prediction:預(yù)測(cè)未來一段窗口內(nèi)的多個(gè)事件;
- semantic or multimodal tasks:面向 LLM-based TPP 的檢索、問答、多模態(tài)推理等任務(wù);
- causal discovery:識(shí)別不同事件類型之間的 Granger 因果關(guān)系。
![]()
論文總結(jié)了一個(gè)相對(duì)謹(jǐn)慎的經(jīng)驗(yàn)判斷:Transformer-based neural TPP 在復(fù)雜數(shù)據(jù)上的 next-event prediction 往往優(yōu)于經(jīng)典參數(shù)模型;直接建模條件密度或累計(jì)強(qiáng)度的模型通常訓(xùn)練更高效;長(zhǎng)時(shí)域預(yù)測(cè)仍然困難;LLM-based 和 multimodal TPP 在語(yǔ)義理解任務(wù)上有優(yōu)勢(shì),但在純時(shí)間預(yù)測(cè)基準(zhǔn)上的優(yōu)勢(shì)還沒有那么明確。
應(yīng)用:從預(yù)測(cè)下一次點(diǎn)擊,到發(fā)現(xiàn)事件之間的因果鏈
TPP 的應(yīng)用可以粗略分成兩類:事件預(yù)測(cè)和因果發(fā)現(xiàn)。
事件預(yù)測(cè)關(guān)注未來會(huì)發(fā)生什么、什么時(shí)候發(fā)生、屬于哪一類。典型場(chǎng)景包括社交網(wǎng)絡(luò)中的轉(zhuǎn)發(fā)預(yù)測(cè)、疫情傳播預(yù)測(cè)、地震余震預(yù)測(cè)、金融市場(chǎng)訂單預(yù)測(cè)、推薦系統(tǒng)中的用戶行為預(yù)測(cè)等。
因果發(fā)現(xiàn)則更關(guān)心事件之間的影響結(jié)構(gòu)。例如在神經(jīng)科學(xué)中,多個(gè)神經(jīng)元的 spike train 可以被視為多變量點(diǎn)過程,研究者希望推斷神經(jīng)元之間是否存在功能連接;在高頻金融中,買單和賣單之間的相互影響可以用 Hawkes 過程刻畫;在 AIOps 中,系統(tǒng)故障事件的觸發(fā)關(guān)系有助于定位根因;在醫(yī)療和網(wǎng)絡(luò)安全中,事件依賴結(jié)構(gòu)也能幫助理解復(fù)雜系統(tǒng)中的傳播機(jī)制。
這也是 TPP 區(qū)別于一般序列預(yù)測(cè)模型的重要價(jià)值:它不僅試圖預(yù)測(cè)未來,還試圖回答「過去的哪些事件以何種方式影響了未來」。
未來挑戰(zhàn):可解釋性、可擴(kuò)展性、采樣效率和多模態(tài)
論文最后總結(jié)了 TPP 領(lǐng)域仍待解決的幾個(gè)核心挑戰(zhàn)。
第一是數(shù)據(jù)和模型標(biāo)準(zhǔn)化。事件序列通常具有不規(guī)則時(shí)間間隔、變長(zhǎng)序列、多樣 mark 空間和不同時(shí)間粒度。不同數(shù)據(jù)處理方式會(huì)顯著影響模型表現(xiàn),也會(huì)讓論文間比較變得困難。
第二是模型可解釋性。傳統(tǒng) Hawkes 模型中的背景強(qiáng)度和觸發(fā)函數(shù)有明確含義,而神經(jīng) TPP 往往把動(dòng)態(tài)編碼進(jìn)高維隱狀態(tài)中,難以解釋過去事件如何影響未來強(qiáng)度。在因果發(fā)現(xiàn)、科學(xué)建模和決策支持中,這一問題尤其關(guān)鍵。
第三是可擴(kuò)展性。真實(shí)事件流可能包含數(shù)萬甚至更多時(shí)間戳,而模型還要處理連續(xù)時(shí)間積分、長(zhǎng)程依賴和多類型事件交互。簡(jiǎn)單把 Transformer 換成 Mamba 或其他高效模塊還不夠,未來需要理解這些架構(gòu)如何表示 hazard function、歷史依賴和長(zhǎng)期時(shí)間因果。
第四是采樣效率。經(jīng)典 thinning 或 inverse transform sampling 需要反復(fù)評(píng)估強(qiáng)度函數(shù),對(duì)復(fù)雜神經(jīng)模型來說代價(jià)很高。擴(kuò)散模型、flow-based 方法、speculative decoding 等方向正在嘗試并行或塊狀生成事件序列,但仍需平衡時(shí)間一致性、條件結(jié)構(gòu)和計(jì)算成本。
第五是多模態(tài)建模。真實(shí)事件往往伴隨文本、圖像、視頻幀、傳感器讀數(shù)等上下文信息。LLM 和多模態(tài)大模型為這類問題提供了新工具,但也帶來時(shí)間對(duì)齊、不確定性校準(zhǔn)、可控生成等新問題。
結(jié)語(yǔ):TPP 正在從「預(yù)測(cè)事件時(shí)間」走向「理解事件世界」
這篇 TMLR 綜述傳遞出的一個(gè)重要信號(hào)是:TPP 正處在一個(gè)重新匯合的階段。統(tǒng)計(jì)學(xué)傳統(tǒng)提供了強(qiáng)度函數(shù)、似然、貝葉斯推斷和因果解釋;深度學(xué)習(xí)提供了強(qiáng)大的表示能力和端到端預(yù)測(cè)能力;大語(yǔ)言模型則把文本、知識(shí)、多模態(tài)和推理能力帶入事件序列建模。
未來的 TPP 可能不再只是一個(gè)預(yù)測(cè)「下一個(gè)事件何時(shí)發(fā)生」的模型,而是一個(gè)能夠理解連續(xù)時(shí)間中復(fù)雜事件流的通用框架。它既要知道時(shí)間,也要理解語(yǔ)義;既要能預(yù)測(cè),也要能解釋;既要足夠靈活,也要保留統(tǒng)計(jì)建模中的可校準(zhǔn)性和可靠性。
對(duì)機(jī)器學(xué)習(xí)研究者來說,這意味著TPP 不是一個(gè)偏門的統(tǒng)計(jì)工具,而是連接連續(xù)時(shí)間建模、序列學(xué)習(xí)、因果發(fā)現(xiàn)和大模型推理的重要交叉點(diǎn)。而這篇綜述的價(jià)值,正在于它把這些正在分散發(fā)展的線索重新放回了一張圖里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.