網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從貝葉斯到大語(yǔ)言模型：一文詳解「時(shí)序點(diǎn)過程」近年進(jìn)展

2026-06-17 02:12:15　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

機(jī)器學(xué)習(xí)已經(jīng)習(xí)慣了處理序列：一句話中的詞、視頻中的幀、推薦系統(tǒng)中的點(diǎn)擊、金融市場(chǎng)中的訂單。但在很多真實(shí)場(chǎng)景里，數(shù)據(jù)并不是按固定步長(zhǎng)排好隊(duì)出現(xiàn)的。

神經(jīng)元在某個(gè)瞬間放電，社交平臺(tái)上一條帖子突然被轉(zhuǎn)發(fā)，地震之后余震接連發(fā)生，交易系統(tǒng)里買賣訂單以毫秒級(jí)速度涌入。這些事件既有發(fā)生時(shí)間，也可能帶有類型、文本、空間位置、圖像或其他上下文信息；它們彼此影響，卻又不服從傳統(tǒng)時(shí)間序列的整齊采樣假設(shè)。

這類數(shù)據(jù)，正是時(shí)間點(diǎn)過程（Temporal Point Processes, TPPs）試圖建模的對(duì)象。

近日，來自中國(guó)人民大學(xué)、廣東工業(yè)大學(xué)、東南大學(xué)等機(jī)構(gòu)的研究者在 TMLR 發(fā)表綜述論文《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》，系統(tǒng)回顧了時(shí)間點(diǎn)過程近年來的進(jìn)展。

與以往側(cè)重統(tǒng)計(jì)模型或神經(jīng) TPP 的綜述不同，這篇論文把 Bayesian TPP、Neural TPP、LLM-based TPP、訓(xùn)練方法、應(yīng)用場(chǎng)景和開放挑戰(zhàn)放在同一個(gè)框架下討論，覆蓋文獻(xiàn)一直更新到 2025 年。

論文標(biāo)題：Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches
作者：Feng Zhou、Quyu Kong、Jie Qiao、Cheng Wan、Yixuan Zhang、Ruichu Cai
論文鏈接：https://openreview.net/forum?id=SXgGKkShhT

為什么還需要重新梳理 TPP？

TPP 并不是一個(gè)新概念。Poisson 過程、Hawkes 過程、自校正過程等經(jīng)典模型在統(tǒng)計(jì)學(xué)中已經(jīng)有很長(zhǎng)歷史，并被用于電話呼叫到達(dá)、地震余震、金融交易、神經(jīng) spike train、社交網(wǎng)絡(luò)傳播等任務(wù)。

但過去幾年，TPP 的研究對(duì)象和方法都發(fā)生了變化。

首先，傳統(tǒng)參數(shù)模型可解釋，但表達(dá)能力有限。Hawkes 過程可以直觀描述「過去事件提高未來事件發(fā)生概率」的自激效應(yīng)，但真實(shí)世界中的事件影響往往非線性、非平穩(wěn)、多類型且伴隨復(fù)雜上下文。

其次，深度學(xué)習(xí)讓 TPP 變得更靈活。RNN、LSTM、Transformer、ODE/SDE、diffusion 等模型被引入事件序列建模后，研究者可以用更強(qiáng)的表示學(xué)習(xí)能力擬合復(fù)雜動(dòng)態(tài)。

第三，大語(yǔ)言模型開始改變 TPP 的邊界。過去的 TPP 多半只關(guān)心時(shí)間和事件類型，而現(xiàn)實(shí)事件往往還包含文本、圖像、外部知識(shí)與語(yǔ)義關(guān)系。LLM 的出現(xiàn)讓「預(yù)測(cè)下一個(gè)事件」擴(kuò)展為「理解一段帶時(shí)間戳的多模態(tài)事件歷史」。

因此，這篇綜述把近年來的 TPP 進(jìn)展概括為三條主線：

Bayesian TPP：強(qiáng)調(diào)不確定性量化和原則化推斷；
Neural TPP：強(qiáng)調(diào)表達(dá)能力、可擴(kuò)展性和端到端預(yù)測(cè)；
LLM-based TPP：強(qiáng)調(diào)語(yǔ)義理解、多模態(tài)建模和更開放的時(shí)間推理任務(wù)。

TPP 的核心：用強(qiáng)度函數(shù)描述「下一件事何時(shí)發(fā)生」

如果把一個(gè)事件序列寫成t1, t2, ..., tN，TPP 建模的就是這些時(shí)間點(diǎn)在連續(xù)時(shí)間窗口內(nèi)如何產(chǎn)生。更一般地，每個(gè)事件還可以帶有 mark，也就是事件類型，例如 ((t1, k1), ..., (tN, kN))。

論文首先回顧了 TPP 的兩個(gè)基本表述：條件密度函數(shù)和條件強(qiáng)度函數(shù)。后者是 TPP 中最核心的概念。直觀來說，條件強(qiáng)度函數(shù)回答這樣一個(gè)問題：

在已經(jīng)觀察到過去所有事件的前提下，未來某個(gè)很短時(shí)間窗口里發(fā)生某類事件的瞬時(shí)可能性有多大？

Poisson 過程假設(shè)事件之間彼此獨(dú)立，可以用固定或隨時(shí)間變化的強(qiáng)度描述。Hawkes 過程則進(jìn)一步引入歷史依賴：過去的事件會(huì)通過觸發(fā)函數(shù)影響未來事件的發(fā)生概率。多變量 Hawkes 過程還能描述不同事件類型之間的相互激發(fā)關(guān)系，例如買單是否會(huì)影響賣單，某個(gè)用戶的發(fā)帖是否會(huì)引發(fā)其他用戶轉(zhuǎn)發(fā)。

也正因?yàn)檫@種「歷史影響未來」的機(jī)制，TPP 不只適合做預(yù)測(cè)，也天然適合做因果發(fā)現(xiàn)，尤其是 Granger causality 意義下的事件類型依賴關(guān)系識(shí)別。

第一條路線：Bayesian TPP，讓模型知道自己有多不確定

經(jīng)典參數(shù)化 TPP 的問題在于，研究者需要提前假設(shè)強(qiáng)度函數(shù)的形式。但現(xiàn)實(shí)數(shù)據(jù)常常太復(fù)雜，很難用固定函數(shù)描述。貝葉斯非參數(shù) TPP 的核心思想是：不要把強(qiáng)度函數(shù)限制在某個(gè)有限維參數(shù)形式里，而是直接把強(qiáng)度函數(shù)本身當(dāng)作無限維對(duì)象，并為其設(shè)置先驗(yàn)。

論文重點(diǎn)討論了兩類 Bayesian nonparametric TPP：

Bayesian nonparametric Poisson process
Bayesian nonparametric Hawkes process

在 Poisson 場(chǎng)景中，常見做法是用 Gaussian Process 作為函數(shù)先驗(yàn)，再通過 link function 保證強(qiáng)度非負(fù)。這樣一來，模型不僅能擬合復(fù)雜的時(shí)間變化強(qiáng)度，還能給出后驗(yàn)不確定性。但代價(jià)也很明顯：推斷非常困難。

論文指出，相關(guān)后驗(yàn)往往存在「雙重不可解」的問題，一方面似然里包含對(duì)時(shí)間的積分，另一方面還需要對(duì)函數(shù)空間積分。因此，研究者發(fā)展了 MCMC、Laplace approximation、variational inference、Pólya-Gamma 數(shù)據(jù)增強(qiáng)等方法來近似推斷。

在 Hawkes 過程中，難點(diǎn)進(jìn)一步增加。因?yàn)閺?qiáng)度函數(shù)通常由背景強(qiáng)度和觸發(fā)函數(shù)兩部分組成，二者在似然中耦合。一個(gè)常見技巧是引入 branching latent variable，用隱藏變量表示某個(gè)事件是由背景過程產(chǎn)生，還是由之前某個(gè)事件觸發(fā)。引入這個(gè)變量后，Hawkes 似然可以拆解成與背景強(qiáng)度和觸發(fā)函數(shù)相關(guān)的兩個(gè)部分，從而更容易套用非參數(shù) Poisson 過程中的推斷技術(shù)。

這條路線的優(yōu)點(diǎn)很清楚：可解釋、能量化不確定性、與統(tǒng)計(jì)理論聯(lián)系緊密。缺點(diǎn)也同樣明確：推斷復(fù)雜，擴(kuò)展到大規(guī)模數(shù)據(jù)時(shí)成本較高。

第二條路線：Neural TPP，用深度模型提升表達(dá)能力

深度學(xué)習(xí)給 TPP 帶來的直接變化，是用神經(jīng)網(wǎng)絡(luò)替代手工設(shè)計(jì)的強(qiáng)度函數(shù)或條件分布。論文把 Neural TPP 的主流架構(gòu)分為幾類。

第一類是 recurrent neural TPP。早期代表工作使用 RNN 或 LSTM 逐個(gè)讀取事件，把歷史壓縮成 hidden state，再用 hidden state 參數(shù)化下一個(gè)事件的時(shí)間和類型分布。

它的優(yōu)勢(shì)是在線預(yù)測(cè)效率高：歷史狀態(tài)更新完之后，預(yù)測(cè)下一步可以做到常數(shù)時(shí)間。但缺點(diǎn)是訓(xùn)練難以并行，長(zhǎng)程依賴建模能力有限。論文也特別提到一個(gè)新的方向：將 RWKV、S4、Mamba 等高效序列模型與 TPP 結(jié)合。這些模型仍具備遞歸式結(jié)構(gòu)的高效性，同時(shí)支持并行訓(xùn)練和長(zhǎng)程依賴建模，有望改善傳統(tǒng) RNN-TPP 的可擴(kuò)展性。

第二類是 autoregressive neural TPP，典型代表是 Transformer TPP。Transformer 可以通過 self-attention 捕捉長(zhǎng)距離事件依賴，并支持并行訓(xùn)練。2020 年之后，大量工作圍繞 Transformer TPP 改進(jìn)時(shí)間編碼、mark 編碼、注意力機(jī)制和條件強(qiáng)度函數(shù)設(shè)計(jì)。

但 Transformer 的代價(jià)也熟悉：訓(xùn)練復(fù)雜度通常隨序列長(zhǎng)度呈二次增長(zhǎng)，長(zhǎng)事件流上的時(shí)間和顯存成本都很高。對(duì)于高頻交易、日志監(jiān)控這類超長(zhǎng)序列場(chǎng)景，如何降低復(fù)雜度仍是關(guān)鍵問題。

第三類是 differential equation-based neural TPP。RNN 和 Transformer 通常只在事件發(fā)生時(shí)更新隱藏狀態(tài)，對(duì)事件間隔中的連續(xù)時(shí)間動(dòng)態(tài)表達(dá)不足。ODE/SDE-based TPP 則讓隱藏狀態(tài)在無事件發(fā)生時(shí)連續(xù)演化，在事件發(fā)生時(shí)發(fā)生跳變，從而更自然地刻畫連續(xù)時(shí)間中的條件強(qiáng)度變化。這類方法表達(dá)力強(qiáng)，但訓(xùn)練和采樣都更慢，因?yàn)樗鼈兺枰獢?shù)值求解微分方程，并反復(fù)計(jì)算強(qiáng)度函數(shù)積分。

此外，論文還討論了 diffusion-based TPP。與傳統(tǒng)自回歸模型逐個(gè)預(yù)測(cè)未來事件不同，擴(kuò)散模型嘗試通過迭代去噪生成整段事件序列。這為長(zhǎng)時(shí)域預(yù)測(cè)和序列模擬提供了新視角，但也帶來計(jì)算開銷大、時(shí)間一致性難保證、似然評(píng)估不直接等問題。

不只模型結(jié)構(gòu)，參數(shù)化方式也很關(guān)鍵

TPP 中一個(gè)容易被忽略的問題是：神經(jīng)網(wǎng)絡(luò)到底應(yīng)該預(yù)測(cè)什么？最常見的做法是預(yù)測(cè)條件強(qiáng)度函數(shù)。但最大似然訓(xùn)練時(shí)，強(qiáng)度函數(shù)需要在時(shí)間窗口上積分，這在神經(jīng)模型中通常沒有閉式解，只能依賴數(shù)值積分，影響效率和精度。

因此，近年來不少工作轉(zhuǎn)向「intensity-free」建模，直接參數(shù)化條件密度函數(shù)、條件分布函數(shù)或累計(jì)強(qiáng)度函數(shù)。

例如，用 log-normal mixture 直接建模下一個(gè)事件的時(shí)間分布，或者用單調(diào)神經(jīng)網(wǎng)絡(luò) / 樣條函數(shù)建模累計(jì)強(qiáng)度。這樣可以避免數(shù)值積分，提高訓(xùn)練和采樣效率。論文將這些參數(shù)化方式放在一起比較，提醒讀者：Neural TPP 的進(jìn)展不只是換一個(gè)更大的 backbone，也包括對(duì)概率建模目標(biāo)本身的重新設(shè)計(jì)。

第三條路線：LLM-based TPP，事件流開始擁有語(yǔ)義

這篇綜述最有新意的部分，是把 LLM-based TPP 納入時(shí)間點(diǎn)過程研究版圖。論文認(rèn)為，LLM-based TPP 可以分為兩類。

第一類是 LLM-inspired TPP。它們并不直接用 LLM 取代 TPP 主干，而是借鑒 prompt learning、reasoning 等思想增強(qiáng)現(xiàn)有神經(jīng) TPP。例如 PromptTPP 使用可學(xué)習(xí) temporal prompts 適應(yīng)持續(xù)變化的數(shù)據(jù)分布；LAMP 則引入 LLM 的溯因推理能力，讓模型為候選未來事件生成可能原因，再?gòu)臍v史事件中檢索證據(jù)。

這類方法的優(yōu)點(diǎn)是相對(duì)高效，能增強(qiáng)適應(yīng)性或可解釋性；局限是時(shí)間動(dòng)態(tài)本身仍主要由傳統(tǒng)神經(jīng) TPP 建模。

第二類是 direct LLM-TPP integration，即直接把 LLM 作為事件序列的核心表示模型。TPP-LLM 將事件用文本描述表示，并通過時(shí)間嵌入注入時(shí)間信息，再用 LoRA 等參數(shù)高效微調(diào)方法適配事件預(yù)測(cè)任務(wù)。Language-TPP 則進(jìn)一步把連續(xù)時(shí)間間隔編碼為 byte-level tokens，讓時(shí)間和語(yǔ)言進(jìn)入同一 token 序列，由 LLM 統(tǒng)一建模。

這種方向的意義在于，TPP 不再只處理「時(shí)間 + 類型」的二維事件，而開始處理帶有自然語(yǔ)言描述、外部知識(shí)、多模態(tài)上下文的復(fù)雜事件流。

論文同時(shí)提醒，LLM-based TPP 正在擴(kuò)展傳統(tǒng) TPP 的邊界。經(jīng)典 TPP 的核心是連續(xù)時(shí)間事件發(fā)生過程的概率律，任務(wù)通常包括似然建模、預(yù)測(cè)、模擬和因果結(jié)構(gòu)發(fā)現(xiàn)。而 LLM 引入后，事件序列檢索、問答、多模態(tài)推理等任務(wù)也被納入討論。這些任務(wù)很有價(jià)值，但不一定都是嚴(yán)格意義上的點(diǎn)過程問題。未來社區(qū)需要更清楚地區(qū)分：哪些任務(wù)本質(zhì)上是 TPP，哪些任務(wù)只是把 TPP 作為更大時(shí)間推理系統(tǒng)中的一個(gè)組件。

數(shù)據(jù)集和評(píng)測(cè)：TPP 社區(qū)還缺一個(gè)真正統(tǒng)一的基準(zhǔn)

模型越來越復(fù)雜之后，評(píng)測(cè)問題變得更加重要。論文指出，TPP 研究長(zhǎng)期面臨數(shù)據(jù)集碎片化、預(yù)處理不一致、訓(xùn)練 / 驗(yàn)證 / 測(cè)試劃分不同、指標(biāo)定義不統(tǒng)一等問題。這使得不同論文之間的性能比較并不總是可靠。

近年來，EasyTPP 等統(tǒng)一 benchmark 工具開始緩解這一問題，提供標(biāo)準(zhǔn)化預(yù)處理、模型實(shí)現(xiàn)、訓(xùn)練流程和評(píng)估腳本。論文認(rèn)為，benchmark 標(biāo)準(zhǔn)化的重要性不亞于新模型本身，因?yàn)橹挥锌杀容^、可復(fù)現(xiàn)的實(shí)驗(yàn)結(jié)果才能真正積累為社區(qū)知識(shí)。

TPP 的評(píng)測(cè)任務(wù)也在擴(kuò)展：

next-event prediction：預(yù)測(cè)下一個(gè)事件的時(shí)間和類型；
long-horizon prediction：預(yù)測(cè)未來一段窗口內(nèi)的多個(gè)事件；
semantic or multimodal tasks：面向 LLM-based TPP 的檢索、問答、多模態(tài)推理等任務(wù)；
causal discovery：識(shí)別不同事件類型之間的 Granger 因果關(guān)系。

論文總結(jié)了一個(gè)相對(duì)謹(jǐn)慎的經(jīng)驗(yàn)判斷：Transformer-based neural TPP 在復(fù)雜數(shù)據(jù)上的 next-event prediction 往往優(yōu)于經(jīng)典參數(shù)模型；直接建模條件密度或累計(jì)強(qiáng)度的模型通常訓(xùn)練更高效；長(zhǎng)時(shí)域預(yù)測(cè)仍然困難；LLM-based 和 multimodal TPP 在語(yǔ)義理解任務(wù)上有優(yōu)勢(shì)，但在純時(shí)間預(yù)測(cè)基準(zhǔn)上的優(yōu)勢(shì)還沒有那么明確。

應(yīng)用：從預(yù)測(cè)下一次點(diǎn)擊，到發(fā)現(xiàn)事件之間的因果鏈

TPP 的應(yīng)用可以粗略分成兩類：事件預(yù)測(cè)和因果發(fā)現(xiàn)。

事件預(yù)測(cè)關(guān)注未來會(huì)發(fā)生什么、什么時(shí)候發(fā)生、屬于哪一類。典型場(chǎng)景包括社交網(wǎng)絡(luò)中的轉(zhuǎn)發(fā)預(yù)測(cè)、疫情傳播預(yù)測(cè)、地震余震預(yù)測(cè)、金融市場(chǎng)訂單預(yù)測(cè)、推薦系統(tǒng)中的用戶行為預(yù)測(cè)等。

因果發(fā)現(xiàn)則更關(guān)心事件之間的影響結(jié)構(gòu)。例如在神經(jīng)科學(xué)中，多個(gè)神經(jīng)元的 spike train 可以被視為多變量點(diǎn)過程，研究者希望推斷神經(jīng)元之間是否存在功能連接；在高頻金融中，買單和賣單之間的相互影響可以用 Hawkes 過程刻畫；在 AIOps 中，系統(tǒng)故障事件的觸發(fā)關(guān)系有助于定位根因；在醫(yī)療和網(wǎng)絡(luò)安全中，事件依賴結(jié)構(gòu)也能幫助理解復(fù)雜系統(tǒng)中的傳播機(jī)制。

這也是 TPP 區(qū)別于一般序列預(yù)測(cè)模型的重要價(jià)值：它不僅試圖預(yù)測(cè)未來，還試圖回答「過去的哪些事件以何種方式影響了未來」。

未來挑戰(zhàn)：可解釋性、可擴(kuò)展性、采樣效率和多模態(tài)

論文最后總結(jié)了 TPP 領(lǐng)域仍待解決的幾個(gè)核心挑戰(zhàn)。

第一是數(shù)據(jù)和模型標(biāo)準(zhǔn)化。事件序列通常具有不規(guī)則時(shí)間間隔、變長(zhǎng)序列、多樣 mark 空間和不同時(shí)間粒度。不同數(shù)據(jù)處理方式會(huì)顯著影響模型表現(xiàn)，也會(huì)讓論文間比較變得困難。

第二是模型可解釋性。傳統(tǒng) Hawkes 模型中的背景強(qiáng)度和觸發(fā)函數(shù)有明確含義，而神經(jīng) TPP 往往把動(dòng)態(tài)編碼進(jìn)高維隱狀態(tài)中，難以解釋過去事件如何影響未來強(qiáng)度。在因果發(fā)現(xiàn)、科學(xué)建模和決策支持中，這一問題尤其關(guān)鍵。

第三是可擴(kuò)展性。真實(shí)事件流可能包含數(shù)萬甚至更多時(shí)間戳，而模型還要處理連續(xù)時(shí)間積分、長(zhǎng)程依賴和多類型事件交互。簡(jiǎn)單把 Transformer 換成 Mamba 或其他高效模塊還不夠，未來需要理解這些架構(gòu)如何表示 hazard function、歷史依賴和長(zhǎng)期時(shí)間因果。

第四是采樣效率。經(jīng)典 thinning 或 inverse transform sampling 需要反復(fù)評(píng)估強(qiáng)度函數(shù)，對(duì)復(fù)雜神經(jīng)模型來說代價(jià)很高。擴(kuò)散模型、flow-based 方法、speculative decoding 等方向正在嘗試并行或塊狀生成事件序列，但仍需平衡時(shí)間一致性、條件結(jié)構(gòu)和計(jì)算成本。

第五是多模態(tài)建模。真實(shí)事件往往伴隨文本、圖像、視頻幀、傳感器讀數(shù)等上下文信息。LLM 和多模態(tài)大模型為這類問題提供了新工具，但也帶來時(shí)間對(duì)齊、不確定性校準(zhǔn)、可控生成等新問題。

結(jié)語(yǔ)：TPP 正在從「預(yù)測(cè)事件時(shí)間」走向「理解事件世界」

這篇 TMLR 綜述傳遞出的一個(gè)重要信號(hào)是：TPP 正處在一個(gè)重新匯合的階段。統(tǒng)計(jì)學(xué)傳統(tǒng)提供了強(qiáng)度函數(shù)、似然、貝葉斯推斷和因果解釋；深度學(xué)習(xí)提供了強(qiáng)大的表示能力和端到端預(yù)測(cè)能力；大語(yǔ)言模型則把文本、知識(shí)、多模態(tài)和推理能力帶入事件序列建模。

未來的 TPP 可能不再只是一個(gè)預(yù)測(cè)「下一個(gè)事件何時(shí)發(fā)生」的模型，而是一個(gè)能夠理解連續(xù)時(shí)間中復(fù)雜事件流的通用框架。它既要知道時(shí)間，也要理解語(yǔ)義；既要能預(yù)測(cè)，也要能解釋；既要足夠靈活，也要保留統(tǒng)計(jì)建模中的可校準(zhǔn)性和可靠性。

對(duì)機(jī)器學(xué)習(xí)研究者來說，這意味著TPP 不是一個(gè)偏門的統(tǒng)計(jì)工具，而是連接連續(xù)時(shí)間建模、序列學(xué)習(xí)、因果發(fā)現(xiàn)和大模型推理的重要交叉點(diǎn)。而這篇綜述的價(jià)值，正在于它把這些正在分散發(fā)展的線索重新放回了一張圖里。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.