![]()
系列簡介
這是我們一系列原創(chuàng)技術貼,從易到難,每天學習一點。所有內容均為疾控數(shù)據(jù)分析、科研論文相關,或者說很多和現(xiàn)在的熱門監(jiān)測預警相關,所以我們這個系列就叫“監(jiān)測預警基礎”。
今天是第6節(jié),前面講了很多的關于算數(shù)移動平均的應用,今天算是新的內容,講一講指數(shù)加權移動平均,系統(tǒng)學習一下究竟什么是指數(shù)加權!
在傳染病監(jiān)測預警中,我們常常面臨這樣的困境:傳統(tǒng)的簡單移動平均對近期變化的反應不夠靈敏,而單周數(shù)據(jù)又波動太大、容易誤報。
今天,我們聚焦一種在疾控監(jiān)測中極具價值的高級工具——指數(shù)加權移動平均(The Exponentially Weighted Moving Average,EWMA)。它能夠更敏銳地捕捉疫情的早期變化,為防控決策贏得寶貴時間。
![]()
EWMA是由美國貝爾實驗室的S. W. Roberts博士于1959年提出。原有簡單控制圖法在處理小波動或趨勢變化時存在不足,Roberts博士開始探索新的方法,其在簡單移動平均的基礎上引入了權重的思想。
核心思想就是距今越近,數(shù)據(jù)權重越大;距今越遠,數(shù)據(jù)權重越小;隨著時間的推移呈指數(shù)形式遞減。
EWMA的優(yōu)勢就是它會給近期數(shù)據(jù)更高權重,讓監(jiān)測系統(tǒng)對新變化更敏感,同時對歷史數(shù)據(jù)“逐漸淡忘”,實現(xiàn)動態(tài)追蹤。
所以EWMA最重要參數(shù)就是,為權重因子, 0<<1,決定遞減速度。
我們通過比較就能發(fā)現(xiàn)指數(shù)加權移動平均的精髓
![]()
![]()
計算指數(shù)加權之后的病例數(shù):
![]()
Zt:今天(t時刻)的指數(shù)加權之后的病例數(shù),也就是EWMA值
Xt:今天的新觀測值,原始數(shù)據(jù)
Z(t-1):昨天的EWMA值,它包含了昨天之前的所有歷史信息
λ:平滑系數(shù),或者交權重系數(shù)、衰減因子,這就是我們要說的的“指數(shù)”,它決定了新數(shù)據(jù)的權重和遺忘的速度,范圍在0到1之間。
![]()
額外說明一下,這個初始值,也就是第一個EWMA值,通常直接用第一個數(shù)據(jù)點或目標的平均值。
此外,從操作方法上看這個方法似乎只是移動指數(shù)加權,但其本質是對所有歷史數(shù)據(jù)做的加權平均,它代表一個“位置”或“中心趨勢”:就像算術平均值代表一組數(shù)據(jù)的中心一樣,EWMA值代表了近期而且含歷史影響過程水平的估計中心,所以叫指數(shù)加權移動平均!
![]()
λ的含義:λ是衡量“新數(shù)據(jù)的權重”
λ越大(接近1,如0.9):當前新數(shù)據(jù)的權重越大,這意味著模型更信任新數(shù)據(jù),更不信任歷史記憶。因此,它對新變化反應極快,曲線會緊跟原始數(shù)據(jù)的波動,靈敏度高,但穩(wěn)定性差,更容易被噪聲干擾。
λ越小(接近0,如0.1):新數(shù)據(jù)的權重越小,歷史記憶的權重越大。這意味著模型更信任長期建立的歷史基線,對新數(shù)據(jù)持保守態(tài)度。因此,它對新變化反應溫和,曲線非常平滑,能有效過濾短期波動,穩(wěn)定性強,但靈敏度低,對微小變化反應滯后。
λ大靈敏度高,λ小穩(wěn)健性強。如果還沒有很理解,接下來我們直接上數(shù)據(jù)看看,不同λ大小畫出來的線究竟有啥區(qū)別!
我們對以下數(shù)據(jù)做7日移動平均、λ為0.8的移動加權和λ為0.3的移動加權。
![]()
畫出折線圖如下![]()
這樣就可以比較清楚的看出
黑色線(日病例數(shù)):這是實際每天報告的病例數(shù),是“真相”,但充滿噪聲,日報告波動、周末效應等。
黃色線(λ=0.8 的 EWMA):它幾乎緊貼著黑色線上下起伏。每當黑色線在12月3日、17日出現(xiàn)尖峰,黃線都幾乎同步地出現(xiàn)一個陡峭的突起。因為 λ=0.8 賦予了新數(shù)據(jù)(今日病例數(shù))高達80%的權重,所以它像一個“實時跟蹤器”,極度敏感,幾乎無滯后,但也因此繼承了原始數(shù)據(jù)的大部分波動。它適合用于需要分鐘級、小時級反應的高頻監(jiān)控場景,在日數(shù)據(jù)層面則顯得“躁動”。
綠色線(λ=0.3 的 EWMA):它是最平滑、最沉穩(wěn)的一條線。它完全無視了12月3日的單日小尖峰,對于12月中下旬的整體上升趨勢,它呈現(xiàn)出一條清晰、堅定、無抖動的上升斜坡。因為 λ=0.3 賦予新數(shù)據(jù)的權重僅30%,而70%依賴于歷史(昨天的EWMA值)。這使它擁有強大的“慣性”和“記憶力”,穩(wěn)定性更強,能有效過濾掉偶然的日度波動,只將持續(xù)、一致的趨勢變化納入曲線。
紅色線(7日移動平均):其平滑度介于黃綠之間,像一個標準的“趨勢基線”,7日移動平均的主要問題是會完全忘掉7天之前的數(shù)據(jù)。它的行為在數(shù)學上近似于一個 λ 約等于 0.25 的 EWMA,所以其平滑和穩(wěn)健的特性與綠線(λ=0.3)相似,但因為是固定窗口的簡單平均,在趨勢轉折時可能略有一點不同。
好了,這些應該明白指數(shù)加權移動平均怎么計算以及λ的影響了吧!
那么,λ是怎么確定的呢,這么說吧,λ 是通過“基于目標的計算”得到一個初始建議值,然后通過“手動調整”來最終確定的,它不是憑空試出來的,但也不是一個固定公式能完全算死的。λ的“最終值”確定必須通過結合自身歷史數(shù)據(jù)反復測試、調整,以達到誤報和漏報間最佳平衡。
![]()
編輯:普通疾控人 | 審核:詩酒趁年華
文章來源 | 原創(chuàng)
說明 | 轉載只為分享,如有侵權聯(lián)系刪除
?版權聲明 | 部分信息和圖片來自公開網(wǎng)絡
轉載請注明
再次轉載請注明出處
![]()
科普健康 | 宣傳疾控
本號為多位疾控機構從業(yè)者運營
重點關注國內外健康事件
致力于疾控科普
在做好科普服務大眾的同時
做好疾控機構的宣傳
讓更多的人了解疾控,擁抱健康
歡迎加「小編」微信(cdcjkr126com)
本文具體說明
本文為原創(chuàng)內容,文章為個人理解所學,不涉及疫情信息及內部保密數(shù)據(jù),發(fā)表的目的為自我總結及給有需求的人士學習使用。如有不妥之處,歡迎聯(lián)系小編修改、刪除。
更多精彩視頻,盡在“CDC疾控人”視頻號
![]()
轉發(fā),點贊,在看,安排一下?6
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.