網易首頁 > 網易號 > 正文申請入駐

AI 術語通俗詞典：梯度消失

2026-05-21 07:03:42　來源: MediaTea

湖南舉報

分享至

梯度消失是深度學習、神經網絡、反向傳播和模型訓練中非常重要的一個術語。它用來描述：在反向傳播過程中，梯度一層層向前傳遞時變得越來越小，導致前面層參數幾乎無法有效更新。換句話說，梯度消失是在回答：為什么有些深層神經網絡看起來很復雜，但前面的層卻幾乎學不到東西。

如果說負責把損失信號從輸出層傳回前面的參數，那么梯度消失就是這個信號在傳遞過程中逐漸衰減，最后變得非常微弱。它常見于深層神經網絡、早期循環神經網絡、Sigmoid / Tanh 激活函數較多的網絡，是理解深度學習訓練困難、激活函數選擇、權重初始化、殘差連接和歸一化方法的重要基礎。

一、基本概念：什么是梯度消失

梯度消失（Vanishing Gradient）是指在神經網絡訓練過程中，反向傳播得到的梯度變得非常小，甚至接近 0。

神經網絡訓練時，通常需要計算損失函數 L 對參數 θ 的梯度：

其中：

? L 表示損失函數

? θ 表示模型參數

? ?L/?θ 表示損失對參數 θ 的梯度

參數更新通常依賴梯度下降：

其中：

? η 表示學習率

? 梯度越小，參數更新幅度越小

如果梯度非常接近 0，那么：

參數更新就會非常微弱：

這意味著參數幾乎不變。

從通俗角度看，梯度消失可以理解為：模型雖然知道最后預測錯了，但錯誤信號傳到前面層時已經太弱，前面層幾乎不知道該怎么調整。

因此，梯度消失會導致深層網絡訓練困難，尤其是靠近輸入端的淺層參數學習緩慢。

二、為什么會出現梯度消失

梯度消失的根本原因，來自反向傳播中的鏈式法則。

假設一個神經網絡由多層函數復合而成：

反向傳播時，需要一層層計算梯度。

如果簡化成一條計算鏈：

x → h? → h? → h? → … → h_L → L

那么損失 L 對前面某個變量 x 的梯度可以寫成：

可以看到，前面層的梯度是許多局部導數連續相乘得到的。

如果這些局部導數很多都小于 1，例如：

乘得越多，結果越小。

例如：

這說明，當網絡層數較深時，梯度可能迅速衰減到接近 0。

從通俗角度看：反向傳播像在傳話，如果每一層都把聲音削弱一點，傳到最前面時就幾乎聽不見了。這就是梯度消失的主要原因。

三、梯度消失與鏈式法則

是反向傳播的數學基礎，也是理解梯度消失的關鍵。

對于復合函數：

鏈式法則給出：

如果有更多層：

x → u → v → y

則：

在深層神經網絡中，這個鏈條可能非常長。

假設每一層的局部導數平均大約為 0.2，那么經過 10 層后：

這個數已經非常小。

如果梯度變得太小，優化器就很難有效更新前面層的參數。

從通俗角度看：鏈式法則讓梯度沿層傳遞，局部導數連續小于 1，連乘后梯度越來越接近 0，前面層幾乎學不到東西。

因此，梯度消失并不是反向傳播出錯，而是鏈式法則在深層結構中自然可能出現的現象。

四、梯度消失與 Sigmoid、Tanh 激活函數

梯度消失常與 Sigmoid、Tanh 這類激活函數有關。

1、Sigmoid 的飽和區

為：

它的輸出范圍是：

當 z 很大時，Sigmoid 接近 1；

當 z 很小時，Sigmoid 接近 0。

此時函數曲線會變得很平，導數接近 0。

Sigmoid 的導數為：

它的最大值也只有：

這意味著即使在最理想區域，Sigmoid 的導數也不會超過 0.25。

如果多層網絡都使用 Sigmoid，反向傳播時就可能出現很多小于 1 的導數連續相乘，導致梯度迅速變小。

2、Tanh 的飽和區

為：

輸出范圍是：

Tanh 以 0 為中心，比 Sigmoid 在某些場景中更合適。

但當 z 很大或很小時，Tanh 也會進入飽和區，導數接近 0。

從通俗角度看：Sigmoid 和 Tanh 在輸入過大或過小時都會“壓扁”，曲線太平，梯度就很小。

因此，早期深層神經網絡使用 Sigmoid 或 Tanh 時，經常遇到訓練很慢、前面層學不到東西的問題。

五、梯度消失在深層網絡中的表現

梯度消失在訓練中通常不會直接以“報錯”的形式出現，而是表現為模型訓練效果異常。

常見表現包括：

? 損失下降非常慢

? 前面層權重幾乎不更新

? 模型訓練很久仍然效果不佳

? 深層網絡反而不如淺層網絡

? 訓練準確率和測試準確率都較低

? 部分層的梯度范數接近 0

例如，一個深層神經網絡有 20 層。訓練時，靠近輸出層的參數梯度比較正常，而靠近輸入層的參數梯度幾乎為 0。

這意味著：后面的層還在學習，前面的層幾乎停止學習。

從通俗角度看：網絡后半部分還能聽到錯誤反饋，網絡前半部分幾乎聽不到。這樣會導致前面層無法有效學習基礎特征。

在圖像模型中，淺層本應學習邊緣、紋理等低級特征；

如果淺層學不好，后面的高級語義特征也會受到影響。

因此，梯度消失會削弱深層網絡的整體訓練效果。

六、梯度消失在循環神經網絡中的問題

梯度消失在早期循環神經網絡（RNN）中尤其常見。

RNN 用于處理序列數據，例如：

x? → x? → x? → … → x_T

它會在時間步之間傳遞隱藏狀態：

其中：

? h_t 表示第 t 個時間步的隱藏狀態

? x_t 表示第 t 個時間步的輸入

? W_x 表示輸入到隱藏狀態的權重

? W_h 表示隱藏狀態到隱藏狀態的權重

? f 表示激活函數

訓練 RNN 時，反向傳播要沿時間方向展開，這稱為通過時間反向傳播（Backpropagation Through Time，BPTT）。

如果序列很長，梯度需要穿過很多時間步：

L → h_T → h_{T-1} → h_{T-2} → … → h_1

這時也會出現許多局部導數連乘。

如果這些導數整體小于 1，早期時間步的梯度就會非常小。

從通俗角度看：RNN 在處理長序列時，越早的信息越難收到后面損失的反饋。這會導致普通 RNN 難以學習長期依賴。

例如，在一段很長的文本中，開頭的信息可能對結尾判斷很重要，但梯度傳回開頭時已經非常弱，模型難以學會這種遠距離關系。

LSTM、GRU 等結構正是為了緩解普通 RNN 的長期依賴和梯度消失問題而提出的。

七、如何緩解梯度消失

梯度消失不是只能接受，它可以通過多種方法緩解。

1、使用 ReLU 及其變體

ReLU 函數為：

當 z > 0 時，ReLU 的導數為 1：

這使正區間的梯度較容易傳遞，不像 Sigmoid 那樣容易在正區間飽和。

因此，ReLU 及其變體常用于深層網絡隱藏層。

常見變體包括：

? Leaky ReLU

? PReLU

? ELU

? GELU

從通俗角度看：ReLU 在正區間不會把梯度壓得很小，因此更適合訓練深層網絡。

2、合理權重初始化

如果權重初始化過小，前向傳播中的信號可能逐層變小，反向傳播中的梯度也可能變小。

常見初始化方法包括：

? Xavier 初始化

? He 初始化

其中，He 初始化常與 ReLU 搭配使用。

合理初始化的作用是：讓信號和梯度在網絡各層之間保持合適尺度。

3、歸一化方法

Batch Normalization、Layer Normalization 等歸一化方法可以穩定每層輸入分布，使訓練更平穩。

它們可以減少激活值過大或過小的情況，從而降低進入飽和區的風險。

從通俗角度看：歸一化讓每一層收到的輸入更穩定，梯度傳播也更容易穩定。

4、殘差連接

殘差連接（Residual Connection）在深層網絡中非常重要。

它讓某一層的輸入可以直接跨過若干層，與后面的輸出相加：

其中：

? x 表示輸入

? F(x) 表示若干層學習到的變換

? y 表示殘差塊輸出

從通俗角度看：殘差連接為梯度提供了一條更直接的回傳通道。這使非常深的網絡更容易訓練。

ResNet、Transformer 等現代模型都大量使用類似思想。

5、門控結構

在序列模型中，LSTM 和 GRU 使用門控機制緩解梯度消失。

門控結構可以控制信息保留、更新和遺忘，使模型更容易學習長期依賴。

從通俗角度看：門控機制讓模型決定哪些信息應該長期保留，哪些信息可以丟棄。這比普通 RNN 簡單地反復變換隱藏狀態更穩定。

八、梯度消失與梯度爆炸的區別

梯度消失常常和梯度爆炸一起討論。二者都與鏈式法則中的連續乘法有關，但方向相反。

1、梯度消失

如果許多局部導數小于 1，連乘后梯度會越來越小：

結果是：

? 參數幾乎不更新

? 訓練非常緩慢

? 前面層學不到東西

2、梯度爆炸

如果許多局部導數大于 1，連乘后梯度會越來越大：

結果是：

? 參數更新過大

? 損失震蕩或發散

? 訓練不穩定

? 可能出現 NaN

從通俗角度看：

? 梯度消失：信號越傳越弱

? 梯度爆炸：信號越傳越強

二者都說明深層網絡中的梯度傳播需要控制尺度。

常見緩解方法有所不同：

? 梯度消失：ReLU、殘差連接、歸一化、合理初始化

? 梯度爆炸：梯度裁剪、較小學習率、歸一化、合理初始化

理解二者的區別，有助于分析訓練曲線和調試模型。

九、梯度消失的優勢、局限與使用注意事項

嚴格來說，梯度消失不是“優勢”，而是一種訓練問題。不過，理解它有助于我們更清楚地認識深度學習模型設計。

1、梯度消失說明了什么

梯度消失說明：深層網絡不是簡單把層數堆高就一定更好。

如果梯度無法有效傳到前面層，那么前面層就難以學習，網絡深度的優勢無法發揮。它提醒我們關注：

? 激活函數選擇

? 權重初始化

? 網絡深度

? 歸一化方法

? 殘差結構

? 優化器和學習率

從實踐角度看，梯度消失是深度學習從淺層網絡走向深層網絡時必須解決的問題。

2、常見誤區

理解梯度消失時，需要避免幾個誤區。

首先，損失不下降不一定就是梯度消失。

也可能是學習率不合適、數據問題、損失函數錯誤、標簽噪聲、模型容量不足等原因。

其次，使用 ReLU 并不代表完全沒有梯度問題。

ReLU 可以緩解正區間梯度消失，但可能出現死亡 ReLU。

再次，梯度小不一定總是壞事。

當模型接近較優解時，梯度自然變小是正常的。問題在于訓練早期或前面層梯度長期過小。

3、使用注意事項

在實際訓練中，可以注意：

? 觀察訓練損失是否下降

? 檢查各層梯度范數

? 深層網絡優先使用 ReLU、GELU 等激活函數

? 使用合適的權重初始化

? 考慮 BatchNorm、LayerNorm 等歸一化方法

? 深層結構中使用殘差連接

? RNN 長序列任務中考慮 LSTM、GRU 或 Transformer

? 不要只憑單一現象判斷梯度消失，要結合梯度統計和訓練曲線分析

從通俗角度看：梯度消失不是模型“不會算”，而是模型在學習時，錯誤反饋傳不到足夠遠的地方。

十、Python 示例

下面給出幾個簡單示例，用來幫助理解梯度消失現象。

示例 1：連續相乘導致數值越來越小

這個例子展示了梯度消失的基本直覺：很多小于 1 的數連續相乘，結果會迅速接近 0。

反向傳播中的梯度連乘也可能出現類似現象。

示例 2：Sigmoid 導數在飽和區很小

這個例子可以看到：

? x 很大時，Sigmoid 接近 1，導數接近 0

? x 很小時，Sigmoid 接近 0，導數接近 0

? x = 0 附近導數最大，但最大值也只有 0.25

這說明 Sigmoid 在深層網絡中容易導致梯度變小。

示例 3：對比 Sigmoid 和 ReLU 的導數

這個例子中：

? Sigmoid 導數通常小于等于 0.25

? ReLU 在正區間導數為 1

這有助于理解為什么 ReLU 更適合訓練較深的網絡。

示例 4：在 PyTorch 中查看各層梯度大小

這個例子可以觀察不同層參數的梯度大小。

如果靠近輸入端的層梯度長期明顯小于后面層，可能存在梯度傳播變弱的問題。

示例 5：將 Sigmoid 換成 ReLU

這個例子可用于和 Sigmoid 網絡做對比。在很多深層網絡中，ReLU 相比 Sigmoid 更容易保持有效梯度傳播。

不過，實際訓練效果還會受到初始化、學習率、歸一化、數據分布等因素影響。

小結

梯度消失是指在反向傳播過程中，梯度經過多層連乘后變得非常小，導致前面層參數幾乎無法更新。它常見于深層網絡、早期 RNN，以及大量使用 Sigmoid 或 Tanh 的模型中。梯度消失的根源是鏈式法則中的連續乘法。常見緩解方法包括使用 ReLU / GELU、合理初始化、歸一化、殘差連接以及 LSTM、GRU 等結構。對初學者而言，可以把梯度消失理解為：模型的錯誤信號在反向傳遞時越傳越弱，最終前面的層幾乎聽不到該如何學習。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.