網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ML：強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)數(shù)據(jù)的基本結(jié)構(gòu)

2026-03-21 07:03:03　來(lái)源: MediaTea

湖南舉報(bào)

分享至

從機(jī)器學(xué)習(xí)建模角度看，強(qiáng)化學(xué)習(xí)（reinforcement learning）與監(jiān)督學(xué)習(xí)存在明顯不同。

在監(jiān)督學(xué)習(xí)中，數(shù)據(jù)通常以特征矩陣 X 與標(biāo)簽數(shù)組 y 的形式存在；而在強(qiáng)化學(xué)習(xí)中，數(shù)據(jù)通常來(lái)自智能體（agent）與環(huán)境（environment）的交互過(guò)程。

因此，強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)通常不是一個(gè)靜態(tài)的數(shù)據(jù)表，而是一系列交互記錄（interaction records）。

每一次交互都會(huì)產(chǎn)生一條經(jīng)驗(yàn)數(shù)據(jù)，用于訓(xùn)練智能體的決策策略。

從結(jié)構(gòu)上看，一條典型的強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)數(shù)據(jù)通常包括以下幾部分：

? 當(dāng)前狀態(tài)（state）

? 動(dòng)作（action）

? 獎(jiǎng)勵(lì)（reward）

? 下一狀態(tài)（next state）

這些數(shù)據(jù)通常組合成一個(gè)四元組：

(state, action, reward, next_state)

下面分別介紹這些概念，并使用一個(gè)簡(jiǎn)單的示例進(jìn)行說(shuō)明。

一、狀態(tài)（State）

1、基本概念

在強(qiáng)化學(xué)習(xí)中，狀態(tài)（state）用于描述環(huán)境在某一時(shí)刻的情況。

狀態(tài)通常由多個(gè)特征組成，因此可以表示為一個(gè)特征向量：

s = [x1, x2, x3, ...]

如果一個(gè)系統(tǒng)中包含 n 個(gè)狀態(tài)樣本，每個(gè)狀態(tài)由 m 個(gè)特征描述，那么這些狀態(tài)就可以組成一個(gè)矩陣：

矩陣維度為：

(n_samples, n_features)

即：

(狀態(tài)數(shù), 狀態(tài)特征數(shù))

狀態(tài)通常記為 s。

在實(shí)際應(yīng)用中，狀態(tài)可能來(lái)自：

? 游戲畫(huà)面或棋盤(pán)布局

? 機(jī)器人傳感器數(shù)據(jù)

? 系統(tǒng)運(yùn)行參數(shù)

? 環(huán)境觀測(cè)數(shù)據(jù)

2、簡(jiǎn)單示例

假設(shè)一個(gè)簡(jiǎn)單的網(wǎng)格環(huán)境中，智能體的位置可以表示為：

s = [x, y]

例如：

[2, 3]

表示智能體位于網(wǎng)格坐標(biāo) (2,3)。

二、動(dòng)作（Action）

1、基本概念

在強(qiáng)化學(xué)習(xí)中，動(dòng)作（action）表示智能體在某一狀態(tài)下采取的行為。

動(dòng)作通常來(lái)自一個(gè)動(dòng)作空間（action space）。

例如：

A = {left, right, up, down}

為了便于計(jì)算，動(dòng)作通常會(huì)被編碼為整數(shù)：

3 → down

動(dòng)作通常記為 a。動(dòng)作數(shù)組的結(jié)構(gòu)通常為：

(n_samples,)

即每個(gè)狀態(tài)對(duì)應(yīng)一個(gè)動(dòng)作。

2、簡(jiǎn)單示例

在網(wǎng)格環(huán)境中：

a = 1

表示：

right

即智能體向右移動(dòng)。

三、獎(jiǎng)勵(lì)（Reward）

1、基本概念

強(qiáng)化學(xué)習(xí)的核心機(jī)制是獎(jiǎng)勵(lì)（reward）。獎(jiǎng)勵(lì)表示智能體執(zhí)行某個(gè)動(dòng)作后獲得的反饋信號(hào)。

獎(jiǎng)勵(lì)通常是一個(gè)數(shù)值：

r ∈ ?

例如：

? +1 → 達(dá)到目標(biāo)

? 0 → 普通移動(dòng)

? -1 → 撞墻或失敗

獎(jiǎng)勵(lì)用于衡量動(dòng)作的好壞，從而引導(dǎo)策略優(yōu)化。

獎(jiǎng)勵(lì)通常記為 r。獎(jiǎng)勵(lì)數(shù)組結(jié)構(gòu)通常為：

(n_samples,)

2、簡(jiǎn)單示例

例如：

r = +1

表示智能體完成任務(wù)并獲得獎(jiǎng)勵(lì)。

四、下一狀態(tài)（Next State）

1、基本概念

執(zhí)行動(dòng)作之后，環(huán)境會(huì)進(jìn)入新的狀態(tài)，稱(chēng)為下一狀態(tài)（next state）。

下一狀態(tài)通常記為 s'，它表示系統(tǒng)在執(zhí)行動(dòng)作之后的新環(huán)境狀態(tài)。

在強(qiáng)化學(xué)習(xí)算法中，下一狀態(tài)用于計(jì)算未來(lái)回報(bào)（future reward），并更新策略或價(jià)值函數(shù)。

2、簡(jiǎn)單示例

例如，當(dāng)前狀態(tài)：

s = [2,3]

執(zhí)行動(dòng)作：

a = right

下一狀態(tài)：

s' = [3,3]

表示智能體向右移動(dòng)了一步。

五、強(qiáng)化學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)

在強(qiáng)化學(xué)習(xí)中，每一次交互通常記錄為一條經(jīng)驗(yàn)數(shù)據(jù)：

(s, a, r, s')

如果記錄了 n 次交互，這些經(jīng)驗(yàn)數(shù)據(jù)就會(huì)形成一個(gè)經(jīng)驗(yàn)集合：

D = {(s1,a1,r1,s1'), (s2,a2,r2,s2'), ...}

在實(shí)際應(yīng)用中，這些數(shù)據(jù)通常存儲(chǔ)在一個(gè)結(jié)構(gòu)中，例如 Replay Buffer。

經(jīng)驗(yàn)緩沖區(qū)（Replay Buffer）用于存儲(chǔ)大量交互數(shù)據(jù)，以便訓(xùn)練算法反復(fù)采樣。

六、強(qiáng)化學(xué)習(xí)數(shù)據(jù)集結(jié)構(gòu)關(guān)系

一個(gè)典型的強(qiáng)化學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)可以表示為：

└── 下一狀態(tài) s'

如果展開(kāi)為表格結(jié)構(gòu)，可以理解為：

s       a       r       s'

每一行表示一次完整的環(huán)境交互。

這種結(jié)構(gòu)記錄了智能體與環(huán)境之間的動(dòng)態(tài)關(guān)系，是強(qiáng)化學(xué)習(xí)算法訓(xùn)練的基礎(chǔ)。

小結(jié)

在強(qiáng)化學(xué)習(xí)中，數(shù)據(jù)并不是傳統(tǒng)的特征矩陣與標(biāo)簽數(shù)組，而是來(lái)自智能體與環(huán)境交互過(guò)程的經(jīng)驗(yàn)記錄。每一次交互通常由當(dāng)前狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)以及下一狀態(tài)組成，形成 (s, a, r, s') 的經(jīng)驗(yàn)數(shù)據(jù)結(jié)構(gòu)。通過(guò)不斷積累這些交互數(shù)據(jù)，強(qiáng)化學(xué)習(xí)算法可以逐步學(xué)習(xí)最優(yōu)策略，從而在復(fù)雜環(huán)境中實(shí)現(xiàn)有效決策。

“點(diǎn)贊有美意，贊賞是鼓勵(lì)”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.