從機(jī)器學(xué)習(xí)建模角度看,強(qiáng)化學(xué)習(xí)(reinforcement learning)與監(jiān)督學(xué)習(xí)存在明顯不同。
在監(jiān)督學(xué)習(xí)中,數(shù)據(jù)通常以特征矩陣 X 與標(biāo)簽數(shù)組 y 的形式存在;而在強(qiáng)化學(xué)習(xí)中,數(shù)據(jù)通常來(lái)自智能體(agent)與環(huán)境(environment)的交互過(guò)程。
因此,強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)通常不是一個(gè)靜態(tài)的數(shù)據(jù)表,而是一系列交互記錄(interaction records)。
每一次交互都會(huì)產(chǎn)生一條經(jīng)驗(yàn)數(shù)據(jù),用于訓(xùn)練智能體的決策策略。
從結(jié)構(gòu)上看,一條典型的強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)數(shù)據(jù)通常包括以下幾部分:
? 當(dāng)前狀態(tài)(state)
? 動(dòng)作(action)
? 獎(jiǎng)勵(lì)(reward)
? 下一狀態(tài)(next state)
這些數(shù)據(jù)通常組合成一個(gè)四元組:
(state, action, reward, next_state)下面分別介紹這些概念,并使用一個(gè)簡(jiǎn)單的示例進(jìn)行說(shuō)明。
一、狀態(tài)(State)
1、基本概念
在強(qiáng)化學(xué)習(xí)中,狀態(tài)(state)用于描述環(huán)境在某一時(shí)刻的情況。
狀態(tài)通常由多個(gè)特征組成,因此可以表示為一個(gè)特征向量:
s = [x1, x2, x3, ...]如果一個(gè)系統(tǒng)中包含 n 個(gè)狀態(tài)樣本,每個(gè)狀態(tài)由 m 個(gè)特征描述,那么這些狀態(tài)就可以組成一個(gè)矩陣:
]矩陣維度為:
(n_samples, n_features)即:
(狀態(tài)數(shù), 狀態(tài)特征數(shù))狀態(tài)通常記為 s。
在實(shí)際應(yīng)用中,狀態(tài)可能來(lái)自:
? 游戲畫(huà)面或棋盤(pán)布局
? 機(jī)器人傳感器數(shù)據(jù)
? 系統(tǒng)運(yùn)行參數(shù)
? 環(huán)境觀測(cè)數(shù)據(jù)
2、簡(jiǎn)單示例
假設(shè)一個(gè)簡(jiǎn)單的網(wǎng)格環(huán)境中,智能體的位置可以表示為:
s = [x, y]例如:
[2, 3]表示智能體位于網(wǎng)格坐標(biāo) (2,3)。
二、動(dòng)作(Action)
1、基本概念
在強(qiáng)化學(xué)習(xí)中,動(dòng)作(action)表示智能體在某一狀態(tài)下采取的行為。
動(dòng)作通常來(lái)自一個(gè)動(dòng)作空間(action space)。
例如:
A = {left, right, up, down}為了便于計(jì)算,動(dòng)作通常會(huì)被編碼為整數(shù):
3 → down動(dòng)作通常記為 a。動(dòng)作數(shù)組的結(jié)構(gòu)通常為:
(n_samples,)即每個(gè)狀態(tài)對(duì)應(yīng)一個(gè)動(dòng)作。
2、簡(jiǎn)單示例
在網(wǎng)格環(huán)境中:
a = 1表示:
right即智能體向右移動(dòng)。
三、獎(jiǎng)勵(lì)(Reward)
1、基本概念
強(qiáng)化學(xué)習(xí)的核心機(jī)制是獎(jiǎng)勵(lì)(reward)。獎(jiǎng)勵(lì)表示智能體執(zhí)行某個(gè)動(dòng)作后獲得的反饋信號(hào)。
獎(jiǎng)勵(lì)通常是一個(gè)數(shù)值:
r ∈ ?例如:
? +1 → 達(dá)到目標(biāo)
? 0 → 普通移動(dòng)
? -1 → 撞墻或失敗
獎(jiǎng)勵(lì)用于衡量動(dòng)作的好壞,從而引導(dǎo)策略優(yōu)化。
獎(jiǎng)勵(lì)通常記為 r。獎(jiǎng)勵(lì)數(shù)組結(jié)構(gòu)通常為:
(n_samples,)2、簡(jiǎn)單示例
例如:
r = +1表示智能體完成任務(wù)并獲得獎(jiǎng)勵(lì)。
四、下一狀態(tài)(Next State)
1、基本概念
執(zhí)行動(dòng)作之后,環(huán)境會(huì)進(jìn)入新的狀態(tài),稱(chēng)為下一狀態(tài)(next state)。
下一狀態(tài)通常記為 s',它表示系統(tǒng)在執(zhí)行動(dòng)作之后的新環(huán)境狀態(tài)。
在強(qiáng)化學(xué)習(xí)算法中,下一狀態(tài)用于計(jì)算未來(lái)回報(bào)(future reward),并更新策略或價(jià)值函數(shù)。
2、簡(jiǎn)單示例
例如,當(dāng)前狀態(tài):
s = [2,3]執(zhí)行動(dòng)作:
a = right下一狀態(tài):
s' = [3,3]表示智能體向右移動(dòng)了一步。
五、強(qiáng)化學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)
在強(qiáng)化學(xué)習(xí)中,每一次交互通常記錄為一條經(jīng)驗(yàn)數(shù)據(jù):
(s, a, r, s')如果記錄了 n 次交互,這些經(jīng)驗(yàn)數(shù)據(jù)就會(huì)形成一個(gè)經(jīng)驗(yàn)集合:
D = {(s1,a1,r1,s1'), (s2,a2,r2,s2'), ...}在實(shí)際應(yīng)用中,這些數(shù)據(jù)通常存儲(chǔ)在一個(gè)結(jié)構(gòu)中,例如 Replay Buffer。
經(jīng)驗(yàn)緩沖區(qū)(Replay Buffer)用于存儲(chǔ)大量交互數(shù)據(jù),以便訓(xùn)練算法反復(fù)采樣。
六、強(qiáng)化學(xué)習(xí)數(shù)據(jù)集結(jié)構(gòu)關(guān)系
一個(gè)典型的強(qiáng)化學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)可以表示為:
└── 下一狀態(tài) s'如果展開(kāi)為表格結(jié)構(gòu),可以理解為:
s a r s'每一行表示一次完整的環(huán)境交互。
這種結(jié)構(gòu)記錄了智能體與環(huán)境之間的動(dòng)態(tài)關(guān)系,是強(qiáng)化學(xué)習(xí)算法訓(xùn)練的基礎(chǔ)。
小結(jié)
在強(qiáng)化學(xué)習(xí)中,數(shù)據(jù)并不是傳統(tǒng)的特征矩陣與標(biāo)簽數(shù)組,而是來(lái)自智能體與環(huán)境交互過(guò)程的經(jīng)驗(yàn)記錄。每一次交互通常由當(dāng)前狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)以及下一狀態(tài)組成,形成 (s, a, r, s') 的經(jīng)驗(yàn)數(shù)據(jù)結(jié)構(gòu)。通過(guò)不斷積累這些交互數(shù)據(jù),強(qiáng)化學(xué)習(xí)算法可以逐步學(xué)習(xí)最優(yōu)策略,從而在復(fù)雜環(huán)境中實(shí)現(xiàn)有效決策。
![]()
“點(diǎn)贊有美意,贊賞是鼓勵(lì)”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.