-
大小: 626KB文件類型: .pdf金幣: 2下載: 0 次發(fā)布日期: 2024-01-10
- 語言: 其他
- 標(biāo)簽:
資源簡介
傳統(tǒng)的強(qiáng)化學(xué)習(xí)(RL)使用回報(bào)(也稱為累積隨機(jī)獎(jiǎng)勵(lì)的期望值)來訓(xùn)練代理學(xué)習(xí)最佳策略。 但是,最近的研究表明,學(xué)習(xí)學(xué)習(xí)收益的分布要比學(xué)習(xí)其預(yù)期價(jià)值具有不同的優(yōu)勢,如在不同的RL任務(wù)中所見。 從使用傳統(tǒng)RL的收益期望到分配RL收益分配的轉(zhuǎn)變,為RL的動(dòng)力學(xué)提供了新見解。 本文基于我們最近的研究RL量子方法的工作。 我們的工作使用量子神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了分位數(shù)回歸(QR)分布Q學(xué)習(xí)。 該量子網(wǎng)絡(luò)在具有不同分位數(shù)的網(wǎng)格世界環(huán)境中進(jìn)行了評估,說明了其對算法學(xué)習(xí)的詳細(xì)影響。 還將其與馬爾可夫決策過程(MDP)鏈中的標(biāo)準(zhǔn)量子Q學(xué)習(xí)進(jìn)行了比較,這表明量子QR分布Q學(xué)習(xí)比標(biāo)準(zhǔn)量子Q學(xué)習(xí)可以更有效地探索環(huán)境。 RL中的
代碼片段和文件信息
評論
共有 條評論