論文研究 - 量子神經(jīng)網(wǎng)絡(luò)的分布強(qiáng)化學(xué)習(xí)

大小: 626KB

文件類型: .pdf

金幣: 2

下載: 0 次

發(fā)布日期: 2024-01-10
語言: 其他
標(biāo)簽:

高速下載

資源簡介

傳統(tǒng)的強(qiáng)化學(xué)習(xí)（RL）使用回報(bào)（也稱為累積隨機(jī)獎(jiǎng)勵(lì)的期望值）來訓(xùn)練代理學(xué)習(xí)最佳策略。但是，最近的研究表明，學(xué)習(xí)學(xué)習(xí)收益的分布要比學(xué)習(xí)其預(yù)期價(jià)值具有不同的優(yōu)勢，如在不同的RL任務(wù)中所見。從使用傳統(tǒng)RL的收益期望到分配RL收益分配的轉(zhuǎn)變，為RL的動(dòng)力學(xué)提供了新見解。本文基于我們最近的研究RL量子方法的工作。我們的工作使用量子神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了分位數(shù)回歸（QR）分布Q學(xué)習(xí)。該量子網(wǎng)絡(luò)在具有不同分位數(shù)的網(wǎng)格世界環(huán)境中進(jìn)行了評估，說明了其對算法學(xué)習(xí)的詳細(xì)影響。還將其與馬爾可夫決策過程（MDP）鏈中的標(biāo)準(zhǔn)量子Q學(xué)習(xí)進(jìn)行了比較，這表明量子QR分布Q學(xué)習(xí)比標(biāo)準(zhǔn)量子Q學(xué)習(xí)可以更有效地探索環(huán)境。 RL中的

資源截圖

小圖大圖

代碼片段和文件信息

上一篇：ShaderlabVSCode 1.1.6.unitypackage
下一篇：論文研究 - 連續(xù)時(shí)間馬爾可夫決策過程的方差優(yōu)化

xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

論文研究 - 量子神經(jīng)網(wǎng)絡(luò)的分布強(qiáng)化學(xué)習(xí)

資源簡介

資源截圖

代碼片段和文件信息

評論

相關(guān)資源