xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

  • 大小: 626KB
    文件類型: .pdf
    金幣: 2
    下載: 0 次
    發(fā)布日期: 2024-01-10
  • 語言: 其他
  • 標(biāo)簽:

資源簡介

傳統(tǒng)的強(qiáng)化學(xué)習(xí)(RL)使用回報(bào)(也稱為累積隨機(jī)獎(jiǎng)勵(lì)的期望值)來訓(xùn)練代理學(xué)習(xí)最佳策略。 但是,最近的研究表明,學(xué)習(xí)學(xué)習(xí)收益的分布要比學(xué)習(xí)其預(yù)期價(jià)值具有不同的優(yōu)勢,如在不同的RL任務(wù)中所見。 從使用傳統(tǒng)RL的收益期望到分配RL收益分配的轉(zhuǎn)變,為RL的動(dòng)力學(xué)提供了新見解。 本文基于我們最近的研究RL量子方法的工作。 我們的工作使用量子神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了分位數(shù)回歸(QR)分布Q學(xué)習(xí)。 該量子網(wǎng)絡(luò)在具有不同分位數(shù)的網(wǎng)格世界環(huán)境中進(jìn)行了評估,說明了其對算法學(xué)習(xí)的詳細(xì)影響。 還將其與馬爾可夫決策過程(MDP)鏈中的標(biāo)準(zhǔn)量子Q學(xué)習(xí)進(jìn)行了比較,這表明量子QR分布Q學(xué)習(xí)比標(biāo)準(zhǔn)量子Q學(xué)習(xí)可以更有效地探索環(huán)境。 RL中的

資源截圖

代碼片段和文件信息

評論

共有 條評論