Reinforcement
Reinforcement Schedules
Velocity and Position by Integral Method
Observational Learning
Average and Instantaneous Velocity Vectors
Instantaneous Velocity - I
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
1Department of Statistics, Purdue University, West Lafayette, IN 47907, USA.
这项研究介绍了Langevinized Kalman Temporal-Difference (LKTD),一种新的强化学习 (RL) 算法. 通过利用卡尔曼过和随机梯度马尔科夫链蒙特卡洛方法,LKTD量化了深度强化学习中的不确定性.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: