Reinforcement
Reinforcement Schedules
Randomized Experiments
Observational Learning
Avoidance Learning and Learned Helplessness
Purposive Learning
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
我们为深度Q网络 (DQN) 引入了一种新的偏好导向探索,它增强了无偏见的学习. 这种方法鼓励多样化的行动抽样,提高了强化学习任务的性能和融合速度.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: