Role of Shaping in Operant Conditioning
Reinforcement Schedules
Reinforcement
Law of Effect
Generalization, Discrimination, and Extinction
Elaborative Rehearsals
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
本研究介绍了屏蔽规划引导的政策优化 (SPPO),一种新的安全强化学习 (RL) 方法. SPPO确保了训练期间的安全,并提高了机器人系统的勘探效率.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: