Reinforcement
Multi-input and Multi-variable systems
Reinforcement Schedules
Observational Learning
Avoidance Learning and Learned Helplessness
Decision Making: P-value Method
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
本研究引入了强大的多目标强化学习 (RMORL),以解决决策中的环境不确定性. RMORL培养了一个单一的模型,用于强大的帕雷托最佳政策,在复杂的场景中提高绩效.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: