Decision Making: Traditional Method
Decision Making: P-value Method
Reinforcement Schedules
Woodward–Hoffmann Selection Rules and Microscopic Reversibility
Timing and Consequences on Behavior
Reinforcement
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
新的历史决策规范化最大 (HDMRME) 算法在政策之外的强化学习 (RL) 中平衡了探索和利用. 这种方法可以提高复杂的控制任务中的政策性能和样本效率.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: