Reinforcement Schedules
Decision Making: P-value Method
Primary and Secondary Reinforcers
Law of Effect
Randomized Experiments
Behavior Modification
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
本研究引入了一种去中心化,非参数化的方法,用于加强学习 (RL) 中的政策评估. 它在协作多代理系统中建立了价值函数估计的统计误差极限.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: