Behavior Modification
Behaviorism
Generalization, Discrimination, and Extinction
Operant Conditioning
Reinforcement Schedules
Reinforcement
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
本研究引入了一种离线行为者批判方法与行为价值规范化 (OAC-BVR),以解决离线强化学习中过度乐观的价值估计. OAC-BVR通过将价值函数调整为行为政策价值来改善政策绩效.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: