Decision Making: P-value Method
Reinforcement
Reinforcement Schedules
Timing and Consequences on Behavior
Avoidance Learning and Learned Helplessness
Expected Value
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
Updated: Jun 15, 2025

Measuring Delay Discounting in Humans Using an Adjusting Amount Task
Published on: January 9, 2016
离线强化学习 (RL) 方法可能由于悲观而不足于最佳. 本研究引入了除悲观主义 (DEP) 运算符,用于准确的Q值估计,改善线下RL中的政策学习.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: