Reinforcement
Reinforcement Schedules
Observational Learning
Associative Learning
Woodward–Hoffmann Selection Rules and Microscopic Reversibility
Heuristics
您也可能阅读
通过共同作者、期刊和引用图与本文相关的文章。
Dawei Yuan1, Guojun Liang2, Tingting Li3
1School of Computer Science, Guangdong University of Science and Technology, Dongguan, 523083, China. yuandawei@gdust.edu.cn.
我们开发了一个强化学习框架 (RL4QE) 来增强自然语言查询,以改进DeepSeek代码生成. 这种方法通过使用文本和执行奖励,将代码相似性提高了34.3%.
科学领域:
背景情况:
研究的目的:
主要方法:
主要成果:
结论: