2018级硕士生韩帅在人工智能领域重要国际期刊Knowledge-Based Systems上发表论文

发布日期：2021-02-24 发布人：点击量：

菠菜导航吕帅副教授等的论文“Regularly updated deterministic policy gradient algorithm”被人工智能领域重要国际期刊Knowledge-Based Systems（中科院一区）录用。论文第一作者为吕帅副教授指导的2018级硕士生韩帅，通讯作者为吕帅副教授，其他作者为2017级博士生周文博、2019级硕士生于佳玉。

深度确定性策略梯度算法DDPG是最著名的强化学习方法之一，这类方法在实际应用中通常效率低下且不稳定，且其对Q值估计的偏差和方差有时会难于控制。本文针对上述问题提出了一种定期更新的确定性策略梯度算法RUD（regularly updated deterministic policy gradient）。本文从理论上证明了RUD的学习过程使RUD可以比传统方法更好地利用经验池中的新数据。此外，RUD中Q值的低方差更适合于当前流行的Clipped Double Q-learning策略。本文设计了在Mujoco环境下的对比实验、消融实验，以及其它的分析实验。实验结果验证了RUD的有效性和优越性。

上一篇：2017级硕士生李明在并行与分布计算领域重要国际期刊Journal of Parallel and Distributed Computing上发表论文下一篇：菠菜导航与华为公司相关实验室开展多次技术研讨