您当前位置: 首页  >  新闻中心  >  菠菜导航新闻  >  正文

菠菜导航新闻

2018级硕士生韩帅在人工智能领域重要国际期刊Knowledge-Based Systems上发表论文

发布日期:2021-02-24 发布人: 点击量:

菠菜导航吕帅副教授等的论文“Regularly updated deterministic policy gradient algorithm被人工智能领域重要国际期刊Knowledge-Based Systems(中科院一区)录用。论文第一作者为吕帅副教授指导的2018级硕士生韩帅,通讯作者为吕帅副教授,其他作者为2017级博士生周文博、2019级硕士生于佳玉。

    深度确定性策略梯度算法DDPG是最著名的强化学习方法之一,这类方法在实际应用中通常效率低下且不稳定,且其对Q值估计的偏差和方差有时会难于控制。本文针对上述问题提出了一种定期更新的确定性策略梯度算法RUDregularly updated deterministic policy gradient)。本文从理论上证明了RUD的学习过程使RUD可以比传统方法更好地利用经验池中的新数据。此外,RUD中Q值的低方差更适合于当前流行的Clipped Double Q-learning策略。本文设计了在Mujoco环境下的对比实验、消融实验,以及其它的分析实验。实验结果验证了RUD的有效性和优越性。