基于权重值的竞争深度双Q网络算法-《南京信息工程大学学报》(2021年5期).docx

  • 0
  • 0
  • 约2.3千字
  • 约 26页
  • 2023-06-19 发布于北京
  • 正版发售

基于权重值的竞争深度双Q网络算法-《南京信息工程大学学报》(2021年5期).docx

  1. 1、本文档共26页,仅提供部分内容试读,阅读完整内容需要下载文档。
  2. 2、本内容来自版权合作机构,仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
  3. 3、因数字商品的特殊性,一经售出,不提供退换货服务、不进行额外附加服务。
龙源版权所有 基于权重值的竞争深度双Q网络算法 作者:汪晨曦 赵学艳 郭新 来源:《南京信息工程大学学报》2021年第05期 摘要 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法對比,本算法有更好的学习效果,收敛性和训练速度均有提升.关键词 深度强化学习;深度双Q网络;竞争网络结构;权重值 中图分类号TP273 文献标志码A 收稿日期 2021-09-13 资助项目国家自然科学基金62073144) ;广东省自然科学基金(2020A1515010441);广州市科技计划(202002030158,202002030389);广东省青年创新人才项目(2018GkQNCX005) 作者简介 汪晨曦,男,硕士生,研究方向为深度强化学习、最优控制.auwcx@mail.scut.edu.cn 赵学艳(通信作者),女,副教授,硕士生导师,主要从事随机系统和非线性系统的稳定性与镇定,复杂系统的建模、分析和控制的研究.auxyzhao@scut.edu.cn 1华南理工大学 自动化科学与工程学院,广州,510641 2广东交通职业技术学院,机电工程学院,广州,510650 0引言 强化学习(Reinforcement Learning,RL)是由心理学、神经科学以及控制科学等多学科融合而来的一类机器学习方法[1-3],多用于解决序贯决策问题.目前强化学习可以分为基于模型的强化学习(model-based RL)和无模型强化学习(model-free RL)两大类.在无模型强化学习算法中,Q学习(Q-learning)[4]是目前最流行的算法,它使用Q表格有效地构建动作状态对,可直接根据Q值进行动作选择.但在学习训练中,因为Q学习算法包括一个最大化的操作,直接导致对动作值的过于乐观估计,文献[5]证明了该过估计有上限,而文献[6]则证明在特定条件下,该过估计也可能存在下限. 随着人工智能(Artificial Intelligence,AI)、深度学习(Deep Learning,DL)[7]等概念的愈发火热,神经网络已经成为一大研究热点.神经网络可将复杂逻辑的高维数据转换成可靠的低维表示,已在计算机视觉、自然语言处理、推荐系统等方面展示出巨大作用.将深度学习与强化学习结合起来,根据二者不同的特点,可以使得智能体在某些随机环境下获得更为良好的表现. 近年来,深度学习与强化学习相结合(Deep Reinforcement Learning,DRL)的智能体训练方法大放异彩.2013年Mnih等[8]提出的深度Q网络(Deep Q-Network,DQN)算法在Atari 2600部分游戏中大幅超越人类玩家水平,该算法可预估所有策略的价值,取其中最佳策略执行. 最初的DQN算法存在一些缺陷,例如目标值不稳定、样本利用不充分等.针对上述问题,2015年Mnih等[9]提出设立回放经验池和固定目标值以使智能体训练更加稳定:经验回放打破样本前后的关联性,在训练中随机采样,而固定目标值使得反向传播算法更加稳定.但由于估计偏差及噪声作用,该算法有时会高估动作值. 为了解决高估问题,Hasselt等[6]提出DDQN(Double Deep Q-Network)算法,采用双估计器,将动作选择与动作评估分离;文献[10]提出竞争网络结构,将Q网络有效分为价值函数与优势函数两部分,其中价值函数仅仅与状态有关,与动作无关.但Zhang等[11]指出引入双估计器有时会导致低估动作值,提出WDDQ(Weight Double Deep Q-learning)算法,采用权重值的方法对Q值进行调节,仿真结果显示该算法可有效提升训练的稳定性. 本文针对DQN算法中的高估、DDQN算法与竞争网络结构中的低估问题,结合WDDQ算法的权重值方法,提出基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),将竞争网络结构与改进的双估计器结合,对动作值有更精准的估计,有效减少误差.通过对Open AI Gym中的经典控制问题CartPole[12]进行研究,实验结果表明,WD

您可能关注的文档

文档评论(0)

龙源期刊 + 关注
官方认证
服务提供商

龙源期刊网创建于1998年,是中国领先的人文大众期刊数字发行平台。全文在线的综合性人文大众类期刊品种达到4200多种,优质版权文章数量超过2500万篇,内容涵盖时政、管理、财经、文学、艺术、哲学、历史、社会、科普、军事、教育、家庭、体育、休闲、健康、时尚、职场等全领域。

认证主体北京龙源网通电子商务有限公司
IP属地北京
统一社会信用代码/组织机构代码
91110113721412769J

1亿VIP精品文档

相关文档

相关课程推荐