基于权重值的竞争深度双Q网络算法-《南京信息工程大学学报》(2021年5期).docx

下载文档

0
0
约2.3千字
约 26页
2023-06-19 发布于北京
正版发售

基于权重值的竞争深度双Q网络算法-《南京信息工程大学学报》(2021年5期).docx

1、本文档共26页，仅提供部分内容试读，阅读完整内容需要下载文档。
2、本内容来自版权合作机构，仅供个人学习、研究之用，未经授权，严禁复制、发行、汇编、翻译或网络传播等，侵权必究。
3、因数字商品的特殊性，一经售出，不提供退换货服务、不进行额外附加服务。

龙源版权所有基于权重值的竞争深度双Q网络算法作者：汪晨曦　赵学艳　郭新来源：《南京信息工程大学学报》2021年第05期摘要在深度强化学习中，深度Q网络算法存在严重高估动作值问题，使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响，但引入双Q网络的同时，有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法（Weighted Dueling Double Deep Q-Network，WD3QN），把改进的双估计器及竞争网络结构结合至深度Q网络中，将学习到的可能动作值进行加权产生最终动作值，有效减少估计误差.最后，将算法应用于Open AI Gym平台上的CartPole经典控制问题，仿真结果显示：与已有算法對比，本算法有更好的学习效果，收敛性和训练速度均有提升.关键词深度强化学习;深度双Q网络;竞争网络结构;权重值中图分类号TP273 文献标志码A 收稿日期 2021-09-13 资助项目国家自然科学基金62073144） ;广东省自然科学基金（2020A1515010441）;广州市科技计划（202002030158，202002030389）;广东省青年创新人才项目（2018GkQNCX005）作者简介汪晨曦，男，硕士生，研究方向为深度强化学习、最优控制.auwcx@mail.scut.edu.cn 赵学艳（通信作者），女，副教授，硕士生导师，主要从事随机系统和非线性系统的稳定性与镇定，复杂系统的建模、分析和控制的研究.auxyzhao@scut.edu.cn 1华南理工大学自动化科学与工程学院，广州，510641 2广东交通职业技术学院，机电工程学院，广州，510650 0引言强化学习（Reinforcement Learning，RL）是由心理学、神经科学以及控制科学等多学科融合而来的一类机器学习方法[1-3]，多用于解决序贯决策问题.目前强化学习可以分为基于模型的强化学习（model-based RL）和无模型强化学习（model-free RL）两大类.在无模型强化学习算法中，Q学习（Q-learning）[4]是目前最流行的算法，它使用Q表格有效地构建动作状态对，可直接根据Q值进行动作选择.但在学习训练中，因为Q学习算法包括一个最大化的操作，直接导致对动作值的过于乐观估计，文献[5]证明了该过估计有上限，而文献[6]则证明在特定条件下，该过估计也可能存在下限. 随着人工智能（Artificial Intelligence，AI）、深度学习（Deep Learning，DL）[7]等概念的愈发火热，神经网络已经成为一大研究热点.神经网络可将复杂逻辑的高维数据转换成可靠的低维表示，已在计算机视觉、自然语言处理、推荐系统等方面展示出巨大作用.将深度学习与强化学习结合起来，根据二者不同的特点，可以使得智能体在某些随机环境下获得更为良好的表现. 近年来，深度学习与强化学习相结合（Deep Reinforcement Learning，DRL）的智能体训练方法大放异彩.2013年Mnih等[8]提出的深度Q网络（Deep Q-Network，DQN）算法在Atari 2600部分游戏中大幅超越人类玩家水平，该算法可预估所有策略的价值，取其中最佳策略执行. 最初的DQN算法存在一些缺陷，例如目标值不稳定、样本利用不充分等.针对上述问题，2015年Mnih等[9]提出设立回放经验池和固定目标值以使智能体训练更加稳定：经验回放打破样本前后的关联性，在训练中随机采样，而固定目标值使得反向传播算法更加稳定.但由于估计偏差及噪声作用，该算法有时会高估动作值. 为了解决高估问题，Hasselt等[6]提出DDQN（Double Deep Q-Network）算法，采用双估计器，将动作选择与动作评估分离;文献[10]提出竞争网络结构，将Q网络有效分为价值函数与优势函数两部分，其中价值函数仅仅与状态有关，与动作无关.但Zhang等[11]指出引入双估计器有时会导致低估动作值，提出WDDQ（Weight Double Deep Q-learning）算法，采用权重值的方法对Q值进行调节，仿真结果显示该算法可有效提升训练的稳定性. 本文针对DQN算法中的高估、DDQN算法与竞争网络结构中的低估问题，结合WDDQ算法的权重值方法，提出基于权重值的竞争深度双Q网络算法（Weighted Dueling Double Deep Q-Network，WD3QN），将竞争网络结构与改进的双估计器结合，对动作值有更精准的估计，有效减少误差.通过对Open AI Gym中的经典控制问题CartPole[12]进行研究，实验结果表明，WD

同期文章

您可能关注的文档

文档评论（0）

龙源期刊 + 关注: 官方认证

服务提供商

龙源期刊网创建于1998年，是中国领先的人文大众期刊数字发行平台。全文在线的综合性人文大众类期刊品种达到4200多种，优质版权文章数量超过2500万篇，内容涵盖时政、管理、财经、文学、艺术、哲学、历史、社会、科普、军事、教育、家庭、体育、休闲、健康、时尚、职场等全领域。

咨询作者（15人已咨询）已休息

认证主体北京龙源网通电子商务有限公司

IP属地北京

统一社会信用代码/组织机构代码: 91110113721412769J

1亿VIP精品文档

更多 >

基于权重值的竞争深度双Q网络算法-《南京信息工程大学学报》(2021年5期).docx