- 0
- 0
- 约2.3千字
- 约 26页
- 2023-06-19 发布于北京
-
正版发售
- 1、本文档共26页,仅提供部分内容试读,阅读完整内容需要下载文档。
- 2、本内容来自版权合作机构,仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
- 3、因数字商品的特殊性,一经售出,不提供退换货服务、不进行额外附加服务。
龙源版权所有
基于权重值的竞争深度双Q网络算法作者:汪晨曦 赵学艳 郭新来源:《南京信息工程大学学报》2021年第05期
摘要
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法對比,本算法有更好的学习效果,收敛性和训练速度均有提升.关键词
深度强化学习;深度双Q网络;竞争网络结构;权重值
中图分类号TP273
文献标志码A
收稿日期
2021-09-13
资助项目国家自然科学基金62073144) ;广东省自然科学基金(2020A1515010441);广州市科技计划(202002030158,202002030389);广东省青年创新人才项目(2018GkQNCX005)
作者简介
汪晨曦,男,硕士生,研究方向为深度强化学习、最优控制.auwcx@mail.scut.edu.cn
赵学艳(通信作者),女,副教授,硕士生导师,主要从事随机系统和非线性系统的稳定性与镇定,复杂系统的建模、分析和控制的研究.auxyzhao@scut.edu.cn
1华南理工大学 自动化科学与工程学院,广州,510641
2广东交通职业技术学院,机电工程学院,广州,510650
0引言
强化学习(Reinforcement Learning,RL)是由心理学、神经科学以及控制科学等多学科融合而来的一类机器学习方法[1-3],多用于解决序贯决策问题.目前强化学习可以分为基于模型的强化学习(model-based RL)和无模型强化学习(model-free RL)两大类.在无模型强化学习算法中,Q学习(Q-learning)[4]是目前最流行的算法,它使用Q表格有效地构建动作状态对,可直接根据Q值进行动作选择.但在学习训练中,因为Q学习算法包括一个最大化的操作,直接导致对动作值的过于乐观估计,文献[5]证明了该过估计有上限,而文献[6]则证明在特定条件下,该过估计也可能存在下限.
随着人工智能(Artificial Intelligence,AI)、深度学习(Deep Learning,DL)[7]等概念的愈发火热,神经网络已经成为一大研究热点.神经网络可将复杂逻辑的高维数据转换成可靠的低维表示,已在计算机视觉、自然语言处理、推荐系统等方面展示出巨大作用.将深度学习与强化学习结合起来,根据二者不同的特点,可以使得智能体在某些随机环境下获得更为良好的表现.
近年来,深度学习与强化学习相结合(Deep Reinforcement Learning,DRL)的智能体训练方法大放异彩.2013年Mnih等[8]提出的深度Q网络(Deep Q-Network,DQN)算法在Atari 2600部分游戏中大幅超越人类玩家水平,该算法可预估所有策略的价值,取其中最佳策略执行.
最初的DQN算法存在一些缺陷,例如目标值不稳定、样本利用不充分等.针对上述问题,2015年Mnih等[9]提出设立回放经验池和固定目标值以使智能体训练更加稳定:经验回放打破样本前后的关联性,在训练中随机采样,而固定目标值使得反向传播算法更加稳定.但由于估计偏差及噪声作用,该算法有时会高估动作值.
为了解决高估问题,Hasselt等[6]提出DDQN(Double Deep Q-Network)算法,采用双估计器,将动作选择与动作评估分离;文献[10]提出竞争网络结构,将Q网络有效分为价值函数与优势函数两部分,其中价值函数仅仅与状态有关,与动作无关.但Zhang等[11]指出引入双估计器有时会导致低估动作值,提出WDDQ(Weight Double Deep Q-learning)算法,采用权重值的方法对Q值进行调节,仿真结果显示该算法可有效提升训练的稳定性.
本文针对DQN算法中的高估、DDQN算法与竞争网络结构中的低估问题,结合WDDQ算法的权重值方法,提出基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),将竞争网络结构与改进的双估计器结合,对动作值有更精准的估计,有效减少误差.通过对Open AI Gym中的经典控制问题CartPole[12]进行研究,实验结果表明,WD
同期文章
- 基于改进无证书公钥密码的轻量级DTLS协议设计-《南京信息工程大学学报》(2021年5期).docx
- 基于响应面法的轴向磁场永磁记忆电机多目标优化设计-《南京信息工程大学学报》(2021年5期).docx
- 基于神经网络的人口与经济系统的耦合协调发展分析-《南京信息工程大学学报》(2021年5期).docx
- 车联网中路边设施的分布式调度策略的研究-《南京信息工程大学学报》(2021年5期).docx
- 企业社会责任下考虑促销投入的供应链优化决策-《南京信息工程大学学报》(2021年5期).docx
- 基于遗忘因子的数据驱动最优迭代学习控制算法研究-《南京信息工程大学学报》(2021年5期).docx
- 不平衡数据下基于PSO-BP算法的输电线路弧垂预测-《南京信息工程大学学报》(2021年5期).docx
- 基于改进的LSTM算法的时间序列流量预测-《南京信息工程大学学报》(2021年5期).docx
- 时变时滞随机广义Markov跳变系统的事件触发控制-《南京信息工程大学学报》(2021年5期).docx
- 基于Q学习算法的随机离散时间系统的随机线性二次最优追踪控制-《南京信息工程大学学报》(2021年5期).docx
您可能关注的文档
- 大数据环境中自愿接种策略及个体安全保护方法研究-《南京信息工程大学学报(自然科学版)》(2017年5期).docx
- 支持近似最短距离查询的高效图加密机制-《南京信息工程大学学报(自然科学版)》(2017年5期).docx
- 环境感知应用系统的数据传输与安全-《南京信息工程大学学报(自然科学版)》(2017年5期).docx
- 基于指纹识别的室内定位中的隐私保护-《南京信息工程大学学报(自然科学版)》(2017年5期).docx
- 基于用户点击数据的细粒度图像识别方法概述-《南京信息工程大学学报(自然科学版)》(2017年6期).docx
- 知识图谱发展与构建的研究进展-《南京信息工程大学学报(自然科学版)》(2017年6期).docx
- 融合多模态特征的社会多媒体谣言检测技术研究-《南京信息工程大学学报(自然科学版)》(2017年6期).docx
- 图像艺术风格化的研究现状-《南京信息工程大学学报(自然科学版)》(2017年6期).docx
- 多媒体社会事件分析的研究与展望-《南京信息工程大学学报(自然科学版)》(2017年6期).docx
- 图像检索技术研究进展-《南京信息工程大学学报(自然科学版)》(2017年6期).docx
- 中国国家标准 GB/T 42935-2023设施管理 信息化管理指南.pdf
- 《GB/T 42935-2023设施管理 信息化管理指南》.pdf
- GB/T 42929-2023互联网金融智能风险防控技术要求.pdf
- 《GB/T 42929-2023互联网金融智能风险防控技术要求》.pdf
- 中国国家标准 GB/T 42929-2023互联网金融智能风险防控技术要求.pdf
- 《GB/T 40261.1-2023热环境的人类工效学 交通工具内热环境评价 第1部分:热应激评估原理与方法和等效温度测定》.pdf
- 中国国家标准 GB/T 40261.1-2023热环境的人类工效学 交通工具内热环境评价 第1部分:热应激评估原理与方法和等效温度测定.pdf
- GB/T 40261.1-2023热环境的人类工效学 交通工具内热环境评价 第1部分:热应激评估原理与方法和等效温度测定.pdf
- 《GB/T 42833-2023北斗星基增强系统单频增强服务机载设备最低性能规范》.pdf
- GB/T 42833-2023北斗星基增强系统单频增强服务机载设备最低性能规范.pdf
龙源期刊网创建于1998年,是中国领先的人文大众期刊数字发行平台。全文在线的综合性人文大众类期刊品种达到4200多种,优质版权文章数量超过2500万篇,内容涵盖时政、管理、财经、文学、艺术、哲学、历史、社会、科普、军事、教育、家庭、体育、休闲、健康、时尚、职场等全领域。
1亿VIP精品文档
相关文档
最近下载
- 《基于语文核心素养的任务群式整本书阅读的教学策略研究》课题研究方案.doc
- 模具装配调试与维护校本教材试用版——讲义.教材.doc
- 2023年上半年全国事业单位联考真题《综合应用能力》C类.docx VIP
- 铁路货物运价规则铁运[2005]46号.doc
- 新学期教师培训教学PPT课件.ppt
- DLT 1054-2021 高压电气设备绝缘技术监督规程.pdf
- 会计师事务所审计失败案例探析——以大华会计师事务所对佳电股份为例.pdf
- 环境影响评价报告全本公示,简介:年新增9000吨金属件无铬环保达克罗涂复加工技术改造项目新碶街道乌江路16号宁波经济技术开发区达克罗涂复有限公司宁波市环科院1月12日附.pdf
- B737NGFCOM_飞行组使用手册_R34.pdf
- 上海市浦东新区九年级(上)月考化学试卷(五四学制)(9月份).doc
文档评论(0)