基于CNN与Transformer混合结构的多语言图像标题生成研究.docx

下载文档

4
0
约7.54千字
约 15页
2023-08-11 发布于浙江
举报
版权申诉
保障服务

基于CNN与Transformer混合结构的多语言图像标题生成研究.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

? ? 基于CNN与Transformer混合结构的多语言图像标题生成研究 ? ? 张大任，艾山·吾买尔，宜年，刘婉月，韩越 (1.新疆大学信息科学与工程学院，新疆乌鲁木齐 830046；2.新疆大学新疆多语种信息技术实验室，新疆乌鲁木齐 830046) 0 引言自然语言处理和计算机视觉两个领域都是如今的研究热点，图像标题生成作为融合了自然语言处理和计算机视觉的交叉任务，同样是人工智能领域的一个热门方向.图像标题生成是指利用机器学习、深度学习等方法和技术，生成能够描述图像视觉内容的文本语言，其在图文转换、信息检索、智能人机交互等领域都能给人类生活带来许多方便，具有广泛的应用前景. 早期图像标题生成任务解决方案可以分为基于检索的方法[1]和基于模板的方法[2].这两种方法依赖于数据集大小，且需要事先定义完整的物体、属性与场景等概念，因此在生成标题的丰富性和流畅性上存在极大限制.近年来，人们把关注点放在基于深度神经网络的图像标题生成上，基于深度神经网络的方法生成的标题在语法正确性、语义准确性和泛化能力方面有很好的效果.其中最经典的为Google公司提出的Neural Image Caption Generator模型[3]，受机器翻译领域编码器-解码器的框架[4]的启发，使用基于卷积神经网络(CNN)的GoogleNet替换机器翻译模型中用于提取语言特征的循环神经网络(RNN)，使用该网络提取图像特征，再以循环神经网络作为解码器解码卷积神经网络提取出的图像特征.这种在机器翻译编码器-解码器框架下修正的模型对图像标题生成任务产生很大的影响，相关工作主要是在此基础上进行修改和改进.Aneja等[5]将卷积神经网络作为解码器并完成解码操作，使训练速度得到快速提高，同时对于卷积神经网络存在的时序限制问题予以合理规避. 基于传统CNN+RNN的编码器解码器的框架，Vinyals等[6]提出附加额外注意力机制的图像标题生成模型，将从编码器的卷积层取得的图像特征，对图像特征注意力进行加权，将加权后的特征向量发送至循环神经网络对其完成解码操作.Lu等[7]认为传统采用的空间注意力机制在提取图像中新特征时缺乏便捷性，于是提出“视觉哨兵”概念，将注意力的图像特征权重与“哨兵向量”权重分别控制，构成Adaptive Attention模型.Anderson等[8]在2018年提出了结合自下而上和自上而下的注意力机制，采用Faster RCNN[9]等目标检测模型，再利用传统的自上而下的注意力机制来动态关注不同的物体.与之类似的还有文献[10]，通过在模型中添加目标检测模块，提高模型对图像突出对象的描述能力.You等[11]试图从图像中发现更多的语义信息，并将语义属性特征及视觉属性特征融合到字幕模型中以提高描述质量.Chen等[12]提出了抽象场景图(ASG)结构来表示用户意图，在细粒度的层次控制所生成的描述.Zhang等[13]通过与图像描述模型相关任务之间的联合训练，从其他任务获取知识，提高模型的准确性. 针对现有的图像标题生成存在模型的训练目标和评测标准无法匹配的问题，Rennie等[14]提出SCST框架，用强化学习方法对CIDEr[15]评价指标直接优化来训练整体模型，使训练阶段更加稳定.Chen等[16]提出了一个新的基于条件生成对抗网的图像字幕框架，作为传统的基于强化学习的编解码架构的扩展，显著提高了图像标题生成模型性能. 尽管图像标题生成已取得如此优异的成果，但不可避免地存在许多问题，一是目前模型还是使用LSTM作为解码器，而LSTM对较长序列不能很好地支持限制了模型性能；二是现有图像标题生成模型基本都是针对英语且只能生成一种语言的文本描述.针对上述问题，本文提出了基于CNN与Transformer混合结构的多语言图像标题生成模型.通过CNN对图像提取后，使用Transformer中自注意力机制强化长序列单词间的联系，并通过多语言联合训练增强图像标题生成质量，提高模型鲁棒性.实验表明，该模型比传统基于LSTM的图像标题生成模型质量更高，且可以同时生成多种语言的图像标题. 1 基础理论 1.1 编码器解码器框架在计算机视觉领域，基于深度学习方法的模型通常使用卷积神经网络从图像中提取特征，并辅以其他模块来完成诸如分类和检测之类的任务.而自然语言处理领域是对文本词汇编码，依据不同任务使用不同解码器完成任务.与其他基于深度学习的研究工作一样，当前基于序列学习的图像标题生成模型也是端到端的训练，同样遵循了机器翻译任务中编码器解码器模型的基本框架，如图1所示.在机器翻译任务中，编码器解码器框架主要是为了解决不同语言的同一句子之间的长度不匹配的问题，该框架将待翻译语句转化为固定长度的中间向量，之后再借助循环神经网络作为解码器解码成为

您可能关注的文档

文档评论（0）

智慧IT + 关注: 实名认证

内容提供者

微软售前技术专家持证人

生命在于奋斗，技术在于分享！

咨询Ta 进入空间

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

更多 >

基于CNN与Transformer混合结构的多语言图像标题生成研究.docx