- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理导论》;问答系统:一个能回答任意自然语言形式问题的自动机。
输入:任何自然语言形式的问题
输出:一个简洁的答案或者可能答案的列表
输入:新中国是多久成立的?
输出:1949年10月1日。;1.基于符号的表示方法;最简单方法:N-gram匹配;最常用方法:Bi-LSTM+CRF;编码嵌入后,计算两个向量之间的余弦相似度;1.基于符号的表示方法;问句;But!;2.基于分布式的表示方法;知识图谱图数据嵌入;ShenYing,DengYang,YangMin,LiYaliang,DuNan,FanWei,LeiKai.Knowledge-awareAttentiveNeuralNetworkforRankingQuestionAnswerPairs.InThe41stInternationalACMSIGIRConferenceonResearch&DevelopmentinInformationRetrieval(SIGIR2018).SIGIR:AnnArbor,Michigan,USA,July8-12,2018.pp.901-904.ACM.;;;;;问答系统评价指标-MRR;假设有两个主题,主题①有4个相关网页,主题②有5个相关网页。
某系统对于主题①检索出4个相关网页,其rank分别为1,2,4,7
对于主题②检索出3个相关网页,其rank分别为1,3,5
对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83
对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45
则MAP=(0.83+0.45)/2=0.64
MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前,MAP就越高。如果系统没有返回相关文档,则准确率默认为0。;;知识图谱内容越完备,问答效果越好;;;;多模态任务;多模态任务;多模态问答系统;多模态问答系统;视觉问答系统;视觉问答系统需要四个部分完成:视觉/文本理解,多模态特征交互,答案检索,答案生成。;视觉问答系统数据集;多轮对话系统;多轮对话系统;多轮对话系统;多轮对话系统;《自然语言处理导论》;推荐系统的发展轨迹;推荐系统的应用场景;推荐系统的整体架构;推荐系统的整体架构;用户过去行为
物品特征
物品相似性;用户过去行为
用户间关联关系
物品特征
物品相似性;混合推荐:物以类聚、人以群分-基于物品的协同过滤;用户静态特征:男女,地域,年龄,教育,etc…;推荐系统的整体架构;推荐系统的整体架构;推荐系统的整体架构;评价指标;?;《自然语言处理导论》;;表格数据-文本数据的内容生成;研究动机:语言更适合人类,数据更适合机器;天气;人???生平;NBA赛事;NBA赛事;黄蜂队;黄蜂队;黄蜂队;黄蜂队;保真性;消融实验;风格迁移;多模态文本-图像生成;周一,洛杉矶快船队以107比101击败犹他爵士队。克里斯-保罗本赛季拿下三双,得到13分。在36分钟内得到10个篮板和12次助攻。他还投出了两次抢断和一次盖帽……爵士队的投篮效率相对较高,但他们有17次失误,而……;;参考风格编码器;表格数据嵌入;解码器:逐词生成文章;解码器;跨模态计算;图像描述技术;图像描述技术;图像描述技术;图像描述的端到端框架;
编码器-解码器结构虽然强大,但是依旧存在着局限性:encoder和decoder之间只通过一个固定长度的向量作为特征传递信息,这其中必然存在着一定量的信息丢失,使得解码的时候无法获得充足的信息,那么最终模型的准确率自然也就收到了限制。为了弥补这一缺陷,这一领域的科研工作者们引入了注意力机制。
所谓的注意力(Attention)机制,实际就是在传递信息的过程中,给不同的元素赋予不一样的权重作为“注意力”,这一改进使得信息传递的过程中可以更高效地利用重点信息,减少了整体信息量的丢失。在图像描述领域的话,也可以加上注意力机制,具体的用法有很多,常见的方法就是给经过CNN生成的featuremap的每个位置加上权重因子,再去编码成定长的特征向量。;图像描述的端到端框架;图像描述的组合框架;图像描述的组合框架;图像描述的其他框架;图像描述的其他框架;图像描述的其他框架;图像描述数据集;图像描述数据集;《自然语言处理导论》;幂律分布与正态分布示意图;神经机器翻译模型涉及噪声数据不稳定示例;自动摘要与手工摘要示意图;MAML算法初始化参数学习过程;卷积神经网络反卷积可视化方法
您可能关注的文档
- 自然语言处理导论 课件 第1--3章 绪论、 语言模型、 神经网络和神经语言模型.pptx
- 自然语言处理导论 课件全套 第1--16章 绪论、 语言模型---深度学习时代下自然语言处理的前沿研究.pptx
- 自然语言处理导论 课件 第4--6章 词和语义向量、 预训练语言模型、 序列标注.pptx
- 自然语言处理导论 课件 第7--9章 语义分析、文本分类、情感计算.pptx
- 自然语言处理导论 课件 第10--12章 知识抽取、 自动文摘与信息抽取、 统计机器翻译和神经机器翻译.pptx
- 《网络攻击与防护》课件全套 第1--10章 网络攻防概述 --- 内网Linux环境攻击实践.pptx
- 人教版四年级数学上册期末模拟试卷(实用)word版.docx
- 人教版四年级数学上册期末模拟试卷(突破训练).docx
- 人教版四年级数学上册期末模拟试卷(突破训练)word版.docx
- 人教版四年级数学上册期末模拟试卷(培优b卷).docx
- 青海省西宁市大通县2023-2024学年高三上学期期末考试 化学.pdf
- 青海省西宁市大通县2023-2024学年高三上学期期末考试 数学(理科).pdf
- 生物|“七省联考”考前猜想卷2024年1月生物试卷及答案.pdf
- 2023--2024学年统编版小学语文五年级上册复习经典归纳资料.docx
- 军事法与军事纠纷解决的公共安全与国家利益.pptx
- 人教版四年级数学上册期末模拟试卷(预热题)word版.docx
- 人教版四年级数学上册期末模拟试卷(综合卷).docx
- 人教版四年级数学上册期末模拟试卷(综合题).docx
- 人教版四年级数学上册期末模拟试卷【满分必刷】.docx
- 人教版四年级数学上册期末模拟试卷(完整版).docx
文档评论(0)