信息内容安全管理及应用教学课件(共12章)第九章深度网络自然语言处理.pptxVIP

信息内容安全管理及应用教学课件(共12章)第九章深度网络自然语言处理.pptx

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章 基于深度网络的自然语言处理2020年4月目录 Contents自然语言的有趣之处卷积网络53124LSTM网络注意力模型之BERTNLP实例根据词汇组成的类型不同的语言分类Isolating 孤立型: 汉语(越南语,泰语,英)每一个词素就是一个词Agglutinative黏着型:词由多个词素组成,但词素本身不大变化(组成规律透明),土耳其语,日语,韩语根据词汇组成的类型不同的语言分类Isolating 孤立型Agglutinative黏着型Fusional(融合型): 词由多个词素组成,但base本身也会随着变化,例如:阿拉伯语,德语根据词汇组成的类型不同的语言分类Isolating 孤立型Agglutinative黏着型Fusional融合型Polysynthetic(聚合性):组合几乎无限制。Mohawk语词汇是思想的启动键理解本身就是联想扩展,因人而异Siri, delete Mom from my contacts.For sale: baby shoes, never worn.Introduced myself to mother again today.Jumped. Then I changed my mind.六个词的小说大赛,获奖作品 语言都是冗余的 还可以更精练少了元音字母,你也可以看得出很多词学不完的英语语法语言中的不规则性和歧义是语言本身内在特征不存在精细的规则来描述所有形态和结构有些可通过修订规则来解决有些特殊变化是独特的语言具备创造性,新词(unknown word)、新用法不断产生还存在专门术语、方言、其他语言词汇混杂的情况歧义无处不在有时候,加一个标点,能改变全文含义或者,改动一个词,改变全文含义和尚未乒乓/球拍/卖/完/了 乒乓球/拍卖/完/了计算机系足球队大胜历史系 计算机系足球队大败历史系 你很好!(你等着!)词的处理:能产性索绪尔:语言是所有能说出或者写出的所有言语的集合(有限),语言可以用语料库来近似词的分布:80/20。当语料库扩大时,总有新词出现乔姆斯基:语言是生成的,因此是无限的还有语言的创新性GoogleTo google, googling, googlish, googleology在其他语言中继续派生更多词汇深度网络强烈依赖语料库因此可以说依据了索绪尔的假设但真实的状况是乔姆斯基所说的,语言是无限的。语料库用于不嫌大第九章 基于深度网络的自然语言处理2020年4月目录 Contents自然语言的有趣之处卷积网络53124LSTM网络注意力模型之BERTNLP实例CNN在图像处理中应用广泛CNN:卷积的示意图依存距离Dependency distance: a new perspective on syntactic patterns in natural languages/CheeseZH/p/5768389.html/CheeseZH/p/5768389.html发现的世界语言新规律: 依存距离最小化依存距离最小化规律:在一个自然语言句子中,句子句法结构普遍存在最小化局部依存关系词语之间距离的趋势依存语法ateslowlymanriceoldthethe依存语法是天然词汇化的。句子是一个有机整体,由词构成词与邻近 (依存距离) 的词产生联系语义驱动,纯语法成分(the)在树的最底层句子的中心一般为动词(英语中称为动词驱动)文本处理中的卷积视野示意图(词为单位)二维图像的CNN卷积示意图文字的CNN卷积示意图CNN在NLP中的应用CNN应用于文本CNN可以就近捕捉近距离的依存关系但对长距离的依存关系无能为力对输入文本的长度有要求,需要固定长度输入序列模型:LSTM深度网络中的序列模型序列模型对输入文本的长度没有要求。依次输入一个词(向量形式),直到整句输入完毕序列模型RNNLSTM语言是一个序列。序列的总体顺序(语序)有一定的规范RNN(Recurrent NN循环神经网络)RNN模型由输入(x),隐层(h),输出(o)组成。输出是由隐层的当前状态决定的。O= w · h隐层的状态是由上一时刻隐层状态及输入决定的。h = x · U+ ht-1 ·V上一时刻的隐层状态则是由上上时刻的隐藏状态(记忆)以及当时的输入决定的。RNN的梯度消失问题(梯度爆炸)the clouds are in the ______the clouds that you saw are in the clean beautiful ______填空的话,句子里的Cloud这个词能给比较多的信息系统输入到空位这个词的时候:h = x (the)· U+ h(in) ·V = x (the)· U+ (x (in)· U + h(are) ·V)

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档