人工智能技术基础 课件 第7、8章 自然语言处理、 智慧物联.pptx

人工智能技术基础 课件 第7、8章 自然语言处理、 智慧物联.pptx

  1. 1、本文档共147页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能技术基础;;; 先通过一个案例说明自然语言处理中常用的术语及其代表的知识平面。 由下图可以看出,自然语言处理系统首先把指令“删除文件B”在音位学平面转化成序列“shan chu # wenjian # bi”;然后在形态学平面把这个音位序列转化为语素序列“删除”,“文件”,“B”;接着在词汇平面把这个语素序列转化为字词序列并标注出相应的词性:(删除,VERB),(“文件”,NOUN)(“B”,ID);在句法学平面进行句法分析,得到这个单词序列的句法结构,用树形图表示;在语义学平面得到这个句法结构的语义解释:删除文件(“B”);在语用学平面得到这个指令的语用解释“rm-i B”,此处用的是UNIX系统的指令符号和书写规范,最后计算机执行这个命令。;自然语言处理过程;;;工程上,已经解决了机器怎样进行中文分词。怎样解决的呢?以文档2为例,增加文档2的另一种分词结果,和上述文档2的分词罗列如下: 文档2:学校|推动|教学|改革|,推动|人工智能|课程|改革。 A1 A2 A3 A4 A5 A6 A7 A8 学校|推动|教学改革|,推动|人工|智能|课程改革。 B1 B2 B3 B4 B5 B6 B7 下面会构建语料库,机器能根据语料库自动计算上面两种不同分词方式各自出现的概率,哪个概率大就使用哪个分词方式。; 人工智能应用中,通常将现代汉语分为15类:名词、时间词、方位词、数词、量词、代词、区别词、动词、趋向动词、能愿动词、形容词、副词、介词、连词、助词。 自动词类标注的关键是排除兼类词歧义,所谓兼类词也就是词类的歧义,这是汉语自动处理的难点之一。 试比较:我在北京上学(“在”为介词,“上”为动词) 我在床上(“在”为动词,“上”为方位词) 上面的例子中,“在”为“动-介”兼类,“上”为“方位-动”兼类。汉语中往往越是常用的词,不同的用法就越多,兼类现象也就越多。;; 下面通过一个简单的乔姆斯基形式语法类型G演示计算机自动识别句子的各个句法单位以及他们之间的相互关系的过程,这个过程英文为parsing,可译为自动句法分析,设语法类型G为:; ???予以说明:S是初识符号,它属于集合VN,集合VN中的符号是用来描述语法的,可将NP、VP、V依次解释为名词短语、动词短语、动词。VT是该语言中的词汇,是终极符号。 P叫做重写规则,共有(i)—(v)五条,箭头?左边的符号简称为规则左边,右边的符号简称为规则右边,VN,VT,S,P四元组定义了语法G=(VN,VT,S,P)。我们用该语法G分析句子“熊猫吃竹叶”。;首先,从初始状态S开始,写出句子“熊猫吃竹叶”的推导过程:;上述推导过程,也就是句子的生成过程,可用下图的句法树形图表示:; 其次,我们采用自低向上剖析(buttom-up parsing)方法剖析句子“熊猫吃竹叶”,将句子切分为如下形式: 熊猫|吃|竹叶 根据重写规则(iv),可得如下剖析图 熊猫|吃|竹叶 NP_ 然后,剖析符号串“NP|吃|竹叶”,先检查语法G中有没有右部为NP的重写规则,检查结果是没有。再检查符号串“NP|吃|竹叶”中的第二个词“吃”,根据规则(V)可得如下剖析图 熊猫|吃|竹叶 NP_ V_; 剖析过程中,要在语法G容许的范围内,尽量把符号串的语法符号NP,V等组合起来。先检查语法G中有没有右部为NP的重写规则,检查结果是没有,再检查语法G中有没有把NP和V组合起来的重写规则,检查结果也是没有。随后检查符号串“NP|V|竹叶”中的第二项V,根据规则(iii),可得如下剖析图 熊猫|吃|竹叶 NP_ V_ VP_; 继续剖析,此时语法G中重写规则(i)的右边为符号串NP VP,重写规则(iv)的右边为“竹叶”,此处该应用重写规则(i)呢还是(iv)呢?经过试验,该应用重写规则(iv),可得如下剖析图: 熊猫|吃|竹叶 NP_ V_ NP_ VP_; 继续剖析,可以发现支配V的这个VP语法符号不能引导我们找到成功的途径,需要去掉VP,这叫做采用“回溯”(backtracking)的方法,可得如下剖析图:

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档