语言结构、机器学习与计算机语义8.docxVIP

语言结构、机器学习与计算机语义8.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
语言结构、机器学习与计算机语义8

语言结构、机器学习与计算机语义——尝试实现一个面向儿童的问答系统摘要:在机器学习和大数据的背景下,如果能够找到自然语言的内在结构,那么计算机通过学习就可以获得语义知识,从而理解、处理自然语言。而从认知论上,可以找到语言的内在的结构:语言表示了粒子在时空中的运动,并且按照概念判断推理逐步关系起来。这样,我们可以把自然语言看作一层,使用深层的DL语言来解释字词,并根据DL层的连接来判断字词如何组合出短语句子,从而得出语言的结构。然后,有了结构,就可以进行机器学习(记录语义);有了学习的知识,就可以进行推理运算。基本的流程。1,对于字词。人工编辑他们的基元结构,从而形成从基本概念生成复杂概念的字词系统。2,对于短语和句子。机器自动地根据字词的基元结构判断其中的连接关系与句法结构,并且记录这些关系作为知识。3。对于问题的求解,先处理问题的语义,机器自动地顺着知识关系进行检索与计算,得出问题的答案。另外,因为有基元结构是多维的,所以使用向量的方式来表示:字词的基元结构通过向量来表示相互关系,短语句子通过向量来检索建立连接关系,推理的时候也顺着向量的关系来检索答案。具体的工程目标。这个工作需要编辑字词库与句子规则,需要学习语料,需要编辑推理规则,这些都要花细致的工夫。所以先做一个小规模的儿童所理解的语言,这是自然语言的子集,大概5000字词,比较容易实现。得出的目标是希望在加上语音模块之后,可以与儿童进行简单的对话。这样应用到玩具中,让玩具真正具有智能,再加上一些学习视频资料以及触摸屏交互,对儿童玩具市场很有吸引力。当然,计算机语义的更大目标,还是希望加工常用的10万汉语字词,从而实现通用的计算机语义处理。-----------------------------------分割线,下面细致的情况有兴趣的话可以看下去------------------理论基础这种语言内在结构的理论基础,主要是康德的认识论。语言是人的特殊活动,所以计算机处理语义要理解语言的结构,就要从人的认识出发。康德从时空表象开始,按照内在的结构描述了概念、判断、推理的过程。那么,虽然自然语言是多种变化的,但他们之所以有意义,就是因为他们符合时空粒子运动的内在生成与连接的过程。也就是说,康德的理性框架能够为自然语言提供一个结构。当然,结构还只是空白,但机器可以按照结构来学习大量语料,从而获得知识。然后,可以根据输入的问题,顺着知识关系来进行推理。所以,语言结构加大数据学习,是这个方案的根本。与其他语义方案的不同,也在于处理了语言的内在结构以及可以进行机器学习。处理语义大致有两种方法,一种是本体工程,像框架语义学、语义网等,一种是Hownet的义原法。本体工程不使用深层结构,通过字词的相互关系来描述语义,但机器无法自动识别学习相互关系,需要手工编辑,几乎很难完成这个工作量。Hownet的义原虽然有深层结构的生成性,但过于简单,没有相互连接的规则,也无法自动识别连接,所以机器识别学习这一环也没法做到。所以,这种方案主要就在于使用字词的基元结构来标注字词连接的关系,从而可以进行机器识别和学习,然后根据学习到的知识进行推理加工。四个部分的处理下面分四个部分来说:字词、短语、句子、推理。第一,把字词的语义解释成时空中的节点。1,分名词、动词、形容词等类,名词使用序列、生成、组合/运动、力量/形状、时间、集合这八个基元来解释;动词使用主事、受事、动作描述、凭借、环境五个论元来解释,形容词使用主词、序列形式、形容描述三个论元来解释。这三种中名词是根本,动词形容词都基于名词来展开。2,名词的序列、生成、组合描述了这个名词是如何生成的,这样就把所有名词分层成一个树形结构,底层的名词生成了高层的名词。这与Hownet的结构类似,只是每个名词都要表示出这八个基元,从而为连接与推理提供判断依据。3,具体的编辑,可以把《现代汉语词典》的标准释义作为名词的组合内容、动词的动作描述、形容词的形容描述;可以从CCD中找到动词和形容词的论元;可以从Hownet中找到名词的序列、生成。所以需要做的编辑主要是名词的运动、力量、形状、时间、集合,而不是全新地编辑字词库,工作量就可以接受了。第二,根据同源原则,字词连接成短语。1,在语言的内在结构中,几个字词能够组合成短语句子,是因为他们是同源的,从而按照某种关系组合起来。所以,寻找短语中字词的相同点,并且标注出是什么关系,就明白了短语的语义结构了。2,计算机处理可以倒着从关系入手:根据四种关系所涉及到的基元类别,查找两个字词可能的同源节点。判断关系有四类(短语和句子都是如此):质量、活动、关系、情态。质量是时空粒子的量化;活动是运动所表示的事件;关系是属性、因果、交互(每一种都可以细化为三种:序列属性范围、生成因果凭借、组合交互同位);情态是情态算子的二阶判断

文档评论(0)

haowendangqw + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

认证主体李**

1亿VIP精品文档

相关文档

相关课程推荐