人工智能技术 第8章 自然语言处理.ppt

人工智能技术 第8章 自然语言处理.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

用户在与机器交互时,根据用户的咨询内容切入到对应的场景中,然后让用户选择更细分的应答模型,定位到用户实际场景,再根据用户的具体问题,给出对应的回答,整个过程类似于把用户的问题用一个漏斗状的筛子过一遍。*这一步的数据标注主要是给句子的场景打标,将用户问题分进对应的场景,这种标注需要非常熟悉本行业业务逻辑树,相当于是在建立机器人的应答知识库,机器人在收到用户发出的指令时识别和哪个细分问题的拟合度最高,然后选取那个问题的答案作为给用户的答案。*虽然会通过大量整理好的语料尽量穷举对应场景和模型的应答知识库,但是用户提问的方式不一样,上下文内容和场景不一样,同时机器的识别是一个概率问题,最终识别成什么问题,以及最终给出什么答案都存在一个阈值,所以这个识别是可能会出现错误的。出现错误的情况我们称为badcase,这个阶段的标注就是标注员去对原始的聊天数据进行标记,看机器人的回答是否正确,如果不正确,那么出现的问题是哪一种,是一级分类错误还是二级分类错误还是回答的答案不够好,不能够满足用户的问题需求。例如:用户问银行卡怎么办理,机器人回复的是信用卡的办理流程,那么这时候就是一个badcase,机器人把问题放进了错误的分类导致回答了一个错误的答案。这一步的标注是将出现的错误筛选出来,并根据业务逻辑树进行问题的分类,标记完之后由专门负责处理badcase的同事和研发的同事一起对应答情况进行调优。********谢谢聆听。*文本数据标注应用(2)文本数据标注应用医疗行业的自然语言处理标注医疗标注举例这样标注的目的在于让机器去识别病历中的每一个词,通过大量的数据标注之后机器能够认识到一个词有哪些属性,在句子中扮演什么角色,在这个语境情况下这个词扮演什么角色,并且教会机器去拆词,识别哪些词是有用的,哪些词是无用的。文本数据标注质量标准?多音字标注:标注全部读音,包括方言发音,因此质量检验时需要借助专业性工具?语义标注:标注词语或句子的寓意,在检验中分为以下三种情况:针对单独词语或语句进行检验针对上下文的情景环境进行检验针对语音数据中的语音语调进行检验语义标注质检除了借助专业性工具外,还要对上下文的情景环境及语音语调进行理解文本数据标注质量标准保证文本数据质量1、提升标注员素质目前的数据标注行业仍然是劳动密集型行业,人力在其中扮演者着至关重要的角色。2、规范标注流程规范标注流程,建立实时筛查体系。3、使用高质量的标注工具AI预标注技术可以在很大程度上避免纯人工标注过程中出现的各种问题,提升标注效率与准确率。文本数据标注质量检验方法1、实时检验实时检验是现场检验和流动检验的一种方式,一般安排在数据标注任务进行过程中。①实时检验方法的优点:能及时发现问题并解决问题能够有效减少标注过程中重复错误的重复出现能够保证整体标注任务的流畅性能够实时掌握数据标注的任务进度②实时检验方法的缺点:对人员的配备及管理要求较高一般1质检员负责实时检验5~10名标注员③检查内容:标注员的标注方法熟练度准确度检查时间点为标注员完成一个阶段的标注任务后(数据集分段标注)实时检验流程文本数据标注质量检验方法2、全样检验全样检验是标注任务交付前必不可少的过程数据标注员已完成标注数据质检员全样检查是否合格已合格数据集不合格,返工①全样检验的优点:能够对数据集做到无遗漏检验可以对数据集进行准确率评估②全样检验的缺点:需要耗费大量的人力精力集中进行全样检验流程文本数据标注质量检验方法3、抽样检验抽样检验是产品生产中一种辅助性检验方法,将抽样检验方式进行叠加,形成多重抽样检验方法。此方法可以辅助实时检验或全样检验,具体如下:辅助实时检验适用情况:出现在数据标注任务需要采用实时检验,但质检员和标注员比例失衡,标注员过多的情况。方法:全样合格就抽样(减少50%),抽样合格就继续减少50%,不合格就全样文本数据标注质量检验方法辅助全样检验使用情况:主要作用是减少全样检验中的疏漏方法:全样合格后,进行抽样,抽样合格就减半,不合格就加倍。多轮抽样均不合格,需要重新全样,多轮抽样没有或只有一轮不合格,就认定为合格,仅需改正抽样发现的不合格标注即可①多重抽样检验方法的优点:能合理调配质检员的工作重心有效地弥补其他检验方法的疏漏提高数据标注质量检验的正确性②多重抽样加纳方法的缺点:只能辅助其他检验方法,如果单独实施,会出现疏漏听聆谢谢*********************一是通过对文本阅读后直接判别,比如一些是否判定,情感分类等一些短文本的。二是需要对文本进行关键词提取,通过

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档