人机交互:第4章 人机交互技术--6.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HMM 两个随机过程的数学描述: 马尔可夫链,由π、A描述,产生的输出为状态序列 另一个随机过程,由B描述,产生的输出为观察序列 HMM解释: HMM 三个基本问题: 隐马尔科夫模型HMM建模 语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。 匹配/失真测度估计: 语音识别的核心,用来表征参数与模板之间的测度。 常用的方法有:动态时间规整法(DTW)、有限状态矢量量化法(VQ)、隐马尔可夫模型法(HMM)等。 用于语音识别的失真测度有多种,如欧氏距离及其变形的距离、似然比测度/条件概率、加权的超音段信息的识别测度等。 识别算法本身实质上是一种最优搜索过程 搜索算法可分为两类: 1、深度优先算法 当精确的向前预测信息可以获的,深度优先算法具有计算量和存储量小的特点; 2、宽度优先算法 具有帧同步计算的优点,但计算量比较大。 还有上述两种方法的结合 语言模型/专家知识库: 用来存贮各种语言学知识。如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。 对于不同的语言有不同的语言学专家知识库,对于汉语也有其特有的专家知识库。 语言建模的必要性 语言模型主要是提供字或词之间的上下文信息和语义信息,通过它可以消除字或词间的模糊性。 这是因为:一个大词汇量连续语音识别系统必须在某一时刻检测是否遇到语音的发音边界,这样,从不同分段的语音流中就会识别出许多不同的字或词。 语言模型 语言模型是描述自然语言内在规律的数学模型,它主要分为: 规则模型: 传统文法型语言模型,基于语言学家提出的语言学文法,不能处理大规模真实文本. 统计模型:概率模型,基于统计语言模型,估计自然语言每个句子出现的可能性. 统计模型建模技术 统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律。 目前采用的最广泛的是隐马尔科夫模型HMM建模和上下文相关建模,其中N-Gram模型简单有效,被广泛使用。 目前比较成熟的方式是统计语言模型,通过对大量文本文件的统计,提取不同字、词之间先后发生的统计关系。 N元文法语言模型 该模型主要根据已知前N-1个词,预测第N个词的发生概率。考虑到计算的复杂度,一般采用 N=2,3,4的情况,通常称为2元文法、3元文法和4元文法模型。 注: 对汉语来说由基于词和基于字的N元文法,而且通常词比字的文法更精确。 N元文法语言模型的特点 1、零概率问题 2、对特定领域具有敏感性 其它语言模型 1、词性语言模型N-POS 一般词性分类包括动词、名词、形容词和副词分类等,它对上下文的约束力弱于N元文法模型。 2、语义语言模型 根据词在句子中的语义,对其进行分类,相对于词或词性的统计来说属于不同种的信息源。 3、决策树语言模型 4、基于缓存的语言模型 5、最大熵语言模型 6、上下文无关语言模型 7、混合语言模型 判决/语义理解: 是系统识别效果的最终表现, 通常通过语言模型来实现。对于属于信号计算而得的测度,根据若干准则及专家知识,判决选出可能的结果中最好的结果,由识别系统输出。对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。 最终判决将应用人工智能的方法, 将多种知识源进行融合,并将结果用于问题的最终解决。常用的知识源如: (1)声学知识 (2)词法知识 (3)语法知识 (4)语义知识 (5)实际知识 语音识别系统评估指标 1、识别正确率: 要有较好的实用价值,识别率应该大于95% 2、识别速度 实用化要求识别速度应该和口语的速度差不多 3、系统的适应性和可扩展性 (1)适应口音的能力 (2)适应领域的广泛程度能力 (3)适应环境变化和使用者变化的能力 (4)系统本身的可扩充能力 4 、其它, 如系统对计算机的要求,复杂性,性价比等 语音识别系统仍需进一步解决的问题 1、现在的语音识别系统对外界噪音的免疫力依然比较低,表现为在一定噪音环境下,识别率会明显降低; 2、针对非特定人的语音识别系统还不能令人满意; 3、方言是语音识别面临的一个非常现实的问题; 4 、由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,四声等汉语本身特有的问题也有待解决 第4章 人机主要交互技术 (新一代人机交互技术) 人机交互中的语音输入 语音输入是将声音通过话筒+声卡转换成文字的一种输入方法, 其关键技术是语音识别。

您可能关注的文档

文档评论(0)

学习让人进步 + 关注
实名认证
内容提供者

活到老,学到老!知识无价!

1亿VIP精品文档

相关文档

相关课程推荐