跨媒体移动应用理论与实践 课件 3.1 什么是语音识别.pptx

跨媒体移动应用理论与实践 课件 3.1 什么是语音识别.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1第三章 跨媒体移动应用中的语音识别3.1 什么是语音识别 2跨媒体移动应用中的语音识别声音+内容跨媒体平台“声音+阅读”、“声音+直播”、“声音+知识付费”、“音乐MV+社交”等模式初现成果根据艾媒咨询统计2019年,在线音频用户规模达5.42亿,预计2020年将达5.42亿更多语音数据将被采集、使用、开放共享,为用户提供“更优质的沉浸式体验” 3语音识别技术发展 语音识别基本实现步骤 语音识别热点技术原理 “ASR技术所要解决的问题是让计算机将语音中包含的信息“提取”出来,从而能够“听懂”人类,并作出交互响应。ASR技术的研究对象是语音,研究目标在于如何使机器能够自动的地识别和理解人类通过语言口述出来描述的信息内容,并及时地作出反馈相应。 ” 4语音识别热点技术原理 基于模式匹配的语音识别技术 模版匹配法主要基于矢量量化法(VQ)、动态时间规整法(DTW)等算法,使得语音信号的特征提取、不等长时段上的匹配问题得到了更好的解决。以VQ为例:基本思想:将训练样本分为固定的空间区域,每个区域内设置一个点,并不断调节空间划分方式和点的位置,使得其得到的失真度趋于最低。效果:语音识别技术能够实现基于模式识别算法的、针对特定对象的孤立词语音识别。局限:说话者状态都是特定的,内容必须是具有明显边界的小词汇量下的孤立单词,不适用于真实环境。? 5语音识别热点技术原理 基于统计建模的语音识别技术目前统计建模方面的方法,以高斯混合模型(Gaussian Mixture Model,简称GMM)和HMM模型为主。 在这个过程中,声波以帧的形式被切割出来,识别出频谱特征,再输入到GMM模型中完成语音帧的状态识别。最后,HMM模型完成音素、单词的组合识别。 6语音识别热点技术原理 基于深度学习的语音识别技术 用DNN替换GMM对输入语音信号的观察概率进行建模 DNN不需要对声学特征所服从的分布进行假设,可以减少模型的误差,提高更加精确的预测 DNN的输入可以采用连续的拼接帧,可以更好地利用上下文的信息,完成词语的筛选工作 DNN的训练过程可以采用随机优化算法来实现,而不是采用传统的批优化算法,训练数据规模越大,所得到的声学模型就越精确,也就越有利于提高语音识别的性能 基于深度学习方法包括支持向量机(SVM)、人工神经网络(ANN)、深度神经网络(DNN)等方案。 7语音识别技术发展1952年由AT&T贝尔实验室Audry系统RCA(Radio Corporation of America)实验室1959年,伦敦大学音素序列的统计信息麻省理工大学的林肯实验室非特定人声语音识别动态时间规整技术(DTW)RCA实验室归一化打分机制卡内基梅隆大学音素动态跟踪算法1964年IBM实验室数字语音识别系统“shoe box recognizer”Bell实验室聚类算法归纳非特定人的语音识别技术IBM等机构连续单词识别隐式马尔可夫模型(Hidden Markov Model)卡内基梅隆大学Sphinx系统(世界上首个基于HMM模型的、针对非特定人的大词汇表连续语音单词识别方案)剑桥大学HTK系统IBM公司Via Voice系统基于统计建模的语音识别方案20世纪50年代20世纪60年代20世纪70到80年代基于模版匹配的语音识别方案基于深度学习的语音识别方案 8语音识别基本实现步骤要实现ASR技术,需要经历声学特征提取、声学模型、语言模型、词汇表和解码识别等步骤: 9语音识别基本实现步骤语音信号预处理 端点检测(语音活动检测,简称VAD)对语音和非语音的区域进行区分。找到语音信号的起始点和结束点,去掉静音或者是噪音部分。预加重为了避免口唇等导致的共鸣干扰,对语音信号的高频部分进行加重,从而提高高频部分的可辨识性,一般采用高通数字滤波器来实现。分帧使用切分的方式获得短时间范围内的语音内容,使长时段、不平稳语音信号变为多个短时段、平稳的语音帧片段。一般采用交叠分段的方法。加窗使用不同的滤波窗对语音信号进行变换,从而放大抽样点处希望被关注的语音波形,而减弱其他时间点上波形的干扰。如汉明窗、矩形窗等。 10语音识别基本实现步骤声学特征 音韵特征 语言的内容 :声调、语义等 音律特征 人声信息:音高、语速、音色等 常见的声学特征参数:基音周期、共振峰、短时平均能量或幅度、线性预测指数(LPC)、短时平均过零率、线性预测倒谱系统(LPCC)、自相关函数、梅尔倒谱系数(MFCC)等。梅尔倒谱系数(MFCC):考虑了人类发声时的声道因素,能够描绘出语音信号短时功率谱中的包络形状,从而将信号中的语音音素(phoneme)信息提取出来,排除其他冗余因素。 11语音识别基本实现步骤基于GMM-HMM的声学模型基于GMM-HMM的声学模型是一种传统、经典的声学模型

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体孙**

1亿VIP精品文档

相关文档

相关课程推荐