基于BP神经网络的语音识别技术.doc

下载文档

16
0
约1.87万字
约 28页
2019-06-22 发布于安徽
举报
版权申诉
保障服务

基于BP神经网络的语音识别技术.doc

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

. . 上海海事大学神经网络与语音识别院系: 物流工程学院课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间: 目录 TOC \o 1-3 \h \z \u 一．绪论 3 1.1 研究背景及意义 3 1.2 语音识别的国内外研究现状 3 1.3研究内容 4 二．语音识别技术 5 2.1语音信号 5 2.2语音信号的数学模型 5 2.3 语音识别系统结构 6 2.4 语音信号预处理 7 2.4.1 语音信号的采样 8 2.4.2语音信号的分帧 8 2.4.3语音信号的预加重 9 2.4.4 基于短时能量和过零率的端点检测 9 2.5 特征参数提取 12 三．基于BP神经网络语音识别算法实现 14 3.1 BP神经网络原理 14 3.2 输入层神经元个数的确定 14 3.3网络隐含层数的确定 15 3.4隐含层神经元个数的确定 15 3.5 BP神经网络构造 15 3.6 BP神经网络的训练 16 3.6.1训练样本集合和目标值集合 16 3.6.2 网络训练 16 3.7网络训练 17 3.8 语音的识别结果 18 四．总结 19 参考文献 20 附录 21 一．绪论计算机的飞速发展，使人们的生活方式发生了根本性的改变，鼠标、键盘，这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异，假如让“机器”能够听懂人的语言，并根据其信息去执行人的意图，那么这无疑是最理想的人机智能接口方式，因此语音识别作为一门极具吸引力的学科应运而生，很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。语音识别(Speech Recognition)是指，计算机从人类获取语音信息，对语音信息进行分析处理，准确地识别该语音信息的内容、含义，并对语音信息响应的过程。语音信号具有非稳定随机特性，这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理，那么要求计算机能像人类一样地识别语音信号很有挑战性。 1.1 研究背景及意义语言在人类的智能组成中充当着很重要的角色，人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段，人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展，人们对实现人机对话产生越来越迫切的要求，使得语音识别技术近年来得到了迅速的发展，语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学，它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 1.2 语音识别的国内外研究现状通过语音传递信息是人类最重要，最有效，和最方便的交换信息的形式，语音识别主要指让机器转达人说的话，即在各种情况下，准确的识别出语音的内容，从而根据其信息，执行人的各种意图。广义的语音识别包括说话人的识别和内容的识别两部分。这里所说的语音识别，是指内容识别方面。采用计算机进行语音识别到现在已经发展了50年。从特征参数上改进，采用各种办法进行语音增强是一个研究方向，但是到目前为止，还没有一种办法能把语音信号完美地从噪音环境提取出来。语音识别有广泛的商业化运用前景，主要可以分为通用场合和专用场合两个方面。 1.3研究内容本文研究的主要内容是结合模式识别的基本理论，研究BP神经网络孤立词语音识别的问题，实现1-5共5个数字的识别。分析了语音信号的预处理，特征提取及BP神经网络算法实现。二．语音识别技术 2.1语音信号语音信号是随时间变化的一维信号，由一连串的音素组成，各个音素的排列有一定的规则。语音具有声学特征的物理性质，声音质量与它的频率范围有关，语音信号的频谱分量主要集中在200~3400Hz的范围内。语音信号的另一个重要特点是它的短时性。语音信号的特征是随时间变化而变化，只有在一段很短的时间间隔中，才保持相对稳定的特性。研究表明，在5ms~40ms的范围内语音信号的频谱特性和一些物理特征基本保持不变。语音信号短时特征和短时参数包括它的短时能量、短时过零率、短时相关函数、短时频谱等。语音信号的最基本组成单位是音素。音素可分成浊音和清音两大类。如果将只有背景噪声的情况定义为“无声”，那么音素可分成“无声”、“浊音”和“清音”三类。在短时分析的基础上可