语音识别分析和总结.docx

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
语音信号的声学原理 语音信号的产生 人类的发音器官主要包括肺、气管、喉、咽、鼻和口等。这些器官共同形成了一条发声管道,其中喉以上的部分称为声道,其形状根据发出声音的不同而变化。喉的部位称为声门。 如下图所示,它是语音产生的机理图。正常呼吸时,肺部收缩产生空气流。当空气流通过声带时,若声带是绷紧的,则声带将周期性地开启和闭合。声带开启时,空气流将从声门喷射出来,形成一个脉冲;声带闭合时相当于脉冲序列的间隙期。所以,这种情况下在声门出将产生出一个准周期性脉冲序列状的空气流。 该空气流经过声道响应后最终从嘴唇辐射出声波一浊音。若声带是完全舒展开来的,空气流将顺利的通过声门。这之后空气流将会遇到两种不同的情况 :如果声道的某个部位收缩形成了一个狭窄的通道.,空气流就会被迫高速通过该收缩区并在收缩区附近产生空气湍流,空气湍流通过声道后便形成摩擦音或清音 ; 如果声道的某个部位完全闭合在一起,当空气流到达此处时就会产生空气压力, 一旦闭合点突然开启便会让气压快速释放,经过声道后就会产生爆破音。 由此可见,语音是由空气流激励声道产生的。三种不同的激励源激励声道产生了浊音、清音和爆破音三种不同类型的声音。浊音激励源是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流(类似于噪声), 而爆破音的激励源是位于声道某个闭合点建立起来的气压及其突然地释放。 语音信号产生的数字模型 通过研究发声器官和语音信号的产生过程便可以建立一个语音信号产生的 数字模型。如图下所示,该数字模型包括激励源、声道模型和辐射模型三个部分。激励源分为浊音和清音两个分支,根据开关所处的位置决定产生的是浊音还是清音。当开关接在浊音的分支上时,激励信号由一个准周期脉冲序列发生器产生, 其重复频率由基因频率决定。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要让冲击序列通过一个声门脉冲模型滤波器。为了能够调节浊音信号的幅度或是能量,还要乘上系数 Av。当开关接在清音分支上时,激励信号由随机噪声发生器产生。为了能够调节清音信号的幅度或是能量,需乘上系数 Au。大量实验证明,对于大多数的语音来说,声道模型的传递函数是全极点函数。辐射模型与嘴型有关。 在该数字模型中,除了声门脉冲模型和辐射模型参数保持不变外,基因频率、Av、Au、清浊音开关位置和声道模型参数都是随时间变化的。但是,由于发生器官的惯性使得声道模型参数的变化速度十分缓慢,在 10 一 30ms 的时间间隔内可以认为参数保持不变,所以在作语音信号的短时处理时帧长一般取 10 一30ms。 语音信号的声学特性 语音是由人的发音器官发出来的一种声波,它和其它的各种声音一样,具有声音的各种物理特性。也就是说,语音也具有一定的音色、音调、音强和音长。 音色---也称为音质,它是一种声音区别与其它声音的一项基本属性。音色由 以下三个因素所决定:声带是否振动、是否采用送气的方法和声道的形状和尺寸。音调---它是指声音的高低,在汉语语音学中又称为音高。音调的高低取决于 声波的频率,而声波的频率又与声带的长短、薄厚以及松紧程度有关。音强---声音的强弱。它由声波振动的幅度所决定。 音长---声音的长短。它由发音持续时间的长短所决定。在汉语的普通话中, 一个音节中的各个音素由于作用不同,其音的长短就不同。对于一个多音节的词, 由于每个音节的轻重不同,其长短也就不一样。 音节---它是最容易觉察,最自然的语音单位,是语音的基本结构单位,由一个或多个音素构成。音素是语音的最小单位。任何语言的语音都包括元音和辅音两种音素。元音是由声带振动产生的语音。元音的性质由声道的形状和尺寸所决定。辅音是由肺呼出的气流克服发音器官的阻碍产生的。汉语的一个音节由声母、韵母和声调构成。声母都是由辅音充当的,但辅音不一定都是声母。汉语中共有22 个辅音,其中 21 个可以充当声母。韵母可以由元音充当,也可以由复合元音充当,还可以由元音加上鼻音充当,所以汉语中共有 39 个韵母。 语音信号的数字化 语音信号的数字化是信号处理的前提条件,一般包括两个步骤:采样和量化。根据奈奎斯特采样定理,采样频率必须大于或等于信号最高频率的 2 倍,这样才 能完整的保留原始信号中的信息。又由于语音信号的频谱分量主要集中在 300 一 3400Hz 范围内,所以在应用中一般使用的采样频率为 :5KHz,10KHZ 或16KHz。。为了抑制输入信号频谱分量中频率超过 1/2 采样频率的分量,以防止混叠失真,在采样之前需要对语音信号作低通(反混叠)滤波,然后再进行 A/D 转换,如下图。采样之后要对语音信号进行量化,量化后的取值与信号的实际值之间的差值成为量化误差。目前,我们一般采用 8bit 量化。 语音识别系统的分类 语音识别主要有以下几种不同的分类方式: 根据识

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档

相关课程推荐