南理工 语音信号处理期末考试重点整理.ppt

南理工 语音信号处理期末考试重点整理.ppt

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
南理工 语音信号处理期末考试重点整理

1月20号晚上七点-九点,四工A107 选择题(2分,10题) 填空题(1分,15题) 文字解释(4分,5题) 简答题(9分,5题) 没有计算题。 失真度选择必须具备的特性 必须在主观评价上有意义,即小的失真应该对应于好的主观语音质量; 必须是易于处理的,即在数学上易于实现,这样可以用于实际的矢量量化器的设计; 平均失真存在并且可以计算; 易于硬件实现 失真测度主要有均方误差失真测度(即欧氏距离)、加权的均方误差失真测度、板仓-斋藤(Itakura-Saito)距离,似然比失真测度等,还有人提出的所谓的“主观的”失真测度。 4.5 降低复杂度的矢量量化系统 矢量量化系统主要由编码器和译码器组成: 编码器主要由码书搜索算法和码书构成, 译码器由查表方法和码书构成。 矢量量化器的研究主要围绕降低速率、减少失真和降低复杂度展开。 降低复杂度的设计方法大致分为两类: 一类是无记忆的矢量量化器, 另一类是有记忆的矢量量化器。 隐马尔可夫模型(HMM)是一个输出符号序列的统计模型,具有N个状态,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径,不能知道),所以称为隐藏的马尔可夫模型。 是要以最少的数码表示信源所发的信号,语音编码属于信源编码的范畴。语音编码通过减少传输码率(或存储量),来达到提高传输(或存储)效率的目的。作为传输语音的压缩技术,语音编码在通信史上一直都扮演着极为重要的角色。 语音编码分为三类: * 波形编码:重建后的语音时域信号的波形与原语音信号保持一致。 * 参数编码:通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配,又称声码器技术。 * 混合编码:有机结合以上两种编码方式,基于语音产生模型的假定并采用分析合并技术。 语音编码(Speech Coding) 从信息论角度看,信源编码 第02章基础知识—* 5. 人类的听觉功能 掩蔽效应(masking effect) 当某一频率的声音,有一特定音强存在时,另一个不同频率的声音要将音强提高才会被听到,这就是听觉掩蔽效应。 分类 频率掩蔽:同时存在的声音,常常是低频的声音倾向于掩蔽掉高频的声音,这是一种频率掩蔽的现象。 时间掩蔽: 某一段时间存在一个声音,在此声音刚结束的一小段时间内,其它的声音会听不见这种掩蔽现象叫做时间掩蔽。 这个现象也会发生在此存在声音之前,这是由于声音在听觉器官中传递时延迟所造成的。 5、语音感知 第02章基础知识—* 响度与响度级 ?响度(Loudness,L)是一种主观心理量,人类主观感觉到的声音强弱程度 ?响度级是表示响度的主观量,它是以 1000 Hz的纯音作为基准,其噪声听起来与该纯音一样响时,就把这个纯音的声压级称为该噪声的响度级,单位为方( phon )。例如一个噪声与声压级是 85 分贝的 1000 赫兹纯音一样响,则该噪声的响度级就是 85 方。 ?响度级是一个相对量,不能直接进行加减运算,为了计算绝对值和百分比,引入一个响度单位宋( Sone )。 1 宋是频率为 1000 赫兹、声压级为 40 分贝的纯音的感觉反应量,即: 40 方为 1 宋。响度级每增加 10 方,响度相应改变 1 倍, 50 方为 2 宋, 60 方为 4 宋,等等。 5、语音感知 贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个非平衡态过程,不能用处理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。 3.2 语音信号的数字化和预处理 语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码); 预处理一般包括预加重,加窗和分帧 带通滤波器 自动增益控制(AGC) 模/数转换(A/D) 脉冲编码 调制(PCM) 语音信号 存入计算机 预滤波的目的有两个: ① 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)为采样频率,以防止混叠干扰。 ② 抑制50Hz的电源工频干扰。 量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。 量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化

文档评论(0)

ccx55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档