文献综述
一、前言
语音是我们获取信息的重要方式,在许多语音信号处理任务中,需要判断一段输入信号中哪些是语音段,哪些是无声段。例如在语音识别中,正确地判定输入语音的起点、终点对于提高识别率往往是非常重要的。但由于受到录音环境和技术的影响,一段话音信号的起止处总会受到噪声的干扰。话音端点检测技术就是指在各类环境噪声的存在下,准确地提取一段话音信号的特征参数,找到其中有效话音段或单词的起始点和结束点,确定哪部分包含话音成分,哪部分属于非话音段。近几十年来,各类端点检测算法层出不穷,常用的有:(1)时域分析法,其中最具代表性的是短时特征法;(2)频域分析法,包括基音检测、频谱分析、倒谱分析以及预测残差法等;(3)基于人工神经网络的算法,将所有特征参数进行神经网络训练,但数据量太大,且不一定能得到好的分类效果。我们需要比较不同研究人员对端点检测研究的不同方式和手段,从中得到启发以更好地实现端点检测。
二、传统方法及各研究方案比较
2.1端点检测前的步骤
2.1.1 分帧
经过数字化的语音信号实际上是一个时变信号,这是由于人在发音时声道一直处于变化状态,因此实际上的语音信号产生系统可以近似看作为线性时变系统。为了能用传统的方法对语音信号进行分析,假设语音信号在10-30ms的短时间内是平稳的。要得到短时语音信号,我们需要对语音信号进行加窗,从而将语音信号分帧,不同的窗口函数带来的效果也是不同的。
对语音信号的时域分析来说,窗函数的形状是非常重要的,矩形窗的平滑性较好,但波形细节会丢失,并且矩形窗会产生泄漏现象;而汉明窗可以有效地克服泄漏现象,应用的层面也更广泛。
2.1.2 短时能量及短时过零率提取
典型的语音信号特征是随着时间的变化而变化的。短时能量反映了语音信号的幅度变化,首先短时能量能区分清音和浊音,其次可以对有声段和无声段进行判定,对声母和韵母分界,以及连字的分界等。短时过零率是指每段语音信号通过零值的次数,在一定程度上可以反映频率的高低,因此可以用来初步判定清音和浊音。
