语音识别部分特征提取提取的是什么特征参数啊?

语音识别中的特征提取过程通常采用Mel频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)作为特征参数。MFCC是一种能够有效捕捉语音信号中频率和振幅信息的特征参数,通常由以下几个步骤构成:


预加重:对原始语音信号进行预加重,以强调高频部分,减少低频部分对后续分析的影响。


分帧:将预加重后的语音信号分为多个帧,通常每帧长为20-30ms。


加窗:对每个语音帧进行汉宁窗(或其他窗函数)处理,以减少分析过程中频谱泄漏的影响。


傅里叶变换:将每个窗口内的语音信号转换成频域信号,得到每帧的功率谱。


Mel滤波器组:将功率谱映射到Mel频率刻度上,并使用一组Mel滤波器对每个频率区间进行滤波。


对数变换:对Mel滤波器组的输出进行对数变换,以增强低振幅信号的辨别能力。


离散余弦变换:对经过对数变换的信号进行离散余弦变换(DCT),得到MFCC特征系数。


MFCC特征系数通常取前12-13个系数作为特征向量,可以用于语音识别中的模式匹配和分类等任务。在实际应用中,还可能需要对MFCC特征向量进行降维、归一化、加权等处理,以进一步提高识别精度。


蓝海大脑 京ICP备18017748号-1