常用音频特征介绍

音频信号的特征一般分为时域特征与频域特征两大类:前者直接对以时间为自变量的采样信号进行特征提取;后者先通过傅里叶分析将信号转换到频域,再进行特征提取。对音频信号进行特征提取是声音处理、音频识别和音频分析中的重要步骤。本文将详细分析几种常用的声学特征,分别从时域和频域两个角度进行探讨,并简要介绍其在音频处理中的应用。

1.时域特征

(1)短时能量与短时平均幅值

短时能量是通过将音频信号分帧,然后计算每一帧的能量值。例如,对于经过分帧、加窗处理后的长度为N 的音频帧x[n],0 ≤n ≤N -1,其短时能量可简单表示为:

使用MathJax渲染数学公式 \[ E_{x}=\sum_{n=0}^{N-1}{(x\left[ n \right]^{2})}\]

平方运算会放大高低信号之间的差距,因此有时也用短时平均幅值代替短时能量:

使用MathJax渲染数学公式 \[ M_{x}=\sum_{n=0}^{N-1}{|x\left[ n \right]|}\]

短短时能量虽然只是一个单一的数值,但能够被用来处理一些简单的任务,例如语音检测、清音浊音分类等任务。

(2)短时过零率

时能量虽然只是一个单一的数值,但能够被用来处理一些简单的任务,例如语音检测、清音浊音分类等任。

短时零交叉率 (Short-Time Zero Crossing Rate, STZCR) 表示信号穿过零值的次数,或者信号的波形与直线 y=0 相交的次数,其计算公式为:

使用MathJax渲染数学公式 \[ Z_{x}=\frac{1}{2}\sum_{n=0}^{N-1}{|sgn(x\left[ n \right])-sgn(x\left[ n-1 \right])|}\]

其中,sgn(·)为符号函数,其对正数取1,对负数取-1。

2.频域特征

(1)梅尔倒谱系数(MFCC)

梅尔倒谱系数是语音领域最常用的特征,无论是语音识别还是声纹识别,MFCC 都有极为广泛的应用。

MFCC 特征通过将音频信号的频谱转换到梅尔刻度上来提取特征。具体计算步骤如下:

  • 对音频信号进行预加重处理,从而降低部分高频能量;
  • 对预加重处理后的信号进行分帧、加窗处理。一般采用汉明窗。
  • 对每一帧信号进行快速傅里叶变换,得到频谱。
  • 将频谱通过一组按照梅尔刻度设计好的三角形滤波器组(filterbanks),得到带通滤波后的结果。
  • 用对数函数校正人耳对于声强的非线性。
  • 对梅尔频率能量的对数结果应用离散余弦变换(DCT)来得到倒谱系数
  • 前一步得到了12 个倒谱系数,再增加一个该帧的能量,得到第13 个特征。通过相邻帧计算这13 个特征的一阶差分及二阶差分,最终得到39 个特征。这39 个特征便是最终的MFCC 特征。
图1 MFCC特征提取流程