多媒体数据库中基于内容的音频分类综述

发布时间：2010-12-14 阅读量：2739 来源: 发布人:

【中心议题】

*概述了多媒体数据库中基于内容的音频分类的一些关键技术
*分析了各种基于内容的音频分类方法的优缺点

【解决方案】

*音乐风格的分类
*乐器分类

1引言

在对音频进行分类之前，通常要进行预处理，将音频流切分成时间间隔较短的单元，所谓的音频分类就是指对这些音频单元的类别进行识别的过程。从本质上讲音频分类是一个模式识别过程，包括特征提取和分类两个基本过程。音频分类技术研究是一个交叉学科的研究领域，它涉及许多相关的技术。与此相关的领域包括:声音的感知、信号与系统、数字信号处理、语音信号处理、模式识别、机器学习、认知科学、人工智能、知识发现、数据挖掘等。

总的来说，音频分类分成两个步骤。首先，利用大量特征提取技术将音频缩减成一系列小的变量集，然后，各类分类算法，从简单的欧式距离方法到数据统计技术，如隐马尔可夫模型和支持向量机，利用这些变量集完成分类。评价一个音频分类系统的关键在于提取合适音频特征的能力以及精确分类每一个特征集到其所在的分类中去。

2音频特征提取

2.1基于帧的特征

在帧层次上，分类中常用的音频特征有以下几种，主要用于语音和音乐的分类中。

2.1.1 MFCC系数

MFCC（mel-frequency cepstral coefficien）t，即Mel倒谱系数，是语音识别和说话人识别中十分重要的特性。MFCC系数是利用三角滤波器组对傅立叶变换能量系数滤波而得，并且对其频域进行Mel尺度变换，以更符合人耳的听觉特性，它可以提高分类的正确率。

2.1.2频域能量（energy）

可以用来判别静音帧，如果一帧的频域能量小于给定阈值，则可认为该帧是静音帧，否则为非静音帧。同时，频域能量也是区分音乐和语音的有效特征。通常语音中含有比音乐中更多的静音，因而，语音的频域能量变化要比音乐中的大很多。

2.1.3子带能量（sub-band energy）

将频域划分为若干个子带或频带。子带一般采用非均匀的划分方式，例如分为4个子带时，各个子带的频率区间可分为[0，ω0/8]、[ω0/8，ω0/4]、[ω0/4，ω0/2]和[ω0/2，ω0]。不同类型的音频，其能量在各个子带区间的分布有所不同。音乐的频率能量在各个子带上的分布比较均匀，而语音的能量主要集中在第1个子带上，往往在80%左右。

2.1.4过零率

过零率是描述音频信号过零的频率，是信号频率的一个简单度量。语音信号中，清音的过零率高，浊音的过零率低。

所以，对语音信号来说，它的过零率的变化要比音乐剧烈。2.1.5频率中心（frequency centroid）

频率中心是度量音频亮度的指标。一般地，音乐的频率中心比语音的要高，而语音的频率中心相对较低。

2.1.6带宽（bandwidth）

带宽是衡量音频频域范围的指标。语音的带宽范围一般在0.3kHz-5kHz左右，而音乐的带宽范围比较宽，在22.05kHz左右。

2.1.7基音频率（pitch frequency）

在周期或准周期音频信号中，声音的成分主要是由一个基频（基音频率）及其谐波组成。对于非周期信号，则不存在基频，基频能反映音频音调的高低。

2.2基于片断的特征

2.2.1静音帧比例

如果一帧的能量和过零率小于给定阈值，一般可认为该帧是静音帧，否则是非静音帧。语音中经常有停顿的地方，所以其静音帧比例往往比音乐高。

2.2.2子带能量比（sub-band energy ratio）均值

即各子带能量与频域总能量的比值再求各片断中各帧子带能量比的均值。该特征在很多研究工作中被使用。

2.2.3带宽均值和频谱中心均值

二者分别定义为片断中各帧的带宽均值和亮度均值。

2.2.4高过零率帧比率

根据上面对过零率特征的分析，语音由清音和浊音交替构成，而音乐不具有这种结构。因此，对于语音信号，其过零率的变化率要高于音乐信号。

2.2.5低能量帧率

低能量帧率（low energy frame ratio）是指一段音频信号中，能量低于某一阈值的帧所占的比重。一般语音比音乐含有更多的静音帧。因此，语音信号的低能量帧率往往高于音乐信号。

2.2.6谱通量

谱通量（spectrum flux，SF）也称为频谱流量，是指片断中相邻帧间谱变化的平均值。从整体上看，语音信号的谱通量数值较高，而音乐信号的谱通量往往较小，其他声音的谱通量数值介于两者之间。

2.2.7基音频率标准方差

一个片断中，基音频率的标准方差可以衡量基音频率的变化范围大小。

2.2.8和谐度（harmony）

如果一帧信号不存在基频，可认为其基频为0，那么，可以用一个片断中基音频率不等于0的帧数所占的比例大小来衡量该音频片断的和谐程度，比例越大，和谐度越高。由于语音信号的基频较低（一般在200Hz）以下，而音乐的基频范围则相对宽广得多，因此可以将整个频域划分为不同频带，分别考察每个频带的和谐度。

3分类器

在提取特征之后，为了区分音频信号的不同种类，将选取一个分类器。由于音频信号的可变性，分类器必须有从较小的特征学习数据集中区分音频信号种类的能力，因此选取的分类器必须快速、可靠和普适。目前用于音频分类的分类器很多，模式识别中的分类器基本上都可用于音频的分类。

目前常见的音频分类器有决策树、最小距离、神经网络（neural network，NN）、矢量量化（vector quantization，VQ）、高斯混合模型（Gaussian Mixture Model，GMM）、支持向量机（support vector machine，SVM）、隐马尔可夫模型（hiddenmarkov model，HMM）等。在这些分类器中，除了决策树要求对音频特征有深入了解，并选择合理的判别顺序外，其他的分类器主要侧重于特征的选择。目前应用较多的是最小距离、高斯混合模型、支持向量机和隐马尔可夫模型分类器。

4基于内容的音频分类方法

4.1音乐风格的分类

目前大多数音乐数据采用歌曲的名称或演唱者姓名作为索引，但是不当的索引将带来错误的检索结果。较为有效的办法是从多媒体音乐数据中提取出重要的特征，然后利用这些特征将音乐分类成不同的风格。音乐风格自动分类（AMGC）是通过计算机将音乐分成不同的风格，不需要人为操作自动索引和检索音乐数据，正好弥补元数据（歌曲名，文件名等）在描述音乐内容方面以及人为分类音乐风格类型存在的时间和成本耗费的不足。最早的音乐风格自动分类是由Wold，E.等于1996年提出的，主要是作为商业产品的一部分提出，例如苹果公司的iTunes服务。音乐风格自动分类的另外一个应用是与音乐信息检索（MIR）密切相关的。MIR领域覆盖了处理数字音乐材料的方方面面，如音乐家识别、乐器识别、节拍提取、音频指纹和音乐改编。

但是如何给出音乐风格标准的定义依然是音乐风格自动分类中的一个问题。音乐风格之间界限以及风格的定义的模糊性，使得寻找精确的定义和数学公式来自动识别一段音乐较为困难。

Alessandro等提出一个基于从音乐块的不同部分提取出的几个特征向量的音乐风格分类方法。音乐表面特征和节拍相关的特征从音乐信号的3个不同区域提取。音乐表面特征包括谱中心、谱通量、过零率和低频带能量；节拍相关的特征包括相对振幅和每分钟节拍数等。这些特征组成一个15维的特征向量，用来训练不同的多层感知神经网络分类器。特征向量分别从3个不同的音乐轨迹部分提取再由多层感知神经网络分类。这些分类器的输出结果再通过不同的规则组合起来，尝试去提高正确的音乐风格分类速度。

至今，音乐风格分类是将音乐看作是音频信号的一种表示。然而在符号化的音乐风格分类中，符号化的表示如MIDI格式或普通的音乐符号（音符）被采用，这就与基于音频的音乐风格分类非常相关，但是符号化表示的限制于缺少歌唱内容和少量限制的乐器被使用，在有关文献中，基于MIDI记录的音乐风格分类在分成38个风格时分类正确率为57%，分成9个风格时，正确率为90%。

4.2乐器分类

如何从混合的乐器声音中区分出不同的乐器对人类来说非常轻松，但是对机器来说则十分困难。识别或区分不同的乐器声音主要依靠它们音色的差异。从物理上讲，音色就是声音的色彩，由发音体产生的泛音的多少和各个泛音的强弱来决定的，主要是由发音体的材料性质、结构形状、发生方式及其泛音的多少等不同因素来决定。之所以不同的乐器以同样响度演奏同一首曲子，人耳感觉完全不同，主要是乐器的音色不同。即使同一种乐器由于演奏方法的不同其音色也会发生显著的变化，因此，如何用机器方便而准确地描述音色是一个难题，有关乐器分类与识别或音色识别方面的研究工作还比较少。

4.3不包含音乐数据的其他音频分类

虽然大多数人集中于研究音乐和语音信号，但是需要音频处理和特征提取的其他应用也有着广阔的前景。针对环境噪声/声音检测的声学场景分析就是其中一个重要的应用。其他音频数据分类包括按发声体不同将音频数据分类成各种类别如人声、机器声、动物声等等。Li在最近邻方法的基础上提出了最近特征线(NFL)的分类方法，并对“Muscle Fish”数据库(http://www.musclefish.com/c-brdemo.html)中的16类409段音频数据进行了测试。实验结果表明最近特征线分类方法要优于传统的最近邻法，其平均分类正确率可以达到90%；Umapathy等引入了局部判别式矩阵(local discriminant bases，LDB)技术，利用两个相异度量方法处理选中的LDB节点，并从中提取特征，接着将特征输入一个基于分析的线性判别式分类器，产生3级分等级的分类，将音频信号分成10类（男声类、女声类、动物声类、鸟声类、昆虫声类、鼓声类、笛声类、钢琴声类、航天器声类、直升机声类）。其分类示意图如图1所示。对包含213段音频数据的数据库做实验，对第一级达到平均分类正确率83%，第二级92%，第三级89%。

5结语

基于内容的音频分类为音频结构化和音频深度处理（检索、识别、分割）提供了基础，以及辅助视频分析。由于研究对象（音频）的复杂性和开放性，使得这个领域中有着层出不穷的新问题有待学者们去探索和研究，也使得其成为近年来的一个研究热点问题。