基于内容的音频检索中特征提取方法研究

基于内容的音频检索中特征提取方法研究

ID:40095212

大小:146.50 KB

页数:5页

时间:2019-07-20

基于内容的音频检索中特征提取方法研究_第1页
基于内容的音频检索中特征提取方法研究_第2页
基于内容的音频检索中特征提取方法研究_第3页
基于内容的音频检索中特征提取方法研究_第4页
基于内容的音频检索中特征提取方法研究_第5页
资源描述:

《基于内容的音频检索中特征提取方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于内容的音频检索技术邢伟利,周明全(西北大学可视化研究所,陕西西安710069)摘要:提出了一种基于示例查询的音频检索方法,包括音频特征提取、相似音频检索及音频分类,并通过已研制的基于内容的音频检索系统进行了实现,经测试,此方法具有较高的准确性。关键字:音频检索;特征提取;音频分类中图分类号:TP391.4文献标识码:A 文章编号:1000-274X(2003)0054-08在当今数字化与网络化时代,图像、音频和视频等多媒体内容已成为互连网信息高速公路上所传送数据的主要部分,基于文本的检索方法已不能满足数字化多媒体信息检索的需要,基于

2、内容的多媒体检索技术应运而生。由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因而音频检索受到极大的限制。相对于日益成熟的图像与视频检索,音频检索相对滞后。因此,基于内容的音频检索已成为多媒体检索技术的研究热点。目前一些基于文本的Web引擎,如Google,Baidu,功能已非常强大,但还缺乏比较实用的音频搜索引擎。Internet上的多媒体流非常巨大,需要一些高效的搜索引擎从浩如烟海的数据中找出需要的信息。另外,音频检索在辅助视

3、频检索和卡拉OK检索系统以及军事、刑侦领域方面都有巨大的应用价值和广阔的研究前景。音频包括语音和非语音(Non-speech)两类信号。一直以来,音频信号的处理主要集中于语音识别、说话者识别等语音处理方面的研究,如在语音识别方面IBM的ViaVoice已趋于成熟。但是,对于基于内容的音频信息检索技术的研究还不多。只有在基于音频物理特征的检索技术方面有所突破,才可能在更高层次的基于知识辅助的音频检索方面做出更深入地研究。真正基于内容的音频检索工作是由美国MuscleFish公司完成的,他们研究的系统可以对音频进行检索和分类,有较高的准确率

4、。基于内容的音频技术尚有大量问题需要进一步深入研究。1 基于内容的音频检索技术分析所谓基于内容的音频检索,是指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似。1.1 音频检索的基本方法5音频检索第一步是建立数据库,对音频数据进行特征提取,并通过特征对数据聚类。音频检索主要采用示例查询方式(Querybyexample),用户通过查询界面选择一个查询例子,并设定属性值,然后提交查询。系统对用户选择的示例提取特征,结合属性值确定查询特征矢量,并对特征矢量进行模糊聚类,然后检索引擎对特征矢量与聚类参数集匹

5、配,按相关性排序后通过查询接口返回给用户。1.2音频特征提取方法特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据。音频特征提取有两种不同的技术线路:一种是从叠加音频帧中提取特征,其原因在于音频信号是短时平稳的,所以在短时提取的特征较稳定;二是从音频片段中提取,因为任何语义都有时间延续性,在长时间刻度内提取音频特征可以更好反映音频所蕴涵的语义信息,一般是提取音频帧的统计特征作为音频片段特征。首先,对音频数据进行加窗处理形成帧,加窗大小在几到几十微秒,相邻帧之间一般有30%~50%的叠加。然后,对每一帧作离散傅立叶变换(DFT

6、),实际上常用快速傅立叶变换(FFT),得到傅立叶系数和频域能量,其中,fs为采样频率。最后应用不同算法计算相应的帧特征,再计算帧特征的标准偏差、数学期望值和方差,把帧特征推广成片段特征。1.2.1短时平均能量指在一个短时音频窗口内采样点信号所聚集的平均能量。假定每个短时帧大小假定为N,为用Nyquist频率采样后的离散音频信号。对于第m个短时帧,短时平均能量可以使用下面的公式计算短时平均能量可以直接应用到静音检测(Silencedetection)。1.2.2过零率指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数。,当时,

7、;否则。过零率可用来区分语音和音乐两种不同音频信号。1.2.3频率中心是度量声音亮度(brightness)的指标,计算公式为1.2.4带宽是衡量音频频域范围的指标,其定义为其中FC(Frequencycentroid)为频率中心。一般地,语音的带宽范围为0.3~3.4kHz,而音乐的带宽范围比较宽,可以在22.05kHz左右。1.2.1Mel对数倒谱系数MFCCMFCC在语音领域中得到广泛的应用。它是音频数据经Z变换和对数5处理后得出的结果,一般每段数据取12个系数,可以较好地表现每段的特征。1.3 相似音频例子检索相似音频例子检索是

8、指基于用户提交的查询音频,得到最相似的音频,即计算音频特征的距离。对音频数据提取特征后,假设共N个特征,则形成了一个N维特征矢量的序列。为了缩减数据量而又不失掉每个音频原来的特征,可以对N维特征矢量进行聚类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。