人工神经网方法在三维真实感声音.doc

人工神经网方法在三维真实感声音.doc

ID:58488661

大小:240.50 KB

页数:8页

时间:2020-05-17

人工神经网方法在三维真实感声音.doc_第1页
人工神经网方法在三维真实感声音.doc_第2页
人工神经网方法在三维真实感声音.doc_第3页
人工神经网方法在三维真实感声音.doc_第4页
人工神经网方法在三维真实感声音.doc_第5页
资源描述:

《人工神经网方法在三维真实感声音.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、人工神经网络方法在三维真实感声音生成中的应用与实现张琼石教英浙江大学CAD&CG国家重点实验室杭州310027摘要虽然许多研究人员已认识到三维真实感声音在未来人机交互中的重要地位,但是三维真实感声音在计算机领域的真正实现仍有不少障碍有待克服。基于对声学及心理声学最新研究成果的调查和分析,我们在该领域引入了人工神经网络方法,并在一改进神经网络模型的基础上实现了二种用于产生三维真实感声音的具体算法。实验结果表明了以上方法的有效性和正确性。关键词:人工神经网络,三维真实感声音一.概述近年来,有关三维真实感声音的研

2、究吸引了越来越多人的兴趣,许多多媒体和虚拟现实系统都将其作为系统的关键特性之一。在计算机领域,所谓的三维真实感声音,是相对于在人机接口中广泛使用的缺乏方向感和距离感的单声道声音而言的[1]。虽然声学和心理声学的大量研究揭示,人的听觉空间定位感知特性受到许多因素的影响;但是一些学者的最新结果也表明,人的双耳滤波效应(pinnaefiltering)在听觉定位过程中扮演着极为重要的角色[2][3]。传统的Duplex理论企图仅依靠声音传达至聆听者双耳的时间差(ITD)和声级差(IID)来解释人类的听觉感知过程。

3、但事实证明,该理论有着严重缺陷,比如它不能阐明与双耳间距相等的空间两点的定位问题[4]。在声学领域,人们将声音从声源传至双耳耳鼓处的变换函数称之为与头部相关的传递函数(HRTF:Head-RelatedTransferFunction)。现在,该函数作为生成三维真实感声音的关键因素而广知。一般说来,利用HRTF来生成三维真实感声音有多种具体途径[1]。根据不同的应用场合,我们可选择合适的方法。在本文中,我们首先分析并指出了当前在利用HRTF生成三维真实感声音过程中存在的一些弊病和不足。然后基于一改进的神经网

4、络模型,提出了二种用于产生三维真实感声音的具体方法。初步的实验结果表明,我们设计的神经网络模型及二种方法是非常有效的。二.HRTF的实现及存在的不足我们知道,所谓的HRTF可以看成是声音从声源传播至聆听者耳鼓处的变换函数。由于聆听者个体和声音传播过程中涉及因素的多样性,我们很难用一个统一的解析表达式来定义HRTF。现阶段一般都是采用实验测量的方法来获取表征HRTF的部分脉冲响应数据,这其中包括二方面的内容:一部分为声音的幅度响应;另一部分为声音的相位响应。虽然在虚拟音频系统中应用HRTF被视为一项关键技术,

5、但一般学者都认为,在人的听觉空间定位过程中,声波到达聆听者双耳的时间差要比单耳的HRTF相位响应发挥着更重要的作用。因此,许多研究人员在实现时通常将注意力集中在HRTF幅度响应上;并且使用声波(包括各种频率)到达双耳的平均时间差来取代HRTF的相位响应。一般认为[5][6],主要有三个因素决定HRTF:声波频率;声源位置;聆听者。我们特别注意到声波从声源传递至人耳耳鼓过程中的变化不仅是。声源位置及声波频率的函数,而且不同的人其HRTF响应也不同。不过,据我们调查所知,目前绝大多数的虚拟音频系统由于不可能面向

6、特定的用户,所以在实现时一般不使用单个人的HRTF测量数据,而是使用经过平均(generalization)处理的某个人口集的HRTF数据[7][8]。这样一来虽然简化了HRTF的实现过程,但同时也应该看到,在不同的场合,使用平均的HRTF数据导致的聆听效果可能会有很大的差异。而且,对一些特殊的用户,比如听觉障碍者,我们可能希望使用某组特定的数据。由此,我们认为,现在许多虚拟音频系统的一个主要缺陷就在于:它不能根据应用环境和使用对象的不同,动态地通过学习来获取HRTF参数,以适应多种场合的复杂需求。另外,平

7、均的HRTF数据仍然存在着数据量偏大,使用不方便等问题。而且,由于我们不可能通过测量的方法来获取空间所有位置的HRTF数据,所以,有些人试图在其中引入插值的方法。但如声学的研究成果所揭示的那样,HRTF及其自变量之间存在着相当复杂的非线性关系,一般的线性插值途径所得结果并不理想。[9]中也指出插值方法存在着缺点。为了克服以上不足,我们设计并实现了一改进的人工神经网络模型,应用于虚拟音频系统,取得了较好的结果。三.改进的人工神经网络模型我们在三维真实感声音生成领域引入人工神经网络方法,其主要目是实现:①自学习

8、功能这就是说,通过网络训练,我们能够重置系统的HRTF数据,以满足多种场合的要求。②非线性逼近功能这就是说,利用人工神经网络的非线性逼近能力,在一些离散测量值的基础上,我们能够获取空间任意位置的HRTF数据。另外,我们还试图尽可能地加速基于神经网络模型的系统的运行速度。I.基本设想一些研究者[10][11]指出,多层前馈网络可以作为通用的函数逼近工具来使用。很多人工神经网络模型,特别是多层前馈网络,能够方便地处理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。