多通道用户界面的设计.docx

多通道用户界面的设计.docx

ID:52684513

大小:19.24 KB

页数:3页

时间:2020-03-29

多通道用户界面的设计.docx_第1页
多通道用户界面的设计.docx_第2页
多通道用户界面的设计.docx_第3页
资源描述:

《多通道用户界面的设计.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、青岛理工大学人机交互实验设计报告院(系):专业:学生姓名:班级学号:题目:__多通道用户界面的设计_____起迄日期:_完成日期:2015年7月2日语音识别综述:随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体“智”的方面,而且还体现

2、在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。顾名思义,语音情感识别包括语音识别和情感识别两大领域,而情感识别中又包括诸如心理学、生理学等多个学科,所以如果要想使计算机准确的在语音中提取出说话人所表达情,就必须要从多方面知识领域着手。目前有许多关于语音和情感之间相互联系的研究,如美国、日本、欧洲、韩国等许多国家的一些研

3、究单位都在进行情感语音处理研究工作。语音情感识别技术的用途非常广泛,可以用来设计人性化的语音人机界面;可以用于互动影视;可以用于辅助语音识别;可以用于情感翻译;还可以用在测谎、电子游戏和辅助心理治疗等方面。语音情感的特征提取:一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明,高兴时,通常是语速较快,音量较大;悲伤时,通常是语速缓慢,音量较小。基音是最常用的判定情感的语音特征,它反映了超音段的信息。在语音情感识别中使用的特征参数

4、有基频(Pitch),其次才是能量(Energy)、语速(Speech Rate)、共振峰频率(Formant)、单个音节的持续时间(Duration)、音节之间的停顿时间(Pause)、线性预测系数(LPC)、Mel倒谱系数(MFCC)等,以及它们的各种变化形式,如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性。Dellaerat等人主要使用了基音轮廓线,来区分悲伤、生气、高兴和害怕,识别率

5、能达到60-65%。Seppanen等人在利用韵律学对芬兰语进行语音情感识别时,提出了共43种情感参数,其中基音部分包括基音均值、中值、最大值、最小值、基音范围等参数,对于单个确定人的情感识别取得了80.7%的识别率。Petrushin采用了基音、一次共振峰和二次共振峰、能量、说话速率等参数对五种情感识别取得了很好的效果,平均识别率达到70%。McGilloway等人研究了高兴、生气、悲伤、害怕和正常这五种情感状态的分类,从能量、基音的运动轨迹中抽取了32个潜在的特征,得到了55%的识别率。以下

6、比较详细地分析一下常用的特征。语音情感识别的方法与手段:各种模式识别方法,如线性判别分类(Linear Discriminant Classifier),K最近邻法(K-Nearest Neighborhood)、支持向量机(Support Vector Machine)、高斯混合模型(Gaussian Mixtures)、隐马尔可夫模型(Hidden Markov Model)等,都被应用于语音的情感识别。许多学者针对这些情感语音的特征,比较了不同的分类方法能够达到的不同效果。在这些分类方法中

7、,人工神经网络和隐马尔可夫模型的性能比较出色。  在模式识别方面,各国研究人员在语音情感信息处理领域几乎利用了所有的模式识别手段,新的方法的应用和对比层出不穷。Chul Min Lee等把语音情感识别归结为模式识别问题,并提出了三种方法[9]:线性判别分类(LDC),K最近邻法(k-NN),支持向量机(SVC)。LDC是带有高斯概率分布的参数方法,估算完参数的均值和方差后,LDC利用贝叶斯准则计算出最大后验概率对情感进行分类。K-NN方法通过计算k领域的平均均值估算每类情感的局部后验概率。在SV

8、C方法中,用非线性的映射方法将输入向量映射到更高维的特征空间中进行计算。Tin Lay New等采用了Mel频率语音能量系数和HMM分类方法[10],将语音信号分成16ms一帧的互相重叠的窗口,每一段语音帧都用12Mel频率下边带能量评价准则来进行参数化,对参数化后的再用矢量量化器进行编码。在系统的训练阶段,按照分类情感训练生成的码本,训练产生4状态各态历经HMM。在识别阶段,把没有经过事先分类的语音进行特征编码,之后用已经训练好的HMM进行识别,识别后的输出有五类,第一类输出是愤怒,第二类为伤

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。