第4章 人机交互技术课件.ppt

第4章 人机交互技术课件.ppt

ID:58701393

大小:90.50 KB

页数:41页

时间:2020-10-04

第4章 人机交互技术课件.ppt_第1页
第4章 人机交互技术课件.ppt_第2页
第4章 人机交互技术课件.ppt_第3页
第4章 人机交互技术课件.ppt_第4页
第4章 人机交互技术课件.ppt_第5页
资源描述:

《第4章 人机交互技术课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第4章人机主要交互技术(新一代人机交互技术)人机交互中的语音输入语音输入是将声音通过话筒+声卡转换成文字的一种输入方法,其关键技术是语音识别。语音识别是语音输入的核心技术,计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令。人机交互中的语音输入目前语音输入产品大多数采用IBM开发的ViaVoice,尽管这种输入方法受口音等因素限制识别率还不是很高,但由于其使用方便、输入速度快,受许多用户欢迎。它的平均输入速度可达每分钟150字,识别率达到95%。系统定义词汇达32,000个,用户还可根据需要添加28,000个专业术语

2、。语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。语音识别的发展初期(1971年之前),产生对后期研究有较大影响的三项技术1、动态时间规整(DTW)在匹配过程中,采用参考样本和测试样本的响应部分在时间上对齐的方法,借助动态规划和选择恰当的规整函数,可以使参考样本和测试样本得到更好的匹配,从而使识别率达幅度提高,这种方法在1968年首先用于语音识别。2、线性预测技术(LPC:LinearPredictionCoefficients)基本概念就是一个语音抽样

3、可以用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样间的误差最小,确定唯一一组预测参数LPC。Levinson-Durbin算法。3、隐马尔可夫模型(HMM)采用隐马尔可夫模型进行语音识别,实质上是一种概率运算。设待识别语音信号为A,符号串集为Wi(i=1,2,…N)则P(Wi/A)为在已知条件下,Wi的条件概率。分别计算Wi的条件概率,取最大值为识别结果。由于马尔科夫过程各状态间的转移概率和每个状态下的输出都是随机的,故这种模型更能适应语音发音的各种微妙的变化,使用起来要比模板匹配灵活得多。Baum-W

4、elch算法,Viterbi算法,Forward-Backward算法中期(1971年~1987年),这个时期也可以说是DARPA第一次语音识别系统研制计划。一、研制计划主要围绕几个实用系统进行1、CMU:HEARSAY一代和二代,根据用户的语音请求,对新闻进行检索;2、BBN公司:SPEECHLIS系统,用于旅游经费预算管理;3、SDC(系统开发公司):用自然语言和机器进行交互问答的潜艇数据库管理系统。二、上述系统的特点1、连续语音识别,甚至扩展为语言理解;2、说话者的范围扩展:单一特定话者,多个特定话者,非特定话者等;3、

5、词汇量大幅度增加,一般大于1000单词;4、硬件环境高,几乎调动了当时最先进的技术手段和大型计算机系统。三、研制结果1、识别率低,大概为50%左右;2、相应时间过长,是实时时间的9~174倍;3、条件过于苛刻;4、设备庞大复杂;5、代价过高,无法继续进行;6、由于各个系统的任务、功能、使用条件等都不相同,缺乏可比条件,无法知道各种技术方案的优劣,可行性无法定夺。四、技术成就矢量化技术所谓矢量量化就是用一个标号来代替一个多维矢量。该技术在50年代的声码器中就已经提出,70年代引入到语音识别中来。LBG算法近期(1985年~)1、

6、研究计划:DARPA第二次语音研制计划,研制内容“非特定人大词汇量连续语音识别”,计划4年完成。这次计划对上次研制过程中的诸多问题提出了解决要求。2、技术成就:神经元网络模型在语音识别中的应用。3、研制结果:以IBMViavoice为代表的大量商用化语音识别系统开始涌现。它的平均输入速度可达每分钟150字,识别率达到95%。系统定义词汇达32,000个,用户还可根据需要添加28,000个专业术语。近期(1985年~)国内情况:国内开展语音识别研究比较早的机构有北京大学、中科院声学所、中科院自动化所、清华大学、北方交通大学等,先

7、后被列为国家自然科学基金重点项目、863智能处理项目.没有太大成果近期动向语音识别类型语音识别类型1孤立词语音识别连接词语音识别连续语音识别关键词语音识别语音识别类型2特定人语音识别非特定人语音识别语音识别类型3小词汇量语音识别(几十)中词汇量语音识别(几百到上千)大词汇量语音识别(几千到几万)影响语音识别的因素1、词汇量的大小2、环境因素3、与说话者的相关性说话者本身有一些可变因素,比如生理或者情绪状态,说话的速度,话音质量等等。社会语言背景,方言,以及声带大小与形状也会带来说话者之间的可变因素。语音识别的方法可归纳为三种:

8、基于声学和语音学的方法、人工神经网络方法、模板匹配方法。模板匹配的方法发展比较成熟,包括动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫法(HMM);人工神经网络等方法目前仍处于实验探索阶段。语音识别方法语音识别方法一、基于声学和语音学的方法1、理论基础----声学和语音

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。