语音识别的综述【文献综述】

语音识别的综述【文献综述】

ID:463383

大小:43.50 KB

页数:5页

时间:2017-08-05

上传者:U-944
语音识别的综述【文献综述】_第1页
语音识别的综述【文献综述】_第2页
语音识别的综述【文献综述】_第3页
语音识别的综述【文献综述】_第4页
语音识别的综述【文献综述】_第5页
资源描述:

《语音识别的综述【文献综述】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

毕业论文文献综述电气工程及自动化语音识别的综述摘要:本文综述语音识别技术在国内外的研究情况和现状,发展历史,语音识别系统的分类和基本原理,未来前景。使读者能了解语音识别技术的类型和原理,以便读者根据自己需要进行选择。关键词:语音识别;语音系统;识别;语音学;发展历史1.概述与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域[1]。2.语音识别的研究情况和现状(1)国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。(2)国内研究历史及现状我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语[2]。3.语音识别技术的发展历史对语音识别技术的研究距今已有半个多世纪的历史。1952年,AT&Tbell实验室的Davis等人成功研制的Audry系统标志着语音识别研究工作的开始。它是世界上第一个能识别十个英文数字发音的实验系统。进入20世纪60年代,计算机的应用推动了语音识别的发展。在这一时期产生了动态规划(DP,DynamicProgramming)和线性预测分析技术(LP,LinearPrediction)两大重要理论,较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。70年代,语音识别领域取得了较大的突破。动态时间归正技术(DTW)基本成熟,有效地解决了语音信号特征提取和不等长语音匹配问题,同时还提出了矢量量化(vQ),隐马尔可夫模型(HMM)理论。80年代语音识别研究进一步走向深入,各种连接词语音识别算法被开发,并从模板匹配技术转向基于统计模型技术,特别是在实践开发中成功应用了HMM模型和人工神经网络(ANN)。1988年Kai-FuLee等用VQ/HMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX,这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。进入90年代后,语音识别技术开始向市场提供产品。具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。进入21世纪,语音识别的研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。而基于语音识别芯片的嵌入式产品也越来越多,如Infineon公司的Unispeech和Unilite语音芯片等。我国对语音识别的研究也较早。20世纪50年代后期,中科院声学所用频谱分析的方法研究了汉语10个元音的语音识别;20世纪70年代后期,构建了基于模板匹配的孤立词语音识别系统;20世纪80年代后期,研究了八五期间中科院人机语音对话研究项目。目前我国语音识别技术的研究水平已经基本上与国际相当。如以中国科学院自动化研究所模式识别国家重点实验室为依托的中科模识,其汉语连续语音、非特定人听写机系统的普通话系统的错误率可以控制在10%以内[3]。4.语音识别系统的分类 语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。如果从说话的方式考虑,也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度[4]。5.语音识别的基本原理语音识别属于模式识别的范畴。根据模式识别的原理,未知语音的模式与己知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。[5]。语音识别系统的工作过程可以描述如下:待识别语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,包括反混叠失真滤波、预加重和端点检测从而将语音信号的特征被提取出来。常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。[6]根据实际需要选择语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与己经存储在计算机内的参考模式逐一进行比较,获得最佳匹配的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程[7]。6.语音识别技术的前景展望语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作[8]。语音技术的应用已经成为一个具有竞争性的新兴高技术产业[9]。许多权威专家认为,计算机的下一代革命,将是“从图形界面到语音用户接口”。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高[10]。人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息,人们将不必再通过按键来输入,也不必使用鼠标和键盘,只需要我们开口说话[11]。 很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一[12]。参考文献[1]刘向华.语音识别技术及应用[J].温州职业技术学院学报,2006.5(8):22-26.[2]柳春.语音识别技术研究进展[J].甘肃科技,2008,24(9):41-43.[3]卢瑞文.自动识别技术[M]卢瑞文主编.北京:化学工业出版社,2005.7.[4]吴黎明.语音信号及单片机处理[M].北京:科学出版社,2007.3.[5]王炳锡.实用语音识别基础[M].北京:国防工业出版社,2005.1.[6]李晶皎.嵌入式语音技术及凌阳16位单片机应用[M].北京:北京航空航天大学出版2003.11.[7]何湘智.语音识别的研究与发展[J].计算机与现代化,2002.5(4):18-36.[8]李刚健.语音识别模式发展方向研究[J].吉林建筑工程学院学报,2006.1(23):12-19.[9]熊伟,水仲飞.论嵌入式语音识别系统的研究与实现[J].现代商贸工业,2010.2(3):8-12.[10]PASTORE,LOPEZJ,ROYOP.Anembeddedarchitectureformissioncontrolofunmannedaerialvehicles[J].Proceedingsofthe9thEUROMICROConferenceonDigitalSystemDesign,IEEE,2006:554-560.[11]CHAABANK,SHAVKYM,CRUBILEP.Adistributedframeworkforreal-timein-vehicleapplications[J].Proceedingsofthe8thInternationalIEEEConferenceonIntelligentTransportationSystems,Austria;IEEE,2005:925-929.[12]何清华,黄素平,黄志雄.智能轮椅的研究现状和发展趋势[J].机器人技术与应用2003.2(3):19-23.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭