中文信息处理——纵览与建议

中文信息处理——纵览与建议

ID:34489796

大小:309.52 KB

页数:8页

时间:2019-03-06

中文信息处理——纵览与建议_第1页
中文信息处理——纵览与建议_第2页
中文信息处理——纵览与建议_第3页
中文信息处理——纵览与建议_第4页
中文信息处理——纵览与建议_第5页
资源描述:

《中文信息处理——纵览与建议》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、junecauzhang的专栏中文信息处理——纵览与建议分类:软件前沿技术2012-07-3015:243960人阅读评论(0)收藏举报搜索引擎语言互联网产品平台情感丳斍俧恵夊琌……纻觎且开讴(2007-04-1122:25:49)转载▼分类:技术视野2004年10月写的一个材料。-------------------------------------------一、该领域涉及主要产品及技术1、中文输入输出技术连续语音识别小键盘智能拼音输入高自然度语音合成视频文字识别2、机器翻译英汉机器翻译为中国人服务的英文辅助写作3、语言学习面向中国人的英语教学语言学习、语音校正面向外国人的汉

2、语教学4、信息检索搜索引擎新一代搜索引擎:问答系统以搜索引擎技术为基础的网络信息服务文本挖掘从大量文本中挖掘知识5、内容安全垃圾邮件/短信过滤有害(反动、色情)网页监控二、各类产品及技术的发展现状与趋势(包括技术与市场)(一)发展现状1.技术及产品发展现状(1)中文输入输出在输入方面,基于键盘的中文输入方法已经成熟,字形编码输入法和拼音联想输入法都使输入速度有了很大的提高。在非键盘输入方面,联机手写中文输入达到了很高的识别率,已完全实用化,脱机印刷体汉字识别技术在纸张质量较好的条件下,也达到了实用化的程度;非特定人中文连续语音识别技术距离实用还有较长的距离,特别是由于中国不同地方的

3、普通话都带有地方口音,造成真实条件下识别率严重下降。在输出方面,语音合成技术有了很大的发展,单词级句子级的可懂度均能满足用户需求,自然度方面有待改进。在特定领域,例如天气预报,语音合成已经达到以假乱真的水平,但在通用领域,机器的味道仍然较重,听起来比较刻板,时间长了造成用户的听觉疲劳。1(2)机器翻译广义的机器翻译软件可以分为电子词典、汉化(或屏幕)翻译、全文翻译和辅助翻译四种类型。电子词典和汉化翻译软件技术相对简单,已经完全成熟,各家技术的差别仅在于词汇量和技术细节。全文翻译被认为是21世纪的十大科技难题之一,因此尽管经过了多年的努力,也取得了不少成绩,但是距离实用化的要求还有很

4、远的距离。辅助翻译系统,包括翻译记忆(TranslationMemory)由于采用人机交互的方式,软件在翻译过程中只起辅助作用,把翻译的决定权交给人来处理,因此在目前情况下是最有市场潜力的翻译技术。(3)语言学习以中文信息处理技术支持语言学习是一项既有实用价值,又有研发空间的课题。语言学习包括面向中国人的英语学习和面向中国儿童和外国人的汉语辅助教学等。具体的辅助学习手段包括汉字认读、语法校对、口语发音校正等。应用的中文信息处理技术包括手写汉字识别、语音识别和校正、汉语语法校对等。(4)信息检索搜索引擎已经成为当今中文信息处理技术在互联网应用方面的热点。基于关键词的海量数据的搜索技术

5、已经成熟,这些技术运行在语言的表层,不能抓住语言背后的知识内涵,但是运行速度快,能够满足用户对海量数据即时检索的需求。搜索引擎主要是一种“拉”的技术,与之相应的是“信息推送”,。以竞争情报系统为代表的信息推送技术日趋成熟,它帮助用户随时监控互联网上信息的变化,找出用户感兴趣的内容及时推送给用户。文本挖掘是数据挖掘的一个分支,对电子商务等方面的研究具有重要的支撑作用。根据文本挖掘获得的潜在的商业信息对公司的决策很有帮助,这方面的技术,包括文本的分类、摘要等日趋成熟,已接近实用。(5)内容安全主要包括垃圾邮件/短信过滤技术和有害(反动、色情)网页监控技术。这些技术常常以语言处理基础为支

6、撑,包括文本分类、文本聚类等,由于有害信息的制造者常常为了逃避过滤而乔装改扮,从而给过滤技术造成了难度。此外,由于过滤技术无法达到100%的程度,而误判可能将用户关心的,甚至是重要的信息删除掉,因此目前的过滤技术只能采用人机互助的方式,由人最终确认信息的有害性,或者干脆牺牲部分合法的信息,这是一种两难的选择。2.市场发展现状(1)中文输入输出键盘输入市场已经相当成熟并趋于饱和,五笔字型占有了字形编码输入方法的大部分市场,微软拼音、智能ABC等占据着拼音输入方式的大部分市场,近年来中文键盘输入市场已经有“万马奔腾”转向以几种输入方式为主导的市场。连续语音识别在IBMViaVoice的

7、带动下曾一度火爆,但由于连续语音输入技术上仍有不少难点没有攻破,而且没有找到最合适的应用方式,因此在市场上暂时呈现冷却态势。手写输入市场“汉王”一枝独秀,但由于手写屏价格偏高,且手写输入速度较慢,目前在手持设备上仍以小键盘输入方式为主。以科大讯飞为代表的语音合成技术为语音产业注入了生机,目前已得到广泛的应用。(2)机器翻译电子词典和汉化翻译软件已经广泛应用在PC机平台、互联网平台和嵌入式设备中。其中的杰出代表是“金山词霸”系列软件、文曲星电子词典等。塔多思公司在翻译记

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。