多语种拼音到汉字转换和翻译

多语种拼音到汉字转换和翻译

ID:27419487

大小:1.11 MB

页数:43页

时间:2018-12-02

多语种拼音到汉字转换和翻译_第1页
多语种拼音到汉字转换和翻译_第2页
多语种拼音到汉字转换和翻译_第3页
多语种拼音到汉字转换和翻译_第4页
多语种拼音到汉字转换和翻译_第5页
资源描述:

《多语种拼音到汉字转换和翻译》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、多语种的拼音到汉字的转换和翻译赵海上海交通大学zhaohai@cs.sjtu.edu.cn2013.05.31长沙目录问题概述拼音输入法机器翻译:服务于汉字文化圈语言结语汉字文化圈汉字亦称中文字、中国字,是世界上仍被广泛使用的高度发展的表意文字。仍在使用和曾经使用汉字的国家和地区包括汉字的诞生地中国、周边深受其影响的越南、朝鲜半岛和日本,以及近代华人移民聚集的新加坡、马来西亚等东南亚国家。接受汉字及中国文化影响的地理区域在某些文献中被非正式地称为汉字文化圈汉字文化圈的拼音化中国等日本朝鲜/韩国越南拼音文字(罗马字)汉语拼音日文罗马字方案韩文罗马字方案越南语国语字拼音文字(民族文字)假名谚

2、文汉字汉字日文汉字韩文汉字汉字和字喃汉字文化圈各语言均是世界意义上的大语种汉语有超过13亿人使用,是使用人口最多的语言日语有1.3亿的使用者朝鲜语/韩语有超过7,000万的使用人口越南语则拥有世界范围内约8,000万的使用者使用人数应用驱动的音字转化任务中文的拼音输入法从汉语拼音到汉字句子机器翻译从假名、谚文或者越南语国语字到汉字串从语义等价的角度,观察不同语言的读音差异和演化轨迹目录问题概述拼音输入法机器翻译:服务于汉字文化圈语言结语基于拼音的中文输入法主流的输入法大部分是基于拼音的不考虑声调,汉语拼音的音节数少于500个汉字,则有3000-20000个,根据应用场合不同而不同无论哪种

3、情形,基于拼音输入面临的主要问题是:针对输入拼音音节,快速选定汉字。通用策略输入一个拼音音节,会有几十个汉字对应输入双音节词对应的拼音,则会快速降低到只有几个合法的汉字词对应所以输入尽可能长的音节串!拼音输入法作为汉字串解码任务输入:汉语拼音串输出:一一对应的(合乎汉语语法语义的)汉字串串标注任务最大熵模型解码统计机器翻译解码ziranyuyanchuli字然与严出理子染语眼除离自燃于烟处力紫冉鱼言初李资髯雨演触利作为机器翻译的汉字串解码PACLIC2012流程:没有对齐过程仅适用标准的MERT调试以及MOSES解码有效集成语言模型等丰富特征精度和整句正确率均优于标准的最大熵模型10K1

4、00K1MME0.8290.8910.933SMT0.9470.9520.95510K100K1MME0.0750.1690.302SMT0.4020.4290.454不仅仅是串解码任务我们使用字的精度来评估汉字串解码任务对于串解码任务这是标准度量,因而它不是问题但是,我们服务于中文输入法,它的真正目标是最少的击键选择来完成输入新型的汉字串解码评估度量基于击键次数解码不可能100%正确,如果1-best输出不是完全正确的,我们依赖于输入法给出的其他次优的候选这就是核心问题!假定所有的输入都是基于数字键的选择完成,我们得到一个击键次数度量……简单的击键行为模型假定全部选择都由数字选择完成,

5、不考虑光标移动、删除等操作输入完整拼音需要n次击键,需要m次数字选择完成汉字输入目标的击键效率评估度量是m/(n+m)这个值越高,输入法越友好优化候选长度、排序等以降低以上的度量触摸屏上的中文输入法更加复杂的击键行为……目录问题概述拼音输入法机器翻译:服务于汉字文化圈语言结语汉字作用再审视中国1950s:汉语拼音曾经计划用来替换汉字作为正式的文字废除汉字1980s:汉字的计算机处理面临挑战但是,现在。。。你懂的汉字作用再审视日本明治维新后,中国衰落,汉字的使用的合法性和合理性引起争议最终,汉字在日语中的使用得以保留,但是使用大幅度减少存在2000个汉字的当用汉字表汉字作用再审视朝鲜194

6、9年开始彻底使用纯谚文印刷主要出版物,标志着国汉混用朝鲜语的时代在朝鲜正式结束韩国1948年,韩国制宪会议制定了韩字专用的法律。1950年,韩国内务部通令容许夹写汉字,但是五年以后该通令被取消。1970年,朴正熙政府强化了韩字专用政策的推行,鼓励出版界使用纯韩字。1974年,文教省又公布“教科书韩汉并书方针”,结束了“禁用汉字”政策。1999年,金大中总统发布总统令,要求在必要情况下并书汉字以确保公文内容的准确传达。2011年开始,韩国把汉字重新列入中小学的课程。2004年:贱出将军事件汉字作用再审视字喃,不晚于13世纪创造出来用于记录越南语19世纪由法国殖民者主导,开始普及法国传教士设

7、计的越南语的罗马字书写体系。1919年的科举废除,汉字的使用也被废除。1945年越南民主共和国在越南北部成立后,北部的教育中的汉字教学已经不存在;南越在1975年前的中等教育中仍保留“汉文科”。今天,汉字在越南的地位类似于拉丁语在欧洲的情形。没有汉字,你不知道你在说什么基于汉字的密切的词汇联系日语约有至少50%的日语词汇来自汉语。在近代,则是大量反应现代西方科技文化的术语首先通过日语中的汉字书写,继而重新传播回汉语韩语/朝鲜语汉语借

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。