《机器翻译原理》ppt课件

《机器翻译原理》ppt课件

ID:40005215

大小:428.50 KB

页数:64页

时间:2019-07-17

《机器翻译原理》ppt课件_第1页
《机器翻译原理》ppt课件_第2页
《机器翻译原理》ppt课件_第3页
《机器翻译原理》ppt课件_第4页
《机器翻译原理》ppt课件_第5页
资源描述:

《《机器翻译原理》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、机器翻译原理PartⅥ双语语料库对齐及翻译知识自动获取技术MTLABofHIT主要内容概述为什么要自动地获取知识(Why?)获取什么知识(What?)如何获取知识(How?)双语语料库对齐加工句子对齐词汇对齐结构对齐翻译知识的获取直接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究为什么要自动获取知识(Why?)机器翻译的发展现状Internet的发展进一步促进了对机器翻译技术的需求现有的机器翻译系统不能令人满意“满篇英文难不住,满篇中文看不懂”“MT,不是machinetranslation,而是madtranslation

2、”存在的主要问题传统的机器翻译:手工编写规则知识获取瓶颈解决的途径从语料库中自动获取机器翻译所需要的各种知识什么是知识?Bacon:“知识就是力量”Feigenbaum:“知识与信息不一样.知识是信息经过加工整理、解释、挑选和改造而形成的”董振冬:知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。获取什么知识(What?)单语词汇:分词、词性标注语法(结构):词性标注、句法分析语义:词义排歧、聚类分析双语翻译知识词典知识结构转换知识译文选择知识……如何获取知识(How?)知识获取的主要方法手工获取知识智能

3、人机交互统计方法(HMM,PCFG……)机器学习方法决策树归纳学习基于转换的错误驱动的学习方法(EricBrill)基于实例的方法……翻译知识获取知识获取过程:数据预处理知识挖掘知识评价双语语料库对齐加工翻译知识自动获取双语语料库及其对齐技术(1)语料库语料库(Corpora)是按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合,主要用于研究自然语言的规律,特别是统计语言学模型的训练以及相关系统的评价和评测语料库语言学语料库语言学是以语料库为基本知识源来研究自然语言规律的学科,主要研究内容包括语料库加工的理论、方法和工具以

4、及基于语料库的知识获取。单语语料库(MonolingualCorpus)和多语语料库(MultilingualCorpora)双语语料库及其对齐技术(2)双语语料库的建设双语语料库(BilingualCorpora,ParallelCorpora)国外:加拿大的议会会议录(CanadianHansards),(英法)英国Brighton大学语言中心双语语料库INTERSECT,(英法书面语)英国Birmingham大学的LINGUA多语语料库项目,英、法、希腊语加拿大的BCD(BilingualCanadianDictionary)词典编纂项目瑞

5、典Uppsala大学语言学系建立的Scania多语语料库……国内:建立了一些单语语料,尚无大规模汉外双语库的报道目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段香港科技大学的英汉双语语料库HKUST哈工大-微软联合实验室:6万句对双语语料库及其对齐技术(3)双语语料库的对齐技术对齐:从互译的不同语言文本中找出互译片断的过程语料库的加工深度决定语料库所能提供的知识的粒度双语语料库对齐可分为段落、句子、短语、单词不同级别句子对齐词对齐短语(结构)对齐双语语料库对齐技术:句子对齐(1)基于长度的句子对齐方法源语言文本的长度与译文长度有很强的相关性

6、基于词数长度的对齐(Brown)基于字符数的长度对齐方法(GaleChurch)这些算法都把句子对齐看作是句子长的函数;不需要额外的词典信息;但是容易造成错误的蔓延。基于词汇的句子对齐方法Simard等人提出了在长度标准上加上同源概念(Cognate)来提高算法的性能Kay和Roscheisen提出了另一种基于语汇的对齐算法,在该算法中选择句子对齐的标准是其中词汇对齐的数量。双语语料库对齐技术:句子对齐(2)Debili和Sammouda实现了Simard的思想,并采用双语典为指导,以缩小搜索空间Church利用双语文本中字母的对应信息,在199

7、3年设计了一种字符对齐算法长度方法与词汇方法相结合(Wu、Utsuro)不少学者认为句子对齐已经达到可以实用(~98%)双语语料库对齐技术:词汇对齐(1)词汇对齐是指在源文和对应的译文中找到词汇级的对译关系大家都叫他毛伯伯。EverybodycallshimUncleMao.由于词汇对齐比句子对齐提供了更细粒度的对译信息,因此可以为自然语言处理提供更大程度的支持双语语料库对齐技术:词汇对齐(2)词汇对齐的困难词汇对齐不满足次序性假设词汇对齐的模式十分复杂(1:1,1:m,m:1,m:m)她改变角度去写他的报告以迁就她的听众.Sheangleshe

8、rreportstosuitthepeoplesheisspeakingto.词汇对齐匹配关系难以断定(词典,长度)采用这种新装置…Th

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。