中国专利文献汉-英机器翻译(cpmt)系统简介

中国专利文献汉-英机器翻译(cpmt)系统简介

ID:367102

大小:455.50 KB

页数:6页

时间:2017-07-29

中国专利文献汉-英机器翻译(cpmt)系统简介_第1页
中国专利文献汉-英机器翻译(cpmt)系统简介_第2页
中国专利文献汉-英机器翻译(cpmt)系统简介_第3页
中国专利文献汉-英机器翻译(cpmt)系统简介_第4页
中国专利文献汉-英机器翻译(cpmt)系统简介_第5页
资源描述:

《中国专利文献汉-英机器翻译(cpmt)系统简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国专利文献汉-英机器翻译(CPMT)系统简介中国专利信息中心袁明跃高立华近年来,中国专利申请量的增长及其在全球专利活动中所占的份额令人瞩目。在世界知识产权组织专利合作条约框架下,中国已成为全球第五大申请国,并与日本、韩国同列专利申请量前十位。在知识产权领域,亚洲工业强国的地位日益突出。在国际专利文献交流与合作中,为了应对由专利申请量不断增长而带来的日益繁重的专利文献翻译压力,世界几大主要专利局先后将机器翻译引入专利文献的处理流程。2000年3月,日本特许厅(JPO)推出在线翻译服务,目前已可提供1993年起已公开的发明和实用新型专利全

2、文数据的机器翻译英文结果。2006年11月,韩国知识产权局(KIPO)发布K2E-PAT服务,集韩-英专利文献机器翻译和KIPRIS(韩国工业产权信息服务)数据库跨语言检索为一体。对中国而言,开发面向中国专利文献的汉-英机器翻译系统、满足国外用户对中国专利文献的需求,已经成为迫切之需。以此为背景,中国专利信息中心成立了联合课题组,与国内外相关单位开展密切合作,开发完成了具有全自动在线服务功能、基于混合策略的中国专利文献汉-英机器翻译(CPMT)系统。目前,CPMT系统已通过国家知识产权局网站(http://www.sipo.gov.cn

3、/sipo_English/)和中国专利信息中心网站(http://www.cnpat.com.cn)对外发布并进入试用阶段,接受国内外用户的试用、评测及意见反馈。系统的推出标志着我国在专利文献对外合作领域进入新的阶段。一、混合式策略 CPMT系统采用集成了三种主要机器翻译方法的混合式策略,并基于Web提供全自动在线机器翻译服务。以下将对系统策略进行介绍。系统所采用混合式策略包括基于规则的方法、基于实例与模板的方法,以及基于语义分析的方法,三者分别侧重于语言的共性、语言的个性,和语言深层的分析。这三种方法的有机结合实现了语言颗粒度由小到

4、大以及语言层面由浅到深的处理,成为全方位提高翻译质量的有力手段。(1)基于规则的方法中文专利文献语言首先是在极大程度上符合汉语语言共性规律的自然语言,基于规则的方法定位于解决规则覆盖面下的语言共性问题。该方法以描述词法、句法等语法知识为核心,在此基础上,先通过词法分析识别汉语语句的组成成分、形态、词性,再通过句法分析解决句子的结构问题,最后将其转换为目标语言并输出,其具体流程为:汉语输入、词法分析、句法分析、译文生成、译文输出。其中,词法分析以词典和词类规则库为主要工具,其任务是识别构成汉语语句的基本成分,并确定它们的形态和词性,为后续

5、句法分析和目标语生成创造条件;句法分析主要依靠句法规则库中对规则的定义,确定待翻译句子的主谓宾等结构,为生成译文提供句子结构信息;译文转换与生成则通过深层句法分析的句法树来完成,目的是形成符合目标语言要求的结构。(2)基于实例与模板的方法专利文献具有表述方式相对程式化的特点,基于实例与模板的方法定位于在相同或相似表述的翻译方面发挥显著作用,成为规则分析和语义分析之外的有效辅助手段。基于实例的方法是依靠以翻译实例等形式存在的已有经验知识,通过类比原理进行翻译。该方法的核心是双语对齐的实例语料库、包括相似度准则定义在内的有效的匹配检索机制,

6、以及通过类比、转化等方法实现的翻译算法。其特点是处理速度快,在原文和实例库得到匹配的情况下,能够达到相当高的译文准确率。基于模板的方法是基于实例的方法的泛化,其基本思想是通过对自然语句中的词语或者片段进行抽象和概括来降低输入维数,从而提高语句的匹配率。在基于模板的方法中,语言翻译知识表示为翻译模板形式,而模板实际上是一种词汇化的规则,同时也是比实例更为抽象的表示形式,因而此方法的命中率高于基于实例的方法,但抽象度低于基于规则的方法,最终在二者之间取得一个折衷。(3)基于语义分析的方法中文专利文献语言在其组织和风格上又具有不利于机器理解的

7、特点,例如频繁使用复杂长句和无主句等。基于语义分析的方法定位于解决不确定性的消解问题,即建立面向自然语言(包括中文专利文献语言)理解的语义描述体系,使机器获得消解不确定性的能力,从而使机器翻译结果达到较高的可读率。基于语义分析的方法是以意义表达和语言理解为主线,深入分析语句的深层结构及元素间的深层关系,使计算机在准确理解的基础上进行翻译,其具体流程为:以语义块为中枢,直接进入自然语言的语义深层进行处理,先理解源语言,然后在语义空间进行过渡处理,最后生成目标语言。其中,“语义空间”是对应于人类多种自然语言空间的同一意义表述体系,机器理解源

8、语言和生成目标语言的过程分别是从自然语言空间到语义空间的映射过程和与之相反的逆映射过程;“语义块”是句子的语义构成单位,系统将语义块的感知作为语义分析处理的切入点;“过渡处理”完成从语义空间向目标语言的逆映

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。