资源描述:
《题录信息的机器翻译方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、题录信息的机器翻译方法*基金资助:国家自然科学基金项目(项目号:60873167),国家自然科学基金项目(项目号:60736014)李贤华,于淼,苏劲松,吕雅娟中国科学院计算技术研究所,北京100190Email:{lixianhua,yumiao,sujinsong,lvyajuan}@ict.ac.cn摘要:本文针对题录信息中的人名、地址、机构名和公司名的不同特征,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,本文设计了拼音转换、假名转换和同音转换的翻译方法;对于地址、机构名和公司名的翻译,本文提出了先切分、再翻译、最后
2、调序的翻译流程。实验表明,利用本文的方法翻译人名、地址、机构名及公司名,能够取得不错的翻译效果。关键词:题录信息;机器翻译;人名翻译;地址翻译;机构名翻译ApproachestoTranslateBibliographicInformationXianhuaLi,MiaoYu,JinsongSu,YajuanLüInstituteofComputingTechnology,ChineseAcademyofSciences,Beijing,China100190Email:{lixianhua,yumiao,sujinsong,lvyajuan}@ict.ac.cn
3、Abstract:Thispaperproposesdifferentmachinetranslationapproachesfortranslatingbibliographicinformation,suchaspersonnames,addresses,organizationnamesandcompanynamesaccordingtotheirdifferentfeatures.Withdictionaryandtranslationrules,mostofthemcanbetranslatedproperly.Fornametranslation,we
4、designPinyinconversionandKanaconversionmethods.Foraddresstranslationorganizationnametranslationandcompanynametranslation,weproposeaprocedurewhichincludessplitting,translatingandrerordering.Experimentsshowthattheseapproachesachievegoodresults.Keywords:BibliographicInformation;MachineTr
5、anslation;PersonNameTranslation;Addresstranslation;OrganizationnameTranslation1引言机器翻译是使用计算机进行翻译工作的技术。从1949年Weaver提出机器翻译的概念至今,短短半个世纪中,机器翻译技术在各个领域发挥着越来越大的作用,人们在机器翻译领域取得了很多阶段性的成果[1][2][3]。题录信息的翻译,是机器翻译的任务之一。随着信息社会的不断发展,题录信息的翻译会有广阔的应用前景,比如名片翻译、专利人信息翻译、刊物作者信息翻译、英文信函地址翻译等。题录信息是书籍、科技文献、专利文献等
6、的一个重要组成部分,它通常包含标题、人名、地址、组织机构名、公司名以及邮箱地址等。本文主要处理题录信息中人名、地址、组织机构名和公司名的翻译。由于这些信息具有上下文无关性、类型容易确定等特点,其翻译相对于其他内容的翻译来说目标更明确、精度更高。在现代化的信息社会中,题录信息的翻译在政治、经济、外交、贸易、旅游、新闻出版、文化交流以及日常生活中都有着重要的应用。当前研究人名翻译的工作很多,文献[4]等提出了人名翻译的许多注意事项,但提出人名翻译的通用方法的文献较少;研究地名翻译的工作也层出不穷[5][6],但是针对地址翻译的工作较少;还有一些工作致力于从双语语料库中
7、获得翻译[7],但这些方法受到语料规模和时期的限制。目前大量题录信息的翻译工作是人工完成的。人工翻译虽然有着较高的翻译质量,但是其耗时长,占用资源多,不适合大规模的翻译。这些都是本文将解决的问题。本文主要设计了题录信息中人名、地址、机构名和公司名的机器翻译方法。采用的方法主要是词典查找和规则翻译等。对于中国人名,本文使用拼音转换的方法进行翻译,即通过查看汉字拼音转换表对汉字进行翻译;对于日本人名,本文设计了假名转换的方法,即首先将中文的日本人名转换为假名,再将假名转换为相应的罗马字母的方法;对于欧美国家人名,本文设计了同音转换的方法,即读音相同的欧美国家人名,其对
8、应的译文也