基于web的双语平行句对自动获取(

基于web的双语平行句对自动获取(

ID:12554052

大小:154.00 KB

页数:0页

时间:2018-07-17

基于web的双语平行句对自动获取(_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《基于web的双语平行句对自动获取(》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于Web的双语平行句对自动获取*收稿日期:定稿日期:基金项目:国家自然科学基金(60603095),国家自然科学基金(60573188)作者简介:叶莎妮(1983—),女,硕士研究生,主要研究方向为自然语言处理技术;吕雅娟(1972—),女,博士,副研究员,主要研究方向为自然语言处理技术;黄赟(1983—),男,硕士研究生,主要研究方向为自然语言处理技术;刘群(1966—),男,博士,研究员,主要研究方向为自然语言处理技术叶莎妮,吕雅娟,黄赟,刘群(中国科学院计算技术研究所,北京100080)摘要:双语平行句对是机器翻译的重要资源,但是

2、由于获取途径的限制,句子级平行语料库不仅数量有限并且经常集中在特定领域,很难适应真实应用的需求。本文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了本文方法的有效性。此外,本文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。关键词:双语句对;平行网页;网

3、页挖掘中图分类号:TP391文献标识码:AAutomaticParallelSentencesExtractingFromWebShaniYe,YajuanLv,YunHuang,QunLiu(InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China)Abstract:Parallelsentencesarevaluableresourcesformachinetranslationbutnotreadilyavailableintheneces

4、saryquantitiesandalwaysdomainspecific.Thispaperconstructsasystemtoautomaticallyobtainparallelsentencesofhighquality.ThissystemtakesadvantagesofprevioussystemsandputsforwardamethodtofindthesimilarityofURLsinbilingualwebsites,andalsoimprovesparallelsentenceextractiontechnol

5、ogy.Experimentalresultsshowthatthissystemgainsarecallrateof93%andaprecisionrateof96%whencollectingparallelsentencesfromtestset.Inaddition,thispapermakespreliminaryresearchincollectingparallelsentencesfrombilingualcontrastwebpages.Keywords:BilingualSentences;ParallelCorpor

6、a;WebMining1引言近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(BilingualCorpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻

7、译知识,如翻译词典和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索,翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。然而,大规模双语语料库建设与获取存在着很大的困难。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但是现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。互联网的普及和迅猛发展提供了大量而丰富的电子信息。随着国际化的需要,越来越多的网站成为双语网站,越来越多的网上信息以多语言的方式发布,这就为双语和多语语料库提供了很好的来源。互联网是一个取之不

8、尽、日益增长的信息源,因此是一个潜在的巨大的多语种语料库信息源。这为双语平行语料库的获取提供了潜在的解决途径。研究如何从互联网上自动挖掘这些海量的、真实的双语句对,对于解决双语语料库获取难题,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。