基于web双语平行语料库自动获取系统设计

基于web双语平行语料库自动获取系统设计

ID:28171862

大小:117.50 KB

页数:11页

时间:2018-12-08

基于web双语平行语料库自动获取系统设计_第1页
基于web双语平行语料库自动获取系统设计_第2页
基于web双语平行语料库自动获取系统设计_第3页
基于web双语平行语料库自动获取系统设计_第4页
基于web双语平行语料库自动获取系统设计_第5页
资源描述:

《基于web双语平行语料库自动获取系统设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、-基于Web的双语平行语料库自动获取系统摘要:例如:进行统一中文网页编码,...我们通过观察统计发现在那些具有URL命名相似性的双语网站中,URL的pathname与base...对于对应的英文词ei在英文句子中存在多个的中文词cj...关键词:中文,词,中文词类别:专题技术来源:牛档搜索(Niudown.COM).---  本文系牛档搜索(Niudown.COM)根据用户的指令自动搜索的结果,文中内涉及到的资料均来自互联网,用于学习交流经验,作品其著作权归原作者所有。不代表牛档搜索(Niudown.COM)赞成

2、本文的内容或立场,牛档搜索(Niudown.COM)不对其付相应的法律责任!.---基于Web的双语平行语料库自动获取系统收稿日期:2007-06-30返稿日期:2007-XX-XX基金项目:国家自然科学基金(60603095),国家自然科学基金(60573188)作者简介:叶莎妮,硕士研究生,主要研究方向为自然语言处理技术(yeshani@ict.ac.cn);吕雅娟,工学博士,主要研究方向为计算语言学与机器翻译;刘群,工学博士,主要研究方向为计算语言学与机器翻译叶莎妮吕雅娟刘群中国科学院计算技术研究所智能信息

3、重点实验室{yeshani,lvyajuan,liuqun,}ict.ac.cn摘要:利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统。首先,介绍了系统框架和主要模块;其次,详细描述了各个模块的实现与创新技术;最后,给出下一步工作的展望。本系统为获取真实的中英平行语料库提供了有效的途经。关键词:双语语料;网页挖掘;平行网页ABilingualCorpusAutomaticAcquisitionSystemBasedonWebAbstract:Implemen

4、tedabilingualcorpusautomaticacquisitionsystembytakingadvantageofanabundanceofmultilingualcorpusintheWorldWideWeb,andanalyzingtheircontentandlinks.First,introducedsystemframeworkandmainmodules;second,describedeverymoduleandtechnologyinnovationsindetail.Aprospe

5、ctforthenextstepwasgivenatlast.ThissystemprovidedaneffectivewayforachievingChinese-Englishparallelcorpus.Keywords:BilingualText;ParallelCorpora;WebMining;1.引言语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(BilingualCorpus),已经成为机器翻译、机器辅助翻译以及翻译知

6、识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g.,Brownetal.1990;Melamed2000;OchandNey2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如

7、翻译词典(e.g.,GaleandChurch1991;Melamed1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g.,DavisandDunning1995;Jian-YunNie,TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的

8、时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。.---1.背景介绍加拿大蒙特利尔大学的研究者聂建云开发的系统PTMiner(ParallelTextMiner,1999):通过搜索引擎查找含有特定锚文本的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。