基于web未登录词翻译技术地研究

基于web未登录词翻译技术地研究

ID:32347544

大小:3.74 MB

页数:58页

时间:2019-02-03

基于web未登录词翻译技术地研究_第1页
基于web未登录词翻译技术地研究_第2页
基于web未登录词翻译技术地研究_第3页
基于web未登录词翻译技术地研究_第4页
基于web未登录词翻译技术地研究_第5页
资源描述:

《基于web未登录词翻译技术地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Web的朱臀录词翻译技术研究摘要基于Web的未登录词翻译技术研究摘要未登录词(OutofVocabulary,简写为OOV)的查询翻译是影响跨语言信息检索(Cross.LanguageInformationRetrieval,简写为CLIR)性能的关键因素之~。它的翻译好坏直接影响着机器翻译、跨语言检索等自然语言处理技术的性能。本文充分利用丰富的网络资源来实现OOV的译文挖掘,主要结合维基百科和搜索引擎各自的优点实现。具体步骤包括:缩略语(Abbreviation)是一种常见的OOV文字形式,由

2、于缩略语的歧义性,使得一项缩略语往往存在多种全称形式,因此缩略语的识别和全称提取对OOV的查询翻译至关重要,本文分别基于搜索引擎和维基百科来实现缩略语的全称提取。然后将查询词与维基百科中篇章的对齐情况粗略分为两种,分别是有目标链接的对齐和无目标链接的对齐,对于有目标链接对齐的词条,通过提取目标语言链接标题来完成OOV的翻译。对于无目标链接对齐的词条,本文通过搜索引擎来实现其译文的挖掘。首先,为了实现跨语言信息检索中查询词的有效扩展,获得高质量的双语摘要资源,基于维基百科中存在的源语言词条,通过提取该

3、源语言词条对应篇章摘要中超链接的目标语言标题,作为跨语言的扩展词。其次,在目标缺失情况下,利用搜索引擎的反馈获取双语共现语境,然后基于共现特征的主题词译文的查询扩展方法,并通过二次词典翻译、以及基于OOV和扩展词融合后的查询构建和二次检索,获得高质量的双语摘要资源;最后,基于对数似然比(LogLikelihoodRatio,简写为LLR)值的归约层次聚类算法,实现候选多词单元的抽取,并与常用统计方法作比较,并综合利用频度.距离模型、表层模板匹配模型和音译模型,从候选翻译单元中选择最佳译文用于查询翻译

4、。实验结果Topl0取得了93.8%的J下确率。关键词:跨语言信息检索;查询翻译;未登录词;搜索引擎;维基百科作者:孙常龙指导老师:姚建民StudyonWeb--basedTranslationTechnologyforOut--Of-VocabularyAbstractThequerytranslationofOutofVocabulary(OOV)isoneofthekeyfactorsaffectingcross-languageinformationretrieval(CLIR).Itstr

5、anslationqualityhasdirectimpactonnaturallanguageprocessingperformancesuchasmachinetranslation,crosslanguageretrievaIandSOon.TakefulladvantageoftherichnetworkofresourcestOachievetheOOVtranslationmining,simultaneously,combinewiththemeritsofWikipediaandSe

6、archEnginesrespectively.Thespecificstepsasfollows:AbbreviationisonekindofOOV,becauseoftheambiguityofabbreviations,SOthereareoftenavarietyoffullformsofabbreviations,thereforeitisveryessentialtorecognizetheabbreviationandwithdrawthefulltitles.Thispaperac

7、hievesfullextractionofabbreviationsbasedonthesearchenginesandWikipedia.ThendividethealignmentofthequerywordsandthechaptersofWikipediaintotwotypesroughly,xiamely,namedtargetlinkandnon.targetlinkalignment.Asvocabularyentrywhichhasthetargetlinkalignment,c

8、ompleteOOVtranslationthroughthetargetlanguagelinktitleextraction;fornon-targetlinkalignedentry,realizeitstranslationexcavationthroughthesearchengine.Firstofall,realizequerywordsexpansionofcross-language,haveaccesstoobtainhighqualitybili

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。