欢迎来到天天文库
浏览记录
ID:32347544
大小:3.74 MB
页数:58页
时间:2019-02-03
《基于web未登录词翻译技术地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Web的朱臀录词翻译技术研究摘要基于Web的未登录词翻译技术研究摘要未登录词(OutofVocabulary,简写为OOV)的查询翻译是影响跨语言信息检索(Cross.LanguageInformationRetrieval,简写为CLIR)性能的关键因素之~。它的翻译好坏直接影响着机器翻译、跨语言检索等自然语言处理技术的性能。本文充分利用丰富的网络资源来实现OOV的译文挖掘,主要结合维基百科和搜索引擎各自的优点实现。具体步骤包括:缩略语(Abbreviation)是一种常见的OOV文字形式,由
2、于缩略语的歧义性,使得一项缩略语往往存在多种全称形式,因此缩略语的识别和全称提取对OOV的查询翻译至关重要,本文分别基于搜索引擎和维基百科来实现缩略语的全称提取。然后将查询词与维基百科中篇章的对齐情况粗略分为两种,分别是有目标链接的对齐和无目标链接的对齐,对于有目标链接对齐的词条,通过提取目标语言链接标题来完成OOV的翻译。对于无目标链接对齐的词条,本文通过搜索引擎来实现其译文的挖掘。首先,为了实现跨语言信息检索中查询词的有效扩展,获得高质量的双语摘要资源,基于维基百科中存在的源语言词条,通过提取该
3、源语言词条对应篇章摘要中超链接的目标语言标题,作为跨语言的扩展词。其次,在目标缺失情况下,利用搜索引擎的反馈获取双语共现语境,然后基于共现特征的主题词译文的查询扩展方法,并通过二次词典翻译、以及基于OOV和扩展词融合后的查询构建和二次检索,获得高质量的双语摘要资源;最后,基于对数似然比(LogLikelihoodRatio,简写为LLR)值的归约层次聚类算法,实现候选多词单元的抽取,并与常用统计方法作比较,并综合利用频度.距离模型、表层模板匹配模型和音译模型,从候选翻译单元中选择最佳译文用于查询翻译
4、。实验结果Topl0取得了93.8%的J下确率。关键词:跨语言信息检索;查询翻译;未登录词;搜索引擎;维基百科作者:孙常龙指导老师:姚建民StudyonWeb--basedTranslationTechnologyforOut--Of-VocabularyAbstractThequerytranslationofOutofVocabulary(OOV)isoneofthekeyfactorsaffectingcross-languageinformationretrieval(CLIR).Itstr
5、anslationqualityhasdirectimpactonnaturallanguageprocessingperformancesuchasmachinetranslation,crosslanguageretrievaIandSOon.TakefulladvantageoftherichnetworkofresourcestOachievetheOOVtranslationmining,simultaneously,combinewiththemeritsofWikipediaandSe
6、archEnginesrespectively.Thespecificstepsasfollows:AbbreviationisonekindofOOV,becauseoftheambiguityofabbreviations,SOthereareoftenavarietyoffullformsofabbreviations,thereforeitisveryessentialtorecognizetheabbreviationandwithdrawthefulltitles.Thispaperac
7、hievesfullextractionofabbreviationsbasedonthesearchenginesandWikipedia.ThendividethealignmentofthequerywordsandthechaptersofWikipediaintotwotypesroughly,xiamely,namedtargetlinkandnon.targetlinkalignment.Asvocabularyentrywhichhasthetargetlinkalignment,c
8、ompleteOOVtranslationthroughthetargetlanguagelinktitleextraction;fornon-targetlinkalignedentry,realizeitstranslationexcavationthroughthesearchengine.Firstofall,realizequerywordsexpansionofcross-language,haveaccesstoobtainhighqualitybili
此文档下载收益归作者所有