大中华区词对齐自动抽取研究

大中华区词对齐自动抽取研究

ID:35072376

大小:3.43 MB

页数:55页

时间:2019-03-17

大中华区词对齐自动抽取研究_第1页
大中华区词对齐自动抽取研究_第2页
大中华区词对齐自动抽取研究_第3页
大中华区词对齐自动抽取研究_第4页
大中华区词对齐自动抽取研究_第5页
资源描述:

《大中华区词对齐自动抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、、.'''"心'知?:?'咬輿媒、次妃i辨軒t七'弯令i骑飾v偷V去^殊;於鱗—.分类學巧级.:,…-无."-—,:為产I.V::;於^伊3補^p.、:?:'\校代码_iMl'号::号,_^火;樂束点印;律护—%爭^产-'巧巧》;<;询,觸(^怒爭鸭东讓1/:;iiK蓮lilli.硕±研究生学位论文、.炒奈>;:線紐認攀'論繁y乂中华区词对齐自动新取研究酒:fi:if猶難heResearch0打Auto曲aticWordAl:,六%节巧ignment;护j旁言j'、ExtractionforGreater

2、ChinaReion!、7細若e已g分遊舞胡爲'^..v皆..、—一..,^省1-??‘."?--.‘-^■?■,?,':,'--、■^?<蠢.'r.:.';/卢J4占,秘*>■'户Vf%二(沁藻韦讓/巧‘".;'-.-..邱,-巧皆M:聲私暴齊也扔端1茄占f,方.V#庆V//麵‘'。、.'’-八''.’.啤社^-':次一.、;.'V,V立.?节;4心、费、、院诗工/;店巧:计算机信息程学晓导师姓為:王明文讀%'^■■u,乎守去V^;:v?抬'韓掌科'专.业':.计算机

3、科学与技术>,研究方向:自然语言分理y>.,滿吟^’巧’巧故.‘,,1’'.^.;,7叩:;帮.’叫—'..':;.考:雜.苗.V.皆屯.私.;:私心..啤钟;>艇;難销t?4J么.—\藻给:又減'在?:结巧,心带古-:;辦独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签

4、名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解江西师范大学研究生院有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日II摘要由于文化与地域的差异,中国大陆、香港和台湾(简称大中华区)在汉字的书写和表达习惯上均存在着一定的差异。从形态学角度看,香港和台湾使用繁体字,而中

5、国大陆则采用简体字。从语义学角度看,大中华区存在同一种语义但采用不同词语(同义异形)进行表达的语言现象。研究大中华区语言差异,一方面可以认识到中国大陆和港台之间的语言差异,另一方面可以缩小差异带来的影响,提升大中华区之间的经济、政治、文化交流体验。目前,主流的词对齐语料和计算模型都是基于双语的,主要考虑两种相差较大语言间的词对齐,例如:中文和英文、中文和日文、日文和英文等。然而,针对相似语言(方言或语言的变体)的研究却比较鲜见。基于此,本文主要研究大中华区相似语言的词对齐自动抽取问题。本文首先从互联网上抓取维基百科以及简繁体新闻平行网页,通过预处理技术提取出包含不同词语

6、的有效大中华区平行句对,然后由两位从事计算语言学研究的高年级研究生进行人工标注对齐,语料整体标注一致性程度达95%,将其作为后继词对齐计算模型的标准语料库。此外,本文提出了两种大中华区词对齐自动抽取计算模型,其中一种是基于word2vec的两阶段大中华区词对齐模型,该模型使用word2vec表达大中华区词语的向量,结合余弦相似度计算大中华区之间词语向量的相似度,同时融合了词语映射规则进行后处理。另外一种是基于词对齐映射规则的模型,该模型综合考虑了大中华区汉语句子的表达特点,采用最长公共子序列预先过滤一部分词语,然后根据词语间的1-1、1-n和m-n三种映射规则进一步提取

7、大中华区词语对齐。上述方法在标注的大中华区词语语料上进行试验,实验表明采用本文提出的两种大中华区词语对齐模型后,准确率与目前基于hiddenMarkovamodel(隐马尔可夫模型)、GIZA++和它们的扩展方法相比得到显著提升。本文的工作主要体现在以下两个方面:1)首先,本文构建了高一致性程度的较大规模的大中华区词对齐语料库,有效缓解了目前大中华词对齐语料库资源的缺乏。构建的语料库一方面可以为面向大中华区的词语对齐计算模型研究提供了丰富的语料库资源,另一方面也为基于大中华区的词语、句子、段落、篇章等语言学方面的研究提供了丰富的素材;2)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。