欢迎来到天天文库
浏览记录
ID:75865500
大小:1.18 MB
页数:50页
时间:2022-01-12
《哈萨克语句法分析重排序技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士研究生学位论文新疆大学论文题目(中文):哈萨克语句法分析重排序技术研究论文题目(外文):ResearchOnRe-rankingTechnologyForKazakhSyntacticParsing研究生姓名:梁金莲学科、专业:工学、计算机应用技术研究方向:自然语言处理导师姓名职称:古丽拉·阿东别克教授论文答辩日期年月日学位授予日期年月日新疆大学硕士研究生学位论文摘要自然语言处理研究主要有词法分析、句法分析以及语义分析,句法分析是哈萨克语现阶段的研究对象,在句法分析之前已经完成了词干提取、词性标注以及组块的研
2、究工作,句法分析的研究也取得了不错的成果。本文主要对哈萨克语句法分析进行研究。PCFG模型进行句法分析过程中由于假设独立性太强,能捕捉到句子粗粒度的信息,即捕捉句子结构信息能力较强,但是语言是复杂的,句子中的语法结构并不是完全独立的,在进行句法分析阶段,词汇信息是比较重要的因素。该方法忽略了词汇信息对于句法分析的重要性,因此在句法分析中消歧能力有限。在此基础上,本文提出了使用感知机进行重排序的方法,感知机可以捕捉句子细粒度的词汇信息,从而弥补PCFG模型的这一缺陷。重排序的方法对哈萨克语句法分析是有效的,因此在本
3、文中主要采用感知机的方法对候选解析树进行重排序。具体工作如下:首先使用最大熵模型对哈萨克语进行词性标注,实验验证不同的特征对词性标注的影响,并选择最佳的特征模板进行词性标注。其次进行哈萨克语的句法分析,本文中的哈萨克语句法分析重排序技术研究分为两个阶段:第一阶段分别使用PCFG模型和词汇化的模型进行简单的句法分析,并将这两个基础模型进行句法分析的解析效果进行对比。该阶段产生的句法分析候选树作为第二阶段重排序过程的输入,对哈萨克语进行进一步的句法分析。第二个阶段是重排序阶段,这个阶段使用感知机的算法进行重排序。该方
4、法弥补了第一阶段句法分析中存在歧义现象的缺陷,在句法分析过程中能够获取句子中细粒度的词汇信息,并对基础模型产生的候选解析树进行重排序。感知机重排序的主要思想是对基础模型得到的候选解析树加入词汇信息以及细粒度的特征重新计算候选树节点得分,达到粗略的句法分析方法和细粒度的重排序方法相结合,从而提高句法分析效果。实验表明哈萨克语句法分析重排序方法是可行的。关键词:哈萨克语;PCFG模型;感知机;重排序;句法分析I新疆大学硕士研究生学位论文AbstractTheresearchesofnaturallanguagepro
5、cessingincludethepartofspeech,syntacticparsing,andsemanticparsing.SyntacticparsingistheresearchobjectofKazakhatthis
此文档下载收益归作者所有