中文分词算法的研究与实现

中文分词算法的研究与实现

ID:35039282

大小:5.59 MB

页数:81页

时间:2019-03-16

中文分词算法的研究与实现_第1页
中文分词算法的研究与实现_第2页
中文分词算法的研究与实现_第3页
中文分词算法的研究与实现_第4页
中文分词算法的研究与实现_第5页
资源描述:

《中文分词算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10183研究生学号:2013544061密级:公开吉林大学硕士学位论文(专业学位)中文分词算法的研究与实现ResearchandImplementationofChineseWordSegmentationAlgorithm作者姓名:秦赞类别:工程硕士领域(方向):软件工程指导教师:李文辉教授培养单位:软件学院2016年4月中文分词算法的研究与实现Re化archandImplementationofChine化WordSegmentationAlgorithm作者姓名:秦赞专业名称:软件工

2、程指导教师:李文辉教授类别:工程硕±答辩日期:三0化年石月2^日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用。否则应承(但纯学术性使用不在此限),担侵权的法律责任。吉林大学硕±学位论文原创性声明本人郑重声明:所呈交的硕±学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的

3、作品成果。对本文的研究。做出重要贡献的个人和集体,均己在文中W明确方式标明本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期;之年《月S日摘要中文分词算法的研究与实现在本文中,对自然语言处理的基础性问题中文分词进行了研究。在常见的基于词典的分词算法和基于统计的分词算法的基础之上,提出了一种基于词典与基于统计相结合的分词方法,充分利用了基于词典分词的高效性及基于统计的分词的较强的歧义处理的能力。首先使用改进的双向匹配方法对待切分句子是否包含歧义进行判断,如果判断没有歧义,将分词结果直接作为输入传递给中文人名识别模

4、块;如果判断包含歧义,该句子需要基于统计的方法进行切分,首先,使用正向全切分算法对待切分句子进行处理,得到所有的可能的切分情况,然后,根据训练得到的bin-gram语言模型对各种切分情况进行可能性的计算,选出概率最大的三种结果加入到备选集,下一步使用基于隐马尔可夫(HMM)的评价算法对备选集中的三种切分进行出现的可能性评估,选取概率最大的一种作为切分后的结果,最后将该结果作为中文人名识别模块的输入,进行中文人名的识别操作,对于中文人名的识别,本文采取了一种规则与统计相结合的识别算法,人名识别模块的输出便是最终的处理结果。在实际中,只有少部分的中

5、文句子包含歧义,这就意味这大部分的句子使用双向匹配算法就可以得到解决,少部分的句子使用基于统计的分词方法进行歧义的消除,这样就最大程度地兼顾了效率与准确性。实验结果表现出了较好的分词效果。本文的创新之处在于:使用了词典与统计相结合的分词方法;对基于词典的分词方法进行了改进,并对传统的整词二分法词典及双字哈希词典均进行了优化,引入了词长数组,对于词典正文部分按照长度分开存储,并进行排序,提高了词典的匹配效率并减少了空间占用,引入了结尾词长数组从而使逆向匹配算法可以和正向匹配算法使用同一个词典,实现了词典的复用;使用了一种三层的存储结构存储bin-

6、gram语言模型,提高了运算速度;采用了规则与统计相结合的中文人名识别方法,表现出了较好的人名识别率。最终实现了一个中文分词的系统,提供了便捷的操作界面,系统集成了各种I词典结构及分词方法,并支持词典的添加删除等维护操作,方便操作及对比研究。关键词:中文分词,机械分词,统计分词,人名识别,语言模型,隐马尔可夫IIAbstractResearchandImplementationofChineseWordSegmentationAlgorithmInthispaper,westudythebasicproblemofnaturallanguage

7、processing--Chinesewordsegmentation.Onthebasisofcommondictionary-basedwordsegmentationalgorithmandstatisticsbasedwordsegmentationalgorithm,weproposeawordsegmentationmethodwhichcombinethetwocommonways.Thismethodcanmakefulluseofthehighefficiencybasedondictionaryandtheabilityto

8、dealwiththestrongambiguityofwordsegmentationbasedonstatistics.Firstofall,us

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。