基于词典的中文分词歧义算法研究

基于词典的中文分词歧义算法研究

ID:46501939

大小:118.00 KB

页数:4页

时间:2019-11-24

基于词典的中文分词歧义算法研究_第1页
基于词典的中文分词歧义算法研究_第2页
基于词典的中文分词歧义算法研究_第3页
基于词典的中文分词歧义算法研究_第4页
资源描述:

《基于词典的中文分词歧义算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、东北师范大淫硕士学位论文基于词典的屮文分词歧义算法研究姓名:刘延吉申请学位级别:硕士专业:计算机应用技术指导教师:孙铁利20090501摘要随着计算机网络的飞速普及,人们已经进入信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取,掌握大量有用的信息。在这种环境下,屮文信息处理技术逐渐成为技术人员的开发热点,而其中钗匾木褪?中文分词技术。中文分词技术,就是指将文本中每句话,利用分词算法拆分成词,以便于计算机对文本信息进行处理和理解的过程。它应用广泛,主要应用于信息检索,信息抽取

2、,机器翻译等自然语言处理技术等。同时,它包括很多方面内容,例如中文分词技术中的分词算法研究,未登录词识别技术,分词歧义处理技术等等。其屮歧义处理技术和未登录词识别技术是屮文分词技术的两大难点。而本文则是重点对中文分词技术中的分词算法和歧义处理技术进行了深入的研究和实践。首先,本文采用了一种典型的基于词典的中文分词算法一正向最大匹配算法,它的思想简单,并且易于实现,但是分词的精确度和速度并不理想。针对该问题,本文采用了双层hash结构的词典机制,来提升分词的速度,同时采用改进的正向最大匹配算法来提高分词的精确度。

3、其次,由于歧义处理技术是中文分词技术中的重要组成部分,只冇完成了对文本的歧义处理,才能正确的对文本进行分词。所以本文在提出改进的止向最大匹配算法的基础上,又提出了一种基于概率和规则想结合的歧义消解算法,完成了对文本的歧义处理。最后,本文充分考虑分词系统准确率、速度及可实现性等因素,给出了一种中文自动分词系统的设计方案。并对该分词系统进行了实现,取得一定的分词效果。关键词:’中文分词;分词算法;歧义处理;歧义消解算法AbstractW砧thearapidpopularizationofcomputernetwor

4、ks,thepeoplejjjeadyenteredtheinformationage.Inthegreats,andneeofs111eacquduals,tance,dealofusefulinformationinformairedandtheGovChinesesincreasing,onprocessing1ybecomehothno1ogy.Oneochnologystesegmentatiinesseimportwouldrindivcireurnonprocessingineseinformao

5、gyhasgradudeve1opmenttimportantisChinesewChinesewordevenbussociety,thetioninformationmastered,whoeveernment.InthisinformatiThenofChtechno1spotsforfthemostchno1ogyon.ntationalgorithmtechnologymeansaprocesswhichusingthecorrespondingwordsegmentationtoseparateth

6、etextandeasilytodealwi也andunderstandtheusedininformationinformationbycomputer.Itsrangeofapp1icationsis扌de,mainlyretrieval,informationandSOextraction,machinetranslation,naRll

7、n]languageprocessingtechno1ogytechnology,ison.Atthesametime,itincludesmanyaspects,su

8、chasChinesewordsegmentationtechnologyalgorithm,unknownwordrecognitiontechnology,ambiguouswordprocessingandS0on.Ambiguousprocessingtechno1ogyandBnk11ownwordrecognitiontwodifficultiesofChinesewordsegmentationtechnology.Inambiguitythispaper,itw•111gmentationa1n

9、•First1yyhacessingtechnp•1ca1C:h•1nese0r•1thmbasedstForwaofitismainlystudygorithmandsethispaper.itthewordsegmentatiousedaproiquesofChinesewordtywordsegmentationa1gondiction3ry?theLargerdMatching

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。