基于树形结构的中文分词方法的研究及实现

基于树形结构的中文分词方法的研究及实现

ID:36666540

大小:3.09 MB

页数:56页

时间:2019-05-13

基于树形结构的中文分词方法的研究及实现_第1页
基于树形结构的中文分词方法的研究及实现_第2页
基于树形结构的中文分词方法的研究及实现_第3页
基于树形结构的中文分词方法的研究及实现_第4页
基于树形结构的中文分词方法的研究及实现_第5页
资源描述:

《基于树形结构的中文分词方法的研究及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国内图书分类号:TP39国际图书分类号:004.9专业硕士学位论文学校代码:10079密级:公开基于树形结构的中文分词方法的研究及实现硕士研究生:导师:企业导师申请学位:专业领域:培养方式:所在学院:答辩日期:授予学位单位:温唱鲁斌副教授张诚中学高级教师工程硕士数据库与信息系统在职控制与计算机工程学院2013年6月华北电力大学ClassifiedIndex:TP39U.D.C:004.90IllIlllIIIllIlllIIIY2390780DissertationfortheMasterDegreeinEngineeringResearchand

2、ImplementationofChineseWordCandidate:SegmentationBasedonTreeStructureSupervisor:School:DateofDefence:WenChangProf.LUBinSchoolofControlandComputerEngineeringJune,2013Degree·-Conferring--Institution:NorthChinaElectricPowerUniversity华北电力大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《基于树形结构的中文分

3、词方法的研究及实现》,是本人在导师指导下,在华北电力大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签名:踟@日期:枷年么月拥华北电力大学硕士学位论文使用授权书《基于树形结构的中文分词方法的研究及实现》系本人在华北电力大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归华北电力大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解华北电力大学关于保

4、存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权华北电力大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。本学位论文属于(请在以上相应方框内打“√”):保密口,在年解密后适用本授权书不保密∥作者签名:班函(,/导师签名:日期:≯7)年易月穷日日期驯年加‰摘要随着互联网的快速发展,全球信息量呈现出爆炸式增长,如何从海量的信息中获取到我们需要的信息,具有重要的研究意义和实用价值。分词就是将自然语言切分为计算机更容易理解的词的过程,是自动信息处理的基础。因为中文是按句连

5、写的,词之间没有明显的分隔符,所以中文分词就成为了中文信息处理的首要任务。目前,有以下三类主要的分词方法:机械分词法、基于统计分词法、基于理解分词法。最大匹配分词方法是机械分词的一种,它是实现最早也是最常用的分词方法,但是在最大匹配分词方法中必须设置一个最大词长,导致了长一点的词会被误切,另外也存在效率低下和歧义切分的问题。本文通过对最大匹配分词方法的缺陷以及常用的词典机制的研究,提出了树形结构的分词词典。树形词典与数据库词典不同,它将中文词以树形结构存储,通过树枝的遍历实现了词典的查询,不仅取消了词长的限制,还提高了词典的查询效率。根据词典结构优

6、化了分词算法,避免了最大匹配分词中过多的无用匹配,并利用动态规划法解决了分支处理的问题,实现了歧义共存的切分方式。在树形词典结构和分词算法的基础上,设计并实现了一个完整的中文分词系统。在系统设计完成后,对其进行了大量的语料测试。实验结果表明:在同样的运行环境下,树形分词器的切分效率达到了七万字每秒的速度,是最大匹配分词方法的五倍;而且树形分词器得到了所有可能的切分结果,一定程度上解决了歧义问题。总的来说,系统达到了预期的设计目的,取得了不错的效果。关键词:中文分词;树形词典;最大匹配分词;歧义共存华北电力大学硕士学位论文AbstractWithth

7、erapiddevelopmentofinternet,thereappearsexplosiveincreaseinglobalinformation.Therefore,itisofgreatresearchsignificanceandpracticalvaluetoeffectivelyobtaintheinformationweneedamongthemassiveamountsofinformation.Wordsegmentationisaprocessinwhichthenaturallanguageissegmentedintow

8、ordsthataremoreaccessibletocomputers.Itisthebasisforautomatic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。