基于lucene的中文分词方法设计与实现

基于lucene的中文分词方法设计与实现

ID:34103358

大小:349.28 KB

页数:5页

时间:2019-03-03

基于lucene的中文分词方法设计与实现_第1页
基于lucene的中文分词方法设计与实现_第2页
基于lucene的中文分词方法设计与实现_第3页
基于lucene的中文分词方法设计与实现_第4页
基于lucene的中文分词方法设计与实现_第5页
资源描述:

《基于lucene的中文分词方法设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2008年10月四川大学学报(自然科学版)Oct.2008第45卷第5期JournalofSichuanUniversity(NaturalScienceEdition)Vol.45No.5文章编号:049026756(2008)0521095205基于Lucene的中文分词方法设计与实现112李颖,李志蜀,邓欢(1.四川大学计算机学院,成都610064;2.泸州医学院生物工程系,泸州646000)摘要:本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力

2、.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.关键词:中文分词;搜索引擎;Lucene;正向最大匹配算法中图分类号:TP391.12文献标识码:ADesignandimplementationofChinesewordssegementationbasedonLucene112LIYing,LIZhi2Shu,DENGHuan(1.DepartmentofComputer

3、ScienceandTechnology,SichuanUniversity,Chengdu610064,China;2.DepartmentofBiomedicalEngineering,LuzhouMedicalCollege,Luzhou646000,China)Abstract:ThispaperdesignandimplementaChinesewordssegmentationmodule,whichmainlyfordealingwithChinesewordstoimprovetheabilityo

4、ffulltextsearchsystem.ThewholemodulebasedonthemostpopulararchitectureLucene,andimplementtheMaximumMatchingAlgorithmwiththeabilityofeliminatedifferentmeanings.Theauthorsalsocompareourmethodwithmethodsinexistence,andbringforwardaim2plementationabouthowtoconstruc

5、tahighefficiencyChinesesearchingsystem.Keywords:Chinesewordsegmentation,searchengine,Lucene,forwardsmaximummatchalgorithm同,中文的词汇构成方法多种多样,组成词汇的字1引言数各不相同,句子中所有的字连起来才能描述一个信息世界的发展和扩容用一日千里来形容已意思,而英文是以词为单位的,词和词之间是靠空经毫不为过了,每月增加的新的信息资讯可以以百格隔开.因此对于中文字符串,需要经过特殊的中万记.在这浩如

6、烟海的信息海洋中,如何及时,准确文分词处理才能进行有效的检索.目前比较常用和地获取自己需要的资讯,是在当今社会掌握先机,实用的主要有正向最大匹配法MM(Maximum把握机遇的必备条件.中国也在世界发展的过程中MatchingAlgorithm),反向最大匹配法RMM(Re2逐渐积累,将科技资源转化为科技资本,汉语,方块verseDirectionMaximumMatchingAlgorithm),二字也将自己汇入了这股信息的大潮中.但是由于中次扫描法等等.同时中文语句的切分还必须考虑歧文的特殊情况,中文分词成了中

7、文信息检索中横亘义的情况.我们着重在于设计改进的正向最大匹配在信息工作者面前的一道屏障.和英文的单词不算法的中文分词方法,同时该方法具有较好的歧义收稿日期:2007207204基金项目:四川省重点科技项目(05GG021200322)作者简介:李颖(1981-),男,四川内江人,硕士研究生,主要研究领域为网络与信息系统.E2mail:liying.working@gmail.com1096四川大学学报(自然科学版)第45卷消除功能.在平台方面,使用ApacheFoundation下不会过分.只有逾越这个障碍,中文处

8、理系统才称的全文检索工具Lucene作为检索平台,通过重新得上初步打上了“智能”的印记,构建于词平面之上编写Lucene的分词模块来实现更为高效准确的分的各种后续语言分析手段才有展示身手的舞台.进词程序.一步的工作就是进行语句的语义分析,这也是中文自然语言处理的一个难点,其中有一部分的工作就2Lucene全文检索引擎是消除语义中的歧义,这是提高中文分词系统准

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。