基于lucene的中文分词方法设计与实现

基于lucene的中文分词方法设计与实现

ID:34109312

大小:347.80 KB

页数:5页

时间:2019-03-03

基于lucene的中文分词方法设计与实现_第1页
基于lucene的中文分词方法设计与实现_第2页
基于lucene的中文分词方法设计与实现_第3页
基于lucene的中文分词方法设计与实现_第4页
基于lucene的中文分词方法设计与实现_第5页
资源描述:

《基于lucene的中文分词方法设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据2008年10月第45卷第5期四川大学学报(自然科学版)JournalofSichuanUniversity(NaturalScienceEdition)Oct.2008V01.45No.5文章编号:0490.6756(2008)05.1095.05基于Lucene的中文分词方法设计与实现李颖1,李志蜀1,邓欢2(1.四川大学计算机学院,成都610064;2.泸州医学院生物工程系,泸州646000)摘要:本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene

2、,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.关键词:中文分词;搜索引擎;Lucene;正向最大匹配算法中图分类号:TP391.12文献标识码:ADesignandimplementationofChinesewordssegementationbasedonLuceneLIYin91,LI磊i.Shul,DENGHuan2(1.Eb..partmentofComputerScienceandTechnology,SichuanUniversity,Chengdu610064,

3、China;2.DepartmentofBiomedicalEngineering,LuzhouMedicalCollege,Luzh)u646000,China)Abstract:ThispaperdesignandimplementaChinesewordssegmentationmodule.whichmainlyfordealingwithChinesewordstoimprovetheabilityoffulltextsearchsystem.1rhewholemodulebasedonthemostpopulararchitectureLucene,andim

4、plementtheMaximumMatchingAlgorithmwiththeabilityofeliminatedifferentmeanings.Theauthorsalsocompareourmethodwithmethodsinexistence.andbringforwardaim—plementationabouthowtoconstructahighefficiencyChinesesearchingsystem.Keywords:Chinesewordsegmentation,searchengine,Lucene,forwardsrD.aximulT

5、lmatchalgorithm1引言信息世界的发展和扩容用一日千里来形容已经毫不为过了,每月增加的新的信息资讯可以以百万记.在这浩如烟海的信息海洋中,如何及时,准确地获取自己需要的资讯,是在当今社会掌握先机,把握机遇的必备条件.中国也在世界发展的过程中逐渐积累,将科技资源转化为科技资本,汉语,方块字也将自己汇人了这股信息的大潮中.但是由于中文的特殊情况,中文分词成了中文信息检索中横亘在信息工作者面前的一道屏障.和英文的单词不同,中文的词汇构成方法多种多样,组成词汇的字数各不相同,句子中所有的字连起来才能描述一个意思,而英文是以词为单位的,词和词之间是靠空格隔开.因此对于中

6、文字符串,需要经过特殊的中文分词处理才能进行有效的检索.目前比较常用和实用的主要有正向最大匹配法MM(MaximumMatchingAlgorithm),反向最大匹配法RMM(Re—verseDirectionMaximumMatchingAlgorithm),二次扫描法等等.同时中文语句的切分还必须考虑歧义的情况.我们着重在于设计改进的正向最大匹配算法的中文分词方法,同时该方法具有较好的歧义收稿日期:2007-07.04基金项目:四川省重点科技项目(05GG021—003—2)作者简介:李颖(1981一),男,四川内江人,硕士研究生,主要研究领域为网络与信息系统.E-m

7、ail:liying.Ⅵ吼恼r鸸嘶1.∞m万方数据1096四川大学学报(自然科学版)第45卷消除功能.在平台方面,使用ApacheFoundation下的全文检索工具Lucene作为检索平台,通过重新编写Lucene的分词模块来实现更为高效准确的分词程序.2Lucene全文检索引擎2.1Lucene简介Lucene目前是著名的ApacheJakarta家族中的一个开源项目⋯,它是一个基于Java的全文检索工具包,你可以利用它来为你的应用程序加人索引和检索功能.2.2Lueene系统功能介绍Lucene的将所有源码分为了7个模块

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。