nutch中庖丁解牛中文分词的实现与评测

nutch中庖丁解牛中文分词的实现与评测

ID:34624001

大小:386.63 KB

页数:5页

时间:2019-03-08

nutch中庖丁解牛中文分词的实现与评测_第1页
nutch中庖丁解牛中文分词的实现与评测_第2页
nutch中庖丁解牛中文分词的实现与评测_第3页
nutch中庖丁解牛中文分词的实现与评测_第4页
nutch中庖丁解牛中文分词的实现与评测_第5页
资源描述:

《nutch中庖丁解牛中文分词的实现与评测》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据2010年第6期计算机与现代化JISUANJIYUXIANDAIHUA总第178期文耄编号:1006-2475(2010)06-0187-04Nutch中庖丁解牛中文分词的实现与评测孙殿哲1,魏海平2,陈岩1(1.辽宁石油化工大学研究生学院,辽宁抚顺113001;2.辽宁石油化工大学计算机与通讯工程学院,辽宁抚顺113001)摘要:中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的

2、庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空问节省20%一65%。关键词:中文分词;评分机制;庖丁解牛.中图分类号:TP311.1文献标识码:Adoi:10.3969/i.issn.1006-2475.2010.06.053RealizationandEvaluationofPaodingjieniuChine

3、seSegmentationinNutchSUNDian.zhel,WEIHai—pin92,CHENYahl(1.GraduateSchool,LiaoningShihuaUniversity,FushunI13001,China;2.SchoolofComputerandCommunicationEngineering,LiaoningShihuaUnivenfity,Fushun113001,China)Abstract:Chinesewordsegmentationisoneofmain

4、challengesforsearchengine.Byanalyzingthescoringmechanismofthedoe-umentofNutch,forthesituationthatwordsegmentationofChinesewordsegmentationmoduleofNutehdoesnotconformtOChi—neselanguagehabit,thispaperproposestollsePaodingiieniuChinesewordsegmentationmo

5、dulebasedOildictionarytosegmemthedatacollectedbyNutch,describesthemethodthathowtorealizePaodingjieniuChinesewordsegmentationmoduleOnNutch,thenteststhewordsegmentationmodule.ExperimentsshowthatthewordsegnmntationresultofPaodingjieniuewordsegmentationm

6、oduleinoreconformstoChineselanguagehabit,andthecoverageoftermsaremorebalancedfordoenments。inaddition,20%一65%ofthestoragespaceofindexfileissaved.Keywords:Chinesewordsegmentation;scoringmechanism;Paodingjieniu0引言合,实现Nu比h的中文分词。Nutch是用Java实现的开源搜索引擎,它提供了运

7、行自己的搜索引擎所需的全部工具⋯。中文分词影响着搜索结果的相关度排序及搜索的效率和准确度,因此好的搜索引擎必须处理好中文分词。Nutch的分词模块对英文的切分比较完善,对中文只进行单字切分,若要实现较好的中文信息的搜索查询,就需要在Nuteh中改善中文分词处理的方法。庖丁解牛分词模块具有效率高、分词速度快、分词准确度高的特点。因此,本文将庖丁解牛分词模块与Nutch相结1Nutch简介Nuteh是Lucene[2’之上创建的搜索引擎口】。Lu—cene不是一个完整的全文检索引擎㈨J,而是一个用于

8、实现全文检索的软件库。很多开发者希望能有一套完整的开源搜索引擎系统,加快目标应用系统的开发进度。2004年Nutch应运而生。Nutch是一个完整的Java应用系统,以Lucene为基础实现了搜索引擎的应用。收稿日期:2010-02-22作者简介:孙殿哲(1982.),男,辽宁瓦房店人,辽宁石油化工大学研究生学院硕士研究生,研究方向:计算机应用,网络安全;魏海平(1964.),男,河北张家口人,辽宁石油化工大学计算机与通讯工程学院教授,硕士生导师,研究方向:计算机网络安全技术与多媒体技术;陈岩(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。