基于Lucene垂直搜索引擎的研究与实现

基于Lucene垂直搜索引擎的研究与实现

ID:36804215

大小:3.87 MB

页数:70页

时间:2019-05-15

基于Lucene垂直搜索引擎的研究与实现_第1页
基于Lucene垂直搜索引擎的研究与实现_第2页
基于Lucene垂直搜索引擎的研究与实现_第3页
基于Lucene垂直搜索引擎的研究与实现_第4页
基于Lucene垂直搜索引擎的研究与实现_第5页
资源描述:

《基于Lucene垂直搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安科技大学硕士学位论文基于Lucene垂直搜索引擎的研究与实现姓名:徐海申请学位级别:硕士专业:计算机应用技术指导教师:李军民20090422论文题目:基于Lucene垂直搜索引擎的研究与实现专业:计算机应用技术硕士生:徐海(签名)盏盆三蜀指导教师:李军民(签名)李狁z摘要随着Internet和WWW的迅速发展,Intemet上的资源同趋丰富,人们也越来越多地依赖网络进行学习和研究。为了帮助人们在浩如烟海的网络中得到有用的信息,基于Intemet的各类搜索引擎应运而生并得到了迅速发展。目前,人们在网络上搜索信息主要利用百度,Google等通用搜索引擎,这类搜索引擎功能已经十分强大,基

2、本可以满足用户的需求,但是当用户搜索一些专业信息时,这类搜索引擎往往显得力不从心。垂直搜索引擎的出现,正是为了解决此类问题。首先,本文论述了垂直搜索引擎的研究意义及体系结构,并深入研究了垂直搜索引擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。其次,本文对Lucene开发包进行深入的学习研究,对比了其本身的中文分词方法及KTDictSeg分词方法,采用对中文分词效果较好的KTDictSeg分词方法对所提取的内容进行分词。最后,本文设计并实现了威客任务信息垂直搜索引擎系统,包括主题蜘蛛模块,信息提取模块,索引与检索模块。在主题蜘蛛模块采用SharkSearch算法来对未

3、处理的URL进行分析,提高了对主题信息采集的准确度;在信息提取模块,采用HtmlParser文档解析方法对采集的页面进行信息提取;在索引与检索模块,针对Lucene中的得分算法没有很好的体现网页在网站中的位置信息这一不足,设计了一种改进的解决方案,将文档的基本得分与文档在网页中的位置信息以及文档本身的特点很好的结合起来,以提高对搜索结果排序的准确度,由此增强了搜索的精确度。关键词:垂直搜索引擎;主题蜘蛛;Lucene;信息检索;中文分词研究类型:应用研究SubjectSpecialty:TheResearchandDesignonVerticalSearchEngineBasedonL

4、ucene:ComputerApplicationTechnologyName:XuHaiInstructor:LiJunMinABSTRACT(Signature)WiththerapiddevelopmentofInternetandWWW:resourcesontheInternetbecomemore肌dmorea_bulldant.AndpeopleareincreasinglydependentontheInternettostudyandresearch,InordertohelppeoplegetusefulinformationinabroadarrayofInter

5、netinformation’v撕ouSIntemet.basedinformationretrievalservicescanleintobeingandhavebeendeVelopedrapidly.Currently,peoplesearchforinformationontheIntemetprimarily恤DugnBalDu.Googleandothergeneralsearchengines.Thefunctionofthesesearchengineshayebeens.咖ngandtheycallmeetmostusers’needs.However,弱forpro

6、fessionalthemes,sucnsearchengineswillbeinsufficient.TheemergenceofverticalsearchenginesISspecificallYforsolvingthisproblem.First.inthispaper,wediscussthesignificance,architectureoftheverticalsearchen91neandstudytheverticalengines’coretechnologyincludingsubjectrelevancyJudgments,ChineseWordSegmen

7、tationtechnology,webrankingtechnologyandSOon·Second.Lucenepackageisstudieddeeplyinthispaper,andcomparetheChineseWordSe田:TlentationwhichLueeneuseswithKTDictSeg,thenUSeKTDictSegwhichperformsbetterthantheformermethodtosegmentwo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。