基于lucene垂直搜索引擎关键技术的研究

基于lucene垂直搜索引擎关键技术的研究

ID:34808052

大小:6.44 MB

页数:68页

时间:2019-03-11

基于lucene垂直搜索引擎关键技术的研究_第1页
基于lucene垂直搜索引擎关键技术的研究_第2页
基于lucene垂直搜索引擎关键技术的研究_第3页
基于lucene垂直搜索引擎关键技术的研究_第4页
基于lucene垂直搜索引擎关键技术的研究_第5页
资源描述:

《基于lucene垂直搜索引擎关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着网络信息的迅速增长,通用搜索引擎的搜索范围为整个互联网的所有信息,从而信息更新的时效性差,导致了通用搜索引擎的搜索结果多而杂的情况,不能满足特定用户对搜索结果的精确化、深入化的要求。于是,针对特定领域用户的特定需求而产生垂直搜索引擎。垂直搜索引擎专注于获取针对特定领域的信息并且提供相应信息的检索服务。本文首先介绍垂直搜索引擎的结构,工作流程和特点,并叙述垂直搜索引擎相关技术的研究现状。进而分析并研究垂直搜索引擎的一些关键性技术如主题爬虫的工作流程及主题爬行策略、网页主题信息提取算法和网页排序算法。在探讨网页主题信息提取算法中,根据现有的HTML网页的结构特点,把HTM

2、L文件中的文本内容划分成若干块,统计各个文本块内的文字数,从而找出文本分布密集的区域,把此区域作为网页正文区域,从而提取网页的主题信息,通过实验与数据分析本文提出的基于文本块的网页主题信息提取算法有较大的准确度。本文通过对现有的词频位置加权算法、HITS算法和PageRank算法进行分析,得到改进的PageRank算法,该算法利用余弦相似度算法对相链接的网页的相似度进行分析,还在算法中加入时间因子,反映了网页的年龄。改进的PageRank算法同时利用了网页的链接结构和网页之间的内容相关性,避免了原PageRank算法的主题漂移和偏向于旧网页的缺点,通过实验证明改进的PageR

3、ank算法在很大程度上改进了排序的效果。最后本文对全文检索工具包Lucene的相关技术进行分析和研究,包括Lucene的系统架构,索引机制、搜索机制和评分机制。在此基础上,利用Lucene全文检索工具包设计并实现了一个面向校园网内教学学习资源的小型垂直搜索引擎原型。该垂直搜索引擎原型利用Heritrix实现信息的搜集,并且利用Lucene实现搜索引擎的索引模块和搜索模块。针对该垂直搜索引擎原型的实际需求,利用Paoding分词器扩展Lucene的中文分词功能,利用ApachePOI实现Office文档的解析,包括Word文档、PowerPoint文档、Excel文档,并且利用

4、Xpdf实’现对PDF文档的解析,还实现了对仅t文档和Html文档的解析。同时,该垂直搜索引擎原型对Lucene的评分机制进行扩展,利用改进的PageRank算法改进网页排序的效果。通过测试运行,该垂直搜索引擎原型达到了预期的目标。关键词:垂直搜索引擎,Lucene,网页主题信息提取,网页排序ⅡABSTRACTWiththerapidgrowthofwebinformation,becausesearchscopeofgeneralsearchenginesarealloftheinformationoftheweb,updatingspeedoftheinformation

5、isslow,whichresultsinvariedandexcessivesearchresults.ThisconsequenceCall’tsatisfythedemandsofspecifiedusers,whoneedaccurateanddeepsearchresults.Therefore,aimingatspecifieddemandsofusersinspecifieddomain,verticalsearchenginesemerge.Verticalsearchenginesfocusonobtainingtheinformationofspecifi

6、eddomainandprovideretrievalservicesofcorrespondinginformation.Thispaperfirstlyintroducesthestructureofverticalsearchengines,statingworkingprocessandcharacteristics,andstatesthepresentresearchsituationofVerticalSearchEngine’srelatedtechnologies.Furthermore,thispaperanalyzesanddiscussessomeke

7、ytechnologiesofverticalsearchengines,such觞theworkingprocessoftopicalcrawlersandtopicalsearchstrategies,extractingalgorithmoftopicalinformationinwebpagesandtherankingalgorithmofwebpages.Inthestudyofextractingalgorithmoftopicalinformationinwebpages,accordi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。