基于lucene的垂直搜索引擎研究与实现

基于lucene的垂直搜索引擎研究与实现

ID:35057721

大小:3.08 MB

页数:66页

时间:2019-03-17

基于lucene的垂直搜索引擎研究与实现_第1页
基于lucene的垂直搜索引擎研究与实现_第2页
基于lucene的垂直搜索引擎研究与实现_第3页
基于lucene的垂直搜索引擎研究与实现_第4页
基于lucene的垂直搜索引擎研究与实现_第5页
资源描述:

《基于lucene的垂直搜索引擎研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:基于Lucene的垂直搜索引擎研究与实现论文作者:胡博学科:计算机技术指导教师:蒋宗礼论文提交日期:2016年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307135密级:公开北京工业大学工学硕士学位论文题目:基于Lucene的垂直搜索引擎研究与实现英文题目:REARCHANDIMPLEMENTATIONOFVERTICALSEARCHENGINEBASEDONLUCENE论文作者:胡博学科专业:计算机技

2、术研究方向:计算机软件技术申请学位:工程硕士专业学位指导教师:蒋宗礼教授所在单位:计算机学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:胡博日期:2016年6月28日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定

3、,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:胡博日期:2016年6月28日导师签名:蒋宗礼日期:2016年6月28日摘要摘要垂直搜索引擎作为一种面向某一主题或行业的网络信息检索工具,索引数据趋于结构化,检索范围趋于行业化,能够快速、精确地定位与查询相关的文档。本文主要围绕基于信息检索工具Lucene的垂直搜索引擎展开研究工作。通过深入研究Lucene基础排序算法和目前流行的检索模型,提出了一种融合位置相关和概率排序的Lucene排序算法的改

4、进方法。通过分析垂直搜索引擎的基本工作原理及架构,面向汽车主题构建了一个小型的垂直搜索引擎系统。搜索引擎中应用了改进的Lucene排序算法为检索模块提供排序支持。本文的主要研究工作如下:第一,为了体现特征词在文档中的相关位置特征对于词的重要性影响,提出了一种位置相关的查询权重算法。利用查询词在文档中的不同位置及频率信息,改进词权重的TF-IDF计算方法,获得位置相关的查询词权重。第二,以Lucene基础排序算法为基础,提出了一种融合位置相关和概率排序的改进方法。首先,考虑到查询词在文档中的位置特征对文档相关性评分的影响,将位置相关的查询权重值融入排序算法的评分公式中。

5、然后,利用概率排序原理,将基于朴素贝叶斯分类算法的文档概率排序值融入排序算法的评分公式中。第三,构建了一个小型的汽车垂直搜索引擎,包括采集汽车产品信息、解析网页文档、提取结构化信息、建立索引文件和检索相关文档等过程。其中,采用了融合位置相关和概率排序的Lucene排序算法对检索结果进行排序。第四,设计实验比较改进算法与Lucene基础排序算法在搜索质量上的差异。实验结果表明,与Lucene基础排序算法相比,使用融合位置相关和概率排序的改进算法后,检索的准确率有了较大幅度的提高,召回率和F值较为稳定且均有不同程度的提高。改进的排序算法能够有效的解决原算法中查询的位置相关

6、性问题和理论支撑问题,提高检索的准确率。该算法具有很强的独立性和可重用性,可以为面向不同的主题的垂直搜索引擎提供排序支持。汽车垂直搜索引擎系统具有简明的构架和函数接口,为后续更新和完善系统各模块的功能提供了方便。关键词:垂直搜索引擎;Lucene;排序算法;位置相关;概率排序-I-AbstractAbstractVerticalsearchengineisakindofinformationretrievaltool,itsindexdatatendstobestructured,andtheretrievalrangetendstobeindustry.Compar

7、edwithgeneralsearchengines,theretrieveresultsofverticalsearchenginearemorepreciseandaccurate.Theresearchfocusesonverticalsearchenginesbasedontheinformationretrievaltool"Lucene".BasedontheLucenebasicsortingalgorithmandpopularretrievalmodels,weproposeasortingalgorithmoffusionposi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。