全文搜索引擎的设计与实现毕业论文.doc

全文搜索引擎的设计与实现毕业论文.doc

ID:152895

大小:1.83 MB

页数:64页

时间:2017-06-28

全文搜索引擎的设计与实现毕业论文.doc_第1页
全文搜索引擎的设计与实现毕业论文.doc_第2页
全文搜索引擎的设计与实现毕业论文.doc_第3页
全文搜索引擎的设计与实现毕业论文.doc_第4页
全文搜索引擎的设计与实现毕业论文.doc_第5页
资源描述:

《全文搜索引擎的设计与实现毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、江汉大学本科毕业论文(设计)全文搜索引擎的设计与实现毕业论文目录1绪论11.1课题背景及介绍11.2课题研究目的及应用11.3课题研究范围11.4小结22搜索引擎相关理论研究32.1Web搜索引擎原理和结构32.1.1搜索引擎三段式工作流程32.1.2搜索引擎整体结构42.2网页收集52.1.2爬虫的工作流程52.1.3爬虫的抓取策略52.1.4链接数据库的建立62.1.5链接数据库的更新62.3网页预处理62.3.1建立索引页面库72.3.2分词92.3.3倒排索引102.4查询服务122.4.1查询方式和匹配122.4.2结果排序132.4.3文档摘要142.5小结153NUTCH相关

2、框架研究163.1Lucene研究163.1.1Lucene概述163.1.2Lucene如何对索引进行搜索163.1.3Lucene增删改索引的API173.2Nutch研究213.2.1Nutch概述213.2.2研究Nutch的原因213.2.3研究Nutch的目标223.2.4Nutch和Lucene比较223.2.5Nutch常用命令223.3Solr研究283.3.1Solr概述2862江汉大学本科毕业论文(设计)3.3.2Solr索引283.3.3Solr搜索293.3.4Lucene索引查看工具Luke313.4Hadoop研究323.4.1Hadoop概述323.4.2H

3、adoop单机本地模式343.4.3Hadoop单机伪分布式模式343.5小结364全文搜索引擎系统分析与技术选型374.1系统目标需求374.2系统功能项374.3可行性分析与决策374.3.1技术可行性384.3.2经济可行性384.4小结395全文搜索引擎系统设计与实现405.1系统功能图405.2系统实体设计405.2.1实体405.2.2实体的属性415.2.3实体间的联系425.3系统实现425.3.1系统需要的环境425.3.2系统中Nutch的配置435.3.3对整个网络进行抓取445.3.4Solr安装配置和使用475.3.5给Solr4.2添加mmseg4j485.3.

4、6客户端应用程序的实现495.4小结566全文搜索引擎系统评价576.1系统特色576.2系统存在的不足和解决方案576.2.1系统存在的不足576.2.2改进措施586.2.3毕业设计心得与收获587结束语59致谢60参考文献6162江汉大学本科毕业论文(设计)1绪论1.1课题背景及介绍随着互联网的快速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。为了解决此问题,出现了网络搜索引擎。网络搜索引擎中以基于WWW的搜索引擎应用范围最为广泛。网络搜索引擎是指对WWW站点资源和其它资源进行索引和检索的一类检索机制。全文搜索引擎是目前最为普及的应用,通过

5、从互联网上提取各个网站的信息(以网页文字为主)建立数据库,用户查询的时候便在数据库中检索与用户查询条件相匹配的记录,最终将匹配的那些记录,按一定的排列顺序显示给用户。国外具代表性的全文检索搜索引擎有Google、Yahoo、Bing等,国内著名的有百度、中搜等。目前网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法之一。该课题要求设计一个Web应用程序,学习搜索引擎的基本原理和设计方法,应用开源的全文搜索引擎Lucene框架和Lucene的子项目Nutch实现一个全文搜索引擎。1.2课题研究目的及应用针对搜索引擎广阔的应用前景以及分析国内

6、外搜索引擎的发展现状,根据搜索引擎系统的工作原理设计一种基于Internet的全文搜索引擎模型,它从互联网上获取网页,建立索引数据库,并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率,从技术上可以适用于任何有全文搜索需求的应用。1.3课题研究范围一般来说搜索引擎都由:用户接口,搜索器,索引生成器和查询处理器4个部分组成。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。62江汉大学本科毕业论文(设计)搜索器用

7、于WWW的遍历和网页的下载。从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。索引生成器对搜索器收集到的网页和相关的描述信息经索引组织后存储在索引库中。查询处理器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。1.4小结本章内容主要介绍了课题背景,课题目的,及课

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。