【硕士论文】校园网搜索引擎系统的设计与实现.pdf

【硕士论文】校园网搜索引擎系统的设计与实现.pdf

ID:32034271

大小:2.07 MB

页数:59页

时间:2019-01-30

【硕士论文】校园网搜索引擎系统的设计与实现.pdf_第1页
【硕士论文】校园网搜索引擎系统的设计与实现.pdf_第2页
【硕士论文】校园网搜索引擎系统的设计与实现.pdf_第3页
【硕士论文】校园网搜索引擎系统的设计与实现.pdf_第4页
【硕士论文】校园网搜索引擎系统的设计与实现.pdf_第5页
资源描述:

《【硕士论文】校园网搜索引擎系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、山尔人学硕卜学位论文摘要随着校园网建设的迅速发展,校园网内的信息内容正在以惊人的速度增加着。如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。目前虽然已经有了像Google、百度这样优秀的通用搜索引擎,但是它们并不能适用于所有的情况和需要。对学术搜索、政府类站点、校园网的搜索来说,一个公平的排序结果是非常重要的。另外,由于互联网上信息量之巨,远远超出哪怕是最大的一个搜索引擎可以完全收集的能力范围。而且原有的校园网搜索引擎存在查准率、查全率不高,升级维护困难等局限性。因此,本着整合校园网资源的目的,为方便广大师生对校园网信息的获取

2、和使用以及其他人对山东大学的了解,本文设计并实现了一个灵活、可配置、具有良好可扩展性且效率较高的校园网搜索引擎系统。本文在研究web搜索引擎的基本原理、核心技术和处理流程的基础上,结合校园网搜索引擎的个性化需求,搭建了山东大学校园网搜索引擎系统。不仅完成了整个搜索引擎框架的设计,而且基本上完成了所有的开发工作。本文论述了系统开发的背景和国内外搜索引擎技术发展现状,并详细说明了该搜索引擎系统的丌发过程和方法。首先从功能需求和非功能需求两个方面对校园网搜索引擎的个性化需求进行分析。然后根据需求分析提出了实现目标和原则,从系统的功能架构和技术架构两个方面描述了系统的整体功能和总

3、体流程。在技术架构设计中,自行设计了插件机制,用于提高系统的可扩展性、灵活性、可维护性,并降低了设计和开发的复杂性。另外,采用Map/Reduce分布式处理模型作为存储和处理的基础,提高系统的并发处理能力,降低系统对硬件配置的要求。在详细设计阶段,具体描述了各个功能模块和插件机制的设计。其中,信息爬取模块采用了广度优先的爬取方式,索引和检索模块都是基于Lucene软件包实现的,所以还介绍了Lucene的相关内容。最后对实现过程中遇到的重要问题提出了详细的解决方案。系统实现部分描述了系统的运行环境和实现界面,并重点叙述了实现过程中的几个关键问题,如分词算法的实现以及链接分析

4、算法的实现等。最后对系统进行测试,并根据测试结果进行了性能分析。实验证明,与原有搜索引擎相比,新的搜索引擎系统神:检索效率和杏准率等方ifii郁有了质的提高。山尔人学硕十学位论文关键词:搜索引擎;插件;分布式;网络爬虫;Lucene山尔人学硕十学位论文第1章绪论1.1系统开发背景在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互连网带来的便利的同时,却面l临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。它们通过信息采集收集网上的信息,然后根据一定的规则建立索引来组织数据库,通过友好的界面供用户查询信息。实践证

5、明,搜索引擎是一个非常有用的信息检索工具¨删。未来的互联网都是以内容导向的,当人们打开浏览器时,首先连到搜索引擎再根据搜索引擎的查找结果连接到相关的页面。搜索引擎特指互联网上提供内容查询服务的网站,根据人们输入的查询内容查找索引数据库将找到的相关页面的链接提供给用户。随着山东大学办学质量的不断提高以及对校园信息化建设的逐步重视,学校迅速步入了一个信息化高速发展的阶段。在这个阶段中,学校的校园网正在不断的完善,给我校师生提供了一个良好的信息化教学,科研和管理平台。我校的教学、管理部门以及科研机构,都将步入完全的信息化时代。校内各种各样的信息将在校园网上发布,学校各项工作的效

6、率将得到大幅提高。但是,随着校园网建设的迅速发展,校园网内的信息内容正在以惊人的速度增加着,尤其是像山东大学这样的综合性大学的校园网。这就使得全校师生在茫茫网海中迅速定位有价值的信息变得比较困难。幸而随着互联网的不断进步,搜索引擎技术也在不断的完善和发展。但原有的校园网搜索引擎系统存在检索效率不高、查全率和查准率较低的局限性,而且不捌有自主产权,从而使得维护和升级比较困难。针对上述.问题,本文设计并实现了一个校园网搜索引擎系统。其目标就是使所有用户,无论是在校的师生还是想了解校园信息的其他人员,都可以通过校园网的服务器进行信息的检索,从而迅速的通过网络得到校内各部门提供的

7、各种信息。实验证明,与原有系统相比,新的搜索引擎系统在检索效率和查准率等方面都有了质的提高。山东人学硕十=学忙论文1.2国内外搜索引擎发展现状1.2.1国内外技术发展概况随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息。Internet上的信息资源随着Internet的发展而呈现出以下特点:信息量大而且分散:自治性强;信息资源多种多样;不一致和不完整性。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。搜索引擎‘3q1技术的基础是全文检索技术,国外对全文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。