计算机毕业论文范文

计算机毕业论文范文

ID:9896973

大小:1.19 MB

页数:12页

时间:2018-05-14

计算机毕业论文范文_第1页
计算机毕业论文范文_第2页
计算机毕业论文范文_第3页
计算机毕业论文范文_第4页
计算机毕业论文范文_第5页
资源描述:

《计算机毕业论文范文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、成人教育学院毕业论文(设计)论文题目:基于Internet的全文搜索引擎的模型设计专业:__计算机______________年级:__10级__________________学生姓名:__钱梦阳_________________学号:__z_____________指导教师:__商迎美_________________2012年04月22日-12-基于Internet的全文搜索引擎的模型设计钱梦阳摘要根据搜索引擎与信息获取的原理,设计了一个基于Internet的全文搜索引擎,该模型从技术上可以适用于任何有全文搜索需求的应用,并且由于基于Java语言

2、设计,从而特别适于跨平台应用。该模型还采用了数据库管理作业和多线程技术,从而使全文搜索的性能和效率得到了进一步的提高。关键词:搜索引擎;网络蜘蛛;分析器;索引中图分类号:文献标识码:A-12-目录摘要……………………………………………………………………2目录……………………………………………………………………3一、引言………………………………………………………………4二、搜索引擎系统分析………………………………………………4三、搜索引擎系统模型………………………………………………43.1从互联网上抓取图片……………………………………………53.2建立索

3、引数据库………………………………………………53.3在索引数据库中搜索……………………………………………63.4对搜索结果进行处理排序………………………………………6四、模型的组成结构…………………………………………………7五、搜索引擎实现机制………………………………………………95.1网络蜘蛛的实现机制……………………………………………95.2全文检索的实现机制……………………………………………105.2.1索引过程……………………………………………………105.2.2检索过程中的结果显示……………………………………10六、结论……………………………

4、…………………………………11参考文献………………………………………………………………12指导老师点评…………………………………………………………13-12-一、引言随着计算机技术和互联网技术的飞速发展,信息获取已经从手工获取,到计算机信息获取,以及到现在的通过网络进行信息获取。利用互联网,用户一方面可以快速、方便地接触到各种信息,但是另一方面通过普通浏览的方式很难在信息的海洋中找到真正需要的信息。要在浩如烟海的网络世界寻找需要的信息,作为现代信息获取技术的主要应用——搜索引擎(SearchEngine)是必不可少的。中国互联网络信息中心(CNNIC)

5、在京发布的“第十四次中国互联网络发展状况统计报告”显示,搜索引擎是用户在互联网上获取信息最主要的方式。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,出现了很多值得注意的动向。二、搜索引擎系统分析搜索引擎通常指的是基于Internet的搜索引擎,其作用是检索Web的内容。它们收集因特网上上亿个网页,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。在构造搜索引擎时,布尔模型是用得最普遍的模型。在布尔模型中,一个文档通过一个关键词条的集会来表示,这些词条都

6、来自一个词典。一个查询是由一些通过逻辑操作符号(如AND、OR和NOT)连接起来的关键词所组成。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询的条件。搜索引擎主要由网络蜘蛛(WebSpider)、索引(Index)与搜索(Search)引擎软件等部分组成。其实现原理,可以看作四步:从互联网上抓取网页(DataGathering)→建立Web内容索引数据库(Indexcreation)→在索引数据库中搜索(Searchinterface)→对搜索结果进行处理和排序(Datadisplay)。三、搜索引擎系统模型 下面给出基于Internet的

7、全文搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述:图1基于Internet的全文搜索引擎系统架构-12-3.1从互联网上抓取网页“网络蜘蛛”依据一定的网络协议在互联网中抓取、加工、整理网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(本文模型采用的是广度优先)。广度优先是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓

8、取速度。两种策略的区别,下图的说明会更加明确。图2网络蜘蛛抓取网页的两种策略的区别3.2建立索

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。