基于网络爬虫的搜索引擎设计与实现—毕业设计论文

基于网络爬虫的搜索引擎设计与实现—毕业设计论文

ID:43370357

大小:384.09 KB

页数:28页

时间:2019-10-01

基于网络爬虫的搜索引擎设计与实现—毕业设计论文_第1页
基于网络爬虫的搜索引擎设计与实现—毕业设计论文_第2页
基于网络爬虫的搜索引擎设计与实现—毕业设计论文_第3页
基于网络爬虫的搜索引擎设计与实现—毕业设计论文_第4页
基于网络爬虫的搜索引擎设计与实现—毕业设计论文_第5页
资源描述:

《基于网络爬虫的搜索引擎设计与实现—毕业设计论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、本科毕业设计题H:茶T•网络爬虫的搜索引繫设计乌竜孤系别:专业:辻算机科学与技术班级学号:姓名:同组人:_____指导教师:教师职称:协助指导教师:教师职称:摘要本文从搜索引藥的应用出发,探讨了网络蜘蛛在搜索引系中的作用和地住,捉出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的妖础上,研究了页血爬取、解析等策略和算法,并使用Java实现了一个N络蜘蛛的程序,对其运行结果做了分析。关键字:爬虫'搜索引擎AbstractThepaper,discussingfromtheapplicationofthesearchengine,searchestheimporte

2、inceandfunctionofWebspiderinthesearchengine,andputsforwarditsdemandoffundionanddesign・OnthebaseofanalyzingWebSpider'ssystemstrtuctureandworkingelements,thispaperalsoresearchesthemethodandstrategyofmultithreadingscheduler,WebpagecrawlingandHTMLparsing.Andthen,aprogramofwebpagecrawlingbasedonJav

3、aisappliedandanalyzed・Keyword:spider,searchengine固录mmAbstract■•项目背景1・1搜索引擎现状分析1・2课题开发背景1・3网络爬虫的工作原理系统开发工具和平台2.1关于java语言2.2Jbuilder介绍2.3servlet的原理3.1系统总体结构1系统类图四、系统详细设计4.1搜索引擎界面设计2servlet的实现4.3网页的解析实现4.3.I网页的分析4・3.2网页的处理队列4.3.3搜索字符串的匹配4.3.4网页分析类的实现••…4.4网络爬虫的实现五、系统测试六、结论mm参考文献……一、项忖背景1・1搜索引擎现状分

4、析互联网被普及前,人们査阅资料首先想到的便是拥育大虽书籍的图书馆,而在当今很多人都会选择-•种更方便.快捷.全而.准确的方式——互联网•如果说互联网是一个知识宝库.那么搜索引擎就是打开知识宝阳的一把钥匙•搜索引擎是随着uni信息的述速常加,从1995年开始逐渐发展起來的技术,用】嘟助互联网用户查询信息的搜索工具•搜索引繁以一定的策略在互联网中搜集、发现信息,对信息进行理解.提取.组织和处理,并为用户提供检索服务,从而起到信息导航的H的.目前搜索引樂已经成为倍受网络用户关注的焦点,也成为汁算机工业界和学术界争相研丸.开发的对彖.目询絞流行的搜索引擎已有Google.Y^xx>,Inf

5、oseek,baidu等•出于商业机密的考區「1前各个搜索引擎使用的Ciwler系统的技术内暮…般都不公开,现有的文献也仅限于槪耍性介绍.随着Web信息资源呈抬数级增长及血b信息资源动态变化,传统的搜索引擎提供的信息检索服务己不能满足人们日益増长的对个性化服务的需耍.它们正而临着巨大的挑战•以何种策略访问驭X提岛搜索效率,成为近年來专业搜索引率网络爬虫研究的主要问题Z—。4)2课题开发背最目前虽然有很多种搜索引擎,但齐种搜索引擎基木•I•由三个组成部分:<1)在互联网匕采集信息的网贝采集系统:网页采集系统主要使用•种工作在互联网匕的采集信息的《网络蜘蛛”。“网络蜘蛛"实际上是-・些

6、基于WPh的程序,利用主页中的超文本钱接遍历恤利用能够从互联网上自动收集网页的咽络蜘蛛“程序,自动访问互联网.并沿着任何网贞中的所有IRL爬到其它网页.亜复这过程.并把爬过的所有网页收集到网页数据库中。⑵刘采集到的信息进行索引并建立索引库的索引处理系统:索引处理系统対收集冋來的网页进行分析,捉取郴关网页信息(包括网页所在皿編码类型.页血内容包含的关键词、关键词位•因八生成时间.大小.与其它网页的链接关系等),根据一定的相关度算法进行大册复杂计算,得到每一个网页针对页而内容中及超链中每一个关键词的相关度(或亜要性几然后建立索引并存人到网页索引数据库中•索引数据瘁可以采用通用的大型数据

7、庄,如Otvicle.Sybase等,也可以自己定义文件格式进行存放.为了保证索引数据带中的信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性•索引数据库的更新是通过启动“网络蜘蛛”对赋)空间重新搜索来实现的.完成用户提交査询请求的网页检索器:网页检索器-•般是一个4i»ob服务器上运行的服务器程序,它首先接收用户提交的査询条件,很据査询条件对索引阵进行査找并将査询到的结果返回给用户•当用戸使用搜索引粲査找信息时,网页检索器接收用户捉交的关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。