面向动态页面的网络爬虫系统的设计与实现

面向动态页面的网络爬虫系统的设计与实现

ID:33605906

大小:6.88 MB

页数:65页

时间:2019-02-27

面向动态页面的网络爬虫系统的设计与实现_第1页
面向动态页面的网络爬虫系统的设计与实现_第2页
面向动态页面的网络爬虫系统的设计与实现_第3页
面向动态页面的网络爬虫系统的设计与实现_第4页
面向动态页面的网络爬虫系统的设计与实现_第5页
资源描述:

《面向动态页面的网络爬虫系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、南开大学硕士学位论文面向动态页面的网络爬虫系统的设计与实现姓名:张莹申请学位级别:硕士专业:计算机软件与理论指导教师:许静2012-05摘要互联网从诞生到现在,已经聚集了海量的信息资源,然而这些信息在网络中的存放杂乱无章,使人们在获取信息的时候遇到困难,搜索引擎是的产生就是为了帮助人们更好地从互联网中检索信息,它已经成为互联网中最不可或缺的工具。本文在学习了网络爬虫程序的工作原理、遍历策略、网页排序算法、DeepWeb等知识的基础上,设计并实现了一个能自动从目标网站中提取各种页面的系统。网络爬虫程序是搜索引擎中用于下载We

2、b页面的重要组成部分,随着互联网技术的不断发展变化,对于如何增强网络爬虫程序的工作能力来适应变化的Web应用程序已经成为国内外学习研究的热点。传统的网络爬虫程序只能抓取互联网表层的可索引页面,它们忽视了大量的必须经过动态技术才能获取的处于网络深层的页面,因此研究面向动态页面的网络爬虫系统非常具有实用价值。本文根据动态页面产生的多种原因,如利用HTML表单查询数据库动态生成页面、AJAX技术动态执行脚本后生成新的页面,提出了多种提取动态页面的方案,使得网络爬虫系统能够从目标网站中得到更多传统爬虫系统无法获取的Web页面。面向

3、动态页面的网络爬虫系统使用多线程对Web页面进行同步的下载和分析,提取Web页面中的所有静态链接、表单、JavaScript脚本代码以及JavaScript页面事件,通过模拟用户填写表单和触发事件执行脚本来获取页面中的动态链接,并将提取的所有链接使用布隆过滤器存储,将链接通过多个互不相关的hash函数映射到一快内存的多个比特位上,能够迅速地判断链接是否重复,大大地提高了效率,最后对该系统进行了全面的测试,验证了系统实现的正确性和稳定性。关键词网络爬虫布隆算法动态页面AJAXAbstractFrombirthtonow,In

4、ternethasgatheredvastamountsofinformationresources,andtheresourcesarestoredinthenetworkpromiscuously,SOthatpeoplemayhavedifficultiesinsearchingInteractinformation.ThesearchengineistheproductiontohelppeopleretrieveinformationfromInteractmoreeasily,ithasbecomeanimpo

5、rtanttoolinIntemet.ThepaperdesignsandimplementsasystemwhichCanextractpagesfromthetargetsiteautomaticallybylearningWebcrawlerprogram,traversalstrategy,pagerankingalgorithmandDeepWeb.WebcrawlerprogramisanimportantpartofthesearchenginetodownloadWebpages.Traditionalwe

6、bcrawlerCanonlyachievethesurfaceWebofInternet,whichcanbereachedthroughhyperlinks.Mostofthecrawlersignorethelargenumberofdynamicpages,theyarehidingdeepinthenetwork.Therefore,itismeaningfultostudywebcrawlersystembasedondynamicpages.Dynamicpagesaregeneratedbyavariety

7、ofreasons,suchasusinganHTMLformtoquerythedatabase,orusingAJAXtechnologydynamicallyexecutescripttogenerateanewpage.Thispaperpresentsavarietyofprogramstoextractthedynamicpages,anddesignsandimplementsaWebcrawlersystemwhichusesmultiplethreadstodownloadandanalyzeWebpag

8、es,thenextractsallhyperlinks,forms,scriptcodeandJavaScfiptpageeventsfromWebpage.Thissystemcanobtaindynamiclinksinthepagebysimulatingtheusertofilloutthef

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。