webservice的网络爬虫设计与实现

webservice的网络爬虫设计与实现

ID:18552587

大小:1.55 MB

页数:74页

时间:2018-09-19

webservice的网络爬虫设计与实现_第1页
webservice的网络爬虫设计与实现_第2页
webservice的网络爬虫设计与实现_第3页
webservice的网络爬虫设计与实现_第4页
webservice的网络爬虫设计与实现_第5页
资源描述:

《webservice的网络爬虫设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、毕业设计(论文)说明书学院软件学院专业软件工程年级07级姓名指导教师2011年6月15日毕业设计(论文)任务书题目:面向webservice的网络爬虫设计与实现学生姓名学院名称软件学院专业软件工程学号指导教师职称教授一、原始依据(包括设计或论文的工作基础、研究条件、应用环境、工作目的等。)WebServices技术是一种基于XML语言和标准的网络协议实现的分布式计算技术。WebServices技术是可以改变软件产业面貌和软件应用模式的技术之一。WebServices技术可以将Internet上的各种信息资

2、源和服务功能整合在一起,在任何时间、任何地点向用户提供优质的服务。WebServices技术还有助于改变企业对IT系统的应用方式和依赖程度。所以WebServices技术成为了网络上的主流技术之一,随之也来的是大量的开发人员开始开发Web服务,随着时间的推移,网络上出现了大量的Web服务。但是,大量的Web服务分布在网络中的各个地方,给用户寻找特定功能的服务造成了不小的麻烦,也给服务开发者在原有的服务上进行再次开发造成了不便。本课题的任务就是研究如何把网络上分散的Web服务搜集在一起。二、参考文献[1]孙

3、立伟,何国辉,吴礼发;网络爬虫技术研究;ComputerKnowledgeandTechnology电脑知识与技术;Vol.4,No.15,May2010,pp.4112-4115[2]李盛韬,余智华,程学旗.Web信息采集研究进展【J】.计算机科学,2003.[3]S.Chakrabarti,M.vandenBergandB.Dom.FocusedCrawling:ANewApproachtoTopic-SpecifiWebResourceDiscovery[C].InProceedingsofthe8

4、thInternationalWorldWideWebConference,Toronto,Canada,1999.[4]郑力明,易平;DesignofCrawlerBasedonHTMLParserInformationExtraction;微计算机信息,MicrocomputerInformation;09,June,2009。[5]J.Cho,H.Garcia-Molina.Theevolutionofthewebandimplicationsforanincrementalcrawler[C].I

5、nProceedingsofthe26thInter-nationalConferenceonVeryLargeDatabase,Cairo,Egypt,2000.[6]李文泽;个性化垂直搜索引擎研究;河南大学;2007-11-07;[7]曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008.[8]周立柱,林 玲.聚焦爬虫技术研究综述[J].计算机应用,2005年9月.[9]S.Chakrabarti,M.vandenBergandB.Dom.FocusedCrawling:ANewAppr

6、oachtoTopic-SpecificWebResourceDiscovery[C].InProceedingsofthe8thInternationalWorldWideWebConference,Toronto,Canada,1999.[10]陈汶滨,夏学梅.基于聚焦爬虫的手机天气预报系统[J].今日科苑.2009年第2期.[11]邱哲,符滔滔.开发自己的搜索引擎--Lucene2.0+Heritrix.人民邮电出版社,2007-4.[12]罗刚.自己动手写网络爬虫.清华大学出版社.2010-10-

7、1;[13]Heritrix官方网站[EB/OL].crawler.archive.org[14]seeda网站[EB/OL].webservices.seekda.com[15]网络爬虫[EB/OL].http://baike.baidu.com/view/284853.htm三、设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。)本系统将要达到以下目标:l提供给用户一个种子文件,用户可以设置抓取Web服务的网站地址。l根据种子地址,搜索种子网站上的Web

8、服务。l把搜索到的Web服务相关信息存入数据库中。为了达到以上目的,本系统将对Heritrix开源框架进行扩展,并针对服务网站上服务的特点选择合适的爬虫抓取过程。当服务网站提供了详细的服务信息,且网站服务的分布结构是有规律的,那么通过对网站结构的分析,可以得到网站中服务分布的一颗树,并用形式化语言描述这棵树,而经过扩展之后的爬虫对这颗树进行遍历,就实现了抓起网络上分布的WebService。当服务网站没有提供服务的信息,只提供

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。