网页数据自动采集设计与实现-用php实现网站信息自动批量采集

网页数据自动采集设计与实现-用php实现网站信息自动批量采集

ID:18079359

大小:1017.24 KB

页数:50页

时间:2018-09-13

网页数据自动采集设计与实现-用php实现网站信息自动批量采集_第1页
网页数据自动采集设计与实现-用php实现网站信息自动批量采集_第2页
网页数据自动采集设计与实现-用php实现网站信息自动批量采集_第3页
网页数据自动采集设计与实现-用php实现网站信息自动批量采集_第4页
网页数据自动采集设计与实现-用php实现网站信息自动批量采集_第5页
资源描述:

《网页数据自动采集设计与实现-用php实现网站信息自动批量采集》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10151论文成绩:学生学号:2220053119大连海事大学┊┊┊┊┊┊┊装┊┊┊┊┊┊┊订┊┊┊┊┊┊┊线┊┊┊┊┊┊┊毕业论文二○○九年六月网页数据自动采集设计与实现——用PHP实现网站信息自动批量采集专业班级:计算机科学与技术一班姓名:陈能指导教师:刘朝斌信息科学技术学院内容摘要随着互联网的不断普及,政府部门、企业及文化传媒等各种类型的组织均将互联网作为自己的信息发布方式之一,网络上的信息资源越来越丰富,这使得人们可以通过互联网了解更多的信息。但是,由于Internet网上的资源信息呈指数级增长,不仅仅是数量上难以计数,堪称海量,而且信息种类也

2、涵盖了这个多元世界的方方面面。这样无论对于个人还是网站管理人员,想要收集到大量关于某一方面或者多方面的信息,仅仅通过手工方式存储到数据库或者文件中,需要耗费大量时间和人力来拷贝、整理、存储。这种低级的重复劳动是让人都难以忍受的。在这种手工方式难以完成任务并且浪费大量的宝贵时间的情况下,同时由于Web资源大多数都是以网页形式显示给用户浏览的。无论是静态页面,还是动态页面,网页的固定格式使得自动采集网页信息成为可能。本论文正是在这种情况下研究如何实现网站信息的自动采集。在论文的设计中,依据Web网页的格式和XML的格式一些共同特征,然后采用强大的正则表达式将所有满足

3、要求的信息提取出来,并获得相关的内容,添加到数据库中或者保存到文件中,实现自动采集。本论文的采集系统选用LAMP构架的Web应用开发平台。最终实现在多个平台(Linux,Windows等)下,对多个站点的信息自动采集和可选的手动采集方式。并可以对采集的内容实现再处理,同时并对采集站点和采集结果等进行管理。最终实现一个最基本、简单但是完善的采集系统。关键字:信息采集、LAMP、正则表达式、过滤、自动提取。ABSTRACTWiththecontinuouspopularityoftheInternet,governmentdepartments,enterprise

4、sandtheculturalmediaandsomeothertypesoforganizationsregardastheInternetasoneofthewaysofinformationdissemination.TherearemoreandmoreabundantresourcesintheInternet,whichpeoplecanlearnmoreinformationfromtheInternet.However,astheresourcesontheInternetexponentiallyincrease,anditismassivea

5、nddifficulttocountthenumber,thekindofinformationalsocoversallaspectsofthismulti-facetedworld.Soitcostsalotoftimetocopy,collate,storetheinformationinthedatabaseorfile,nomattertheyareindividualsormanagerswhowanttomanuallycollectalargenumberofareasonawiderangeofinformation.Itisinsuffera

6、blewiththislowlevelofduplicationofwork.Insuchataskdifficulttocompletemanually,andwastealotofvaluabletime,andthemajorityofWebpagesaredisplayedtotheuser'sbrowserwithHTML.Whetheritisastaticpageordynamicpage,thepagemakesthefixed-formatpagesofinformationtobecollectedautomaticallypossible.

7、Inthispaper,itisstudyhowtoachievetheautomaticacquisitionofnetworkinformationinthiscase.ThedesignofthepaperisbasedontheXMLformatandtheformatofanumberofcommonfeatures,andthenusepowerfulregularexpressionstomeettherequirementsofalltheextractedinformation,andaccesstorelevantcontent,addtot

8、hedatabaseor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。