定制化web信息抓取与推送技术的研究

定制化web信息抓取与推送技术的研究

ID:35074288

大小:6.10 MB

页数:56页

时间:2019-03-17

定制化web信息抓取与推送技术的研究_第1页
定制化web信息抓取与推送技术的研究_第2页
定制化web信息抓取与推送技术的研究_第3页
定制化web信息抓取与推送技术的研究_第4页
定制化web信息抓取与推送技术的研究_第5页
资源描述:

《定制化web信息抓取与推送技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:TP分类号:393密级:公开'--■**04.7;-:0-,UDC;'_^未j‘//户'学号:''*-■——???*\?**?.—S??-*?*.全—\*鏡谭以肩雪I帛雌-'-''辑束馬大?寒婚工程硕±学位论文定制化Web信息抓取与推送技术的研究(学位论文形式:应用研究)研巧生姓名:吴雪松导师姓名:沈卓妹副教授张德胜高工堂仿巧予单位东南大学由搶壁仿龙別工程硕±期20166___目下巧

2、领域名称计?机技术论文答辩日__年巧?期2016__日_研巧方巧计m机应用技术学位授予日_逢_呂答诞蚕员会丰席沈军教授评阅人巧军觀院盲2016年6月5日RESEARCHONCUSTOMIZEDWEBINFORMATIONCRAWLINGANDPUSHINGTECHNIQUESAThesisSubmitedtoSoutheastUniversityFor化ePro佐ssionalDegreeofMasterofEnginee

3、ringBYWUXue-songSupervisedby-weAssociateProfessorSHENZhuoiSchoolofComuterScience&EnineeringpgSoutheastUniversityMa31th2016y,东南大学学位论文独创性声明匯本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中持别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果

4、,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示了谢患。W七’k研究生签名;矣當私日期:b东南大学学位论文使用授巧汚明东南大学、中国科学技术信息研巧所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可W采用影印、缩印或其他复制手段保存论文。本人电子文挡的内容和纸质论文的内容相一,致,允许论文被可W公布(包括电子信息形式刊登)。除在保密期内的保密论文外査阅和借阅论文的全部内

5、容或中、英文摘要等部分内容。论文的公布(包括电子信息形式刊登)授权东南大学研巧生院办理。yi.bk:研巧生签名:2^^导师签名:期^摘要,随着互联网的高速发展人们进入信息爆炸时代,高效获取Web信息成为人们的迫切需求。当前主流的信息获取方式存在灵活性差、及时性差、缺少整合等不足,为此,一eb论文提出种定制化的W信息抓取与推送方案,使用该方案,用户可指定感兴趣的。网页及其中的关注点,服务器自动将该关注点的更新推送给用户为定位有效的Web信息一,论文研巧了网页内容的定

6、位方式,提出种可交互的操作方式,辅助用户将网页关注点转换为规则。为实现高效的动态网页抓取,论文研巧了在服务器端进行网页道染的关键技术一,提出了种高效的服务器端网页渣染方案。论文的主要贡献有:一1.提出种可交互的操作方式,辅助用户将网页关注点转换为计算机可处理的规则。为了在服务器端自动定位用户的关注点,论文基于XPa也表达式设计网页定位规则,并实现了自动化的XPath生成功能。2一.基于云计算环境提出种可缩放的动态网页這染方案,适用于大规模高并发的网页渣染和信息提取。为实现高效

7、的动态网页抓取,论文使用任务队列和多机WebKit渣染的并发度多进程并发大幅提高了,使用缓存机制大幅提高了网页渣队列提出了一ebKit服务器数量的策略染的效率,基于任务种动态调整W,提高了硬件资源的利用率。3.基于上^^案设计并实现了定制化\^613信息抓取与推送的原型系统,对原型系统进行功能和性能测试。实验结果表明,论文提出的定制化Web信息抓取与推送技术方案可行,具有较强的实用性。W,,,关键词:XPa出Kit,eb动态网页抓取任务队列缓存1Abstract

8、AbstractWiththerapiddevelopmentoftheInternet^webinformationgrowsuncontrolled,acce巧*tt:owebmformatio打eficiencyhasbecomeurge打ieuirements.However化emainstreamq,sofilwayacce巧化informaton

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。