基于网格技术的主题爬虫算法优化的研究与实现

基于网格技术的主题爬虫算法优化的研究与实现

ID:36772587

大小:1.69 MB

页数:59页

时间:2019-05-15

基于网格技术的主题爬虫算法优化的研究与实现_第1页
基于网格技术的主题爬虫算法优化的研究与实现_第2页
基于网格技术的主题爬虫算法优化的研究与实现_第3页
基于网格技术的主题爬虫算法优化的研究与实现_第4页
基于网格技术的主题爬虫算法优化的研究与实现_第5页
资源描述:

《基于网格技术的主题爬虫算法优化的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、沈阳工业大学硕士学位论文基于网格技术的主题爬虫算法优化的研究与实现姓名:朱玉丽申请学位级别:硕士专业:计算机应用技术指导教师:徐全生20070103沈阳工业大学硕士学位论文摘要网格技术是近年来得到广泛应用的技术,它解决了资源的真正共享,使各结点大量资源得到统一支配和使用,信息网格是在计算网格的基础之上,利用数据挖掘、信息融合和搜索引擎等技术而构建的,便于网格资源的搜集与共享,目标是创建一种构建在OS和Web之上的基于Internet的新一代信息平台,在这个平台上,信息的处理是分布的、协作和智能化的。主题爬虫是根据目标主题,以智能化的方式从Web上收集主题相关的页

2、面集,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求。本文阐述了网格和主题爬虫的基本概念和国内外的发展现状,说明了研究基于网格技术的主题爬虫算法的意义。详细论述了网格技术以及网格的体系结构,同时阐述了Globus的积木式体系结构、OGSA体系结构和基于WebServices的OGSA架构,进而介绍了开放式网格服务的基础结构。重点分析了主题爬虫的概念、体系结构以及存在的主要问题,提出一种主题爬虫算法——zTspider算法,通过对超文本分类器和超链接评价器的研究,改进了现有主题爬虫算法在线学习能力

3、差的问题,同时应用反馈机制,优化了网页父子结点之间的信息传递,增加爬行收获率。设计并实现了主题爬虫ZTSpider模拟系统,改进了现有的主题爬虫的体系结构,该系统应用JAVA语言开发,具有跨平台、高可扩展等特性,实现了Web信息的智能化收集,通过该爬虫算法的收获率,验证了ZTSpider算法的有效性。设计并实现了基于服务网格的分布式主题爬虫系统,应用SOAP、WSDL、UDDI完成了描述服务,定义消息服务和端口类型,在GlobusToolkit中完成了主题爬虫ZTSpider的分布、协作和智能化工作。关键词:网格服务,信息网格,主题爬虫,超文本分类,超链接评价基

4、于网格技术的主题爬虫算法优化的研究与实现ResearchandImplementationonOptimizingtheFocusSpiderArithmeticBasedonGridTechnologyAbstractInrecentyears,gridtechnologyhasbeenwidelyusedtofulfillauthenticsharingofresourcesandtomaneuveruniformlyanduselargeamountofresourcesineachnode.Informationgridisbuiltoncomputin

5、g鲥d,usingtechnologiessuchasdatamining,informationinfusion,searchengineandsoon.Itfacilitatessearchingandsharingofgridresourcesandisintendedtobuildanew-generationinformationplatformbasedonOSandweb.Onthisplatform,Informationprocessingisdistributed,corporate,andintelligent.Informationcan

6、beaccessedthroughoneentrance.Focusspidercollectspagessetaccordingtothemeofthesubjectinanintelligentway.Thepagessetcollectedarethenprocessedandanalyzedusingmethodslikemachinelearningandinformationsearching.Finally,requestsofinformationsearchingfromusersarefulfilledinanefficientwayofse

7、arching.Basicconceptsandcurrentdevelopmentofgridandfocusspiderinourcountryandaboardarediscussed.Also,themeaningofresearchinfocusspideralgorithmbasedongridtechnologyandmainworkofthispaperalefullyillustrated.Gridtechnologyandarchitecturearediscussedindetail.Globusarchitecture,OGSAarchi

8、tectureandOG

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。