基于多Agent系统的主题爬行虫协作与实现方法研究

基于多Agent系统的主题爬行虫协作与实现方法研究

ID:36832656

大小:2.43 MB

页数:60页

时间:2019-05-16

基于多Agent系统的主题爬行虫协作与实现方法研究_第1页
基于多Agent系统的主题爬行虫协作与实现方法研究_第2页
基于多Agent系统的主题爬行虫协作与实现方法研究_第3页
基于多Agent系统的主题爬行虫协作与实现方法研究_第4页
基于多Agent系统的主题爬行虫协作与实现方法研究_第5页
资源描述:

《基于多Agent系统的主题爬行虫协作与实现方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西华大学硕士学位论文摘要互联网信息以指数级增长,给通用搜索引擎带来巨大压力,使得通用搜索引擎搜索结果不全面,对于用户输入的查询词,返回大量的无关信息,这就使得主题爬行虫诞生。主题爬行虫只抓取与主题相关的网页,忽略掉与主题无关的网页,这样减少了大量的时间在爬行无关网页上。并且主题爬行虫具有爬行时间少,存储空间小,以及能够更好的满足用户的个性化需求等优势,这也同时促进了主题爬行虫的发展。对于各种传统的主题爬行虫,它们在爬行过程中至始至终都是相互独立工作的,多个爬行虫之间没有交流与协作,使得这些爬行虫在爬行

2、的过程中不能及时的进行交流来实现信息共享,出现爬行区域重合和爬行效率不高的状态。将多Agent的理论用于主题爬行虫之间的通信和协作,为提高主题爬行虫爬行网页的准确率和爬行效率提供了新的方向。本文将每一个主题爬行虫看做一个Agent,使得主题爬行虫具有自主、灵活、交互等特性,并且采用多Agent的知识来实现多个主题爬行虫在网页爬行过程中的协作,从而提高爬行虫的爬行精度和爬行效率。论文的主要研究内容包括以下几点:1.本文提出了一种招标能力值的度量方法。该招标能力度量方法用于评价一个Agent是否具有招标能

3、力,从而决定该Agent是否要发布招标信息。这个能力函数不仅考虑了爬行虫的爬行历史网页的重要度,而且考虑了已爬行网页的链接分值。实验证明该能力函数能更准确地评价Agent的招标能力。2.本文提出了一种新的多Agent的主题爬行虫组织结构。在这个组织结构中,所有Agent被分成三类:F.Agent(Facilitator—Agent),As—Agent(Assistance—Agent),和C—Agent(Crawler-Agent),他们各尽其责并且相互协作共同完成网页爬行任务。3.本文提出了爹;Ag

4、ent主题爬行虫的协作模型。一种改进的合同网协议被用来实现多Agent主题爬行虫之间的协作,并且详细论述了改进的合同网协议中的招标、投标、合同签订、合同终止四个过程。针对该协作模型,本文提出了多Agent主题爬行虫系统的系统框架和工作流程。文章的最后,采用JADE平台实现了本文提出的多Agent主题爬行虫,并且在爬行精度和爬行效率上面与其它四种主题爬行虫进行比较,最终实验证明,本基于多Agent系统的主题爬行虫协作与实现方法研究文提出的多Agent主题爬行虫不仅可以减少爬行虫的网络爬行重合度,而且具有

5、更高的爬行精度和爬行效率。关键词:多Agent;主题爬行虫;合同网协议;协作;JADEII西华大学硕士学位论文AbstractAstheInternetgrowsexponentially,generalsearchenginesareencounteringsomeunprecedentedchallenges.Theresultsreturnedbythegeneralsearchenginecontainedalargenumberofirrelevantinformationforuser’S

6、queryrequest,whichgivebirthtothefocusedcrawler.Thefocusedcrawleronlycrawlstheon—topicwebpages,andavoidsalargenumberofoff-topicwebpages,SOitcansavemuchtimeonwebcrawling.Theadvantageoffocusedcrawleristhat,inonehanditspendslesstimeandsmallerstoragespaceinc

7、rawlingontheweb,intheotherhanditCanbebettertomeetthepersonalizedneedsoftheuser.Thisalsopromotesthedevelopmentoffocusedcrawler.Foravarietyoftraditionalfocusedcrawlers,theyareindependentlyworkingintheircrawlingprocess,andtherearenocommunicationandcollabor

8、ationamongfocusedcrawlers,SOthattheycarlnotbetimelycommunicationtorealizeinformationsharing,thisleadstocrawlingoverlapandcrawlingefficiencynothigh.UsingMulti—Agenttheorytoachievecommunicationandcollaborationamongfocusedcrawlersis

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。