基于领域概念定制的主题爬虫系统的设计与实现

基于领域概念定制的主题爬虫系统的设计与实现

ID:36779197

大小:1.62 MB

页数:58页

时间:2019-05-15

基于领域概念定制的主题爬虫系统的设计与实现_第1页
基于领域概念定制的主题爬虫系统的设计与实现_第2页
基于领域概念定制的主题爬虫系统的设计与实现_第3页
基于领域概念定制的主题爬虫系统的设计与实现_第4页
基于领域概念定制的主题爬虫系统的设计与实现_第5页
资源描述:

《基于领域概念定制的主题爬虫系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安电子科技大学硕士学位论文基于领域概念定制的主题爬虫系统的设计与实现姓名:蒋科申请学位级别:硕士专业:计算机软件与理论指导教师:郑有才20070101摘要近些年随着互联网中信息量的快速增长,如何及时准确的从互联网上获取信息也变得越来越重要,而面向主题搜索引擎技术的应用正是为此应运而生的。主题搜索引擎是特殊化的搜索引擎,它只面向某一具体的领域或主题,比起通用搜索引擎能更准确,更广泛的搜集领域或主题信息。然而如何为领域、主题相关性的判定制定准确的规则,如何有效的分析过滤无关资源保留相关主题资源,如何扩大对主题资源的搜索的覆盖度,成了主题

2、爬虫系统的研究重点。论文首先,介绍了搜索引擎的相关技术和相关的H1vrP协议,描述了通用爬虫系统的工作原理及体系结构,重点阐述了主题爬虫系统的工作原理及体系结构。进而提出了主题爬虫系统相关度和重要度模块的结构设计。其次,研究了主题爬虫系统中主题相关性判定的关键算法并作了相应的应用分析;然后,提出了基于领域概念定制的网页评价算法设计,并设计出主题对象确立算法设计模块、初始种子优化算法设计模块、主题相关度分析算法设计模块和链接重要度分析算法设计模块。最后,成功实现了基于领域概念定制的主题爬虫系统并以足球新闻为主题对系统进行了测试,证明本系

3、统有良好的主题资源搜索准确性和覆盖性。关键字:主题爬虫PageRaⅡk算法ⅢTS算法相关度重要度ABSTRACTWnhtllempid疵豫船ingiIlinfb衄ationofIntcm戚,howt0gct血einfbmation丘omhltemctquickly甜ldaccⅢ砒elyisbeco嘶ngmorc觚dmoreimport觚t.The印plicationofthe‰Ilsed∞盯chen西netccllIl0109yc∞∞lvethisproblemcommaldably.FocllsedSearchEngiIleiss1

4、)ecializedscarch朗gine,itor衄facesonefieldoromtopic.Comparing埘thCO衄0nSearchEngiIle,F0cusedSearchEngineh硒也emeritofcollectingdomain缸fomlationex∞tly,coveringtllefieldareal盯ge.However,howtodesignthesIlitarbletopicml舒fordomajnconc印ti伽I'110wto删y∞thewebpageeffbctiVelyinordcrt0no

5、tonlyfil仃atetheirrelatiVe把∞呲es,butal∞getthe1ligh—rela虹vetopicresources,觚dhowt0吼larget11edomainoftopicresources,isbecoIllingVeryimportamillrc∞archingfbcusedcrawlersystem.Firstofall,tllepap盯iIl蛐estherelaliVetecllnolo百esof∞缸chengille缸dtheHTrPpmtocol,explainsthcworkprblcipl

6、eand缸neworkofCoI砌onSearchEn咖system缸dals0descdbcs吐圮workpriIlciple孤d丘ameworkofFoc璐edSearchEng血esystemiIIdetails.F咖thep印ercomesup诵nlthedesi口ofs呲tll】feof他l砒iVi哆de印eandinlport锄cedegreemodule.Second,也epaperresearcI坨sonthekeyalgoritlllmoftopicrelativ时dete姗jnati∞intllefocu∞dcmw

7、lersys胁缸dmal【e印plication缸alysisrcspec6vely.t11en,也ep叩cr百VeswebPage“al戚ngalgorith:mbaSedonc啦缸}mizeddomajllconceptionsanddesi掣塔out也etopicesta_blishrnema190rithmdesiglliIlgmodule,“tial∞edsURLoptinliZedalgorithmdesigIlingmodllle,topic地lati“哆aIlalysisalgoritllmdesi鲥ngmodule,

8、hyperlinkimportance她alysisalgorithIndesi驴-iIlgmodule.FiIlally,tlIepapersuccess如llyiIIlpleme刀L乜tllef如usedcrawle

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。