主题网络爬虫的链接价值预测研究

主题网络爬虫的链接价值预测研究

ID:45589535

大小:55.43 KB

页数:8页

时间:2019-11-15

主题网络爬虫的链接价值预测研究_第1页
主题网络爬虫的链接价值预测研究_第2页
主题网络爬虫的链接价值预测研究_第3页
主题网络爬虫的链接价值预测研究_第4页
主题网络爬虫的链接价值预测研究_第5页
资源描述:

《主题网络爬虫的链接价值预测研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、主题网络爬虫的链接价值预测研究摘耍:本文首先研究主题网络爬虫基丁•内容评价的搜索策略和基于链接关系的搜索策略,并详细介绍了它们经典的代表性算法。在分析对比两种策略优缺点的基础上,木文综合利用网页内容倍息和页而之间的链接关系信息预测链接价值,提出链接价值最终由父页而的相关度、链接锚文木和链接字符串本身的相关度、链接的PageRank值加权得到。另外,本文在计算父页面主题相关度时充分考虑网页的结构特性,尽可能多地利用可以获得的已知信息,在最短的时间内尽可能多地抓取与预定义主题相关且重耍的网页。关键词:主题网络爬虫;链接价值;搜索策略中图分类号:TP393.3Resear

2、chonLinkValuePredictionofFocusedCrawlerZhangRanran,SuFang(BeijingUniversityofPostsandTelecommunications,Beijing100876)Abstract:Searchstrategicsoffocusedcrawler—strategybasedoncontentandstrategybasedonlinkrelationships一andtheirrepresentativealgorithmsareresearchedoninthispaper.Eachstrat

3、egyhasitsownadvantagesanddisadvantages・Therefore,informationimpliedinwebcontentandlinkrelationshipsbetweenwebpagesarebothusedtodetermineaccessprivilegesinthispaper.Thefinallinkvalueisdeterminedbyrelevancedegreeofparentpage,relevancedegreeofanchortextandURLstringandPageRankvalueofthelin

4、k.Inaddition,structuralfeaturesofhtmldocumentarealsotakenintoaccountwhencalculatingcorrelationofwebpages.Asmuchinformationaspossiblearcusedwhencalculatinglinkvalue,andmorerelevantandimportantwebpagesarcdownloadedfromthewebasquicklyaspossible・Keywords:FocusedCrawler;LinkValue;SearchStra

5、tegy0引言目前互联网仍处丁•大发展时期,网络上的信息量呈现出爆发式的增长趋势,导致通川搜索引擎需要索引的网络规模不断扩大,从而使其对整个Web信息空间进行更新的周期不断变长,返回的搜索结果增多然而相关性仍处于较低的水平。另一方面,用户的个性化搜索需求不断加强,也対通用搜索引擎提出挑战。针対上述问题,垂直搜索引擎⑴技术逐渐成为倍息检索领域的研究热点。垂直搜索引擎只覆盖某--特定主题,I大I此対于这一特定主题搜索的内容更全面,搜索的周期也更短,能满足特处用户对获取信息资源全面、快速、准确的性能耍求。主题网络爬虫⑵是垂直搜索引擎中最基础的核心模块,为具提供最基本的数据

6、支持,在很大程度上影响了搜索引擎的使用效果。主题网络爬虫的H标是尽可能多的下载与预定义主题相关的且质量好的资源,避免下载主题无关页而,通过有限的资源,获取关于预定义主题的最人信MffloW而主题网络爬虫以怎样的顺序访问Web成为主题网络爬虫的研究焦点Z一,预测待爬行URL的链接价值问题成为主题网络爬虫的核心计算问题。1主题搜索策略对URL下载队列小的链接进行排序是主题爬行过程小的关键环节,主题网络爬虫在预测链接价值时通常采用基于内容评价或基于链接关系的搜索策略。1.1基于内容评价的搜索策略基于内容评价的搜索策略利川页而中的文字内容信息指导主题网络爬虫爬行,主耍是通过

7、Web页面的标题文字、网页正文、链接字符串、锚文本等文字内容预测待爬行URL的主题相关性。代表算法主耍有Bestfirstsearch>Fishsearch>Sharksearch等。(1)Bestfirstsearch算法该算法在迭代过程中从URL下载队列屮选取最好的URL进行下载。通过向量空间模型表示爬行主题和已下载页面,计算已下载页面与主题关键词之间的相关性预测从该网页中提収的URL的优先级,从而对待爬行URL队列中的链接进行排序。已下载页面与给定主题的相关度越大,则说明从该网页中提取的链接与主题越相关。页血与主题Z间的相关度计算公式如下:TWSim(T,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。