主题搜索引擎网络爬虫搜索策略的研究和实现

主题搜索引擎网络爬虫搜索策略的研究和实现

ID:32324382

大小:2.67 MB

页数:62页

时间:2019-02-03

主题搜索引擎网络爬虫搜索策略的研究和实现_第1页
主题搜索引擎网络爬虫搜索策略的研究和实现_第2页
主题搜索引擎网络爬虫搜索策略的研究和实现_第3页
主题搜索引擎网络爬虫搜索策略的研究和实现_第4页
主题搜索引擎网络爬虫搜索策略的研究和实现_第5页
资源描述:

《主题搜索引擎网络爬虫搜索策略的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要主题搜索引擎网络爬虫搜索策略的研究与实现主题网络爬虫是主题搜索引擎后端获取数据的自动化代码程序,主题搜索引擎前端查询到的数据事先由主题网络爬虫在互联网上抓取,存储在本地。然后对网页进行数据抽取,建立索引。所以主题爬虫对于一个主题搜索引擎来说,起着支撑的作用。本文提出链接文本相关度算法与主题信息值遗传恢复的算法相结合的主题优先抓取算法来指引爬虫抓取方向,并使用postgresql数据库集群技术存储数据。主题优先抓取算法根据网络页面结构的特点,通过页面之间的主题传递来预测页面主题相关性,解决了主题爬虫通道堵塞,抓取遗漏

2、的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阀值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。相关性信息值将互联网网页以主题的不同分割在不同的通道内,所有与主题相关的网页都在最大通道内,各个通道交错相连,爬虫按通道的大小顺序抓取。爬虫要抓取的网页信息量庞大,单台主机不能满足这些信息的存储。本文在资源库以及链接地址库都采用postgresql数据库集群技术,扩大后台存储容量。并且在各个数据库点中使用pgbouncer连

3、接池技术,减少数据库连接次数,争取时间。在链接地址库中采用缓存技术北京化工大学硕上学位论文减少数据库操作次数,减少消耗时间,提高爬虫工作速度。最后通过实验测试,分析数据,验证了基于主题优先抓取技术的有效性及postgresql数据库集群技术的爬虫系统的可行性。关键词:网络爬虫,搜索引擎,postgresql,数据库集群,主题相关IIResearchandAchievementoftheSearchStrategicforthetopicsearchenginespiderABSTRACTTopicspiderisall

4、automaticprogramwhichisusedtogetd.atafromwebinthebackendoftopicsearchengine.Thedatainquiredinthefrontendoftopicsearchengineissnatchedfrominternetnetbyspiderfirstly,andthentheyarestoredinlocaldisks.Finally,thedataisextractedfromcyberpageandindexed..Asaresult,weCa

5、llsaythatatopicsearchengineissupportedbytopicspider.Thispaperproposesanalgorithmoftopicpfiofitysnatchingwhichisbasedonthecombinationoflinkingtextrelevancealgorithmandtopicmessageinheritancerenewingalgorithm.Thisalgorithmconductsthedirectionofspiderandstoragesdat

6、abymeansofpostgresqldatabasecluster.Accordingtothecharacteristicsofthecyberpagestructure,thealgorithmoftopicprioritysnatchingsolvestheproblemofchanneljammingandomitsofcapturebypredictingthecorrelativitythroughdeliveringthethemeamongthepages.Firstly,acorrelativei

7、nformationvalueisdeliveredaccordingtotheanchortext.Iftheinformationgivenbytheanchortextiscorrelated,thecorrelativethresholdwillbedelivereddirectly.OtherwiseitwillbemultipliedbythegeneticratiobeforeIII北京化工大学硕:I:学位论文delivery.Intheprocessofdelivery,correlativeinfor

8、mationvaluemayberesettotheinitialvalueifitencountersthecorrelativewebpage.Relevancemessagesseparatesthewebofdifferenttopicsintodifferentchannels.Allofwebsthatalerelat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。