【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf

【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf

ID:32133359

大小:2.81 MB

页数:62页

时间:2019-01-31

【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf_第1页
【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf_第2页
【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf_第3页
【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf_第4页
【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf_第5页
资源描述:

《【硕士论文】实时垂直搜索引擎数据抓取调度研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、浙江大学硕士学位论文摘要摘要实时垂直搜索引擎的发展解决了互联网用户对大规模高时间敏感度数据的搜索需求,而抓取任务调度相关技术是实时垂直搜索引擎的关键技术,决定了实时垂直搜索引擎的性能和用户体验。但是,目前学术界对实时垂直搜索引擎数据抓取任务调度的相关研究尚未开展,导致现有的实时垂直搜索引擎数据过期、抓取资源浪费的现象非常严重。本文对实时垂直搜索引擎的抓取任务调度相关技术进行了详细的总结和研究。首先对数据抓取的基本问题做了系统的归纳和分析,总结了实时垂直搜索引擎的抓取策略和数据变化规律的预测方法。然后提出了一种新的实时垂直搜

2、索引擎抓取分发优化策略:OLCO策略,基于对象及其属性间的关联设计热门对象预测模型,对热门对象的变化趋势进行预测;基于用户查询及对象变化符合泊松过程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平衡的最优策略。最后基于OLCO策略提出了一种自适应的实时垂直搜索引擎的任务抓取分发模型:SACD模型,该模型巧妙地利用了白适应的思想,有效地解决了实时垂直搜索引擎抓取分发模块配置复杂,维护成本高的问题。本文使用实际数据对所提出的理论和观点进行了详细的实验测试,验证了OLCO策略和SACD模型在处理实时数据时,用

3、户查询结果平均数据新鲜度和准确率上显著优于传统垂直搜索引擎的各个策略,具有较大的实用价值。关键词:数据抓取,缓存策略,垂直搜索,实时搜索,搜索引擎浙江大学硕士学位论文Abs仃actAbstractThedevelopmentofreal—timeverticalsearchenginemeetstherequirementofthesearchingofmasstime-sensitivedata.Thecrawl.taskschedulerelatedtechnologiesarethekeyofreal·timever

4、ticalsearchengine,andcannotablyaffecttheefficiencyanduser-experienceofreal-timeverticalsearchengineproducts.However,currentlytheresearchofcrawl-taskschedulerelatedtechnologieshaven’tbeenaddressedintheresearcharea,andthereal-timeverticalsearchproductsareconfrontedw

5、iththeproblemslikeexpirationofdataandwasteofcrawlresources.Thispaperaddressestheproblemsofcrawl-taskschedule,anddoesspecificsummarizationandresearchintherelatedareas.First,analyzethebasicproblemsofdatacrawl,summarizethebasiccrawlstrategyanddatachangerateprediction

6、algorithms.ThenanewverticalsearchengineobjectcacheoptimizationstrategywasproposednamedOLCOstrategy:Basedonrelationshipsbetweenobjectsandtheirproperties,weuseapopularobjectpredictionmodeltopredictthetendencyofpopularobjectdistribution;sincedatachangesbyaPoissonproc

7、ess,wededuceaproceduretomaximizethedatafreshnessandanoptimalstrategytodistributeandbalanceresource.Atlastanewself-adaptivecrawl-taskschedulemodelwasproposednameSACDmodel:usingtheconceptofself-adaptive,thismodelsolvedtheproblemslikecomplexconfiguration,highmaintena

8、ncecostinreal—timeverticalsearchproducts.ManyexperimentshavebeenperformedtoverifytheOLCOstrategyandSACDmodelusingdatafromrealreal-timeverticalsearchengi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。