垂直搜索引擎的主题网页抓取策略的分析

垂直搜索引擎的主题网页抓取策略的分析

ID:27227430

大小:1.54 MB

页数:123页

时间:2018-12-02

垂直搜索引擎的主题网页抓取策略的分析_第1页
垂直搜索引擎的主题网页抓取策略的分析_第2页
垂直搜索引擎的主题网页抓取策略的分析_第3页
垂直搜索引擎的主题网页抓取策略的分析_第4页
垂直搜索引擎的主题网页抓取策略的分析_第5页
资源描述:

《垂直搜索引擎的主题网页抓取策略的分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据CategoryNumber:LevelofSecrecy:SerialNumber:StudentNumber:50090812304Master’sDissertationofChongqingUniversityofTechnologyResearchonTopicWebPageCrawlingStrategyforVerticalSearchEnginePostgraduate:XieZhijunSupervisor:Prof.YangWuSpecialty:ComputerAppliedTechnologyResearchDirection:Info

2、rmationRetrievalTrainingUnit:CollegeofComputerScienceandEngineeringThesisDeadline:10th,Apr.,2012OralDefenseDate:31st,May,2012万方数据重庆理工大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下,独立进行研究所取得的成果。除文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果、作品。对本文的研究做出重要贡献的集体和个人,均已在文中以明确方式标明。本人承担本声明的法律后果。作者签名:日期:年月日学位论

3、文使用授权声明本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权重庆理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于(请在以下相应方框内打“√”):1.保密□,在年解密后适用本授权书。2.不保密□。作者签名:日期:年月日导师签名:日期:年月日万方数据万方数据摘要摘要随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为

4、信息检索的工具,现已成为用户访问互联网的入口和指南并受到广大用户的青睐。然而,传统的搜索引擎正面临着网页索引规模、更新速度、个性化需求和查询结果精度低等多方面的严峻挑战。为解决传统搜索引擎所面临的突出问题,面向特定主题的垂直搜索引擎便应运而生。主题网页抓取技术是构建垂直搜索引擎的核心技术,它的目标是尽可能多地抓取与特定主题内容相关的网页,同时最大限度地避免无关网页的抓取。因此,对主题网页抓取策略的研究具有十分重要的意义。本文主要以垂直搜索引擎的主题网页抓取策略作为研究内容,从提高主题网页抓取的准确率和效率作为出发点,详细分析了现有的主题网页抓取方法及其优缺点。重点分析

5、了基于隐马尔科夫模型的主题网页抓取策略的实现和优缺点,以此为基础,提出了一种改进的主题网页抓取策略。为了使特征词权重更能代表网页的真实内容,改进了网页预处理后的特征词权重的计算方式,对网页中不同位置的特征词赋予不同的权重。为了提高主题网页抓取的准确率,改进了待爬行队列中URL优先权值的计算方法,综合考虑了隐马尔科夫模型方法和网页内容相关度方法。为了验证改进算法的性能和效率,本文将改进后的方法与隐马尔科夫方法和Best-First方法进行对比,实验结果表明,在抓取大量主题网页时,改进后的方法能抓取大量与给定主题相关的高质量网页,主题爬行性能优于改进前的隐马尔科夫方法和B

6、est-First方法。关键词:主题网页抓取;隐马尔科夫模型;向量空间模型;主题相关度;垂直搜索引擎万方数据I万方数据AbstractAbstractWiththerapiddevelopmentofcomputernetworktechnology,theWorldWideWebhasbecomethecarrierofthemassofinformation,howtoefficientlyusetheinformationisconsideredasahugechallengeforpeople.Searchengineasatoolforinformation

7、retrieval,ithasbecometheguideandentrancetotheusertoaccesstheWorldWideWebsinceitsbirthaftertherapiddevelopment.However,traditionalsearchenginesarefacingwiththesizeofthewebindex,thespeedoftheindividualneedsandinaccuratequeryresultandmanyotherseriouschallenges.Inordertosolvethepro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。