基于html标记的主题爬行器的设计与实现

基于html标记的主题爬行器的设计与实现

ID:33373783

大小:2.47 MB

页数:79页

时间:2019-02-25

基于html标记的主题爬行器的设计与实现_第1页
基于html标记的主题爬行器的设计与实现_第2页
基于html标记的主题爬行器的设计与实现_第3页
基于html标记的主题爬行器的设计与实现_第4页
基于html标记的主题爬行器的设计与实现_第5页
资源描述:

《基于html标记的主题爬行器的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC学位论文基于HTML标记的主题爬行器的设计与实现(题名和副题名)王涛(作者姓名)指导教师姓名徐洁教授电子科技大学成都(职务、职称、学位、单位名称及地址)申请学位级别硕士专业名称软件工程论文提交日期2009.4论文答辩日期2009.5学位授予单位和日期电子科技大学答辩委员会主席评阅人年月日注1注明《国际十进分类法UDC》的类号摘要独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育

2、机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日摘要摘要爬行器是搜索引擎中重要的组成部分,也是搜索引擎中最为重要的技术之一

3、。爬行器是一个可以从因特网上自动提取网页的系统,它为搜索引擎从互联网上下载网页。通用搜索引擎的爬行器一般是从几个种子URL链接开始进行全盘爬行,而主题搜索引擎的爬行器除了通用爬行器的基本功能外,还能够对链接以及页面内容进行识别,主题爬行器并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,过滤与主题无关的网页,并将获取的网页存入数据库,提供给用户查询。主题爬行器已经成为搜索引擎技术领域的一个研究热点,对于专业领域的搜索产生重要的作用。本文首先介绍了主题爬行器的相关技术,接着介绍了通用爬行器和主题爬行器基本原理和工作流程,并分析了通用爬行器与

4、主题爬行器之间的区别,然后介绍爬行器的页面搜索策略和页面分析算法。对于页面主题相关性的判定,首先介绍了传统的基于文本的判定的相关算法,并说明了传统的基于文本算法的不足,并提出了一种“基于HTML标记”的主题相关性判定的方法,根据HTML的标记结构的不同,分别赋予出现在不同类型标记的文本以不同的权重,这样可以确保主题分类的准确性。在实际应用中可以根据不同的情况具体改变HTML标记权重,使之能够达到更好的效果。对于主题爬行器的设计,本文先分析了系统总体设计,然后具体介绍了主题爬行器的系统设计及其实现,首先分析了系统的总体工作流程和各个子模块的划分,然后分别

5、介绍了各个子模块的具体的设计和实现,并分析了在设计各个模块时所存在相对重要的技术问题。在实现的过程中力求模块之间的低耦合并提高主题爬行器的执行效率,并使用“基于HTML标记”的方法提高主题分类的准确和网页的召回率。最后本文针对主题爬行器的爬行的数据进行分析,实验表明该主题爬行器在一定程度上可以提高搜索的准确性。关键词:主题爬行器,搜索引擎,HTML标记,锚文本IAbstractAbstractCrawlerisanindispensableconstituentandessentialtechniqueforsearchengine.Itisasyst

6、emwhichautomaticallyextractsanddownloadswebpagesfrominternetforthesearchengine.Generalsearchengine’scrawlerusuallycrawlsfromseveralseedURLlinks,whilesubject-basedsearchengine’scrawler,besidesthefunctionsofthegeneralsearchengine’scrawler,canalsodistinguishthelinksandthecontentsof

7、thewebpages.Itdoesnotaimtothemaxcoverage,butaimtocatchwebpagesconcernedwithparticularsubject,filterirrelevantonesandsavethewebpagescaughtintothedatabaseforinquiry.Thesubject-basedcrawlerhasbecomeahotresearchtopicinthefiledofsearchenginetechnologyandexertedprofoundinfluenceonthes

8、earchofprofessionalfields.Thethesisfirstintrodu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。