主题网络爬虫关键技术研究.pdf

主题网络爬虫关键技术研究.pdf

ID:34496955

大小:1.96 MB

页数:49页

时间:2019-03-07

主题网络爬虫关键技术研究.pdf_第1页
主题网络爬虫关键技术研究.pdf_第2页
主题网络爬虫关键技术研究.pdf_第3页
主题网络爬虫关键技术研究.pdf_第4页
主题网络爬虫关键技术研究.pdf_第5页
资源描述:

《主题网络爬虫关键技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP391密级主题网络爬虫关键技术研究研究生姓名:马进指导教师姓名、职称:朱艳辉教授学科专业:计算机技术研究方向:智能信息处理湖南工业大学二〇一八年六月二日摘要随着互联网的迅速发展,Web的信息量越来越大,人们往往通过搜索引擎去从互联网上搜索想要的信息,如:百度,谷歌,搜狗等。这类搜索引擎称之为通用搜索引擎,其为所有的用户提供用户想要的所有信息。随着互联网上的信息量越来越大,用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题,就需要更加专业的、面向特定领域的搜索引擎来解决。主题网络爬虫是垂

2、直搜索引擎的关键部分,本文主要是对主题网络爬虫中的关键技术进行研究。主要研究内容如下:(1)主题内容的抽取是网页主题识别的重要步骤,本文结合网页内容分布特征以及主题内容的相关特征,设计了一种网页主题内容抽取方法。此方法首先将网页解析成dom树结构,然后根据对网页进行去噪去除掉网页的噪音节点,最后根据主题内容在页面中的分布特征去进行抽取。(2)提出了一种基于实体链接的主题识别算法,识别网页的主题。将基于知识库的实体链接方法运用于特征抽取,首先利用知识工厂提供的接口对原始语料进行分词并识别出语料中的实体,然后

3、利用实体链接获取实体相关的信息,接着从实体信息中抽取出潜在的特征汇总到候选特征集合中,最后利用信息增益的方式从候选特征集合中挑选出最终的特征集合。最终利用抽取出的特征集合训练朴素贝叶斯分类器对网页主题进行识别。实验表明该方法提高了主题网页识别的准确率。(3)提出了一种改进的基于Best-First算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键,本文采用改进的基于Best-First算法的主题搜索策略。该策略主要思路是首先从待抓取链接列表中挑选出价值最大的链接进行抓取,然后从抓取到的网页中

4、抽取链接,对这些链接的价值进行评估,如果链接价值小于设定的阈值则丢弃,反之则将其放入按照链接价值排序的待抓取队列中,循环此过程直到抓取深度到达预设值或者待抓取队列为空则停止。关键词:主题网络爬虫,实体链接,Best-First算法,主题搜索策略IABSTRACTWiththerapiddevelopmentofInternet,theamountofinformationinWebisincreasing.PeopleoftenusesearchenginestosearchtheInternetford

5、esiredinformation,suchas:Baidu,Google,Sogou,etc.Thiskindofsearchengineiscalledageneralsearchengine,whichprovidesalluserswithalltheinformationtheywant.WiththeincreasingamountofinformationontheInternet,theinformationsearchedbyusersmaybedifferentfromtheinfor

6、mationtheywant.Forthiskindofproblem,weneedamoreprofessional,searchengineforspecificareastosolve.Thetopicwebcrawlerisakeypartoftheverticalsearchengine.Thisarticlemainlystudiesthekeytechnologiesinthetopicwebcrawler.Thispaperresearchcontentisasfollows:(1)The

7、extractionoftopiccontentisanimportantstepinthetopicrecognitionofawebpage.Thispaper,basedonthedistributioncharacteristicsofthewebcontentandtherelatedfeaturesofthetopiccontent,designsamethodforextractingwebpagesubjectcontent.Thismethodfirstparsesthewebpagei

8、ntoadomtreestructure,thenremovesthenoisenodesofthewebpageaccordingtothedenoisingofthewebpage,andfinallyextractsaccordingtothedistributioncharacteristicsofthethemecontentinthepage.(2)Atopicrecognitionalgorithmbasedon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。