基于hadoop的垂直搜索引擎的设计与实现

基于hadoop的垂直搜索引擎的设计与实现

ID:35057006

大小:3.43 MB

页数:60页

时间:2019-03-17

基于hadoop的垂直搜索引擎的设计与实现_第1页
基于hadoop的垂直搜索引擎的设计与实现_第2页
基于hadoop的垂直搜索引擎的设计与实现_第3页
基于hadoop的垂直搜索引擎的设计与实现_第4页
基于hadoop的垂直搜索引擎的设计与实现_第5页
资源描述:

《基于hadoop的垂直搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、't:‘‘-.乂.转.诗.>艰,:識咕與識茫又:感己'''‘.‘.‘.^;:笠式巧^%,.,\(听\方_韻;—''-、分类号.itmy学号201304703058;知宇f—、‘女心学校代码10488槪密统、-V:'.:.或^':.MV‘V叫^一一?:'-'一…'..?’-‘..:.'..-.成r..V—;-?",:‘*..、.??、’,.?一‘-心一一一.?二,*.叮''.■?一?-.?-一.'C

2、一一',.^、一-—.?-一气.,一?W一,::户义'—秋麟种若、蒙雪夫今帳羣葬、'r^:'t,气<vf巧靖,,鮮公.著‘'一''.''4'却.1一‘’.子-,‘^V'''/兴.巧、I;.古.'嫁家'.’-.:i//:.ci,巧一;聲二诚,;f'罐1^.。寶.V硕±学位论文专雜.‘一....:Y一——,枯产.、一,’’打山'巧-可^巧:U’吉基于Hadoop的垂直搜索引擎的设计S转著与实现苗品'一.^如—、知??:.、,

3、.、知誉V聲.i—一位申;学请人择___-—_M,>,巧^声臀蠢;'-;工学业■科专控制与科学程。芳 ̄\.:-戸人鸣知^'7;7‘?i.■.U弁j;:指导教姬..师马键 ̄、.^>、'>:^;三..-T,今,r是..;>?‘::译;,;日201620答辩期5日:山.年月苦式,'’..一--冲一'.’、节^';■-;考六,:种巧苦.‘巧.嘴阵担?。o、,占r/‘''’'';'1L::...':巧八-Vv:\..r:巧、v:V夸錄‘兴;帶鴻皆/-^气.’

4、?"-节:^并呼ter,必:;韻端雖/ ̄ADissertationSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterinEngineeringDesignandImplementationofVerticalSearchEngineBasedonHadoopMasterCandidate:ChengLinMajor:ControlScienceandEngineeringSupervisor:MaYajieWuhanUniversityo

5、fScienceandTechnologyWuhan,Hubei430081,P.R.ChinaMay20,2016武汉科技大学硕士学位论文摘要随着互联网技术的飞速发展,网络信息呈现爆炸式地更新和增长,各式各样的搜索引擎逐渐进入了大众的视野。面对海量数据,传统的集中式搜索引擎存在服务器负载强度大、系统不够稳定且工作效率低等性能瓶颈。通用式搜索引擎也存在检索范围广,检索结果不专业、不准确的缺点,显然不符合特定领域下信息检索的需求。基于上述问题,本文提出了一种基于Hadoop的垂直搜索引擎系统。该系统搭建了一个Hadoop云计算平台,

6、完成文件的分布式存储和数据的并行处理。在分布式集群环境中结合MapReduce编程模型,实现搜索引擎的各功能模块。在高效处理数据的同时,保证了数据的安全存储和系统的稳定运行。另外,本文为该系统的网页信息抓取模块设计了一个面向主题的网络爬虫算法VPCRAW用以抓取与主题相关的网页信息。该算法综合了VSM算法和PageRank算法的优势,兼顾网页内容相关性和链接权威性,真正做到了网页信息的垂直抓取,为后续模块提供更为专业的源文件,从而提高最终检索结果的准确率。实验仿真结果表明,在处理海量的互联网数据时,相较于传统的集中式搜索引擎,基于

7、Hadoop的垂直搜索引擎能够有效地提高系统工作效率;相较于通用式搜索引擎,该系统获取的检索结果更具权威性,且最终检索结果准确率更高。另外,可以通过调整VPCRAW算法中的阻尼系数p来抓取不同的网页信息,从而满足不同的检索需求。关键词:Hadoop;垂直搜索引擎;网络爬虫算法;MapReduce;阻尼系数I武汉科技大学硕士学位论文AbstractWiththerapiddevelopmentofinternettechnologies,theinformationinthenetworkareupdatingandincreasi

8、nginanextremelyhighspeed.Astheresult,awidevarietyofsearchengineshavebeendesignedinthisdecade.Whendealingwiththemassivedata,t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。