应用于海量数据处理分析云计算平台搭建的研究

应用于海量数据处理分析云计算平台搭建的研究

ID:34666872

大小:2.75 MB

页数:51页

时间:2019-03-08

应用于海量数据处理分析云计算平台搭建的研究_第1页
应用于海量数据处理分析云计算平台搭建的研究_第2页
应用于海量数据处理分析云计算平台搭建的研究_第3页
应用于海量数据处理分析云计算平台搭建的研究_第4页
应用于海量数据处理分析云计算平台搭建的研究_第5页
资源描述:

《应用于海量数据处理分析云计算平台搭建的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、天津科技大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究工作所取得的成果。除文中特别加以标注引用的内容外,本论文不包括任何其他个人或集体已经发表或撰写的成果内容,也不包括为获得天津科技大学或其它教育机构的学位或证书而使用过的材料。对本文研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:/MII、I’日期:夕11年,月,’日知识产权和专利权保护声明本人郑重声明:所呈交的论文是本人在导师具体指导下并得到相关研究经费

2、支持下完成的,其数据和研究成果归属于导师和作者本人,知识产权单位属天津科技大学;所涉及的创造性发明的专利权及使用权完全归天津科技大学所有。本人保证毕业后,以本论文数据和资料发表论文或使用论文工作成果时署名第一单位仍然为天津科技大学。本人完全意识到本声明的法律后果由本人承担。力/、作者签名:肿飞’Ⅵ’日期:l,o(f年.;月Il,日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,同意公布论文的全部或部分内容,允许

3、论文被查阅和借阅。本人授权天津科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密II(请在方框r4打“√”),在年解密后适用本授权书。本学位论文属于不保密I习(请在方框内打“√”)。作者签名:槲日期.州年导师签名:日期:如/『年了月,咱多月f1/日摘要在因特网高速发展、上网人群急剧增长的今天,对于那些提供网络服务的互联网公司来说,每天都会有海量的信息需要处理,用以分析出用户的需求、各种产品的效果等,往往某些数据分析都会有时间上

4、的要求。对于现实中存储空间和处理时间的需求,传统的数据库系统已很难满足。本文的主要目的是构建一个成本较低的分布式海量数据处理系统来存储和处理这些数据。以这个问题作为出发点,本文在分析现有分布式计算和存储等关键技术基础上,结合对Hadoop云计算技术的研究和校园网实际软硬件条件,为满足自身的业务需求,提出了一种基于云计算技术的数据处理模型,并从数据结构设计、系统模块化、程序流程化和编程技术平台等方面研究该模型的开发方法,最后将该模型应用于分布式海量数据搜索引擎。经过以上研究得知,Hadoop云计算平台

5、的可靠性、高效性、可伸缩性满足了分布式搜索引擎的技术需求,因此本文选用Hadoop系统作为该应用系统的分布式计算平台。本文对传统搜索引擎中爬行、索引、搜索过程中的每一步骤进行详细分析,并改进了其功能模块,将非顺序执行的步骤分解为两个子任务:数据计算任务及数据合并任务。同时,应用MapReduce编程思想,把所有数据计算任务都封装到Map函数中,把所有数据合并任务都封装到Reduce函数中。研究工作主要在于将改进的搜索引擎系统部署在廉价计算机构成的Hadoop云计算环境中,使之具有较快的响应速度、较高

6、的可靠性及扩展性。本文的主要特点是将经研究提出的模型与实际应用业务相结合,利用前沿的分布式框架技术较好地满足了项目需求,并将该模型部署到实际分布式环境当中,用实验结果来检验系统的实用价值,比如高效率、低成本、可拓展性和易维护性等。关键词:海量数据;Hadoop:搜索引擎ABSTRACTNowadays,astherapiddevelopmentoftheInternetandthegrowthofInternetpeople,thereisafloodofinformationtoprocessfo

7、rthoseInternetcompaniesthatprovidenetworkservices.TheyhavetoanalyzetheneedsoftheuseI'SandtheeffectsofavarietyofproductsandSOon.Oftentherewillbesomeofthedataanalysistimerequirements.Fortherealstoragespaceandprocessingtimerequirements,thetraditionaldatab

8、asesystemhasbeendifficulttomeet.Themainpurposeofthispaperistobuildamassivelow-costdistributeddataprocessingsystemtostoreandprocessthedata.Asastartingpontothisproblem,afteranalyzingtheexistingdistributedcomputingandstorageonthebasisofkey

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。