基于hadoop数据分析系统设计设计

基于hadoop数据分析系统设计设计

ID:28803353

大小:2.25 MB

页数:102页

时间:2018-12-14

基于hadoop数据分析系统设计设计_第1页
基于hadoop数据分析系统设计设计_第2页
基于hadoop数据分析系统设计设计_第3页
基于hadoop数据分析系统设计设计_第4页
基于hadoop数据分析系统设计设计_第5页
资源描述:

《基于hadoop数据分析系统设计设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广州大学华软软件学院某某企业数据分析系统设计摘要随着云时代的来临,大数据也吸引越来越多的关注,企业在日常运营中生成、积累的用户网络行为数据。这些数据是如此庞大,计量单位通常达到了PB、EB甚至是ZB。Hadoop作为一个开源的分布式文件系统和并行计算编程模型得到了广泛的部署和应用。本文将介绍Hadoop完全分布式集群的具体搭建过程与基于Hive的数据分析平台的设计与实现。关键字Hadoop,MapReduce,Hive101广州大学华软软件学院某某企业数据分析系统设计AbstractWiththeadventofcloud,bigdataalsoattractmoreandmoreattent

2、ion,theenterpriseofthegenerationandaccumulationinthedailyoperationoftheusernetworkbehaviordata.Thedataissolarge,themeasuringunitisusuallyachievedthePB,EB,andeventheZB.TheHadoopdistributedfilesystemasanopensource,andparallelcomputingprogrammingmodelhasbeenwidelydeployedandapplication.Thisarticleintro

3、ducesHadoopcompletelydistributedclusterprocessofconcretestructures,andthedesignandimplementationofdataanalysisplatformbasedontheHive.keywordsHadoop,MapReduce,Hive101广州大学华软软件学院某某企业数据分析系统设计目录101广州大学华软软件学院某某企业数据分析系统设计第一章某某企业数据分析系统设计需求分析4第二章HADOOP简介5第三章HADOOP单一部署83.1Hadoop集群部署拓扑图83.2安装操作系统Centos93.3Hado

4、op基础配置153.4SSH免密码登录183.5安装JDK193.6安装Hadoop203.6.1安装32位Hadoop203.6.2安装64位Hadoop293.7Hadoop优化333.8Hive安装与配置343.8.1Hive安装343.8.2使用MySQL存储Metastore343.8.3Hive的使用373.9Hbase安装与配置389.1Hbase安装389.2Hbase的使用403.10集群监控工具Ganglia44第四章HADOOP批量部署49101广州大学华软软件学院某某企业数据分析系统设计4.1安装操作系统批量部署工具Cobbler494.2安装Hadoop集群批量部署工

5、具Ambari55第五章使用HADOOP分析网站日志64第六章总结68第七章参考文献69致谢70第一章某某企业数据分析系统设计需求分析某某企业成立于1999年,其运营的门户网站每年产生大概2T的日志信息,为了分析网站的日志,部署了一套Oracle数据库系统,将所有的日志信息都导入Oracle的表中。随着时间的推移,存储在Oracle数据库中的日志系统越来越大,查询的速度变得越来越慢,并经常因为查询的数据量非常大而导致系统死机。日志信息的分析成为了XX企业急需解决的问题,考虑到单机分析的扩展性与成本问题,且XX企业当前有一部分服务器处于闲置状态,最终决定在现有服务器的基础上部署一套分布式的系统来

6、对当前大量的数据进行分析。结合淘宝目前已经部署成功的数据雷达系统,同时由于XX企业预算有限,为了节约资金,决定采用开源的Hadoop来部署公司的数据分析系统。l采用Hadoop集群优势:1.高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布处理。2.高扩展性,在计算机集簇间分配数据并完成计算,这些集簇可以很容易扩展到数以千计的节点中去。3.高效性,以并行的方式工作,通过并行处理加快处理速度。4.高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。101广州大学华软软件学院某某企业数据分析系统设计1.廉价性,框架可以运行在任何普通的PC上。l采用Hadoop集群劣势:1

7、.采用单master的设计,单master的设计极大地简化了系统的设计和实现,由此带来了机器规模限制和单点失效问题。2.编程复杂,学习曲线过于陡峭,让许多人难以深入。3.开源性,在广大社区维护不断推进Hadoop的发展的同时,一旦代码出现漏洞并未被发现,而又被有心的人利用,将会对数据的安全造成毁灭性的后果。4.缺乏认证,Hadoop并没有对使用Hadoop的权限进行细致的划分。第一章Hadoop简

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。