【8A文】Hadoop集群--初步方案.pptx

【8A文】Hadoop集群--初步方案.pptx

ID:33920236

大小:928.63 KB

页数:30页

时间:2019-02-24

【8A文】Hadoop集群--初步方案.pptx_第1页
【8A文】Hadoop集群--初步方案.pptx_第2页
【8A文】Hadoop集群--初步方案.pptx_第3页
【8A文】Hadoop集群--初步方案.pptx_第4页
【8A文】Hadoop集群--初步方案.pptx_第5页
资源描述:

《【8A文】Hadoop集群--初步方案.pptx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Hadoop集群规划---初步方案Hadoop简介Hadoop是Apache下的一个项目,它是一个开源的可运行于大规模集群上的分布式并行编程框架,由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。其中,HDFS和MapReduce是两个最基础最重要的成员,他们分别是GoogleGFS和MapReduce的开源实现。HDFS是一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB级)的大小(通常超过64M)Hadoop简介HDFS采用Master/Slave架构,一个HDFS集群由一个Namenod

2、e和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(Namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理其所在节点上的存储Hadoop简介HDFS有如下基本特征:(1)对于整个集群有单一的命名空间。(2)数据一致性。适合一次写入多次读取的模型。(3)文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会有复制文件块来保证数据的安全性。Hadoop集群模块逻辑结构网络拓扑网络拓扑Hadoop简介Hadoop简介Hadoop-HA集群运作机制图集群

3、搭建需要考虑的几点问题1.选择和规划Hadoop集群的硬件2.Hadoop版本的选取3.Hadoop集群操作系统的选择1.Hadoop集群硬件一个基本的Hadoop集群中的节点主要有:Namenode负责协调集群中的数据存储DataNode存储被拆分的数据块Jobtracker协调数据计算任务TaskTracker执行任务Secondarynamenode(2.2版本以后,实现HA,有StandByNameNode备用,与NameNode配置一样),帮助NameNode收集文件系统运行的状态信息。NameNodeNameNode要记录HDFS中的元数据,

4、即包括文件名、权限、所有者、所有组、每个文件对应的Block列表,以及每个Block的副本目前存在于哪个机器上。这些信息会随着集群的使用以及规模而增加。双路四核CPUDDR3内存24G-36G双千兆以太网网卡至少两块1-2T的SATA硬盘,JBOD配置DataNodeDataNode是Hadoop集群中主要的工作节点,它承担两种角色:一将数据存储在HDFS文件系统上;二执行MapReduce任务。DataNode是Hadoop主要的存储和计算资源。4个磁盘驱动器(单盘1-2T,3.5寸,7200转),支持JBOD2个4核CPU,至少2.5GHz16-24

5、GB内存千兆以太网目前数据概况1、当前存储数据量Mysql库-------除去索引,日志数据在1T左右SQLServer-----?其他库-------?2、数据增长15~25G/天20*30=600G左右/月600*6=3.6T左右/半年注:考虑到每月会产生一定量的数据增长集群规模(存储和计算)Mysql库每天数据增长目前在20G左右采用3备份存储以半年时间为规划期3.6*3T+预留存储等(20%-30%)-----15T节点规模:1主3从节点2.Hadoop版本目前流行的Hadoop版本分三个大类ApacheHadoopClouderaHadoopH

6、ortonworksHadoop注:还有其他的版本在国内比较少见,只从以上三个版本选择另外国内比较普遍的是Apache和Cloudera的Hadoop版本,从Hadoop开源社区得到各种问题解决方案比较容易,暂不考虑HortonworksHadoop2.Hadoop版本选择版本的考虑主要有以下几个方面:所需要的稳定程度所需要的功能Hadoop的版本号是很混乱的,而且小分支很多。就现在情况而言,可以总结为两大分支:0.20⇨1.x0.23⇨2.x2.Hadoop版本按照功能考虑:Feature0.200.231.x2.xCDH3CDH4CDH5HDFSap

7、pend✔✔✔✔✔✔Kerberos✔✔✔✔✔✔HDFSsymlink✔✔✔✔✔✔YARN(MRv2)✔✔✔✔MRv1✔✔✔✔✔NamenodeFederation✔✔✔✔NamenodeHA✔✔✔✔Spark✔✔✔2.Hadoop版本综合考虑,先暂定选择目前绝大部分公司在使用的版本,ClouderaCDH5.5.0免费版,或者ApacheHadoop2.6.0版本注:根据从网上和开源社区还有身边朋友了解的信息,大部分都认为CDH的运维、管理、监控及Hadoop相关组件,在使用方面有助于后期的维护管理,CDH版本趋于稳定先对CDH版本在虚拟机上进行安装测

8、试2.Hadoop版本Hadoop生态圈其他组件hadoop-2.6.0<===

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。