Hadoop集群规划

Hadoop集群规划

ID:41154128

大小:1.22 MB

页数:24页

时间:2019-08-17

Hadoop集群规划_第1页
Hadoop集群规划_第2页
Hadoop集群规划_第3页
Hadoop集群规划_第4页
Hadoop集群规划_第5页
资源描述:

《Hadoop集群规划》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、•标准的x86的服务器•以太网络•多机架数据中心•软件环境•硬件的选择(处理器,硬盘,网络)HDFSMapReduceHBaseHive……客户端客户端客户端客户端Hadoop集群管理节点HDFSMapReduceHBaseHive……节点1节点2节点3……节点N角色描述节点数目HDFSNameNode分布式文件系统用以1个独立节点存储文件系统以及数据块的元数据HDFSSecondaryNameNode的影子节小规模集群可以和NameNode点NameNode共享节点,大规模集群用独立节点HDF

2、SDataNodeHDFS数据存储多个独立节点MapReduceJobTrackerMapReduce调度程序1个独立节点,小规模集群可以与NameNode共享,大规模集群使用独立节点MapReduceTaskTrackerMapReduce实际计算与DataNode运行在相同的节点节点之上HiveHive元数据以及驱动独立配置的话可以与程序NameNode共享节点,或者将元数据存放在客户端角色描述节点数目ZooKeeper用以提供集群高可用性的3个或3个以上的奇数的独锁服务立节点(小规模可以和

3、其它角色共享节点)HBaseHMasterHBase用以调度与其它角色共享节点的多RegionServer的主模块个节点HBaseRegionServerHBase中用以管理数据的一般与DataNode运行与相模块同的节点之上ManagementNode可能的集群监控管理节点一般为一个独立的节点,如果小规模集群的话可以与其它角色共享•HadoopHadoop•–••–IO••••4•16GB服务器角色及服务类型内存要求MapReduceJobTracker2GBMapReduceTaskTrac

4、ker2GBMapReduceSlotsonTaskTracker512MB*slot数量HDFSNameNode16GBHDFSSecondaryNameNode16GBHDFSDataNode2GBZooKeeper4GBHBaseMasterServer2GBHBaseRegionServer16GBHiveServer2GB客户端8GB•–HDFSDataNode,MapReduceTaskTrackerHBaseRegionServerslotmapslotsreduceslots16

5、2GB+2GB+512MB*16+16GB=28GB•HBase•JBODvs.RAID–RAID–RAIDRAID0••••++MapReduce•典型使用以太网络,为了使得系统能够正常运行,最低使用千兆以太网连接,由于需要有数据交换的需求,建议配置大容量的网络交换机•当一台机器上有多个网络适配器时,推荐使用网络适配器绑定Linux的方法配置链路聚合,并把工作模式设为6。在工作模式为6时,负载平衡可以通过循环取得,并且这些网络适配器可以在没有配置交换器的情况下正常工作•千兆以太网接口是最基本的

6、要求,更重要的是交换机的背板带宽,是决定数据传输的关键因素•一个以太网交换机的接口是以太网交换机到主机的速度,这个速度决定主机到交换机的速度级别,在Hadoop环境中,这个速度最少应该是千兆以太网•接口速度即使达到了千兆以太网,实际的运行速度可能并不能真正达到千兆以太网的速度,因为可能有数十个设备同时共享这个交换机•决定交换机的性能的关键因素是交换机的背板带宽,具有良好背板交换能力的交换机能够使得任意两个接口之间的速度以及上行的速度都能够达到千兆的速度,而通过总线进行共享的带宽往往不能达到理想的

7、速度•为了能够使得Hadoop的处理能力能够得到充分的释放,交换机对于系统运行的性能起到了决定性的左右,建议在可能的情况下尽量选择高端的交换机,使得每一个接口都能够达到线速(网线能够达到什么速度,交换机就能够提供什么速度,没有性能损失)•最常见的是使用服务器本身的万兆以太网络,每一个机架使用一个交换机,在多个机架之间进行带宽聚合。这种方式在总的节点数目较少(少于40个)集群比较合适•如果应用(例如ETL的应用)的IO高负载,这样的话,网络会成为性能瓶颈–12块以上的硬盘,每块以100MB/s速度

8、运行,会很快吃掉所有网络带宽–低端的交换器不能够支持线速,产生阻塞•提高网络速度最直接的办法是通过端口绑定,将服务器的多个端口绑定为一个•IP•ip––•Linux••10GBE•310•HadoopHBase••InfiniBandInifiBand•InfiniBand10G20G40G•4~10个节点,解决较小规模问题项目指标处理器CPU双路四核服务器处理器,2x42.6GHz内存32G或者以上内存,DDR3,ECC磁盘接口SAS6GB/s磁盘6x或者12xSATA1T7200RPM监控级

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。