大规模hadoop集群运维经验谈

大规模hadoop集群运维经验谈

ID:9219503

大小:1.78 MB

页数:22页

时间:2018-04-23

大规模hadoop集群运维经验谈_第1页
大规模hadoop集群运维经验谈_第2页
大规模hadoop集群运维经验谈_第3页
大规模hadoop集群运维经验谈_第4页
大规模hadoop集群运维经验谈_第5页
资源描述:

《大规模hadoop集群运维经验谈》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、阿里Hadoop集群运维介绍柯旻(大舞)阿里巴巴技术保障部门‐云计算运维大纲阿里hadoop集群发展现状监控报警自动化运维数据化运维大规模集群下遇到的运维问题和新挑战2Alibaba confiden.al集群容量与负载集群容量集群负载(每天)•–约~ 5000台服务器•Job 200,000+•–CPU core ~50000核•扫描数据量~10PB  •–内存~260TB  •扫描文件数~4亿•–磁盘~120000块•存储利用率~75‐80%  •–存储容量~110PB  •–CPU利用率~7

2、0% 峰值85%  3Alibaba confiden.al服务器数量增长12000 10000 10000 8000 6000 服务器数量5000 4000 3000 2000 2000 1000 700 200 0 2009.4 2010.3 2010.7 2012.1 2012.1 2013.7 2014? 4Alibaba confiden.al集群服务模式•生产开发测试预发共享一个集群•重点生产业务0~9点运行测试预发•非生产限制在9~23点可用开发9~23点9~23点9~23点生产

3、HDFSMapReduce全天可用云梯Hadoop集群5Alibaba confiden.al集群核心业务平台架构Oracle备库MySQL备库日志系统爬虫数据Gateway ServersDataXDBSyncTimeTunnel天网调度系统数云梯服务集群据流Map Reduce JobsStreaming JobsHive Jobs向数据用户部门数据平台搜索广告BI支付宝口碑B2B数据魔方量子统计淘数据推荐系统搜索排行…对外数据产品资料来源:《淘宝云梯分

4、布式计算平台整体架构》-6张清(淘宝)Alibaba confiden.al监控报警•监控Hadoop关键进程,磁盘运行状况等短信、旺旺、邮件报警等•监控集群整体运行状态和Hadoop运行参数数据•Job的Counter数限制•创建HDFS文件数目的监控•本地文件系统数据读写量监控•异常作业监控•Endtoend监控•云梯医生监控各类用户态数据7Alibaba confiden.al云梯医生•展示一些应用组件基本信息(setup、map、reduce、cleanup,split、map、copy、s

5、ort、reduce、outputHDFS读写数据量、本地读写数据量、使用slots、调度等待时间、task失败的比例、task失败原因分类、task失败的机器)•针对用户提供体检服务 •支持定制服务和实时体检8Alibaba confiden.al自动化运维1.服务器上线前自动化检查2.硬盘异常自动化处理3.集群用户一站式portal 4.日常各类自动化运行报表     ………………. 9Alibaba confiden.al服务器上线前自动化检查硬件上线前监测(fw版本,bios配置,驱动版本以及性能情况)

6、10Alibaba confiden.al硬盘异常自动化处理硬盘异常自动处理1.廉价、大容量的硬盘找到异常磁盘2.磁盘繁忙度和利用率很高3.硬盘故障率远高于其他硬件Umount,fsck能卸载即卸载,不能卸载重启服务器(带外)11Alibaba confiden.al集群用户一站式Portal▽用户服务▽组管理员服务▽集群管理员服务>申请用户>申请审批>申请审批>申请用户组>申请Slots>管理用户>申请Gateway>申请存储>管理用户组>进度查询>管理Gateway>查询用户>

7、Queue管理>查询用户组>Slots管理>查询Gateway•集群用户一站式完成各类申请>用户手册•组管理员负责申请计算存储资源•集群管理员通过web控制调整集群配置Alibaba confiden.al日常各类自动化运行报表13Alibaba confiden.al数据化运维•自动化后是不是就够了?•1000台,1万台我们还有经验可以借鉴,10万台,50万台,100万台后我们借鉴什么?•拍脑袋的决定不一定靠谱了,随着规模的扩大也许一拍下去会跟公司造成巨大损失数据才是唯一真实可靠的!14Aliba

8、ba confiden.al磁盘•EXT3文件系统,当时的数据量,做一次fsck需要至少半个小时•每次修复需要停掉一台节点的应用H云计算平台的133天中:625次文件系统的fsck。平均每天需进行4.7次的修复。保守按耗费半小时来计算造成每天有141分钟单台不可用时间有数据就有底气:•应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。