系统运维架构演进之路

系统运维架构演进之路

ID:43717491

大小:355.65 KB

页数:25页

时间:2019-10-13

系统运维架构演进之路_第1页
系统运维架构演进之路_第2页
系统运维架构演进之路_第3页
系统运维架构演进之路_第4页
系统运维架构演进之路_第5页
资源描述:

《系统运维架构演进之路》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、从5台服务器到两地三中心魅族系统运维架构演进之路魅族的互联网业务起步得比较早,2011年就开始,到2014年真正转变为一家移动互联网公司。从2014年开始,魅族互联网业务呈现爆发式增长,截至2015年底,Flyme注册用户突破3000万,应用商店超过100万款应用,总下载量超过100亿z营收能力同比增长12倍。伴随着业务的高速发展,运维面临的挑战也越来越大,碰到的问题也越来越多,同时运维架构在不断的完善变更。系统运维架构演进史这几年我们主要围绕质量、效率、流程、成本维度对运维工作进行优化,慢慢的由运维转变为技术运营,提高自身的价值。一、远古时代(2011.1-2011.12)规模•

2、机柜:1个•服务器:5台•业务:2个•人力:开发兼职运维问题•机房稳定性•监控缺失•架构单点二石器时代(2012.1・2014.6)nIIINagios,Cacti监控运维管理IDC衣础mysqKmongodb、MFS文件系统脚本工具实现自动化运维服务器/VM网络V1.0IDCJ理高可用架构规模•IDC:1个•机柜:30个•服务器/VM:800台•业务:>100个•人力:运维12个问题•IBM刀箱、EMC存储、Vmware虚拟化、硬件供应商单一。去IOE•网络不稳定、活动日流量突增。搭建新网络架构,带宽冗余•机房资源不足扩容难。迁移机房”资源冗余•部分业务架构单点乍去单点,保证可靠

3、性•部署:手工操作,依赖于人。自动化运维工具•监控:覆盖率彳氐。定时巡检•DB压力e使用SSD•安全性较低。RSAToken+堡垒机,自硏WAF,岀口ACL控制,采购DDOS流量清洗服务三.青铜时代(2014.7-2015.12)规模•IDC:多个•机柜:>150个•服务器/VM:>4000台•业务:>200个•人力:运维平台35个问题•标准化率低z监控覆盖率低,维护成本高,有效性低・标准化巡检,监控巡检•机房扩容难,成本高。迁移,了解行业价格•IOE、虚拟化方案。使用X86服务器,建立基于KVM的魅族云平台•部分业务架构单点。梳理单点业务,统一高可用架构•故障多样性。建立知识库,

4、厂商技术支持•规模突增◎容量管理•资源扩容效率低。资源冗余,自动化装机平台•配置管理,准确性低°流程化管理•业务可用性。架构冗余,两地三中心四.铁器时代(201&]至今)FullnatLVSrouter逻轲/展小层PHPwJava.C、Ci、GolangZabbb(监控、BI监控_Jk.鼻1告警系统发布平台°‘1域名平台]自动化运维工几业存MIIDC认础:MysqKredis.mongodb.MFS.FastDFS.HOPS眼务器/KVM/Docker网络V3.0装机平台事件系统CMDBSJ产管理■swIDCi*网规模•IDC:多个•机柜:>200个•服务器/VM:>6000台•业

5、务:>200个•人力:运维平台43个问题•监控问题:监控指标量化、可视化◎统一告警平台,告警收敛•机器套餐多,业务需求个性化J根据容量情况整合同类型机型•运营成本高,各业务ROI量化*资源使用考核,建立内部营收体系•工作流程化R工单系统•资源利用率低*容量系统•预案管理?定时演练顾总结基础设施规划(业务爆发式增长)•IDC迁移,单个变多个,建设两地三中心•保留足够的机柜预留资源,保证快速部署需求•去IOE,建设以KVM为基础的魅族云平台,引入Docker容器平台,实现微服务监控告警与定位(及时发现与定位)•告警分级:邮件、短信、钉钉•自动化添加监控设备,根据CMDB业务树进行巡检,

6、保证监控覆盖率•BI告警,度量系统成本控制•提高资源使用率:监控系统+容量管理平台•容器服务化•供应商管理,引入多家厂商•Flyme内部结算,建立内部营收体系业务同质化与差异性(维护成本)•标准化:OS标准化、硬件标准化、软件标准化、架构标准化、组件标准化、协议标准化•规范:日志规范、部署规范手工重复操作,依赖人(效率)•运维自动化、平台化达到快速交付要求•上线流程+标准化打包+自助发布+灰度发布(持续交付)预案-异地双活+快速切换措施•专线切换演练运维整体架构魅族的整体架构还是跟多数互联公司一样,采用多级分层模式,目前所有的业务全部有高可用方案,应用或DB至少2台以上。当然,具体

7、业务要复杂很多,以上只是抽象出简单层面。(点击图片可放大浏览)魅族的运维平台和技术平台开发了很多实用的系统,这些系统组成了整体的运维体系。在自动化方面,我们也是摸着石头过河,根据实际出发,找出痛点,归纳整理出需求,并考虑如何实现。我们的思路是定义优先级,任务分解,先做最容易的,最能提高效率点,再做整合,通过各个子系统的整合,慢慢形成适合自己的自动化运维框架。监控系统接下来给大家介绍下我们的监控系统,魅族基础系统层监控采用的zabbix,这也是当前规模比较适合的一套监系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。