ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰

ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰

ID:8219496

大小:2.98 MB

页数:44页

时间:2018-03-10

ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰_第1页
ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰_第2页
ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰_第3页
ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰_第4页
ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰_第5页
资源描述:

《ArchSummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ArchSummit全球架构师峰会北京站2015新浪微博高可用服务保障体系演进新浪微博高级技术经理李庆丰内容大纲•新浪微博服务保障面临的挑战•伴随着业务发展,高可用服务保障体系的演进过程起步阶段-纯手工快速成长-工具化、系统化稳定发展-异地容灾与多机房弹性调度时代-容器化及混合云•分享与探讨:如何保障高可用及高效运维服务保障的挑战服务保障的挑战运维复杂度与机器数量、服务模块数量正相关服务保障的挑战微博DAU功能模块数量机器数量10000W+2015百个+万台+6100W+2013几十个几千

2、台3600W+2012十几个几百台2010起步2009几个几十台服务保障的挑战用户业务量系统运维SLA用户:10亿日志:百T+设备:万+服务扩缩容99.99%DAU:1亿接口:600亿服务:百+5min/百台100ms不断演进的高可用保障体系演进演进:起步阶段时间:2009-2010设备:几十台-几百台服务:几个-十几个业务:迭代需求强运维:多次变更发布/天演进:起步阶段-纯手工产品迭代代码bug发布变更快多频繁CMD命令搞定一切演进:起步阶段案例:10次上线的一天新功能Bug上线回滚再上线回滚再

3、上线新功能Bug上线演进:起步阶段案例-第一个工具系统Jpool发布系统svn:urlhttps://…...varnishIPs10.73.1.50,10.73.1.51Result10.73.1.50isok10.73.1.51isok发布取消503svnupdispatchrestarttomcatagenttail–faccess.log200应用服务器演进:起步阶段-第一个工具系统上线发布Jpool检查发布系统状态回滚变更演进:快速成长时间:2011-2013设备:几百台-几千台服务:几

4、十个业务:亿级/天运维:控制变更发布1次/天演进:快速成长-工具化业务增长服务压力线上故障快大频繁逐渐使用运维工具系统演进:快速成长-突发流量压力#马航事件##我们##Duang##周一见#刘翔摔倒演进:快速成长案例-到底谁慢了用户Feed慢你慢了!没有啊!PC微博FeedAPI2012年刘翔意外摔倒事件引发微博短暂故障Mysql缓存演进:快速增长-SLA让争执不再有•Service-LevelAgreementWhat•依赖双方的保障约定•明确职责(Api,memcached,redis,Why

5、mysql,network)•量化指标(onerequest)•999规则How•性能指标(如:99.9%<100ms)•容量指标(单机QPS,集群容量)演进:快速增长-实时监控快速发现问题ScribekafkaStorm实时入库数据分日志应用分析集析存储服务器服务器群Hbase实时刷新DashboardDashboard展示图Dashboard展示图展示图实时监控系统Dashboard演进:快速成长-日益完善的Jpool系统Jpool管理系统任务管理服务发布Nginx管理监控管理降级系统配置管理

6、DispatchPuppetmaster设备&集群管理公司设备管理系统演进:快速成长-机器多经常遇到服务器宕机tomcattomcattomcattomcattomcattomcattomcattomcat机器故障影响服务tomcattomcattomcat。。。tomcattomcattomcattomcattomcattomcattomcattomcattomcattomcattomcattomcattomcat收到报警MMMM找到故障机器MMMMCMCMCM。。。CMCMCMCMCMCCCC

7、CCCC从服务中摘除MysqlMysqlMysqlMysqlMysqlMysql。。。Redis服务恢复MysqlMysqlMysqlRedisRedis核心资源问题处理不及时可能导致集群故障演进:快速增长案例-针对Mysql自动降级恢复正常的Connector1返回Pool一次数据查询请求Connector1定期进行探测10s30s1min3min10min从Pool中获取Connector1Connector1置为不可用状态Yes通过Connector1请求ServerSlowcount>3N

8、oYesConnector1正常返回Pool是否500ms超时Connector1的slowcount++适当的自动降级和容错策略提高运维效率及可用性演进:快速成长-工具化、系统化建立内部SLA体系建设实时的监控体系建设服务依赖降级系统推动架构容错能力演进:稳定发展时间:2013-2014设备:万+台服务:百+个业务:百亿级/天运维:控制变更发布2次/周演进:稳定发展-业务特点业务增长用户数据风险压力平稳越发重要大相对完备运维保障系统演进:稳定发展-互联网最大的威胁演进:稳定发展-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。