关于故障复盘、容忍度和SLO

作者阿里云代理 文章分类 分类:linux图文教程 阅读次数 已被围观 742

黄金三问-怎样更好的聚集改善

毛病复盘往往被咱们开成了批斗会,推诿扯皮撕逼会,原因就在于咱们把毛病复盘的意图搞错了,总想着找人背锅,把自己的责任撇清楚,而不是聚集在怎样改善上面,或许咱们原本的意图是想着改善,可是开着开着就变了味,遇到这种状况怎样办呢?三个问题,搬运对立和抵触的焦点,让咱们愈加聚集怎样从毛病中进步和改善。

  • 第一,毛病根因到底什么?
  • 第二,咱们做什么,怎样做才能保证下次不会再出类似毛病?
  • 第三,咱们做什么,能够让本次毛病时刻更短,更快地康复事务?

然后不断反复的重复三个问题,直至咱们以为找到了改善的办法。当然,咱们或许还听说过5Why分析法,便是针对毛病至少问5个为什么,一般就能够找到比较深层次的原因,或许不是根因,可是必定会比较有针对性了。这个5Why的方法其实便是这三个问题的延伸,这三个问题会不断牵引着咱们的评论朝着实质问题深入,从咱们实践实践的作用看,黄金三问作用会让评论愈加聚集。

毛病容忍度—事务优先仍是安稳优先

关于这个话题,之前咱们听到过很多,可是大多没有正面PK过,从运维、SRE或根底平台的搭档的视点看,安稳必定是优先的,任何时分都不能放弃安稳,可是从事务搭档的视点看,事务开展肯定是第一位的,没有开展,光有安稳会有什么用呢。正好,近期碰到两个类似的交流,观念也相对一致,这儿共享一下。
前段时刻去GTLC台北奋战做共享的时分,听环球易购的CTO乔总共享,提到了这一点。环球易购正处于高速开展阶段,事务迭代速度快,根底设施改变也比较大,这个过程中也会遇到大大小小的毛病,可是这儿就有个取舍问题,到底是减缓事务开发的节奏,投入必定的时刻和人力,一个个毛病作分析,做改善,做好定责和绩效绑定,仍是保障事务继续往前冲,进步容忍度,这个取舍怎样做?其实就一个原则,事务在开展,能挣钱,就不要让周边这些小插曲影响了节奏,所以进步容忍度,不要在这个时分拿着毛病当成了要点。其时乔总做了个假定,如果每天能挣10个亿,出几个小毛病又能怎样怎样样?莫非非要把责任定清楚了,归入到绩效考核里,科学办理了才行?这个时刻本钱怎样算?耽搁的事务开展的收益怎样算?办理不好,对职工的积极性有打击,为竞争对手培养了人才,怎样办?
还有一个是近期参加QCon讲师讲演经历共享,跟社交大厂的总监在路上聊起来的,听说某个广告事务,尽管跟游戏比算不上最大的印钞机,可是挣钱也是哗哗滴,所以,在他们内部形似也没人关怀这个体系的毛病问题,只要不影响挣钱,没人必定要拿着毛病怎样样,有的事务上去,两台主机跑起来,有天然流量进来,钱就哗哗地赚,挂了,挂了赶紧重启就行啊,别耽搁挣钱就能够,听说容忍度极高。
所以,从这个两个案例来看,事务开展才是一家公司的命脉,在挣钱和毛病上怎样做权衡,从上面的视点来看,就不难选择了,必定是事务优先。当然,这儿并不是说这两个事务和公司就会让毛病任其自然毫不干涉,而是在事务和毛病之间会有一个比较好的权衡取舍,内部仍然会有一些机制来科学地办理毛病。

为什么需求SLO-毛病认知规范的树立

关于SLO的界说这儿我不做具体描述,咱们能够Google或百度,也能够去看Google SRE的第二本图书,都有很具体的介绍。这儿我主要讲一下为什么需求SLO。SLO的实质便是拟定一个规范,使各方对安稳性和毛病率构成一个一致的认知。因为假定没有规范,咱们默认安稳性就应该是100%,咱们的体系就不应该呈现毛病。这个一致的认知,在咱们内部或许相对比较简单树立,通过充分的交流和评论,咱们总会构成一个可接受的SLO规范,可是对外部,就比较困难了。
这儿我先举一个比方:咱们现在很多事务都运行在云上,也便是用了很多的云服务,比方咱们的直播。几个月前T云上海光缆被挖断,视频事务受到了影响,基本上70%-80%的视频是无法观看的,从事务特点上,是因为咱们绝大部分的主播都会集在江浙沪一带,而北方和华南的主播是比较少的,所以尽管是一个部分地域的影响,对于咱们来说,基本便是大局的。
不过,从云厂商的视点来看,实践的监控状况显示,一个地域的部分影响只占大局影响的2%-3%左右,这时对于云厂商就要判断,为了这2%-3%的部分影响,要不要做大局的切换动作,对于其它客户会不会形成影响等等,他就要考虑更多的要素。所以,只是等这样一个决议计划,就花了很长时刻,最终从事务视点动身和考虑,仍是做了切换,保障了事务康复。
这儿2%对80%,这个数字上的不一致,实质上便是对安稳性规范认知的不一致。这儿很难界定谁对谁错,要处理这个问题,最好的方法便是引进事务SLO,有一个一致的认知规范。这就要求云厂商要站在客户和事务视点看待问题,为事务安稳性方针担任,而不能只是站在自身,站在一整个大盘的视点看自己是不是有问题。
可是SLO的拟定和约定,特别是厂商和客户之间的SLO拟定,仍是会有一些GAP需求添补,或许说对于云厂商的服务要求会更高。比方:

  • 云厂商的客户有很多,不同客户的规范也不一样,怎样保证这么多样性的SLO都能达标?
  • 没有一致的规范,很简单形成我定了SLO,其他客户也要定SLO,我定的SLO或许是非常严厉的,如果不小心把SLO公布出来了,引起很多用户要按照这个规范提要求,这对于云厂商的压力是非常大的,这也是云厂商不敢轻易承诺的一个阻力。
  • 一旦为事务安稳性担任,必然就要有定制化的服务,定制化的服务就意味着独立的人力本钱支付,这个显然是不符合云厂商的ROI策略的,所以落地时也很难履行到位。


所以,云厂商更多的履行SLA即可,没有必要去到达SLO,其实我一直建议,SLO的到达能够作为附加的增值服务,已然客户要求到达,那就应该支付必定的本钱,因为究竟咱们是使用了厂商的专业服务能力,我想跟着云核算产业的不断开展和完善,提供有价值的专业服务能力的那一天应该会到来。


本公司销售:阿里云新/老客户,只要购买阿里云,即可享受折上折优惠!>

我有话说: