SRE可观测能力:分钟级感知故障、定位和快恢的能力

如何获得讲师PPT:

扫码关注公众号,后台回复「2251」即可获得讲师PPT哟~

还能一键订阅后续精彩活动内容~

走出故障迷局的三重奏:逃生、复盘和推演

Q&A环节:

一、链路跟踪是按单台的server跟踪呢?还是按照单个应用来跟踪?如何全局显示呢?

这两者是关联的关系。调用链其实我们的一个做法是会说:它会建立一些核心的链路,这个链路它会创造很多的微服务。当然,单台的server只是他服务下面关联的一些属性或者展开的维度。可以对比,也可以关联起来。

二、观测能力的那张图,那个链路跟踪显示只是某一个应用系统还是某几台server的?那如果是有500台server该如何全局显示呢?或者说该如何快速找到有问题的电路?

其实服务器这个维度,或是server这个维度,就和其他所有的维度一开始都不应该把它展开来看,除非定位出来说是某几台或者某台的名字再把它定位出来。正常情况下,不应该把它展示出来,它只是我们部署的基础。甚至在云原生情况下,容器 / 服务器它是一个动态变化的过程,这不是关键,还是要以应用为核心去看,应用你可以下钻到服务器。
那500台没办法每一台都展开来看,那这种就更需要我们算法能力。当然500台的时候我们也可以找到一些维度去做对比分析,比如说机房的维度、交换机的维度、低价的维度、运营商的维度、或者云的维度,可以基于这些维度去做对比分析。但这种对比确实很难把500台全部都展示出来看,最好还是从算法的能力去识别出来。

三、请问对于一些小型的创业型企业来说。在没有那么多人力资源的情况之下,应该怎么推进可观测性系统呢?就是有没有一些比较好的服务推荐使用呢?

一方面有需要,但另外一方面可能建设的投入,资源又没有那么多的情况下,确实比较难自己去做这个事情。当然很多公司其实是用了开源或自研的方式去做这套东西。那最近我也观察到一个现象,或是说行业的一个变化就是。有很多专门做第三方服务、可观测性服务的公司。国内有蛮多的在做观测性的企业。对中小企业来讲,SaaS类的服务,可能是有好处的,可以按需付费。在云上也能够拿到资源直接去使用。而且他们的能力和经验已经积累起来了。但怎么去用好它是一个问题,怎么去用好第三方的能力呢?我的建议是说大家可以找这些公司的人来聊一聊、交流一下,对他们其实更有经验。你不一定买它,但你可以跟他交流去试用一下。

四、企业可观测性建设中的性能Profiling目前处于什么样的位置?AIOps对于可观测性的根因定位有什么方法吗?

以前的APM,其实它就是一个性能Profiling的东西,业界有很多的讨论。Profiling一是能够体现运维、SRE系统方面的一些专业程度。同时也可以把这种能力的扩展成为专业的工具。云上也有一些,就像阿里也有一些在云上去分析整个系统的性能的一些专业工具。甚至我还见过一些更专业的工具,是到系统的内核站去做一些调试和优化调优。当有需要的时候,可以把它建成一套东西。或一套系统。
第二个问题,我理解就是利用算法来分析数据,来感知,理解数据。具体是用什么方法根因定位方法,就有很多,比如多维度根因,单指标的异常检测、跟业务特点做一些结合。怎么样把系统的模型建立起来,通过链路的模型能够再分步骤的去做这种探索。就是通过算法、通过自动化的方式去理解,去读取,理解,感知,用好我们的数据。我是这样理解的。

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(0)
上一篇 2023年1月9日 下午3:36
下一篇 2023年2月28日 下午3:39

相关推荐

发表评论

登录后才能评论