SRE可观测能力：分钟级感知故障、定位和快恢的能力

如何获得讲师PPT：

扫码关注公众号，后台回复「2251」即可获得讲师PPT哟～

还能一键订阅后续精彩活动内容～

Q&A环节：

一、链路跟踪是按单台的server跟踪呢？还是按照单个应用来跟踪？如何全局显示呢？

这两者是关联的关系。调用链其实我们的一个做法是会说：它会建立一些核心的链路，这个链路它会创造很多的微服务。当然，单台的server只是他服务下面关联的一些属性或者展开的维度。可以对比，也可以关联起来。

二、观测能力的那张图，那个链路跟踪显示只是某一个应用系统还是某几台server的？那如果是有500台server该如何全局显示呢？或者说该如何快速找到有问题的电路？

其实服务器这个维度，或是server这个维度，就和其他所有的维度一开始都不应该把它展开来看，除非定位出来说是某几台或者某台的名字再把它定位出来。正常情况下，不应该把它展示出来，它只是我们部署的基础。甚至在云原生情况下，容器 / 服务器它是一个动态变化的过程，这不是关键，还是要以应用为核心去看，应用你可以下钻到服务器。

那500台没办法每一台都展开来看，那这种就更需要我们算法能力。当然500台的时候我们也可以找到一些维度去做对比分析，比如说机房的维度、交换机的维度、低价的维度、运营商的维度、或者云的维度，可以基于这些维度去做对比分析。但这种对比确实很难把500台全部都展示出来看，最好还是从算法的能力去识别出来。

三、请问对于一些小型的创业型企业来说。在没有那么多人力资源的情况之下，应该怎么推进可观测性系统呢？就是有没有一些比较好的服务推荐使用呢？

一方面有需要，但另外一方面可能建设的投入，资源又没有那么多的情况下，确实比较难自己去做这个事情。当然很多公司其实是用了开源或自研的方式去做这套东西。那最近我也观察到一个现象，或是说行业的一个变化就是。有很多专门做第三方服务、可观测性服务的公司。国内有蛮多的在做观测性的企业。对中小企业来讲，SaaS类的服务，可能是有好处的，可以按需付费。在云上也能够拿到资源直接去使用。而且他们的能力和经验已经积累起来了。但怎么去用好它是一个问题，怎么去用好第三方的能力呢？我的建议是说大家可以找这些公司的人来聊一聊、交流一下，对他们其实更有经验。你不一定买它，但你可以跟他交流去试用一下。

四、企业可观测性建设中的性能Profiling目前处于什么样的位置？AIOps对于可观测性的根因定位有什么方法吗？

以前的APM，其实它就是一个性能Profiling的东西，业界有很多的讨论。Profiling一是能够体现运维、SRE系统方面的一些专业程度。同时也可以把这种能力的扩展成为专业的工具。云上也有一些，就像阿里也有一些在云上去分析整个系统的性能的一些专业工具。甚至我还见过一些更专业的工具，是到系统的内核站去做一些调试和优化调优。当有需要的时候，可以把它建成一套东西。或一套系统。

第二个问题，我理解就是利用算法来分析数据，来感知，理解数据。具体是用什么方法根因定位方法，就有很多，比如多维度根因，单指标的异常检测、跟业务特点做一些结合。怎么样把系统的模型建立起来，通过链路的模型能够再分步骤的去做这种探索。就是通过算法、通过自动化的方式去理解，去读取，理解，感知，用好我们的数据。我是这样理解的。

本文来自投稿，不代表TakinTalks稳定性技术交流平台立场，如若转载，请联系原作者。

SRE可观测能力：分钟级感知故障、定位和快恢的能力

如何获得讲师PPT：

Q&A环节：

一、链路跟踪是按单台的server跟踪呢？还是按照单个应用来跟踪？如何全局显示呢？

二、观测能力的那张图，那个链路跟踪显示只是某一个应用系统还是某几台server的？那如果是有500台server该如何全局显示呢？或者说该如何快速找到有问题的电路？

三、请问对于一些小型的创业型企业来说。在没有那么多人力资源的情况之下，应该怎么推进可观测性系统呢？就是有没有一些比较好的服务推荐使用呢？

四、企业可观测性建设中的性能Profiling目前处于什么样的位置？AIOps对于可观测性的根因定位有什么方法吗？

相关推荐

得物双十一稳定性保障黑科技

助力降本增效, 新东方可观测体系标准化改造

去哪儿网《1-5-10故障体系建设—秒级监控预警落地实践》

发表评论