sli(需要什么)

时刻小站 100

关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。

SLO、SLI 和 SLA 如何相互关联?这些首字母缩略词将如何帮助管理用户期望的服务水平?让我们逐一看看。

站点可靠性工程 (SRE) 是将软件工程专业知识应用于 DevOps 和运营问题的实践。SRE 因 2016 年出版的站点可靠性工程:Google 如何运行生产系统而流行,通常意味着主动编写代码和开发内部应用程序以解决可靠性和性能问题。

在 SRE 中,服务水平以可衡量的方式描述在给定时间段内提供给用户的服务。服务级别目标 (SLO) 是为系统预期的可用性设定的目标。服务水平指标 (SLI) 是确定系统可用性的关键测量和指标。服务级别协议 (SLA) 是法律合同,用于解释所达成的协议以及如果系统不满足 SLO 会发生什么情况。

例如,Web 应用程序的 SLO 可能是视频必须在不到两秒内开始播放,在一周的时间里,99% 的时间。SLI 衡量网站上在不到两秒内开始播放的视频的比例。SLA 包括此 SLO 和客户与服务提供商商定的其他 SLO、将涵盖的服务范围,以及 SLI(将用于衡量性能的指标)。

但是 SLO、SLI 和 SLA 如何相互关联?这些首字母缩略词将如何帮助管理用户期望的服务水平?让我们更详细地看一下每一个。

什么是 SLO?

SLO 是您为期望系统的可用性设定的目标,以一段时间内的百分比表示。

服务水平目标帮助团队在可用性和正常运行时间的共同含义上进行协作。您使用 SLO 作为衡量可靠性和可用性的标准。如前面示例中所述,SLO 规定 Web 应用程序中的视频必须在不到 2 秒的时间内开始播放,即一周内 99% 的时间。

什么是 SLI?

SLI 是对用户如何体验系统可用性的定量测量。它们代表一定比例的服务成功输出,以百分比表示。

这些服务级别指标是根据 SLO 进行描述的,但 SLI 为系统可靠性提供实时信号。SLI 可以衡量速度快于阈值的请求比例或进入管道并导致输出正确值的记录比例。如前面的示例所述,SLI 衡量网站上在不到两秒内开始播放的视频的比例。你可以知道你离 SLO 中的目标有多远。

什么是 SLA?

SLA 定义客户在使用您的服务时期望的服务级别。

这些服务水平协议是服务提供商与其客户之间的合同,记录了提供商将提供的服务并定义了提供商有义务满足的服务标准。SLA 描述了违反 SLO 承诺的补救措施或处罚。

对于前面的示例,SLA 将包括 Web 应用程序的所有 SLO,以及将涵盖的服务范围,以及所有 SLI,这些 SLI 将用于根据 SLO 衡量性能。该协议还包括服务提供商和客户的责任。

谁使用服务级别、SLO、SLI 和 SLA?

虽然 SRE 团队和可靠性工程师并不总是负责管理服务水平,但这通常属于他们的职权范围。通过跟踪 SLI 并将它们与 SLO 绑定,您可以围绕系统性能设定目标。Google 的 SRE 书籍将服务级别的四个黄金信号定义为延迟、流量、错误和饱和度。因此,例如,您可以查看 API 调用并跟踪其成功/失败请求的数量 (SLI) 以及客户成功所需的一般请求百分比(SLO,例如 95%)一个很好的经验。

SRE 团队经常在其应用程序和服务中的关键组件上设置严格的 SLO,以更好地了解他们可以与客户达成一致的 SLA 的严格程度。从这里开始,团队可以应用错误预算来了解他们必须以多快的速度解决问题以保持符合他们的 SLO。服务级别允许团队汇总指标并创建整个组织的正常运行时间、性能和可靠性的透明视图。一目了然,业务领导者可以使用服务级别来监控多个团队、应用程序、服务等的合规性,以全面了解其系统的健康状况。

上一篇:

下一篇:

  同类阅读

分享