课程主页: https://www.coursera.org/learn/site-reliability-engineering-slos
在当今互联网时代,服务的可靠性对企业的成功至关重要。Coursera上的这一课程《网站可靠性工程:衡量与管理可靠性》深入探讨了如何通过服务级别指标(SLIs)和服务级别目标(SLOs)来管理和衡量可靠性。
课程的第一部分介绍了SRE的基本概念,包括SLO及相关主题。即使你对这些概念已有了解,这一模块仍有可能带来新的见解。
接下来的模块讨论了如何设定恰当的SLOs及相关指标,以测量服务的可靠性。通过遵循三大原则,你将了解到如何合理定位你的服务承诺,以及如何表征一个“良好”的可靠性。
之后,课程进一步探讨了“错误预算”的概念,帮助学生理解如何判断服务何时需要更多的可靠性,以及可以采取哪些工程与操作改进措施。
在学习选择SLI的模块中,学生将会了解有效的监控指标与不太实用的指标之间的差异,掌握SLI测量的不同方法及其优缺点。
课程还将引导学生通过四个步骤开发SLOs和SLIs,并使用一个虚构的公司的示例进行实践,以增强理解。
在审视SLO的风险模块中,学生们将会评估实现既定SLO目标的现实性。而在SLO偏离后果模块中,将讨论文档化SLO的最佳实践和错误预算政策的制定。
总体而言,这门课既适合初学者也适合有一定基础的专业人员,对于想要提升服务可靠性管理技能的学员而言,确实是一个不可错过的学习机会。
课程主页: https://www.coursera.org/learn/site-reliability-engineering-slos