AI简介
这是一本深度揭示Google运维实践的宝典,它详细解读了Google如何运用各种计算机工具软件、硬件以持续部署和监控一些世界上最大的软件系统。这本书不仅展示了Google的运维之道,也展示了在运维过程中,Google工程师团队是如何学习、成长、反复修改,最后定义出一套完整的工具和科技体系的过程。
在书中,SRE方法论是核心内容之一。SRE方法论主要包括共同责任的新型参与模型,服务框架,以及SRE平台。共同责任的新型参与模型,最初有两种选项:完整的SRE支持,或者基本上没有SRE支持。在这种模式下,SRE团队承担大部分基础设施服务的软件开发和维护的责任,而研发团队则负责服务的功能性问题。服务框架,以一个标准化的方式实现了基础设施部分的代码并且预先解决了常见的各种生产问题。每个问题都被封装在一个或多个框架模块中,每一个框架都为问题所在的领域或问题相关的基础设施依赖提供了一个完整的解决方案。SRE平台,随着服务框架和SRE平台的发展,早期参与模型超越了简单PRR模型,但SRE参与模型还有演进的空间,主要在于对可靠性的设计方面。
书中还详细介绍了Google数据中心特点与挑战。Google