6 本關於 Google SRE 的參考書籍
1. 《Site Reliability Engineering: How Google Runs Production Systems》 作者 : Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff 出版時間 : 2016年10月 內容簡介 :這本書是 SRE 的基礎指南,介紹了 Google 如何運營大規模生產系統。書中詳細闡述了 SRE 的原則、方法及其對可靠性、可擴展性和效率的重視。主要概念包括 SLA(服務等級協議)、SLO(服務等級目標)、SLI(服務等級指標)以及故障管理、容量規劃等實踐。 強調可靠性與創新之間的平衡,推崇「運維即開發」的理念,倡導運維與開發團隊的緊密協作。 強調量化管理服務可靠性,建立 SLO 和 SLI 來衡量系統表現,並透過數據驅動的方式進行改進。 引導 DevOps/SRE 團隊採取自動化和精益化方式來提升效率,降低運維風險。 2. 《The Site Reliability Workbook: Practical Ways to Implement SRE》 作者 : Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne 出版時間 : 2018年3月 內容簡介 :這本書是《Site Reliability Engineering》的實踐擴展,提供了具體的操作範例和建議,幫助讀者將 SRE 的理念應用到日常工作中。書中涵蓋了如何設計和運營可靠系統、如何進行容量管理、故障預防、測試及事件管理等內容。 提供具體的實踐步驟,讓 DevOps/SRE 團隊能夠在實際工作中應用 SRE 方法。 鼓勵團隊建立自動化流程,提高系統運營的效率和可擴展性,並減少人工干預。 3. 《Seeking SRE: Conversations About Running Production Systems at Scale》 作者 : David N. Blank-Edelman 出版時間 : 2019年6月 內容簡介 :這本書以對話的形式,探索了 SRE 的哲學、策略和挑戰,並介紹了 Google 和其他大公司的真實案例。書中討論了如何實現可靠性、如何應對文化挑戰以及如...