【書籍】SRE サイトリライアビリティエンジニアリング

書籍 SRE サイトリライアビリティエンジニアリングを読んだ。

www.oreilly.com

書籍の内容

Googleの「SRE」という組織がどのような役割を果たしているのかや、従来のシステム管理者との違いについて書かれた書籍だった。 今でこそ様々な場面で耳にするSREという単語は、このGoogleの組織から来ている。

このSREという組織は従来の運用管理専門の組織とは異なり、システムの運用という観点はもちろん、開発フェーズの段階から介入し組織を横断して運用の効率化とシステム安定化を目指している。

各章は内容としてはSREチームに関連して様々な、観点からのベストプラクティス集といった感じで独立している。

感想など雑多に

まずサービスの安定稼働を目指すためには、その指標が必要不可欠である。そして4章ではその指標として、SLI,SLO,SLAをどのような値に設定するべきか記述されている。

この辺りは運用に関わるメンバーでもしっかりと、常日頃から目標値と現状を共有できているとチームとして一体感が生まれそうだと感じた。

AWSやGCPなどのクラウドサービスを利用して自社のプロダクトを運用する機会が多い昨今の状況では、運用と開発における境界は自ずと狭まりつつある(と思っている。特にマイクロサービスを代表されるアーキテクチャを取っていればなおさら)

そういったなかで、可用性工場のためデプロイメントの最適化やプロセス改善を行う専門のロールが生まれるのも納得がいく。

それなりにボリュームのある本のため、一度サクッと読んだ後は気になったものや業務に活かせそうなエピソードを選んでたまに本書を開く、といった読み方がおすすめ。

各章に踏み込んだ内容については、気に入った章をその内取り上げてまとめようかと思う。

ちなみに英語版は無料で読めます。

Google - Site Reliability Engineering