Published
- 8 min read
Incident Response Meetup vol.1にオンライン参加してみた
参加イベント
Incident Response Meetup vol.1
2024/01/16(火): 19:00 〜 21:00(オンライン参加)
イベント公開資料
イベント関連リンク
- Incident Response Meetup vol.1(togetter)
- 障害対応で大切だと感じていることのまとめ(Qiita)
- Incident Response Meetup#1(2024/01)に参加した
- Incident Response Meetup vol.1 にオフライン参加してきた
イベントでの気づきメモ
オフラインとオンラインとのハイブリッドイベントは、運営側の負荷がかなり大変だと思うのですが、関西勢の自分としてはオンライン配信があったのが非常にありがたかったです。
本イベントに参加してみて、インシデント対応において、
- インシデントレベル定義による対応方針
- インシデントコマンダーの役割
というのが、組織内に浸透させておくことがとても重要だということが際立ったイベントだったと感じました。
と同時に、システム運用時のインシデント対応という、これまでなかなか計画的に経験を積むことができなかった分野に対して、近年ではここまで知見が蓄積/公開されていることに驚きました。
オフラインでの懇親会などは参加できませんでしたが、X上のハッシュタグを追っていると、気になるトピックやリンクがあったので、個人の気づきとともに備忘録として残しておきます。
-
「入門 監視」と「各種SRE本」を読み返すきっかけをもらった
SRE本にも入門監視にもインシデントコマンダー書いてあるのに、ここまであまり話題にならなかったのは「できる人に偏る」というノウハウの偏在はあると思う
#障害対応
— あんどぅ (@integrated1453) January 16, 2024
イベント開催中に投稿されていた上記の投稿を見て、改めて入門監視やSRE本を引っ張り出してくるよい機会になりました。
本に書かれていることを海馬の片隅で保存しておくだけでなく、実際の運用まで組み込まれている事例を聞くことで、自組織の運用へ適用させていくことが重要だと改めて感じました。
入門 監視の本文中にも「監視を育てる」という文言がありましたが、登壇者の方々はそれを実践されていて、組織運営に関わる側としても参考にしたいなと思いました。
-
PagerDutyのドキュメントが素晴らしい
”インシデントコマンダーはシステムの深い技術知識は必要ありません。 インシデントコマンダーはインシデント対応を調整することであって、技術的な変更を行うことではありません。 もしあなたが開発部にいなくても、インシデントコマンダーになれないと思わないでください。“…
— Kazuto Kusama(jacopen)☄ (@jacopen) January 16, 2024
インシデントコマンダーに関連して、古巣の職場でPagerDutyさんのドキュメントやブログはすごく参考になるというのは聞いていたけど、
といったPagerDutyさんの和訳記事を読み直すと、とても重要な考え方が記載されているんだなあと感じました。
私はエンジニアではなく、PagerDutyのスクラムマスター(チームのまとめ役)です。私は最近インシデントコマンダーになりました。インシデントコマンダーとして働くには上級の技術者である必要はないということを最初に学びました。
「インシデントコマンダーは誰でもできる」という文言をそっくりそのまま受け取ると、組織フェーズによっては誤解を招くケースがありそうな気もしますが、インシデントコマンダーを属人化させず、誰でもできるような環境を構築していくことは確実に重要かなと感じました。
-
Wantedlyさんの誤報の報告者に対する配慮の仕方が素敵だと感じた
Wantedlyさんのドキュメントまじでいいよ
#障害対応
https://t.co/542Wb3wg1g— あんどぅ (@integrated1453) January 16, 2024
Wantedlyさんが社外向けにも障害対応の心構えを公開しているのもすごいなと思ったけど、それ以上に「この文化を維持するために必要なこと」という項目で、インシデントに関わる人々への言葉が書かれているのが素敵だと感じました。
まずは報告してくれたことに対する感謝を伝えましょう。 加えて「誤報で良かった」ことを伝えましょう。 スタンプなどで「よかった」「ありがとうございます」などを押すだけでも 報告者の心理的障壁が下がります。
個人的には、ここの「誤報を出した人に掛ける言葉」がすごくよいなと感じました。
障害と認めると監督官庁への報告がryみたいなの、某所ではよく聞いた
#障害対応
— Kazuto Kusama(jacopen)☄ (@jacopen) January 16, 2024
誤報で騒いでしまって、「あー、もう少し確証得てからから周囲を巻き込んだ方がよかったな」って思ったことは、これまでの経験でも何度かあったなと思い出しました。
Wantedlyさんのこの姿勢は大事にしないと、重大なインシデントに対する報告や対応が遅延してしまう原因になり得るので改めて注意していきたいと思いました。