2024年1月16日に開催された Incident Response Meetup vol.1 に現地参加してきました。
オフライン参加です!わいわい
— KOSHIRO Hajime 🧑💻 System Developer (@kodai1_jp) 2024年1月16日
Incident Response Meetup vol.1【増枠】 https://t.co/SItNUh4gOw #障害対応
タイムテーブル
- キートーク『システム障害対応学んでいきたい勢におくるインシデントコマンダー超入門』 木村 誠明さん(「システム障害対応の教科書」著者)
- 『オンコール担当がインシデントコマンダーを担う仕組みづくり』 あんどう @integrated1453(株式会社ユーザベース)
- 『最速でサービス復旧をするための備え』 じょーし @paper2parasol(Sansan株式会社) 『Wantedlyの障害対応文化とそれを支える基盤』 irotoris @irotoris(ウォンテッドリー株式会社)
スライド
木村さん
ポップで遊び心に溢れながら、時事ネタも交えつつ芯を突いた内容で大変勉強になりました。 懇親会でもいろいろとお話し伺えてとても楽しかったです。
書籍も大変参考にさせていただいております。
改訂版を準備中とのことで、さっそく予約購入しました。
あんどうさん
ご紹介のあった PagerDuty さんの インシデント・コマンダー に関するページは以下
じょーしさん
irotoris さん
Wantedly さんが公開されている「障害対応の心構え」のページは大変参考になりそうです。
メモ
障害の定義
「障害」「インシデント」という言葉は現場によって定義や扱いが全然違いますよね。 キーノートで発表いただいた木村さんのセッションの中では、次の定義でお話しをいただきました。
今回のセッションでの障害の定義
— KOSHIRO Hajime 🧑💻 System Developer (@kodai1_jp) 2024年1月16日
「障害とは
リリース後のシステムにおいて、システムの不具合や、ユーザの操作ミスによって、ユーザ業務に影響がでている。もしくは出る恐れがあるもの。」
#障害対応
「障害対応の文化?それとも、定義やルールがないだけ?」
個人的に一番記憶に残ったのがこの部分でした。 障害対応するとき、情報共有の不足を感じたり、気づかないうちに障害改修が進められてたりする場合に、それは文化やメンバー個々の問題というよりは、障害レベルや障害発生時の連絡範囲が未整備であるだけなのでは?というコメントがありました。
共有するための定義はあった?
— KOSHIRO Hajime 🧑💻 System Developer (@kodai1_jp) 2024年1月16日
どのロールまで連絡してた?
本当に文化だけの話しかな?
#障害対応
まとめ
お話しを伺って、個人的な現状ではインシデントコマンダーをどうするかというよりも、インシデント管理をどうやってくかをまずは考えるのが重要だなと思いました。
その他の気になる X ポスト
インシデントレスポンスを体系的に学ぶ件、Incident Management System(IMS)の背景から学びたい場合は https://t.co/N4LXpYB6dj が個人的にはおすすめ。ただ、想定ケースが大規模システム寄りなのとフレームワークの抽象度が高めなので、実践には別途ベストプラクティスを読み込む必要あり。 #障害対応
— Narimichi Takamura (@nari_ex) 2024年1月16日
具体的なプラクティスをキャッチアップについて、直近だとSRECon Americas 2023でインシデントレスポンスに関する知見がたくさん紹介されていたのでおすすめです。/ https://t.co/8mZnxNSWJd #障害対応
— Narimichi Takamura (@nari_ex) 2024年1月16日