はじめに
障害対応時における役割のひとつである「インシデントコマンダー」について理解が曖昧だったたので、対応時にどう振る舞うべきかを知るために障害対応に関する本を読んでみた。この記事では、インシデントコマンダーが必要になった場面で、適切に動けるように「インシデントコマンダーとは何か」を整理してまとめる。
インシデントコマンダーとは
障害対応チームを導き、ユーザ影響を最小化する “現場リーダー”
焦点は次の三つに絞られる。
観点 | やること | 補足 |
方向づけ | 対応方針と優先度を決定 | 復旧か迂回か、まずはユーザ告知か… |
調整 | 役割分担と情報ハブ | 各担当者へ「役割」で委任し、全体へ共有 |
ステータス管理 | 発生 → 進行 → 収束を宣言 | 終息宣言まではインシデントコマンダーの責務 |
インシデントコマンダーに、対象深い技術知識は必須ではない。システムを熟知した “技術調査係” に任せ、インシデントコマンダーは舵取りと交通整理に集中する。
なぜインシデントコマンダーが必要か
- 作業者が作業に集中できること
- 情報を一元管理できる
- 優先順位を明確にする
- 関係者への適切な状況共有を促すため
指示は “タスク” ではなく “役割” で渡す
❌「今すぐ DB のログ取って原因を探して報告して」
✅「A:影響範囲の調査を担当してくれ
B:原因調査のリードを頼む
C:復旧プランを検討しておいてくれ」
- 「誰に・いつ依頼したか」を 全員に 可視化
- インシデントコマンダー自身は実作業を抱え込まない
インシデント時の情報共有フォーマット
Slack でも Notion でもテンプレを一つ決めておくと便利
#incident-2025-0603
タイトル : コンテンツ配信 API で 500 エラー(東京リージョン)
事象 : 一部ユーザでタイムアウト → リトライでも失敗
発生日時 : 2025-06-03 14:12 (JST)
影響範囲 : Web/App の記事閲覧率 –25%
直接原因 : ※調査中(DB 接続枯渇の疑い)
復旧対応 : 読み取り専用 DB にスイッチング (14:25)
途中参加者でも状況を即座に把握できるようにする。
途中からスレッドを開いた人 が三分で現状を理解できるかがポイント。
障害対応の目的を忘れない
インシデントコマンダーのゴールは 「システムを完全に直す」ことではなく「ユーザ影響を極小化する」こと。
復旧より回避策や告知を優先すべきケースも多いと心得ておくと判断がぶれにくい。
インシデントコマンダーは固定化しない
- 役職や年次に関係なく、誰でもインシデントコマンダー を務められる状態が理想
- 同じ人にばかり頼ると 経験が偏在 し、組織のレジリエンスが落ちる
- オンコール表に「その日の初動インシデントコマンダー」 を明示し、ローテーションで回す
全員が少なくとも年一回はインシデントコマンダーを経験する仕組みにすると、チーム全体の安心感が段違いに上がる。
終息宣言までが仕事
- 復旧または迂回策が安定 したら、インシデントコマンダーが「終息」を宣言
- インシデントチャンネルをアーカイブし、ステータスを Closed へ
- 速やかに ポストモーテム(原因と学びの振り返り)をセット
インシデントコマンダーが終息を宣言しなければ、人はいつまでも “戦闘モード” から抜け出せない。
具体的手順
- 障害イベントの発生
- アラート通知
- ユーザーからの問い合わせ
- ワールームを作成
- 関係者を招待する
- インシデントコマンダーを担当することを宣言する
- 状況を共有の第一報を関係者に送る
- 事象
- 発生日
- 原因
- 影響
- 復旧
- 作業担当者に指示を出す
- Aさんに影響調査
- Bさんに原因調査と復旧対応方法の検討
- 結果報告を受ける
- 結果報告を関係者に共有する(随時)
- 結果を踏まえてネクストアクションを決める
- 結果を踏まえてネクストアクション実施(随時)
- ネクストアクション実施
- ネクストアクション完了
- 対応完了したら関係者に報告
- ポストモーテムを開催する
まとめ
- インシデントコマンダーは舵取り役なので技術力やシステムの深い知識は不要
- 役割で任せ、情報は一カ所に集約
- ユーザ影響最小化 が最優先
- 持ち回り制 で経験を均等化
- 終息宣言とポストモーテムで インシデントを完結