インシデントコマンダーとは何か

はじめに

障害対応時における役割のひとつである「インシデントコマンダー」について理解が曖昧だったたので、対応時にどう振る舞うべきかを知るために障害対応に関する本を読んでみた。この記事では、インシデントコマンダーが必要になった場面で、適切に動けるように「インシデントコマンダーとは何か」を整理してまとめる。

【改訂新版】システム障害対応の教科書 | 技術評論社

本書は、ITシステム障害対応の現場で必要なさまざまな知識とノウハウ（基本動作、ツール、必要ドキュメントなど）を体系化し、個人・組織のシステム障害対応力を向上させることを目的とした解説書です。障害対応を指揮する「インシデントコマンダー」や、実際に作業にあたる作業担当者が知っておくべき知識を解説するとともに、高い障害対応力を備えた組織作りについても紹介します。改訂新版では、チームメンバーの教育と育成、障害対応訓練実施のポイント、事故を防ぐ手順書の作り方、エンドユーザ向け情報発信についての章を新設しました。また、生成AI技術のシステム運用への応用についても紹介しています。

https://gihyo.jp

インシデントコマンダーとは

障害対応チームを導き、ユーザ影響を最小化する “現場リーダー”

焦点は次の三つに絞られる。

観点	やること	補足
方向づけ	対応方針と優先度を決定	復旧か迂回か、まずはユーザ告知か…
調整	役割分担と情報ハブ	各担当者へ「役割」で委任し、全体へ共有
ステータス管理	発生 → 進行 → 収束を宣言	終息宣言まではインシデントコマンダーの責務

インシデントコマンダーに、対象深い技術知識は必須ではない。システムを熟知した “技術調査係” に任せ、インシデントコマンダーは舵取りと交通整理に集中する。

なぜインシデントコマンダーが必要か

作業者が作業に集中できること
情報を一元管理できる
優先順位を明確にする
関係者への適切な状況共有を促すため

指示は “タスク” ではなく “役割” で渡す

❌「今すぐ DB のログ取って原因を探して報告して」
✅「A：影響範囲の調査を担当してくれ
   B：原因調査のリードを頼む
   C：復旧プランを検討しておいてくれ」

「誰に・いつ依頼したか」を 全員に 可視化
インシデントコマンダー自身は実作業を抱え込まない

インシデント時の情報共有フォーマット

Slack でも Notion でもテンプレを一つ決めておくと便利

#incident-2025-0603

タイトル      : コンテンツ配信 API で 500 エラー（東京リージョン）
事象          : 一部ユーザでタイムアウト → リトライでも失敗
発生日時      : 2025-06-03 14:12 (JST)
影響範囲      : Web/App の記事閲覧率 –25%
直接原因      : ※調査中（DB 接続枯渇の疑い）
復旧対応      : 読み取り専用 DB にスイッチング (14:25)