平成21年度 春期 ITパスポート試験 問33 解説 システム障害対策
事業者の基幹となる業務で使用しているシステムにおける障害対策の考え方のうち, 最も適切なものはどれか。
- ア 障害が発生した際に短時間で復旧できると判断した場合は,混乱を避けるために 復旧してから関連部門へ連絡する手順にすべきである。
- イ 障害が発生した際には短時間で業務を再開させることが最も重要なので,システ ムを再起動して業務を再開させてから障害原因を究明する手順にすべきである。
- ウ 障害が発生した際の対処方法は状況によって異なるので,定められた対応手順よ りも,現場での判断を最優先にすると規定すべきである。
- エ 障害の発生は避けられないものと考えて,一部の障害によってシステム全体が停 止したり,業務が再開できなくなったりしないような対策を準備すべきである。 ✓ 正答
解説
システム障害対策に関する問題の解き方は、現代のシステム開発における「リスク管理の基本方針」に照らして正誤を判断することです。ITシステムにおいて「障害を100%防ぐ」ことは不可能です。そのため、障害発生を前提として、いかに被害を局所化し、業務を継続させるかという考え方が問われています。選択肢エは、まさにその「可用性の向上」という現代のITシステム設計における定石を述べています。
障害対策における基本理念:フォールトトレラント
この問題の正解である選択肢エの考え方は、専門用語でフォールトトレラント(故障許容)と呼ばれます。これは、システムの一部に故障や障害が発生しても、システム全体が停止することなく、正常な機能を維持し続ける設計思想です。
具体的には、サーバーを複数用意して片方が壊れても自動的に切り替わる仕組み(冗長化)や、特定のデータが壊れても復旧できるためのバックアップの仕組みなどがこれに該当します。なぜこれが最も適切かというと、ITパスポートが想定する「事業継続」の観点から見て、システムが止まることによる損失が、現代社会では計り知れないほど大きいからです。
なぜ他の選択肢は不適切なのか
選択肢アのように、復旧してから報告するという手順は「隠蔽」につながり、リスク管理として致命的です。障害発生時は速やかに状況を共有し、関係各所が連携をとる体制が不可欠です。
選択肢イは、原因究明を後回しにして再起動することを推奨していますが、これは非常に危険です。原因が特定されないまま再起動を行うと、同じ障害が再発したり、障害状況が悪化したりしてデータが破損するリスクがあります。
選択肢ウについては、現場の判断も重要ですが、組織的なシステム運用において「手順」を無視して個人の判断を優先させることは、対応のバラつきや混乱を招きます。規定された手順をベースとしつつ、柔軟に対応するのが現実的な解です。
実務におけるシステム設計の考え方
この知識は、システムエンジニアが設計を行う際や、情シス担当者が障害対応フローを策定する際に必須となります。例えば、クラウド環境において「アベイラビリティゾーン」を分散させて運用するのは、まさに「一部の障害で全体を止めない」ための具体的な対策です。
試験対策としては、障害対策=「完璧を目指す」ではなく「被害を抑え、継続させる」という視点を持つことが重要です。問題文に「基幹となる業務」とある通り、止まることが許されないシステムを想定している点が、この問題の教育的意図であり、社会インフラとしてのITシステムの役割を理解することが求められています。