2013年4月16日 7:25 PM
本日発生した障害のご報告 (2013年4月16日)
本日 Backlog の共有ファイル及びSubversion機能において障害が
発生しましたので、その内容と今後の対策についてご報告いたします。
まずはじめに、このたびの障害により、皆様に多大なるご迷惑を
おかけしました事をお詫びいたします。
[障害の概要]
本日4月16日(火)、15時23分頃より、共有ファイル及びSubversion機能を提供しているサーバの負荷が高い状態を
検知し確認をしたところ、データを保存しているディスク領域へのアクセスに問題が発生していました。
該当のディスク領域のバックアップ処理が状況を悪化させている可能性を考慮し、即座に
バックアップ処理を中断しましたが、高負荷状態が継続したため、サーバの再起動を行い、
負荷状況を確認しながら、段階的にアクセスを再開する形での対応をおこないました。
最終的に 18:30 分頃全スペースでのアクセスを再開いたしました。
[障害の影響範囲]
上記の時間帯において、すべてのスペースにおいてSubversion 及び共有ファイル機能をご利用できない状況が発生しておりました。ご迷惑をおかけしましたこと、大変申し訳ございませんでした。
尚、この障害に起因するデータの消失はございません。
[障害発生の経緯]
- 15:23 共有ファイル及びSubversion機能を提供しているサーバの高負荷を検知し、対応を開始
- 15:32 バックアップ処理を停止
- 15:41 状況が改善しないため、該当のサーバ群の再起動処理を開始
- 15:58 再起動により機能が復旧するも、アクセス集中や後述のAWSの障害を原因とした高負荷が継続
- 16:10 一部のアプリケーションサーバの応答が連鎖的に悪化したため、再起動処理を行う
- 16:22 共有ファイル及びSubversion機能を提供するサーバの状況が改善しないため、再起動処理を行う
- 16:27 Amazon Web Services (以降、AWS) サポートに状況確認
- 17:05 アクセス集中による負荷を考慮し、ブラウザからのみアクセスを許可し、負荷状況を監視
- 18:00 共有ファイル、Subversion へのクライアントソフトによるアクセスを一部のみ許可
- 18:30 共有ファイル、Subversion へのクライアントソフトによるアクセスを全て再開、障害の収束
[障害発生の原因]
Backlog が利用している AWS の S3 というサービスにて本日14:40-15:57 まで障害が発生し、
Backlog 側で日次で15時に行っているバックアップ処理が正常に完了しませんでした。
それが原因となり、サーバの高負荷が発生し、再起動対応を行うも正常な状態で
再起動できないといった状態も発生しました。
再起動後も、ご利用の多い時間帯ということもあり、アクセス集中が発生したため、段階的にアクセスを
再開する対応としたことにより、障害の完全収束までの時間がかかる結果となりました。
AWS からのアナウンス
[対策]
共有ファイル及びSubversion機能を提供しているサーバ群の各々のバックアップ時間をずらす事により、仮に障害が発生したとしても、全てのスペースに影響が伝搬しないようにいたします。
また、バックアップ取得時間もより影響の少ない時間帯に見直します。
その他、サーバを配置する AWS のゾーンを分散する、サーバ台数を増やすといった、
構成面での見直しを行い、アクセス集中が発生しても、迅速に復旧できるような構成と
することを検討いたします。
平日のお昼間のお仕事中というもっともご利用したいタイミングにて長時間にわたり
ご迷惑をおかけしたこと、大変申し訳ございませんでした。
同様の障害が発生せぬよう、運用改善をすすめてまいりますので、
今後ともどうぞよろしくお願いいたします。