2015年12月22日 9:31 PM

一部のスペースにて、Backlogにアクセスできない状態となっておりました (2015年12月22日)

一部のスペースにて、12月22日(火)17時頃から19時45分頃まで、データベース障害によってBacklogにアクセスできない状態となっておりました。ご利用の皆様には、ご迷惑をおかけして大変申し訳ございませんでした。

[障害の概要]
12月22日(火)17時過ぎより、データベースの負荷が徐々に高くなっていくのを検知しており、状況を注視しておりました。17時14分頃からデータベースが応答を返せなくなっていたのを確認したので原因調査したところ、データベースの一部を構成するディスク処理で遅くなっていたことが判明し、その対応を行いました。結果、19時48分頃復旧したことを確認しました。

[障害の影響範囲]
一部のスペースにて、Backlogのご利用ができない状態となっておりました。

[障害発生の経緯]

  • 17:00 データベースの負荷が徐々に高くなっていくのを検知、状況を注視
  • 17:14 データベースが応答を返せなくなったため、Twitterでの障害報告と、応答を返せなくなったクエリの削除
  • 17:49 一部のアプリケーションサーバを停止して状況を確認
  • 18:03 全てのアプリケーションサーバとデータベースを停止後、状況を確認
  • 18:04 データベース起動と、暖気運転を開始
  • 18:23 一部のアプリケーションサーバを起動して状況を確認するも、データベースが停止前と同様の状況となっていることを確認
  • 19:07 再度全てのアプリケーションサーバとデータベースを停止、データベースを構成する一部のディスクの処理が遅くなっていると判断し、ディスク入れ替え作業を開始
  • 19:13 ディスク入れ替え作業後、データベース起動と暖機運転を開始
  • 19:34 一部のアプリケーションサーバを起動
  • 19:37 問題ないことを確認した後、全てのアプリケーションサーバを起動
  • 19:48 全てのアプリケーションサーバが正常に起動したことを確認、Twitterで復旧報告

[障害発生の原因]
データベースを構成するディスク処理で遅くなっており、データベースが応答を返せなくなっておりました。ディスク処理が遅くなった原因については、詳細確認中です。

[対策]
1. データベース障害時の復旧プロセスの改善
今回発生したようなデータベース障害から極力早く復旧してサービスをご提供できるように、復旧プロセスを改善します。具体的には、データベース起動時の暖機運転時間の短縮や、障害が起きた際に代替のデータベースサーバへ素早く切り替えることができるプロセスを整えます。

2. より可用性が高いデータベースサーバへの移行
1 と並行して、より障害が起こりにくいデータベースサーバへの移行を進めます。

ユーザの皆様には、年末年始のお忙しいときに2時間以上のサービス停止となってしまい、大変ご迷惑をおかけしました。このような大規模な障害を起こさないよう、改善を進めます。

一覧に戻る