2016年12月9日 7:09 PM
一部スペースにてBacklog が利用できない状況となっておりました (2016年12月5日)
今回の障害では2つの問題が発生しています。
1. データベース高負荷による Backlog に接続しづらい問題
2. 1の対応の作業漏れで Backlog API でエラーが発生し利用できない問題
12月5日(月) 17時16分頃 から 12月5日(月) 17時41分 まで、一部のスペースに対して、Backlog に接続しづらい問題が発生しておりました。
12月5日(月) 17時16分頃 から 12月6日(火) 9時28分 まで、一部のスペースに対して、Backlog API でエラーが発生し利用できない問題が発生しておりました。
ご利用の皆様には、ご迷惑をおかけして申し訳ございませんでした。
[障害の概要]
2016/12/05 17:16 データベースサーバからのアラートを検知する
2016/12/05 17:18 データベースサーバのフェイルオーバーを実施する
2016/12/05 17:21 データベースサーバにてアクセス障害が継続していたため、Twitter で一次報告
2016/12/05 17:25 アプリケーションを順次再起動する
2016/12/05 17:41 データベースにアクセスできるようになったため、Twitter で復旧報告
2016/12/06 09:25 一部のAPIサーバで再起動が正しくできていないことを確認する
2016/12/06 09:28 APIサーバを再起動し障害から復旧したことを確認
[障害の影響範囲]
一部のスペースにて、Backlog に接続しづらい、Backlog API が利用できない状況になっておりました。
[障害発生の原因]
データベースが高負荷状態になったため、フェイルオーバーを実施しました。
一部の API サーバの再起動漏れが発生し、書込ができない問題が発生しておりました。
[対策]
1. データベースが高負荷になった問題は現在原因を調査中です。
2. フェイルオーバー時の復旧手順を明確化し作業漏れが発生しないようにします。
Backlog をご利用のお客様にはご迷惑をおかけし、申し訳ありませんでした。安心して Backlog をご利用いただけるよう、改善を進めてまいります。