2013年3月8日 6:39 PM

一部スペースでアクセスできない状態が発生しておりました (2013年3月8日)

一部スペースでアクセスできない状態が発生しておりました (2013年3月8日)

本日(3月8日(金)) 17時55分 から 18時15分頃 まで、Backlogの一部のスペースにアクセスしづらい、またはアクセスできない問題が断続的に発生しておりました。

現在は復旧しております。
皆様にはご迷惑をおかけして申し訳ありませんでした。

今回の障害の原因と対策については、後ほど追記いたします。

(2013/03/08 19:33 追記)

[障害の概要]
本日3月8日(金)、17時53分頃より、一部のスペースにてアプリケーションサーバの
応答が悪化し、それが連鎖的にすべてのアプリケーションサーバに影響を及ぼし
応答を返せない状況が発生しました。
障害の検知から対応を開始し、18時15分頃に障害は収束いたしました。

上記の時間帯において、対象のスペースのユーザ様には、Backlog のスペースに
つながりにくい、つながらない、という状況が発生しておりました。
ご迷惑をおかけしましたこと、大変申し訳ございませんでした。

[障害発生の経緯]
17:53 いくつかのアプリケーションサーバの応答の悪化を検知。該当サーバを再起動する対応を開始
17:54 すべてのアプリケーションサーバに影響が伝搬しはじめる。Twitter にて障害状況を報告
17:57 すべてのアプリケーションサーバを停止。
18:00 サーバ状況にあわせ、一部のサーバから順次サービス再開
18:04 復帰後のアクセスが急増したことで、再度一部のサーバの応答が悪化。負荷状況にあわせて、再度停止と起動
18:12 全サーバにて応答が安定
18:15 障害の収束

[障害発生の原因]
アプリケーションサーバで許容するコネクション数の設定値が小さかった為、
一時的に増加した接続に対応しきれずに、他のアプリケーションサーバに
処理が振り分けられました。
ただ、すべてのアプリケーションサーバで同様の設定が行われていたため、
同様の状況が連鎖的に発生し、結果としてすべてのアプリケーションサーバの
応答が悪化する事態となりました。

[対策]
該当の設定値の見直しと調整をいたしました。
また、今後万一同様の問題が発生した場合に備え、
上記問題そのものを検知するための監視設定を追加いたしました。

18時前後ともっともBacklogのご利用が多い時間帯に、
大変ご迷惑をおかけし、申し訳ございませんでした。

同様の障害が発生せぬよう、運用改善をすすめてまいりますので、
今後ともどうぞよろしくお願いいたします。

一覧に戻る