2013年5月28日 8:36 PM
本日発生しました、一部スぺースでアクセスできない件について (2013年5月28日)
本日(5月28日(火)) 15時10分 から 15時25分頃 まで、
Backlogの一部のスペースにアクセスしづらい、またはアクセスできない問題が断続的に発生しておりました。
皆様にはご迷惑をおかけして申し訳ありませんでした。
[障害の概要]
本日5月28日(火) の15時頃より、一部のスペースにてアプリケーションサーバの応答が悪化いたしました。
障害の検知から対応を開始し、15時25分頃に障害は収束いたしました。
上記の時間帯において、対象のスペースのユーザ様には、Backlog のスペースに
つながりにくい、つながらない、という状況が発生しておりました。
ご迷惑をおかけしましたこと、大変申し訳ございませんでした。
[障害の影響範囲]
一部のスペースにおける Web ブラウザからの Backlog へのアクセスに影響がありました。
モバイル版及び Subversion / Git / 共有ファイルに対する、専用クライアントからのアクセスには影響がありませんでした。
[障害発生の経緯]
- 15:10 いくつかのアプリケーションサーバの応答の悪化を検知。該当サーバを再起動する対応を開始
- 15:15 再起動後も状況が改善しない状態が発生したため、すべてのアプリケーションサーバを停止。Twitter にて障害状況を報告
- 15:25 全サーバにて応答が安定、障害の収束
[障害発生の原因]
複数台のアプリケーションサーバにて、リソースを使いきっていたことから応答を返せない状態が連鎖的に発生しました。
また、アプリケーションサーバからの応答がタイムアウトした場合、
応答を返せない状態のサーバに対してもリトライをする設定となっていたため、
より一層ブラウザへの応答が遅くなってしまう状況となっていました。
[対策]
タイムアウトやリトライに関するサーバの設定を調整しました。
また、原因特定のために、障害発生時にサーバリソースの詳細な情報を取得できるような設定を組み込みました。
根本原因は引き続き調査中であり、原因を特定でき次第改善いたします。
この度は、ご迷惑をおかけして申し訳ございませんでした。
引き続き運用の改善対応を進めてまいりますので、今後共よろしくお願いいたします。