2013年4月25日 7:33 PM

一部スぺースでアクセスできない状態が発生しておりました (2013年4月25日)

本日(4月25日(木)) 16時09分 から 16時44分頃 まで、
Backlogの一部のスペースにアクセスしづらい、またはアクセスできない問題が断続的に発生しておりました。

皆様にはご迷惑をおかけして申し訳ありませんでした。

[障害の概要]
本日4月25日(木)、16時頃より、一部のスペースにてアプリケーションサーバの応答が悪化いたしました。
障害の検知から対応を開始し、16時44分頃に障害は収束いたしました。

上記の時間帯において、対象のスペースのユーザ様には、Backlog のスペースに
つながりにくい、つながらない、という状況が発生しておりました。
ご迷惑をおかけしましたこと、大変申し訳ございませんでした。

[障害の影響範囲]
一部のスペースにて Web ブラウザからの Backlog へのアクセス全般に問題が発生しました。

モバイル版及び Subversion / Git / 共有ファイルに対する、専用クライアントからの直接の
アクセスは本障害による影響はうけませんでした。

[障害発生の経緯]

  • 16:09 いくつかのアプリケーションサーバの応答の悪化を検知。該当サーバを再起動する対応を開始
  • 16:26 再起動後も状況が改善しない状態が発生したため、すべてのアプリケーションサーバを停止。Twitter にて障害状況を報告
  • 16:40 全サーバにて応答が安定
  • 16:44 障害の収束

[障害発生の原因]
アプリケーションサーバにて急激なネットワークの接続数増加が発生し、
リソース不足により応答が悪化もしくは不能な状態が発生しておりました。
アプリケーションサーバ再起動後も、一時的なリソース不足が解消せず、
また、ユーザ様からアクセスを処理するための他のサーバの負荷も上昇し、
すべてのアプリケーションサーバの応答が悪化する事態となりました。

[対策]
アプリケーションサーバの追加を実施いたしました。
また、急激なネットワークの接続数増加の原因については、現在も引き続き調査中で、
原因の特定ができ次第、対応を進めさせていただきます。

同様の障害が発生せぬよう、運用改善をすすめてまいりますので、
今後ともどうぞよろしくお願いいたします。

一覧に戻る