2013年6月28日 3:13 PM

一部スペースにて発生したアクセス障害について (2013年6月28日)

本日(6月28日(金)) 9時50分 から 10時14分頃 まで、Backlogの一部のスペースにアクセスしづらい、またはアクセスできない問題が断続的に発生しておりました。
月末午前のご利用の多い時間帯に、皆様にはご迷惑をおかけして申し訳ありませんでした。

6月28日(金) 20時32分 追記
19時10分頃にも同様の障害が発生し、19時21分に収束いたしました。皆様には度々ご迷惑をおかけして申し訳ございません。

7月1日(月) 11時30分 追記
[障害発生の原因]と[対策]に追記しました。

[障害の概要]
本日6月28日(金) の9時50分頃より、一部のスペースにてアプリケーションサーバの応答が悪化いたしました。
障害の検知から対応を開始し、10時14分頃に障害は収束いたしました。
上記の時間帯において、対象のスペースのユーザ様には、Backlog のスペースにつながりにくい、つながらない、という状況が発生しておりました。

[障害の影響範囲]
一部のスペースにおける Web ブラウザからの Backlog へのアクセスに影響がありました。

モバイル版及び Subversion / Git / 共有ファイルに対する、専用クライアントからのアクセスには影響がありませんでした。

[障害発生の経緯]

  • 09:50 複数のアプリケーションサーバの応答の悪化を検知。Twitter にて障害状況を報告後、すべてのアプリケーションサーバを停止
  • 10:14 全サーバにて応答が安定、障害の収束
  • 19:13 複数のアプリケーションサーバの応答の悪化を検知。対応を開始。Twitter にて障害状況を報告。(6/28 20:32 追記)
  • 19:21 全サーバにて応答が安定、障害の収束。(6/28 20:32 追記)

[障害発生の原因]
複数台のアプリケーションサーバにて、リソースを使いきっていたことから応答を返せない状態が発生しました。

アプリケーションサーバからデータベースサーバへのネットワーク接続に、問題が発生していたことが判明しました。(7/1 11:30 追記)

[対策]
障害発生時のアクセスログやリクエストを解析して、サーバリソースの枯渇を引き起こす要因がないかを調査し、対策を行います。

アプリケーションの挙動についてより詳細に検知が出来る設定を追加しました。また、今回のようなデータベースサーバへのネットワーク障害を検知出来る設定を追加しました。
並行して、今回のようなネットワーク障害が起きた場合にも影響を極力抑えられるように、アプリケーション側の設定の調整を検討しております。(7/1 11:30 追記)

この度は、ご迷惑をお掛けして申し訳ありません。
安心してBacklogをご利用いただけるよう、運用の改善を進めます。

一覧に戻る