2013年10月10日 5:49 PM

一部スペースにてアクセスできない状態が発生しておりました (2013年10月10日)

一部スペースにてアクセスできない状態が発生しておりました (2013年10月10日)

10月10日(木) 11時3分頃 から 11時25分頃 まで、Backlogの一部のスペースにアクセスしづらい、またはアクセスできない問題が発生しておりました。
該当スペースをご利用のみなさまには、大変ご迷惑をおかけして申し訳ございませんでした。

[障害の概要]
11時3分頃に、一部のアプリケーションの応答が悪化していることを検知いたしました。
障害の検知から対応を開始し、11時25分頃に障害は収束いたしました。
上記の時間帯において、対象のスペースのユーザ様には、Backlog のスペースにつながりにくい、つながらない、という状況が発生しておりました。

[障害の影響範囲]
一部のスペースに対して Backlog へのアクセスに影響がありました。

[障害発生の経緯]

  • 11:03 アプリケーションからの応答が悪化している、または応答できなくなっていることを検知し、DBサーバが高負荷状態であることを確認
  • 11:04 すべてのアプリケーションサーバを一時的にすべて停止
  • 11:08 Twitter にて障害状況を報告し、DBサーバ内の状況確認
  • 11:14 負荷状況を確認しながら、アプリケーションサーバを順次起動
  • 11:25 障害の収束

[障害発生の原因]
特定の処理に関連した非常に時間のかかるデータベースへのクエリが複数長時間滞留し、DBサーバ全体を高負荷にする状況となりました。

[対策]
原因となったクエリの改善を行います。
また、特定のご利用スペースに対するリクエストが大量に発生していた状況を確認しており、
そのスペースのお客様に状況を確認する予定です。

この度は、ご迷惑をお掛けして申し訳ございませんでした。
安心してBacklogをご利用いただけるよう、運用の改善を進めてまいります。

一覧に戻る