2014年3月4日 11:50 AM
一部スペースにて Backlog にアクセスしづらい状況となっておりました (2014年3月3日)
3月3日 (月) 17時39分頃 から 18時39分頃 まで、一部のスペースに対して、Backlogにアクセスしづらい、もしくはアクセスに非常に時間がかかる状態が発生しておりました。ご利用の皆様には、ご迷惑をおかけして大変申し訳ございませんでした。
[障害の概要]
17時39分頃にアプリケーションサーバの高負荷を検知し、該当のサーバの状態を確認しつつ再起動を行いました。しかし、高負荷の状態は収まらず、サーバ群全体に影響が出始めたことから、一度全てのアプリケーションサーバを止めた後、順次サーバを起動しました。その後も高負荷の状態は続いておりましたが、徐々に通常通りにアクセスできるようになり、18時39分頃におおよそ正常にアクセスできるようになったと判断し、復旧報告を行いました。
[障害の影響範囲]
一部のスペースに対して、Webブラウザからのアクセスが非常に時間がかかる状態が発生しておりました。
[障害発生の経緯]
- 17:39 サーバの高負荷を検知
- 17:47 アクセスに支障をきたす状態と判断し、Twitter で一次報告
- 18:07 全アプリケーションサーバで高負荷となっていたため、全サーバを停止後、順次サーバを起動
- 18:26 Twitter で中間報告
- 18:39 通常通りのアクセスができるようになってきたため、Twitter で復旧報告
[障害発生の原因]
前回の障害と近い状況となっており、アプリケーションサーバの高負荷により、アクセスしづらい状況となっておりました。高負荷の根本原因は、現在調査中です。
[対策]
1. 原因の究明
前回の障害時より、問題解決の手がかりとなるためのログを取得するようにしております。前回の障害の際のアクセスログと今回の障害時のログを比較するなどして、根本原因の調査・対応を行います。
2. サーバ増強
前回の障害以降に一部アプリケーションサーバの増強を行っており、一定の効果が見込めました。引き続き増強を進めております。
(3/3 22:39 障害後、更に一部サーバの増強を行いました)
先日に引き続き、ユーザの皆様には Backlog をご利用しづらい状態となってしまい、誠に申し訳ございませんでした。
早急に原因を究明し、このような障害を起こさないよう努めます。