2015年9月28日 8:18 PM
一部スペースにて Backlog にアクセスしづらい状況となっておりました (2015年9月28日)
9月28日 (月) 11時20分頃 から 13時07分頃 まで、一部のスペースに対して、Backlogにアクセスしづらい、もしくはアクセスに非常に時間がかかる状態が発生しておりました。ご利用の皆様には、ご迷惑をおかけして大変申し訳ございませんでした。
[障害の概要]
11時20分頃にアプリケーションサーバからDBに接続できない旨のエラーメッセージを検知し、該当のサーバの状態を確認しつつ再起動を行いました。しかし、問題の状況は解決せず、サーバ群全体に影響が出始めたことから、全てのDBと接続するサーバ群を一度止めた後、順次サーバを起動しました。
その後も一部のアプリケーションサーバにてDB接続時のエラーは続いておりましたが、徐々に通常通りにアクセスできるようになり、13時07分頃におおよそ正常にアクセスできるようになったと判断し、復旧報告を行いました。
[障害の影響範囲]
一部のスペースに対して、Backlogへのアクセスに非常に時間がかかる状態が発生しておりました。Webブラウザを経由したアクセスだけでなく、Webブラウザを経由しないアクセス(WebDAV や SVN / Gitクライアントなど)に対しても、アクセスできない時間帯がございました。
[障害発生の経緯]
- 11:20 アプリケーションサーバからDBに接続できない旨のエラーメッセージを検知
- 11:26 アクセスに支障をきたす状態と判断し、Twitter で一次報告
- 12:00 全サーバを停止後、順次サーバを起動
- 12:05 Twitter で中間報告
- 13:37 通常通りのアクセスができるようになってきたため、Twitter で復旧報告
[障害発生の原因]
Backlogの利用状況がこちらの想定を上回っており、アプリケーションサーバとDB間の接続を十分に確立できない状況が発生しておりました。
[対策]
1. 設定の見直し
DB接続に関するアプリケーションサーバの設定と、それに伴うDBの設定を見直しました。すでにサーバに反映しております。
2. サーバ増強
本日は月末ということで通常より多いアクセスが発生しておりましたが、そのような場合でも安定してBacklogをご利用いただけるよう、サーバの増強を進めます。
3. ログ取得の改善
今回の問題が再発した場合、より早いタイミングで必要な情報を取得して対応に取り掛かれるよう、ログ取得の改善を進めます。
月末というお忙しい中、Backlog をご利用しづらい状態となってしまい、誠に申し訳ございませんでした。安心してBacklogをご利用いただけるよう、改善を進めてまいります。