2016年4月6日 12:52 PM
一部スペースにて、通知、検索機能などが不調となっていました (2016年04月06日)
本日4月6日(水) 午前10時45分ごろから午前11時36分まで、一部のスペースにてアプリサーバ障害により、Backlogの一部機能がご利用いただけない状態となっておりました。障害が発生した皆様にはご迷惑をお掛けし、申し訳ありません。
[障害の概要]
本日4月6日(水) 午前10時45分ごろ、アプリサーバの負荷が上昇し、内部処理のエラーが多発していたため、一台のサーバを再起動しました。その際、再起動処理の失敗により、そのサーバが受け持っている機能が不調となりました。
その後、サーバ再起動に失敗していることが判明したため、11時36分、再度サーバの再起動を行い復旧しました。
[障害の影響範囲]
一部スペースにおいて、以下のBacklogの機能が正しく稼働していない状態でした。
- メールやWebhookでの通知機能
- メールで課題登録機能
- 課題検索機能(当該時間内に更新された内容のみ)
このうち、通知機能とメールで課題登録機能についてはサーバ再起動後に自動的に処理再開し、現在、当該時間内に行われるべきだった処理は全て完了しております。
検索機能については、当該時間内に更新された課題を検索インデックスに登録しなおす操作を手動にて行い、現在は正しい状態に復旧しております。
[障害発生の経緯]
- 10:45 エラー対処のためサーバ再起動
- 11:00 不調な状態を検知、調査
- 11:36 再起動失敗の原因を除去して再度起動、復旧
- 11:56 処理再開を確認、Twitterで復旧報告
- 12:40 影響の出ていた可能性がある課題に対して検索インデックス再登録
[障害発生の原因]
アプリサーバ停止の途中、停止に失敗するケースに対処できていませんでした。
[対策]
アプリサーバ停止に失敗した場合にすぐ検知できるようにしました。