2016年1月21日 6:45 PM

一部のスペースにて、Backlogにアクセスできない状態となっておりました (2016年01月21日)

一部のスペースにて、1月21日(木)15時21分頃から16時00分頃まで、アプリサーバ障害によってBacklogにアクセスできない状態となっておりました。ご利用の皆様には、ご迷惑をおかけして大変申し訳ございませんでした。

[障害の概要]
本日1月21日(木)13時49分過ぎより、アプリ停止を伴わないリリース作業を順次行いました。15時21分頃にリリースを行った一部スペースのサーバにおいて、メモリ系の障害が発生し画面からのアクセスが不可能となりました。アプリエラーを検知したため復旧対応を行い、16時09分頃復旧したことを確認しました。

[障害の影響範囲]
一部のスペースにて、Backlogのご利用ができない状態となっておりました。

[障害発生の経緯]

  • 13:49 アプリ停止を伴わないリリース作業を開始
  • 15:15 一部スペースのアプリサーバからのエラーを検知したため、調査と復旧作業に着手
  • 15:31 一部スペースのアプリサーバが応答を返せなくなったため、Twitterでの障害報告
  • 15:33 状況を確認し、応答のないアプリケーションサーバを全て再起動
  • 16:09 全てのアプリケーションサーバが正常に起動したことを確認、Twitterで復旧報告

[障害発生の原因]
セッション情報の復元エラーがメモリ枯渇につながり、応答出来ない状況となりました。詳しい原因については、確認中です。

[対策]
1. リリース手順の改善
今回発生したようなセッションの復元に影響のあるようなリリースを行う場合、アクセス数の少ない時間帯をリリース作業時間とし、事前に断続的にアクセスが困難になる時間帯を案内するようにします。また、リリース時にセッション情報をクリアすることでセッション復元エラーが発生しないような手順に改善します。

2. テストプロセスの改善
1 と並行して、セッション復元エラー自体が発生しないように影響のある修正を行う場合はセッション復元に関連したテストを行います。

ユーザの皆様には、ご利用の多い時間帯のサービス停止となってしまい、大変ご迷惑をおかけしました。このような障害を起こさないよう、改善を進めます。

一覧に戻る