6月1日(木)に発生した「無料プランに変更になってしまった不具合」の原因と再発防止策を検討しました。
6月1日(木)に発生した「無料プランに変更になってしまった不具合」の原因と再発防止策を検討いたしましたのでご報告させて頂きます。
改めて、この度はご迷惑をおかけしてしまい、大変申し訳ございませんでした。
昨日お知らせした通り障害は復旧済みで、影響のあった全てのアカウントは5月31日時点のプランに戻っております。
【障害の概要】
5月31日時点で有料プランを契約しており、契約自動更新をONにしていた一部のお客様において、プランの自動更新処理が動作せず、無料プランへと変更となりました。
【影響時間】
6月1日(木) 0時10分〜9時57分
※お問い合わせいただいた一部のお客様については、暫定的な対応としてお試しプランを適用しました。お試しプランの解除が16時頃までかかったアカウントもございます。
【影響アカウント数】
1,676アカウント
【障害の原因】
・プランの自動更新を行うバッチ処理が途中で強制停止したためです。
・弊社システム内にはサーバのメモリ使用率が75%を超えた場合に、システム全体の障害を防止するためにバッチ処理を強制停止する仕組みがあり、今回その仕組みが動作しました。
・当バッチの強制停止後も後続バッチが動いてしまい、被害が拡大してしまいました。
【再発防止策】
・バッチの強制停止の仕組みを見直します。
具体的にはバッチ処理を弊社システム内からAWS Batchに移行することで、強制停止する仕組み自体を廃止します。
・障害があった場合でもバッチが正しい順番に実行されるよう改善します。
バッチ処理の実行順序を厳密にし、常に正しい順序でバッチ処理を実行する仕組みを導入します。
今回の障害はこれまでのzaicoサービスの歴史でも最大級の障害となってしまいました。
多数のお問い合わせも頂き、障害時の対応体制の課題も明らかになりました。
今回の反省を踏まえ、zaicoメンバー一人ひとりが、そしてチーム全体としても、問題の振り返りを行いました。
今後障害を発生させないために何ができるのか、またもし発生させた場合にどのように対応するのか。
zaicoメンバー一同、引き続き尽力してまいります。
まだまだ未熟なzaicoですが、お客様のご期待に沿えるよう精進してまいりますので、これからもどうぞよろしくお願いします。