バックアップが失敗した際の原因と対処法
このページでは、バックアップ(レプリケーション)が失敗した際の原因と対処法をご案内しています。
仮想マシンのバックアップが失敗、またはスキップされた際にXen Orchestraのサーバーから「Backup report」メールが届きます。この状態が起きた場合でも仮想マシンのサービスは継続されますが、万一、Xenのホストに障害が発生しストレージの救出ができなくなった場合、復元ポイントがなくなる恐れがあります。
バックアップの失敗は、おもに3つの原因により発生します。
- ローカルストレージの残り容量が足りないとき
- 仮想マシンのスナップショットが多いとき
- 仮想マシンのディスクサイズが大きくなりすぎたため、RPO=1時間(1時間に2度)のバックアップでは間に合わなくなったとき
下記に、エラー文ごとの原因と対処法を記載していますので、お客様で対処が可能なものはご対応をお願いいたします。
下記に記載している以外のエラーがでたり、対処をしてもすぐに元に戻ってしまうなどお客様にて問題が解決しない場合は、お手数ですが当社サポートまたは担当営業へご連絡ください。また対処を行っても頻繁に発生する場合、根本的にはディスク容量を空けておき、ホストの負荷を下げたり、バックアップ対象を絞る、RPO時間を延ばす(要問い合わせ)などという方法があります。
Backup reportについて
送信元メールアドレスは「sysadmin@justplayer.com」、件名は「[Xen Orchestra] failure(or skipped) − Backup report for バックアップジョブ名」です。メール本文に、該当のバックアップジョブの情報と、エラー文が記載されていますのでご確認ください。
必要とされるストレージ容量について
Xenで必要とするストレージ容量は、現時点で利用しているストレージ容量だけでなく、仮想マシン内部のデータ更新差分にも影響します。そのため一概に「何ギガバイトあれば良い」と判断する事はできません。
これはXenのスナップショットがバッキングストアを要求するタイプのスナップショットシステムのためです。
スナップショットをとってから次のスナップショットまでの間、ストレージの更新量が多い(データベース、ログが多いシステムなど)と、その間の差分ディスクが増えます。スナップショットを消去するときには、差分ディスク同士の結合処理をしなくてはなりませんが、システムの不慮の停止を防ぐため、元のデータを残したまま結合処理をするため、一時的に大きなストレージの空き容量が必要になります。Xenではこの結合処理をスナップショットの削除直後ではなく、システムが自動的に行うため、若干遅れて作業されます。
ほとんどの問題は、スナップショットのバッキングストアのマージ処理にある2つの特性「空き容量が必要となること」「遅延して行われること」から起因しています。
SR_BACKEND_FAILURE_44は純粋にストレージ容量に起因するエラーが多々あります。ホストのローカルストレージの空き容量を常に一定以上保つ必要があります。
SR_BACKEND_FAILURE_109はマージ処理後の削除作業中、ストレージがたりない為に失敗するなど、全てが概ねディスクの残り容量と関連していることに注意が必要です。
ストレージの節約は、不要な仮想マシンを消す、不要なバックアップを辞める、またはホストの全体的な負荷を平滑化するなどがありますが、本システムによるインシデント時の復旧作業や時間(RTO)が迅速であるメリットも捨てきれないと思います。ご利用の契約によって、ストレージの容量の増設も可能です。ストレージ(SSD)の増設が必要な場合は、お手数ですが当社サポート、または担当営業までご相談ください。
エラーの原因と対処
エラー文 |
---|
Error: the job (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX ) is already running ※()内には、お客さまごとに異なる文字列が入ります。 |
原因 |
バックアップジョブがすでに実行されているため、新しいジョブがスキップされた場合に発生します。 ディスクの更新が多いなど、様々な要因で、バックアップに遅延しています。 |
一次対応者 |
お客様にて運営ポリシー変更の上、当社に連絡 |
対処法 |
連続してメールでの通知が来ない場合、その回だけ、スキップされて、以後は正常終了したことを意味します。この場合は、特に気にすることはありません。 頻発する場合、ディスク更新量に対して、バックアップ単位が短すぎる時間になっている場合があります。この場合、バックアップ単位を1時間、2時間、3時間と、徐々に長くする必要があります。同時にRPOが長くなるため、障害時の復旧時の最大巻戻り時間が増えることを意味します。 設定変更が必要な場合は、当社サポート、または担当営業までご相談ください。 |
エラー文 |
---|
Failure Error: SR_BACKEND_FAILURE_44(, There is insufficient space, ) |
原因 |
ストレージ容量がいっぱいになっている。 |
一次対応者 |
お客様 |
対処法 |
エラー文 |
---|
Failure Error: SR_BACKEND_FAILURE_109(, The snapshot chain is too long, ) |
原因 |
対象の仮想マシンのスナップショット数が多い時に発生します。 スナップショットは、不可視の物も含め、1つの仮想マシンで30個までしか作成ができません。 実際のスナップショット削除後の結合処理は、しばらくしてから遅延して行われます。この間もこのエラーが発生することがあります。 |
一次対応者 |
お客様 |
対処法 |
スナップショット一覧から、不要なスナップショットを削除します。不要なスナップショットの削除については、こちらをご参照ください。 スナップショット削除後も、結合処理が完了するまで、暫く続く場合があります。 |
エラー文 |
---|
Skipped Reason: (unhealthy VDI chain) Job canceled to protect the VDI chain |
原因 |
対象の仮想マシンのスナップショットの結合処理が必須となっている時に発生します。結合処理は自動的に行われるため、暫く待つ必要があります。 スナップショットを削除した直後のジョブの時に発生することがあります。 |
一次対応者 |
お客様 |
対処法 |
必要とされるストレージ容量についてに記載の通り、Xenはスナップショット削除後に、遅延してディスクの結合処理が実行されます。スナップショットの削除ミスや途中停止がかかった事により、ディスクの結合状態が異常な場合にも発生します。基本的には、しばらく待つことで、Xenが自動的にディスクの結合処理を行うため、暫くすると解消します。 数日過ぎてもエラーが解消しない場合稀に、内部的に何らかのエラーが発生し、結合処理ができないことがあります。 この状態になってしまった場合、復帰を最も簡単に行うには、仮想マシンをクローンし、元の仮想マシンを削除する必要があります。仮想マシンのクローンはこちらを参照してください。 |
エラー文 |
---|
could not find the base VM |
原因 |
前回のバックアップの仮想マシンが見つからない時に発生します。 前回のバックアップとの差分をマージするようにバックアップを行うため、前回のバックアップが見つからないとバックアップが失敗します。 前回のバックアップが残っている場合は、ストレージの空き容量が少なくなっていることにより、エラーが発生している可能性があります。 |
一次対応者 |
お客様 |
対処法 |
スナップショット一覧から、不要なスナップショットを削除します。不要なスナップショットの削除については、こちらをご参照ください。 |