主に qstat コマンドの表示にある state の表記の意味は以下の通りです。
ジョブの状態 (state) の意味
- qw
- "queued, waiting"。ジョブがキューに入り、実行待ちとなっている状態を示します。
- Eqw
- "Error, queued, waiting"。 AGE がジョブを実行開始できない状態を示します。実行開始できない原因を解消した後、
qmod -cj <>
でステータスをクリアすることでジョブを再開させるか、qdel <>
によりジョブが削除されるまでこの状態が続きます。 - hqw
- "hold, queued, waiting"。ジョブがキューに入り、ジョブが実行待ちではあるもののホールドされた状態を示します。実行は開始されません。
- t
- "transferring"。ジョブを計算ノードに転送中です。
- r
- "running"。ジョブを実行中です。
- Rr
- "Restarted, running"。ジョブがリスケジューリングされ、実行中となっている状態を示します。計算ノードのハングアップ等により、ジョブが停止した後、再実行されています。
- Rq
- "Restarted, queued"。ジョブがリスケジューリングされ、実行待ちとなっている状態を示します。計算ノードのハングアップ等により、ジョブが停止した後、再び待ち状態になっています。
- ERq
- "Error, Restarted, queued"。ジョブがリスケジューリングされた後エラーが発生し、実行できない状態を示します。エラーを解消した後、
qmod -cj <>
でステータスをクリアすることでジョブを再実行させるか、qdel <>
によりジョブが削除されるまでこの状態が続きます。 - d
- "deleted"。ジョブを削除中です。
qdel <>
により削除しようとしたジョブで、削除が完了すると qstat の表示からは消えます。しばらく経ってもd
のままジョブが消えない場合は、qdel -f <>
で強制的にジョブの削除を行う方法があります。 - s
- "suspended"。ジョブがサスペンドされている状態を示します。
qmod -sj <>
コマンドで実行中のジョブをサスペンド状態に変更できます。