intr.q ノードで過負荷を引き起こさないために

ユーザが qlogin し、コマンドラインにジョブを入力するインタラクティブジョブを実行するために、SHIROKANE では計算ノード Thin (以下、intr.q ノードとする) があります。
今回は、intr.q ノードで発生する “過負荷” による影響と対策についてご紹介します。

2024 年 8 ~ 9 月に発生した qlogin できなくなった事象

intr.q ノードは 2024/8/11 15:00 頃 ~ 8/13 9:50 頃、8/14 14:30 ~ 15:30 頃、9/23 2:45 ~ 9/24 9:15 頃にかけて、qlogin ができない状態となりました。ユーザの皆様にご不便をおかけしましたこと、お詫び申し上げます。intr.q ノードは複数台あり、その全てがログインできない状態になった時、ユーザが qlogin できなくなります。ログインできない状態の多くは、intr.q ノードの過負荷が原因です。
8 ~ 9 月で発生した過負荷の主な原因は、R 言語の大量のジョブが、インタラクティブジョブとして実行されていたことです。

intr.q ノードを利用に関する注意点

intr.q ノードですることは、ジョブスクリプトの作成、プログラムのインストールやプログラムの試し実行を想定しています。大量の CPU やメモリを使用するジョブの実行は避けてください。intr.q ノードにてリソースを大量に使用すると、過負荷が起こります。

実行するプログラム内でリソースを指定しない場合、その intr.q ノードのリソースを限界まで使用してしまうケースがあります。実行した後は、top コマンドを使ってプログラムのリソースを確認してください。リソースを測れないプログラムは、インタラクティブジョブではなく qsub コマンドでバッチジョブとして実行してください。
自分で実行したプログラムによって過負荷が発生したことに気づいた場合は、サポート係にご連絡をお願いいたします。

あとがき

SHIROKANE サポート係では、intr.q ノードの監視を行い、過負荷やログイン問題が発生した場合には即時対応しています。過負荷を引き起こしたジョブを実行したユーザには注意喚起を行っています。
より快適にご利用いただけるよう今後もサポートしていきます。どうぞよろしくお願いいたします。

You may also like...