ホームディスク rshare1 の障害について (2022 年 7 月 ~ 10 月)

2022 年 7 月 13 日 (水) から、ホームディレクトリが存在する rshare1 の障害が多発しておりました。

障害発生状況

2022 年 7 月

  • 13 日 10 時 38 分から 20 時 10 分
  • 16 日 8 時 42 分 から 9 時 4 分
  • 17 日 0 時 18 分 から 19 日 10 時 9 分
  • 19 日 18 時 28 分 から 42 分
  • 20 日 9 時 50 分 から 12 時 16 分
  • 20 日 18 時 26 分 から 42 分
  • 20 日 20 時 12 分 から 24 分
  • 21 日 7 時頃から 10 時 20 分
  • 23 日 7 時 24 分 から 7 時 30 分
  • 26 日 5 時 30 分頃から 10 時 0 分

2022 年 8 月

  • 15 日 0 時 0 分頃から 9 時 38 分
  • 17 日 6 時 45 分 から 10 時 2 分

2022 年 9 月

  • 25 日 1 時 53 分 から 10 時 3 分
  • 26 日 9 時頃から 11 時 36 分

2022 年 10 月

  • 6 日 13時頃から 14 時 6 分

最新の障害は「稼働・障害報告」に一覧されています。障害の前にも問題が起こっている可能性があります。

ホームディレクトリにアクセスができないことやアクセスに長い時間を要することにより、多くの SHIROKANE のサービスに問題・不具合が発生しております。

起こっている問題・不具合の例

  • slogin.hgc.jp などのログインノードにログインできない
  • 公開鍵を登録できない
  • qlogin できない
  • 〇〇コマンドを実行後に反応がない。〇〇コマンドの表示が普段と異なる
  • ジョブを実行できない

障害に対する対応

  • 2022 年 7 月 13 日 10 時 38 分から 20 時 10 分
    • ホームディスク rshare1 を構成する Lustre ファイルシステムの不具合により、ファイルシステムへの入出力処理が滞留したことが原因です。暫定対策としてファイルシステムを構成する一部サーバのメンテナンスを実施いたしました。
  • 2022 年 7 月 16 日 8 時 42 分 から 9 時 4 分、17 日 0 時 18 分 から 19 日 10 時 9 分
    • ホームディスク rshare1 のファイルシステムを構成する一部のサーバが、 Lustre ファイルシステムの不具合により停止しました。その後、冗長構成をとる切り替わった先のサーバでファイルシステムへの入出力処理が滞留したことが原因です。ファイルシステムを構成する一部サーバを再起動して復旧いたしました。
  • 2022 年 7 月 19 日 18 時 28 分 から 42 分
    • ファイルシステムを構成する一部の HDD に不調があったこと、また、ファイルシステムに対して負荷の高いジョブが継続して実行されていたことからファイルシステムへの入出力処理が滞留したことが原因です。該当 HDD の取り外し並びにファイルシステムを構成する一部サーバを再起動して復旧いたしました。
  • 2022 年 7 月 20 日 9 時 50 分 から 12 時 16 分
    • 7 月 19 日から継続してファイルシステムに対する負荷の高いジョブが実行されたため、ファイルシステムへの入出力処理が滞留したことが原因です。ファイルシステムを構成する一部サーバを再起動して復旧いたしました。
  • 2022 年 7 月 20 日 18 時 26 分 から 42 分、 20 時 12 分 から 24 分
    • ファイルシステムを構成する一部サーバが、Lustre ファイルシステムの不具合により停止しました。その後、冗長構成をとる切り替わった先のサーバでファイルシステムへの入出力処理が滞留したことが原因です。ファイルシステムに対する負荷の高いジョブを管理者側で一時停止し、ジョブを実行した利用者へご連絡をさせていただきました。対策実施後に、管理者側で切り替わったサーバの戻し作業を実施しました。
  • 2022 年 7 月 21 日 7 時頃から 10 時 20 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。
  • 2022 年 7 月 23 日 7 時 24 分 から 30 分
    • ファイルシステムを構成する一部サーバが、Lustre ファイルシステムの不具合により停止しました。その後、冗長構成をとる切り替わった先のサーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。
  • 2022 年 7 月 26 日 5 時 30 分頃から 10 時 0 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。
  • 2022 年 8 月 15 日 0 時頃から 9 時 38 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。
  • 2022 年 8 月 17 日 6 時 45 分 から 10 時 2 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。
  • 2022 年 9 月 25 日 1 時 53 分 から 10 時 3 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。
  • 2022 年 9 月 26 日 9 時頃から 11 時 36 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。
  • 2022 年 10 月 6 日 13 時頃から 14 時 6 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。

原因

下記 3 つの要因が複合した状況であったことが主要因と推測しております。

  • Lustre ファイルシステムの不具合
  • ジョブ等による rshare1 への過負荷
  • rshare1 の容量枯渇

対策

  • 2022 年 10 月の定期点検で Lustre ファイルシステムのアップデート
  • rshare1 に対する I/O 負荷が高いジョブの随時サスペンド
  • rshare1 に格納されたデータの整理

なお、下記 2 点についてご協力いただけますと幸いです。

  • rshare1 への I/O 負荷軽減
  • rshare1 に格納されたデータの整理

上記対策を実施し、事象は改善されておりますので、様子を見ていただきたく存じます。
ご迷惑をおかけし誠に申し訳ございませんでした。

You may also like...