ホームディスク rshare1 の障害について (2022 年 7 月)

2022 年 7 月 13 日 (水) から、ホームディレクトリが存在する rshare1 の障害が多発しておりました。 22 日 (金) 正午時点で、正常稼働をしております。

障害発生状況

2022 年 7 月

  • 13 日 10 時 38 分から 20 時 10 分
  • 16 日 8 時 42 分 から 9 時 4 分
  • 17 日 0 時 18 分 から 19 日 10 時 9 分
  • 19 日 18 時 28 分 から 42 分
  • 20 日 9 時 50 分 から 12 時 16 分
  • 20 日 18 時 26 分 から 42 分
  • 20 日 20 時 12 分 から 24 分
  • 21 日 7 時頃から 10 時 20 分
  • 23 日 7 時 24 分 から 7 時 30 分
  • 26 日 5 時 30 分頃から 10 時 0 分

最新の障害は「稼働・障害報告」に一覧されています。障害の前にも問題が起こっている可能性があります。

ホームディレクトリにアクセスができないことやアクセスに長い時間を要することにより、多くの SHIROKANE のサービスに問題・不具合が発生しております。

起こっている問題・不具合の例

  • slogin.hgc.jp などのログインノードにログインできない
  • 公開鍵を登録できない
  • qlogin できない
  • 〇〇コマンドを実行後に反応がない。〇〇コマンドの表示が普段と異なる
  • ジョブを実行できない

障害に対する対応

  • 2022 年 7 月 13 日 10 時 38 分から 20 時 10 分
    • ホームディスク rshare1 を構成する Lustre ファイルシステムの不具合により、ファイルシステムへの入出力処理が滞留したことが原因です。暫定対策としてファイルシステムを構成する一部サーバのメンテナンスと、ファイルシステムのページキャッシュ機能の無効化を実施いたしました
  • 2022 年 7 月 16 日 8 時 42 分 から 9 時 4 分、17 日 0 時 18 分 から 19 日 10 時 9 分
    • ホームディスク rshare1 のファイルシステムを構成する一部のサーバが、 Lustre ファイルシステムの不具合により停止しました。その後、冗長構成をとる切り替わった先のサーバでファイルシステムへの入出力処理が滞留したことが原因です。入出力処理が滞留した原因は現在調査中です。ファイルシステムを構成する一部サーバを再起動して復旧いたしました
  • 2022 年 7 月 19 日 18 時 28 分 から 42 分
    • ファイルシステムを構成する一部の HDD に不調があったこと、また、ファイルシステムに対して負荷の高いジョブが継続して実行されていたことからファイルシステムへの入出力処理が滞留したことが原因です。該当 HDD の取り外し並びにファイルシステムを構成する一部サーバを再起動して復旧いたしました。
  • 2022 年 7 月 20 日 9 時 50 分 から 12 時 16 分
    • 7 月 19 日から継続してファイルシステムに対する負荷の高いジョブが実行されたため、ファイルシステムへの入出力処理が滞留したことが原因です。ファイルシステムを構成する一部サーバを再起動して復旧いたしました。
  • 2022 年 7 月 20 日 18 時 26 分 から 42 分、 20 時 12 分 から 24 分
    • ファイルシステムを構成する一部サーバが、Lustre ファイルシステムの不具合により停止しました。その後、冗長構成をとる切り替わった先のサーバでファイルシステムへの入出力処理が滞留したことが原因です。ファイルシステムに対する負荷の高いジョブを管理者側で一時停止し、ジョブを実行した利用者へご連絡をさせていただきました。対策実施後に、管理者側で切り替わったサーバの戻し作業を実施しました。
  • 2022 年 7 月 21 日 7 時頃から 10 時 20 分
    • ファイルシステムを構成する一部サーバでファイルシステムへの入出力処理が滞留したことが原因です。該当するサーバを再起動して復旧いたしました。

今後の対策方針

  • Lustre ファイルシステムの不具合に関して、適宜のアップデートを予定しています。日程はサービスの停止期間が短くなるよう十分配慮した上、Web ページでお知らせいたします。

ご迷惑をおかけし誠に申し訳ございません。

You may also like...