Shirokane7 の稼働に寄せて

ヒトゲノム解析センターは 4 月 1 日に新しい解析基盤である Shirokane7 を稼働し、運用を開始しました。5 年間にわたり運用してきた Shirokane5 の多くの計算サーバは役目を終え、SHIROKANE は主に Shirokane6 と Shirokane7 の構成で運用していきます。 本日は期待の高まる Shirokane7 の特徴とともに、普段から SHIROKANE を支えるサポート係の稼働に向けた様子をご紹介します。

Shirokane7 を稼働しました

Shirokane7 の主要な計算ノード (計算ノード Thin) は、最新世代の AMD CPU を採用しており、Shirokane5 と比較すると ​バイオツールの実行時間が約 30 〜 50% 短縮できる ことがわかっています。また、Shirokane7 の GPU サーバには最新の NVIDIA H100 を 1 ノードあたり 8 基搭載しており、この度の検証で NVIDIA Parabricks の実行時間を 15 ~ 35 % 程短縮できることがわかりました。今回検証の例では NVIDIA Parabricks の fq2bam, deepvariant, haplotypecaller, mutect でそれぞれ実行完了までの時間を測定しました。時間が短い方が性能が高いといえます。

Shirokane5 GPU 搭載ノード (NVIDIA A100 x4) と Shirokane7 GPU 搭載ノード (NVIDIA H100 x4) の NVIDIA Parabricks 実行時間比較

さらに Shirokane7 では、Arm アーキテクチャの CPU を搭載した計算サーバ (計算ノード Arm) を大幅に拡充しました。​計算ノード Arm の性能は以前にご紹介 したとおりですが、2024 年 4 月からは CPU コア (AGE のスロット) として約 11,000 スロット相当の計算リソースがいずれの利用形態 (利用コース) でもご利用いただけます。計算ノード Arm に導入しているソフトウェアも、Shirokane6 稼働時から続々と増えていますので、普段の解析に積極的にご活用ください。

今後、SHIROKANE では生成 AI 技術を用いた解析も実行できるよう、NVIDIA BioNeMo Framework を利用できるように準備を進めています。こちらにもご期待ください。

稼働した Shirokane7
稼働した Shirokane7

SHIROKANE サポート係の取り組み

さて、ユーザの皆様には 2 月と 3 月の SHIROKANE 点検の実施にご理解、ご協力いただきありがとうございました。 「定期点検中に SHIROKANE が使えなくて困ったな、、、」「SHIROKANE を止めてまでする作業ってどんなことをしているの?」と思っていた方も多くいらっしゃるかと思ます。 利用できない期間は皆様にご不便をおかけしましたが、その間、SHIROKANE サポート係は Shirokane7 を稼働させるため、日夜作業に取り組んでおりました。3 月の SHIROKANE 点検の一部をお見せできればと思います。

作業の際は手順を確実に実施するよう、作業者と再鑑者の二人一組で作業します。 検証を事前に行っているので基本的には手順通り進行しますが、作業を進めていくとときに上手くいかないことも・・・。その時は、作業者・再鑑者に限らずサポート係みんなで議論、確認をしながら進行します。

SHIROKANE の点検作業はこのように進めていましたが、決められた停止期間ですべての作業を終わらせるために、手順の準備や稼働後に皆さんにご利用いただく HGC 独自コマンドの準備なども行っていました。 ここでは、SHIROKANE に携わって 14 年のスーパーエンジニアに、Shirokane7 稼働までのインタビューを行いましたのでご紹介します。

Q. 今回の停止で日常の保守と違って気を遣う部分はどこでしたか

A. 既存のシステム (Shirokane5 や Shirokane6) に影響しないように作業をすることに特に気を遣いました。既存システムに接続しての作業だったので、間違って再起動などしてしまうと大変です!

Q. ユーザの皆さんに大きな影響なく終了して、一安心ですね。特に一番大変だった作業は何でしたか?

A. ユーザの皆さんにお使いいただいている独自のコマンドの修正が大変でした。

Q. 皆さんによく使っていただいているものだと、qsub や qreport も独自コマンドの一種ですね。

A. そうですね。ユーザの皆さんに使いやすいシステムになるよう、独自コマンドは約 40 種類あります。独自コマンドは、ソフトウェアや OS の更新に伴って修正しないと動かなくなってしまうものがあります。新しい環境にそのまま移せない修正が必要なコマンドの洗い出しからスタートします。新しい環境にそのまま移せないものは、調べて、考えてを繰り返して、使いやすく・正しく動くコマンドに修正していきます。

停止期間中に行う作業はコマンドが想定通りに動くかの確認だけではありますが、それ以前にサポート係一同でコマンドの修正作業を行いました。これが一番大変でしたね。

SHIROKANE の点検、停止にご協力いただきまして、まことにありがとうございました。ユーザの皆さんに安心してご利用いただけるよう SHIROKANE サポート係一同、全力でサポートしてまいりますので、今後ともどうぞよろしくお願いいたします。

You may also like...