Slurmの管理ノードを冗長構成にするときのメモ
モチベーション 実装する頻度自体は高くないものの、クラスタの可用性を高めることや管理ノードの負荷分散を目的としてSlurmの管理ノードを冗長構成にしたい瞬間があります。そして私も管理ノードを冗長化していたことで救われた経験が過去に何度かありました。 しかし、都度設定方法を調べて構成している気がするので、この際ブログに記事として残して見返せるようにしようというのが執筆の背景です。 クラスタ構成 / 検証すべき動作 手元に潤沢な計算資源が無 …
AWS Systems ManagerでLAN外のオンプレ環境にアクセスしてみる
モチベーション 職業柄、社外のHPCクラスタにおける障害/不具合に関するお問い合わせを受けることがあります。当然、場合によっては現地訪問せざるを得ないことも多々あります。 その際、「Systems Managerを使えたら設定も簡単そうでリモート環境から迅速に問題解決ができるかもしれないし便利では?」と思い、実際に試して記事にまとめてみようと思いました。 Systems Managerでの接続時のイメージ 下図がシステム構成のイメージで …
CAEアプリのライセンス数管理をPBSで行うときのメモ
はじめに ジョブスケジューラを利用してHPCクラスタ上でCAEアプリを動作させる際、CPUやメモリ等のH/W関連の計算リソースを指定するだけでなくソルバが消費するライセンス数も管理できます。 何度か実装したことはあるものの、毎回その手順を忘れてしまうので備忘録的にまとめようと思い記事にすることとしました。ここで紹介する機能はPBS ProであってもOpenPBSであっても利用可能な機能となっています。 システム構成図 今回は下図のような …
便利だが個人的に利用できていなかった汎用Linux操作集
モチベーション 最近、ペラペラと「Efficient Linux コマンドライン」(参考[1])という書籍を読んでいました。その中で自分は普段使いできていないが、便利そうだと感じたコマンドを備忘録的にアウトプットしたいと思い記事を書きました。 コマンド再実行系 コマンド補完系 テキスト入出力系 その他 として分類したので気になった項目をご覧いただければと思います。 Efficient Linuxコマンドライン - …
Slurmを使った際のhostfile/machinefileの自動生成について
背景/目的 最近、ジョブスケジューラといえばPBSばかりを使っているため、自身、Slurmの振り返りを兼ねて記事を書いてみます。 複数のノードに跨ってMPI計算を実行する際、計算に使用するマシンの「ホスト名 or IPアドレス」を列挙したファイルを作成することが一般的です。このファイルをhostfileやmachinefileと呼び、mpirun実行時に引数として渡すと、ファイル内で記述した計算ノードを使って、ノード跨ぎの計算を行いま …