SMITHクラスタ計算機システムはインテルまたは互換CPUを用いた計算機システムです。
複数の計算機を束ねて多量の計算要求を効率よく実行できるように構成されたシステムのことです。
システムへはログインサーバーという名前の計算機にアクセスして用います。
直接ログインせず、「ジョブ投入」という形式で利用します。
以下では"$"はコマンドプロントを表すと見てください。
$ ssh -Y [userID]@133.1.116.161を実行する。
$ ssh -Y [userID]@133.1.116.165を実行する。
$ passwd
を実行してパスワードを変更すること。
鍵システムを利用してsshで通信する場合に用います。データを暗号化して通信するので、通信経路でデータが覗き見られない安全な通信手段です。
ssh-keygenデフォルトでは秘密鍵と公開鍵がそれぞれ .ssh/id_rsaと .ssh/id_rsa.pubの名前で保存される。
cat id_rsa.pubこの内容の先頭にアクセス元(クライアント、smithなど)のIPアドレスを追加して、アクセス先の(リモートホスト、東大物性研のohtakaなど)の .ssh/authorized_keysに追加する。(スパコンセンターではwebページを通じて公開鍵を登録することが多い)
工学研究科の外部からログインするには先ず工学研究科のゲートウェイサーバにログインし、さらにsmith/sb100にログインする必要があります。従ってゲートウェイにユーザーアカウントを持っている必要があります。持っていない方は管理者に問い合わせて下さい。ゲートウェイにユーザーアカウントを作成する場合、公開鍵の登録が必要となりますので準備しておいて下さい。 以下はポートフォワーディングしてsmithにログインする手順です。
ssh -L localhost:10022:133.1.116.161:22 -i ~/.ssh/[id_rsa] [user_name]@ssh-gw.eng.osaka-u.ac.jp -Nここで[id_rsa]は秘密鍵のファイル名、[user_name]はゲートウェイ上でのユーザーアカウント名です。
ssh localhost -p 10022ここで10022はポート番号で、最初の手順で指定したポート番号と一致する必要があります。scpを使用する際はサーバ名をlocalhost、ポート番号を10022としておけば良いでしょう。
$ module available
$ module load intel/2020.2.254 $ module load intelmpi/2020.2.254 $ module load python/3.8など
~/.bashrcへの記録(smithの場合)
module load intel/2020.2.254 module load intelmpi/2020.2.254 module load python/3.8
$ module load intel/2021.2.0 $ module load intelmpi/2021.2.0など
~/.bashrcへの記録(sb100の場合)
module load intel/2021.2.0 module load intelmpi/2021.2.0
qsub run.sh
ジョブの状態を見るには
qstat
を実行します。特定のユーザのジョブの状態を見るには
qstat -u [user name]
すべてのジョブの状態を見るには
qstat -Q
ジョブをキャンセルするには
qdel [job ID]
を実行します。Job IDはqstatで表示される1コラム目の数字です。
グループ | プロセッサ | コア数/CPU数 | ジョブ投入サーバ | キュー | 並列環境 | ノード間並列ファブリック |
4 | Nehalem Intel(R) Xeon(R) W5590 @ 3.33GHz | 8/2 | smith | xe1 | x8 | |
5 | Nehalem Intel(R) Xeon(R) W5670 @ 2.93GHz | 12/5 | smith | xe2 | x12 | |
6 | Sandy-bridge Intel(R) Xeon(R) E5-2680 0 @ 2.70GHz | 16/2 | smith | xs2 | x16 | |
7 | Ivy-bridge Intel(R) Xeon(R) E5-2667 v2 @ 3.30GHz | 16/2 | smith | xi1 | x16 | |
10a | Haswell Intel(R) Xeon(R) E5-2680 v3 @ 2.50GHz | 24/2 | smith | xh1 | x24 | infini-band |
10b | Haswell Intel(R) Xeon(R) E5-2680 v3 @ 2.50GHz | 24/2 | smith | xh2 | x24 | infini-band |
13 | Broadwell Intel(R) Xeon(R) E5-2683 v4 @ 2.10GHz | 32/2 | smith | xb1 | x32 | infini-band |
14 | Skylake Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz | 32/2 | smith | x17 | x32 | infini-band |
15 | Cascade Lake Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz | 40/2 | smith | x19 | x40 | infini-band |
16 | Cascade Lake Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GHz | 52/2 | smith | x20 | x52 | infini-band |
17 | Ice Lake xeon Gold 6338 CPU @ 2.00GHz | 64/2 | smith | x21 | x64 | infini-band |
グループ | プロセッサ | コア数/CPU数 | ジョブ投入サーバ | キュー | 並列環境 | ノード間並列ファブリック |
7a | Nehalem Intel(R) Xeon(R) X3440 @ 2.53GHz | 6/1 | sb100 | all.q | x6 | |
7b | Sandy-bridge Intel(R) Xeon(R) E5-1650 | 6/1 | rl | all.q | x6 |
#!/bin/bash #PSS -cwd #PBS -q xe2 #PBS -l select=1:ncpus=12:ompthreads=1:mpiprocs=12 #PBS -N CO #PBS -o CO_out #PBS -e CO_err cd $PBS_O_WORKDIR module load intel/2020.2.254 intelmpi/2020.2.254 SRCDIR=${HOME}/STATE/src/state-5.6.6/src PPDIR=${HOME}/STATE/gncpp MPI_COMMAND="mpirun -np ${NSLOTS}" ln -fs ${SRCDIR}/STATE ./STATE ln -fs ${PPDIR}/C_pbe1/#vnew.data fort.37 ln -fs ${PPDIR}/O_pbe1/#vnew.data fort.38 INPUT_FILE=nfinp_dav OUTPUT_FILE=nfout_dav ${MPI_COMMAND} ${STATE} < ${INPUT_FILE} > ${OUTPUT_FILE}
#$ -S /bin/bash #$ -cwd #$ -q sb.q #$ -pe x6 6 #$ -N CO #$ -o CO_out #$ -e CO_err cd $PBS_O_WORKDIR module load intel/2021.2.0 intelmpi/2021.2.0 export OMP_NUM_THREADS=1 export I_MPI_PIN=1 export I_MPI_FABRICS=shm:ofi unset I_MPI_TCP_NETMASK ROOTDIR=${HOME}/STATE SRCDIR=${ROOTDIR}/src/state-5.6.9/src PPDIR=${ROOTDIR}/gncpp MPI_COMMAND="mpirun" STATE_EXEC=STATE STATE=./STATE ln -fs ${SRCDIR}/${STATE_EXEC} ${STATE} ln -fs ${PPDIR}/C_pbe1/#vnew.data fort.37 ln -fs ${PPDIR}/O_pbe1/#vnew.data fort.38 INPUT_FILE=nfinp_dav OUTPUT_FILE=nfout_dav ${MPI_COMMAND} ${STATE} < $INPUT_FILE > $OUTPUT_FILE
#!/bin/bash #PBS -q xs2 #PBS -l select=1:ncpus=16:ompthreads=1:mpiprocs=16 #PBS -j oe #PBS -N JOB_NAME cd $PBS_O_WORKDIR module load intel/2020.2.254 intelmpi/2020.2.254 # Above settings should be consistent with those used in the compilation MPI_COMMAND=mpirun export I_MPI_PIN=1 export I_MPI_ADJUST_ALLGATHERV=2 cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM_THREADS"] }' > hostfile.$JOB_ID $MPI_COMMAND ./a.out < input.dat > output.dat
#!/bash #PBS -q xi1 #PBS -l select=1:ncpus=16:ompthreads=1:mpiprocs=16 #PBS -j oe #PBS -N JOB_NAME cd $PBS_O_WORKDIR module load intel/2020.2.254 intelmpi/2020.2.254 # Above settings should be consistent with those used in the compilation MPI_COMMAND=mpirun export I_MPI_PIN=1 export I_MPI_ADJUST_ALLGATHERV=2 cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM_THREADS"] }' > hostfile.$JOB_ID $MPI_COMMAND ./STATE < nfinp_1 > nfout_1
#!/bin/bash #PBS -q xh1 #PBS -l select=2:ncpus=48:ompthreads=1:mpiprocs=48 #PBS -j oe #PBS -N JOB_NAME ← ジョブの名称を設定できる
cd $PBS_O_WORKDIR module load intel/2020.2.254 intelmpi/2020.2.254 export I_MPI_PIN=1 export I_MPI_FABRICS=shm:tcp ← xh1 の場合 shm:dapl or shm:ofa でinfinibandが使えます ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37 ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38 cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM_THREADS"] }' > hostfile.$JOB_ID mpirun ./STATE < nfinp_1 > nfout_1
#!/bin/bash #PBS -q xb1 #PBS -l select=2:ncpus=64:ompthreads=1:mpiprocs=64 #PBS -j oe #PBS -N JOB_NAME ← ジョブの名称を設定できる cd $PBS_O_WORKDIR module load intel/2020.2.254 intelmpi/2020.2.254 export I_MPI_PIN=1 export I_MPI_FABRICS=shm:dapl ← shm:ofa ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ← STATEの適切なバージョンを使用 ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37 ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38 cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM_THREADS"] }' > hostfile.$JOB_ID mpirun ./STATE < nfinp_1 > nfout_1
#!/bin/bash #PBS -q x17 #PBS -l select=1:ncpus=64:ompthreads=1:mpiprocs=32 #PBS -j oe #PBS -N JOB_NAME cd $PBS_O_WORKDIR module load intel/2020.2.254 intelmpi/2020.2.254 # Above settings should be consistent with those used in the compilation MPI_COMMAND=mpirun export I_MPI_PIN=1 export I_MPI_FABRICS=shm:dapl cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM_THREADS"] }' > hostfile.$JOB_ID $MPI_COMMAND ./a.out < input.dat > output.dat
module load intel/2020.2.254 module load intelmpi/2020.2.254
-- | 等はネットワークの接続を、[]でくくられた名前はコンピュータの名称をそれぞれ表す。
+ 工学部内 ODINS network | | Backbone network( 工学部ネットワークから直接アクセスできない ) | | +- [smith] -----+ 133.1.116.161 ログイン&アプリケーションサーバー & ファイルサーバー +- [rafiki] ----+ 133.1.116.162 ログイン&アプリケーションサーバー & バックアップ +- [tiamat] ----+ 133.1.116.211 ログイン&アプリケーションサーバー | | | | ■ノード名 サーバー CPUコアxCPU数 並列環境 キュー | | G番号 =ノードコア数 | +-- [xe00]-[xe01] 4 4x2=8 x8 xe1 | +-- [xe02]-[xe06] 5 4x2=8 x8 xe1 | +-- [xe02]-[xe06] 6 6x2=12 x12 xe2 | | | +-- [xs01]-[xs18] 8 8x2=16 x16 xs2 | +-- [xi01]-[xi13] 9 8x2=16 x16 xi1 | | (大メモリ機) | +-- [xh01]-[xh36] 10a 12x2=24 x24 xh1 | +-- [xh37]-[xh43] 10b 12x2=24 x24 xh2 | +-- [yh01]-[yh03] 10d 12x2=24 x24 yh1 | | | +-- [xb01]-[xb14] 13 16x2=32 x32 xb1 | +-- [x1701]-[x1708] 14 16x2=32 x32 x17 | +-- [x1901]-[x1906] 15 20x2=40 x40 x19 | +-- [x2001]-[x2020] 16 26x2=52 x52 x20 | | | | ■引退ノード■ | +-- [it??]-[it??] 0 (itanium) | +-- [opt00], [opt01] コンパイルサーバー(opteron,opt01) | +-- [opt02]-[opt11] 1 (各ノード2CORE) mpich-opt | +-- [opt12]-[opt21] 2 (各ノード4CORE) mpich-opt2 | +-- [opt22]-[opt36] 3 (各ノード4CORE) mpich-opt3 | +-- [xeon00] ---+ サブログイン・計算サーバー (ノード8CORE) | | +--- [xeon01-07] グループ6 (各ノード8CORE) | | | | +- [sb100] -----+ 133.1.116.165 別グループ計算サーバー | +-- [sb101]-[sb120] 7a 6x1=6 x6 ? sb.q | | +-- [rl03]-[rl20] 7b 6x1=6 x6 ? rl.q