第一原理分子動力学プログラム STATE Senri Wiki
開始行:
* smith 計算機システムの使い方 [#r2be5e9c]
SMITHクラスタ計算機システムはインテルまたは互換CPUを用い...
#contents
----------
*はじめに -クラスタシステムとは- [#s53955c3]
***クラスタシステム [#v5e8a6d1]
複数の計算機を束ねて多量の計算要求を効率よく実行できるよ...
***アクセス[#eb70bdb9]
システムへはログインサーバーという名前の計算機にアクセス...
--ログインサーバーへのログインの方法
--ログインサーバーでできること
***その他の計算機の利用方法 [#la838f93]
直接ログインせず、「ジョブ投入」という形式で利用します。
--能力別にグループ化された計算サーバーのグループ構成
--「ジョブスクリプトファイル」の書き方
--「ジョブ」の投入方法、確認方法、削除(強制終了)方法
--異常状態の確認と対処
**ログインサーバー [#fcf457f2]
***smithシステム [#o4395994]
-下の3台がログインサーバーです。
-基本的にはsmithを使ってください。
-smithにファイルサーバーの機能(ファイルが収められている...
-どのログインサーバにログインしても同じホームディレクトリ...
-ファイルは「RAIDシステム」により複数のディスクで構成され...
-ファイルサーバーは毎日深夜にバックアップサーバーの/backu...
--[smith] 133.1.116.161
--[rafiki] 133.1.116.162
--[tiamat] 133.1.116.211
***sbシステム [#he346379]
-[sb100] 133.1.116.165
はsb100システムのログインサーバーです。
**ログイン方法 [#t04420e5]
以下では"$"はコマンドプロントを表すと見てください。
-smithにログインする場合 (X11 のフォワーディングを許可...
$ ssh -Y [userID]@133.1.116.161
を実行する。
-sb100にログインする場合
$ ssh -Y [userID]@133.1.116.165
を実行する。
***初めてログインする際には [#ibc34caa]
$ passwd
を実行してパスワードを変更すること。
**公開鍵の登録方法 [#o22a4270]
鍵システムを利用してsshで通信する場合に用います。データを...
-ssh-keygenで秘密鍵(ファイルは通常 ~/.ssh/id_rsa )、と公...
--ローカルホストで以下を実行
ssh-keygen
デフォルトでは秘密鍵と公開鍵がそれぞれ .ssh/id_rsaと .ssh...
-公開鍵をアクセス先のサーバーに追加登録する。(ファイルは...
--公開鍵を表示する。
cat id_rsa.pub
この内容の先頭にアクセス元(クライアント、smithなど)のIP...
** 工学研究科の外部からログインする場合 [#o0a7c646]
工学研究科の外部からログインするには先ず工学研究科のゲー...
以下はポートフォワーディングしてsmithにログインする手順で...
- 先ず以下を実行します
ssh -L localhost:10022:133.1.116.161:22 -i ~/.ssh/[id_rs...
ここで[id_rsa]は秘密鍵のファイル名、[user_name]はゲートウ...
- 次に別ウィンドウを開き、以下を実行します。
ssh localhost -p 10022
ここで10022はポート番号で、最初の手順で指定したポート番号...
**コンパイル/実行環境の設定 [#nb54180b]
-Fortranコンパイラ、cコンパイラはLinux標準のgfortran、gcc...
intelコンパイラは多数のバージョンがあり、moduleを使用して...
-使用可能なモジュールのリスト出力
$ module available
--モジュールの読み込み (smithの場合)
$ module load intel/2020.2.254
$ module load intelmpi/2020.2.254
$ module load python/3.8
など
--- ~~/.bashrcへの記録(smithの場合)
module load intel/2020.2.254
module load intelmpi/2020.2.254
module load python/3.8
--モジュールの読み込み (sb100の場合)
$ module load intel/2021.2.0
$ module load intelmpi/2021.2.0
など
--- ~~/.bashrcへの記録(sb100の場合)
module load intel/2021.2.0
module load intelmpi/2021.2.0
-古くからのユーザ向け
古いintelコンパイラ用の設定は以下のように
# source /home/opt/settings/2017.4/intel-compiler.sh
# source /home/opt/settings/2017.4/intel-mpi.sh
などとしてコメントアウト、あるいは削除する。
**ジョブキューイングシステム [#s67f500a]
-システムで計算を実行するには、計算したい内容をジョブスク...
-ジョブ管理システムはSGE(Sun Grid Engine)です。(OGS/GE 2...
-ジョブは、指定したグループの空いている計算機に自動的に割...
-空きが足りない場合は、他のグループに空きがあっても実行さ...
-同じ能力を持つ計算ノードはクラスごとにまとめられています...
***設定上の重要な点 [#hb98c6a2]
-.cshrcの中にcdのaliasが記載されている場合がありますが、...
**複数ノードを用いた並列計算について [#r3b5cd32]
-用いるノード(コア)の数を増やすと自動的に並列度が上がり...
**ジョブの投入(実行)方法 [#k32ce356]
-実行にはキューと並列環境(parallel_environment)を指定す...
qsub -q xh1.q -pe x24 24 run.csh
ジョブの状態を見るには
qstat
を実行します。特定のユーザのジョブの状態を見るには
qstat -u [user name]
ジョブをキャンセルするには
qdel [job ID]
を実行します。Job IDはqstatで表示される1コラム目の数字で...
***計算機グループと対応するキュー及び並列環境 [#u8381019]
-smith/rafikiからアクセス可能なノード群
|グループ|プロセッサ|コア数/CPU数|ジョブ投入サーバ|キュー...
|4|Nehalem Intel(R) Xeon(R) W5590 @ 3.33GHz|8/2|smith|xe1...
|5|Nehalem Intel(R) Xeon(R) W5670 @ 2.93GHz|12/5|smith|xe...
|6|Sandy-bridge Intel(R) Xeon(R) E5-2680 0 @ 2.70GHz|16/2...
|7|Ivy-bridge Intel(R) Xeon(R) E5-2667 v2 @ 3.30GHz|16/2|...
|10a|Haswell Intel(R) Xeon(R) E5-2680 v3 @ 2.50GHz|24/2|s...
|10b|Haswell Intel(R) Xeon(R) E5-2680 v3 @ 2.50GHz|24/2|s...
|13|Broadwell Intel(R) Xeon(R) E5-2683 v4 @ 2.10GHz|32/2...
|14|Skylake Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz|32/2...
|15|Cascade Lake Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz...
|16|Cascade Lake Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GH...
|17|Ice Lake xeon Gold 6338 CPU @ 2.00GHz|64/2|smith|x21...
-sb100からアクセス可能なノード群
|グループ|プロセッサ|コア数/CPU数|ジョブ投入サーバ|キュー...
|7a|Nehalem Intel(R) Xeon(R) X3440 @ 2.53GHz|6/1|sb100|...
|7b|Sandy-bridge Intel(R) Xeon(R) E5-1650 |6/1|rl|all.q|x...
-[[グループ8,9での注意点>http://www-cp.prec.eng.osaka-u....
-グループ7a, 7bにジョブを投入するときはsb100でqsubコマン...
-それ以外のグループにジョブを投入するときはsmithでqsubコ...
-ジョブスクリプトの書き方については、下の各グループごとの...
***グループ4, 5 xeシステム [#mb55749d]
-xeon CPUで構成される計算機グループで、x8, x12 の2 parall...
-ジョブスクリプトファイルの例 (bashの場合)
#$ -S /bin/bash
#$ -cwd
#$ -q xe2.q
#$ -pe x12 12
#$ -N CO
#$ -o CO_out
#$ -e CO_err
module load intel/2020.2.254
module load intelmpi/2020.2.254
export OMP_NUM_THREADS=1
SRCDIR=${HOME}/STATE/src/state-5.6.6/src
PPDIR=${HOME}/STATE/gncpp
MPI_COMMAND="mpirun -np ${NSLOTS}"
ln -fs ${SRCDIR}/STATE ./STATE
ln -fs ${PPDIR}/C_pbe1/#vnew.data fort.37
ln -fs ${PPDIR}/O_pbe1/#vnew.data fort.38
INPUT_FILE=nfinp_dav
OUTPUT_FILE=nfout_dav
${MPI_COMMAND} ${STATE} < ${INPUT_FILE} > ${OUTPUT_FILE}
-ジョブスクリプトファイルの例 (cshの場合)
#$ -S /bin/csh
#$ -cwd
#$ -q xe2.q
#$ -pe x12 12
#$ -N JOB_NAME ← ジ...
mpirun ./STATE < nfinp_dav > nfout_dav
-- -cwd はジョブを投入した時のディレクトリがジョブ開始時...
-- -q はキュー(グループ)の名前でxe1.qあるいはxe2.qを指...
-- 上のx12(またはx8)はx12(またはx8)にジョブ投入する...
-- -Nオプションでジョブの名前を指定できます。(先頭文字...
-- STATEの実行ファイルをジョブ投入前にシンボリックリンク...
-- また、fort.37等、擬ポテンシャルのファイルも同様にリン...
***グループ7a sb100システム [#r74a0395]
- Sanday-bridge アーキテクチャーのCore i7 CPUで構成される...
- AVX機能があり高速に計算できますが、組み込んだ新しいコン...
- smithのデータを直接見ることができます。/homesmithにsmit...
- スクリプトの例 (bashの場合)
#$ -S /bin/bash
#$ -cwd
#$ -q sb.q
#$ -pe x6 6
#$ -N CO
#$ -o CO_out
#$ -e CO_err
module load intel/2021.2.0
module load intelmpi/2021.2.0
export OMP_NUM_THREADS=1
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:ofi
unset I_MPI_TCP_NETMASK
ROOTDIR=${HOME}/STATE
SRCDIR=${ROOTDIR}/src/state-5.6.9/src
PPDIR=${ROOTDIR}/gncpp
MPI_COMMAND="mpirun"
STATE_EXEC=STATE
STATE=./STATE
ln -fs ${SRCDIR}/${STATE_EXEC} ${STATE}
ln -fs ${PPDIR}/C_pbe1/#vnew.data fort.37
ln -fs ${PPDIR}/O_pbe1/#vnew.data fort.38
INPUT_FILE=nfinp_dav
OUTPUT_FILE=nfout_dav
${MPI_COMMAND} ${STATE} < $INPUT_FILE > $OUTPUT_FILE
- スクリプトの例 (cshの場合)
-- ハイブリッド並列(12コア確保、各ノードにプロセス確保、...
#!/bin/csh -f
$$ -q sb.q
#$ -pe x6 12
#$ -cwd
#$ -N JOB_NAME ← ジ...
setenv OMP_NUM_THREADS 6
ln -fs ~/STATE/src/STATE_5.4.1/wrksrc6i5_/STATE .
mpirun -perhost 1 -np $NHOSTS ./STATE < nfinp > nfout
-- フラット並列(12コア)
#!/bin/csh -f
#$ -q sb.q
#$ -pe x6 12
#$ -cwd
#$ -N JOBNAME
ln -fs ~/STATE/src/STATE_5.4.1/STATE .
mpirun -np $NSLOTS ./STATE < nfinp > nfout
***グループ8 xsシステム [#r2affc72]
- Sanday-bridge アーキテクチャーのXeon CPUで構成される計...
- AVX機能があり高速に計算できます。
- スクリプトの例 (bash)
#$ -S /bin/bash
#$ -cwd
#$ -q xs2.q
#$ -pe x16 16
#$ -N JOB_NAME
module load intel/2020.2.254
module load intelmpi/2020.2.254
# Above settings should be consistent with those used in...
MPI_COMMAND=mpirun
export I_MPI_PIN=1
export I_MPI_ADJUST_ALLGATHERV=2
export OMP_NUM_THREADS=1
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
$MPI_COMMAND ./a.out < input.dat > output.dat
- スクリプトの例(cshの場合)
-- ハイブリッド並列(32コア確保、各ノードにプロセス確保、...
#!/bin/csh -f
#$ -cwd
#$ -q xs2.q
#$ -pe x16 32
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 4
#setenv I_MPI_FABRICS shm:dapl
#setenv I_MPI_FABRICS shm:ofa
setenv I_MPI_FABRICS shm:tcp
#setenv I_MPI_DEBUG 7
setenv OMP_NUM_THREADS 1
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
-- フラット並列(32コア)
#!/bin/csh -f
#$ -cwd
#$ -q xs2.q
#$ -pe x16 32
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
#setenv I_MPI_FABRICS shm:dapl
#setenv I_MPI_FABRICS shm:ofa
setenv I_MPI_FABRICS shm:tcp
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ←ココ...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ9 xiシステム [#c01adc3f]
- 大容量なメモリ・localディスク搭載機です。gaussian計算は...
- Ivy-bridge アーキテクチャーのXeon CPUで構成される計算機...
- AVX機能があり高速に計算できます。
- スクリプトの例(bash)
#$ -S /bin/bash
#$ -cwd
#$ -q xi1.q
#$ -pe x16 16
#$ -N JOB_NAME
module load intel/2020.2.254
module load intelmpi/2020.2.254
# Above settings should be consistent with those used in...
MPI_COMMAND=mpirun
export I_MPI_PIN=1
export I_MPI_ADJUST_ALLGATHERV=2
export OMP_NUM_THREADS=1
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
hostfile.$JOB_ID
$MPI_COMMAND ./STATE < nfinp_1 > nfout_1
- スクリプトの例(cshの場合)
-- フラット並列(32コア)
!/bin/csh -f
#$ -cwd
#$ -q xi1.q
#$ -pe x16 32
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
#setenv I_MPI_FABRICS shm:dapl
#setenv I_MPI_FABRICS shm:ofa
setenv I_MPI_FABRICS shm:tcp
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ← hybr...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ10a-d xhシステム [#nbaf823d]
- Haswell アーキテクチャーのXeon CPUで構成される計算機グ...
- グループ10内ではINFINIBANDによる並列計算が可能
- グループ11内ではINFINIBANDによる並列計算が可能
- AVX機能があり高速に計算できます。
- スクリプトの例(bashの場合)
-- フラット並列(48コア)
!/bin/bash -f
#$ -cwd
#$ -q xh1.q
#$ -pe x24 48
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:tcp ← xh1...
#export I_MPI_DEBUG=7
setenv OMP_NUM_THREADS 1 ← hybr...
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
- スクリプトの例(cshの場合)
-- フラット並列(48コア)
!/bin/csh -f
#$ -cwd
#$ -q xh1.q
#$ -pe x24 48
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
setenv I_MPI_FABRICS shm:tcp ← xh1...
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ← hybr...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ13 xbシステム [#ufe4b9fc]
- Broadwell アーキテクチャーのXeon CPU(Intel(R) Xeon(R) C...
- スクリプトの例(bashの場合)
-- フラット並列(64コア)
#$ -S /bin/bash
#$ -cwd
#$ -q xb1.q
#$ -pe x32 64
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:dapl ← shm...
#export I_MPI_DEBUG=7
setenv OMP_NUM_THREADS 1 ← hyb...
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ...
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
- スクリプトの例(cshの場合)
-- フラット並列(64コア)
!/bin/csh -f
#$ -cwd
#$ -q xb1.q
#$ -pe x32 64
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
setenv I_MPI_FABRICS shm:dapl ← shm...
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ...
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ← hyb...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ14 x17システム [#f319cab5]
- SkylakeアーキテクチャーのXeon CPU(Intel(R) Xeon(R) Gold...
- スクリプトの例(bashの場合)
#$ -S /bin/bash
#$ -cwd
#$ -q x17.q
#$ -pe x32 32
#$ -N JOB_NAME
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
# Above settings should be consistent with those used in...
MPI_COMMAND=mpirun
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:dapl
export OMP_NUM_THREADS=1
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
$MPI_COMMAND ./a.out < input.dat > output.dat
- スクリプトの例(cshの場合)
-- フラット並列(2ノード64コア)
!/bin/csh -f
#$ -cwd
#$ -q x17.q
#$ -pe x32 64
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
setenv I_MPI_FABRICS shm:dapl ← shm...
#setenv I_MPI_DEBUG 7
setenv OMP_NUM_THREADS 1 ← hyb...
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ...
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ15 x19システム [#o3556ccf]
- Cascade LakeアーキテクチャーのXeon CPU(Intel(R) Xeon(R)...
***グループ16 x20システム [#z32d950d]
- Cascade LakeアーキテクチャーのXeon CPU(Intel(R) Xeon(R)...
**使用可能なキューの調べ方 [#ud5db6ae]
-Yオプションなどを利用してsmithなどのログインノードへssh...
qmon
を実行することでqmonのウィンドウが立ち上がり
Queue Control
を見ると使用可能なキュー名(qsubの-qオプション以降に指定...
Parallel Environment
見ると並列環境(qsubの-peオプション以降に指定するオプショ...
** コンパイル [#db7201d0]
-コンパイラの環境設定: ホームディレクトリにある.bashrc(l...
module load intel/2020.2.254
module load intelmpi/2020.2.254
過去の情報は[[Smithシステムの使い方>計算機システムの使い...
** ネットワーク構成 [#rd9d48f4]
~-- | 等はネットワークの接続を、[]でくくられた名前はコン...
+ 工学部内 ODINS network
|
| Backbone network( 工学部ネットワークから直接...
| |
+- [smith] -----+ 133.1.116.161 ログイン&アプリケーシ...
+- [rafiki] ----+ 133.1.116.162 ログイン&アプリケーシ...
+- [tiamat] ----+ 133.1.116.211 ログイン&アプリケーシ...
| |
| | ■ノード名 サーバー CPUコアxC...
| | G番号 =ノードコア数
| +-- [xe00]-[xe01] 4 4x2=8 ...
| +-- [xe02]-[xe06] 5 4x2=8 ...
| +-- [xe02]-[xe06] 6 6x2=12 ...
| |
| +-- [xs01]-[xs18] 8 8x2=16 ...
| +-- [xi01]-[xi13] 9 8x2=16 ...
| | (大メモリ機)
| +-- [xh01]-[xh36] 10a 12x2=24 ...
| +-- [xh37]-[xh43] 10b 12x2=24 ...
| +-- [yh01]-[yh03] 10d 12x2=24 ...
| |
| +-- [xb01]-[xb14] 13 16x2=32 ...
| +-- [x1701]-[x1708] 14 16x2=32 ...
| +-- [x1901]-[x1906] 15 20x2=40 ...
| +-- [x2001]-[x2020] 16 26x2=52 ...
| |
| | ■引退ノード■
| +-- [it??]-[it??] 0 (itanium)
| +-- [opt00], [opt01] コンパイルサーバ...
| +-- [opt02]-[opt11] 1 (各ノード2CORE...
| +-- [opt12]-[opt21] 2 (各ノード4CORE...
| +-- [opt22]-[opt36] 3 (各ノード4CORE...
| +-- [xeon00] ---+ サブログイン・計...
| | +--- [xeon01-07] グルー...
| |
| |
+- [sb100] -----+ 133.1.116.165 別グループ計算サーバー
|
+-- [sb101]-[sb120] 7a 6x1=6 ...
|
|
+-- [rl03]-[rl20] 7b 6x1=6 ...
終了行:
* smith 計算機システムの使い方 [#r2be5e9c]
SMITHクラスタ計算機システムはインテルまたは互換CPUを用い...
#contents
----------
*はじめに -クラスタシステムとは- [#s53955c3]
***クラスタシステム [#v5e8a6d1]
複数の計算機を束ねて多量の計算要求を効率よく実行できるよ...
***アクセス[#eb70bdb9]
システムへはログインサーバーという名前の計算機にアクセス...
--ログインサーバーへのログインの方法
--ログインサーバーでできること
***その他の計算機の利用方法 [#la838f93]
直接ログインせず、「ジョブ投入」という形式で利用します。
--能力別にグループ化された計算サーバーのグループ構成
--「ジョブスクリプトファイル」の書き方
--「ジョブ」の投入方法、確認方法、削除(強制終了)方法
--異常状態の確認と対処
**ログインサーバー [#fcf457f2]
***smithシステム [#o4395994]
-下の3台がログインサーバーです。
-基本的にはsmithを使ってください。
-smithにファイルサーバーの機能(ファイルが収められている...
-どのログインサーバにログインしても同じホームディレクトリ...
-ファイルは「RAIDシステム」により複数のディスクで構成され...
-ファイルサーバーは毎日深夜にバックアップサーバーの/backu...
--[smith] 133.1.116.161
--[rafiki] 133.1.116.162
--[tiamat] 133.1.116.211
***sbシステム [#he346379]
-[sb100] 133.1.116.165
はsb100システムのログインサーバーです。
**ログイン方法 [#t04420e5]
以下では"$"はコマンドプロントを表すと見てください。
-smithにログインする場合 (X11 のフォワーディングを許可...
$ ssh -Y [userID]@133.1.116.161
を実行する。
-sb100にログインする場合
$ ssh -Y [userID]@133.1.116.165
を実行する。
***初めてログインする際には [#ibc34caa]
$ passwd
を実行してパスワードを変更すること。
**公開鍵の登録方法 [#o22a4270]
鍵システムを利用してsshで通信する場合に用います。データを...
-ssh-keygenで秘密鍵(ファイルは通常 ~/.ssh/id_rsa )、と公...
--ローカルホストで以下を実行
ssh-keygen
デフォルトでは秘密鍵と公開鍵がそれぞれ .ssh/id_rsaと .ssh...
-公開鍵をアクセス先のサーバーに追加登録する。(ファイルは...
--公開鍵を表示する。
cat id_rsa.pub
この内容の先頭にアクセス元(クライアント、smithなど)のIP...
** 工学研究科の外部からログインする場合 [#o0a7c646]
工学研究科の外部からログインするには先ず工学研究科のゲー...
以下はポートフォワーディングしてsmithにログインする手順で...
- 先ず以下を実行します
ssh -L localhost:10022:133.1.116.161:22 -i ~/.ssh/[id_rs...
ここで[id_rsa]は秘密鍵のファイル名、[user_name]はゲートウ...
- 次に別ウィンドウを開き、以下を実行します。
ssh localhost -p 10022
ここで10022はポート番号で、最初の手順で指定したポート番号...
**コンパイル/実行環境の設定 [#nb54180b]
-Fortranコンパイラ、cコンパイラはLinux標準のgfortran、gcc...
intelコンパイラは多数のバージョンがあり、moduleを使用して...
-使用可能なモジュールのリスト出力
$ module available
--モジュールの読み込み (smithの場合)
$ module load intel/2020.2.254
$ module load intelmpi/2020.2.254
$ module load python/3.8
など
--- ~~/.bashrcへの記録(smithの場合)
module load intel/2020.2.254
module load intelmpi/2020.2.254
module load python/3.8
--モジュールの読み込み (sb100の場合)
$ module load intel/2021.2.0
$ module load intelmpi/2021.2.0
など
--- ~~/.bashrcへの記録(sb100の場合)
module load intel/2021.2.0
module load intelmpi/2021.2.0
-古くからのユーザ向け
古いintelコンパイラ用の設定は以下のように
# source /home/opt/settings/2017.4/intel-compiler.sh
# source /home/opt/settings/2017.4/intel-mpi.sh
などとしてコメントアウト、あるいは削除する。
**ジョブキューイングシステム [#s67f500a]
-システムで計算を実行するには、計算したい内容をジョブスク...
-ジョブ管理システムはSGE(Sun Grid Engine)です。(OGS/GE 2...
-ジョブは、指定したグループの空いている計算機に自動的に割...
-空きが足りない場合は、他のグループに空きがあっても実行さ...
-同じ能力を持つ計算ノードはクラスごとにまとめられています...
***設定上の重要な点 [#hb98c6a2]
-.cshrcの中にcdのaliasが記載されている場合がありますが、...
**複数ノードを用いた並列計算について [#r3b5cd32]
-用いるノード(コア)の数を増やすと自動的に並列度が上がり...
**ジョブの投入(実行)方法 [#k32ce356]
-実行にはキューと並列環境(parallel_environment)を指定す...
qsub -q xh1.q -pe x24 24 run.csh
ジョブの状態を見るには
qstat
を実行します。特定のユーザのジョブの状態を見るには
qstat -u [user name]
ジョブをキャンセルするには
qdel [job ID]
を実行します。Job IDはqstatで表示される1コラム目の数字で...
***計算機グループと対応するキュー及び並列環境 [#u8381019]
-smith/rafikiからアクセス可能なノード群
|グループ|プロセッサ|コア数/CPU数|ジョブ投入サーバ|キュー...
|4|Nehalem Intel(R) Xeon(R) W5590 @ 3.33GHz|8/2|smith|xe1...
|5|Nehalem Intel(R) Xeon(R) W5670 @ 2.93GHz|12/5|smith|xe...
|6|Sandy-bridge Intel(R) Xeon(R) E5-2680 0 @ 2.70GHz|16/2...
|7|Ivy-bridge Intel(R) Xeon(R) E5-2667 v2 @ 3.30GHz|16/2|...
|10a|Haswell Intel(R) Xeon(R) E5-2680 v3 @ 2.50GHz|24/2|s...
|10b|Haswell Intel(R) Xeon(R) E5-2680 v3 @ 2.50GHz|24/2|s...
|13|Broadwell Intel(R) Xeon(R) E5-2683 v4 @ 2.10GHz|32/2...
|14|Skylake Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz|32/2...
|15|Cascade Lake Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz...
|16|Cascade Lake Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GH...
|17|Ice Lake xeon Gold 6338 CPU @ 2.00GHz|64/2|smith|x21...
-sb100からアクセス可能なノード群
|グループ|プロセッサ|コア数/CPU数|ジョブ投入サーバ|キュー...
|7a|Nehalem Intel(R) Xeon(R) X3440 @ 2.53GHz|6/1|sb100|...
|7b|Sandy-bridge Intel(R) Xeon(R) E5-1650 |6/1|rl|all.q|x...
-[[グループ8,9での注意点>http://www-cp.prec.eng.osaka-u....
-グループ7a, 7bにジョブを投入するときはsb100でqsubコマン...
-それ以外のグループにジョブを投入するときはsmithでqsubコ...
-ジョブスクリプトの書き方については、下の各グループごとの...
***グループ4, 5 xeシステム [#mb55749d]
-xeon CPUで構成される計算機グループで、x8, x12 の2 parall...
-ジョブスクリプトファイルの例 (bashの場合)
#$ -S /bin/bash
#$ -cwd
#$ -q xe2.q
#$ -pe x12 12
#$ -N CO
#$ -o CO_out
#$ -e CO_err
module load intel/2020.2.254
module load intelmpi/2020.2.254
export OMP_NUM_THREADS=1
SRCDIR=${HOME}/STATE/src/state-5.6.6/src
PPDIR=${HOME}/STATE/gncpp
MPI_COMMAND="mpirun -np ${NSLOTS}"
ln -fs ${SRCDIR}/STATE ./STATE
ln -fs ${PPDIR}/C_pbe1/#vnew.data fort.37
ln -fs ${PPDIR}/O_pbe1/#vnew.data fort.38
INPUT_FILE=nfinp_dav
OUTPUT_FILE=nfout_dav
${MPI_COMMAND} ${STATE} < ${INPUT_FILE} > ${OUTPUT_FILE}
-ジョブスクリプトファイルの例 (cshの場合)
#$ -S /bin/csh
#$ -cwd
#$ -q xe2.q
#$ -pe x12 12
#$ -N JOB_NAME ← ジ...
mpirun ./STATE < nfinp_dav > nfout_dav
-- -cwd はジョブを投入した時のディレクトリがジョブ開始時...
-- -q はキュー(グループ)の名前でxe1.qあるいはxe2.qを指...
-- 上のx12(またはx8)はx12(またはx8)にジョブ投入する...
-- -Nオプションでジョブの名前を指定できます。(先頭文字...
-- STATEの実行ファイルをジョブ投入前にシンボリックリンク...
-- また、fort.37等、擬ポテンシャルのファイルも同様にリン...
***グループ7a sb100システム [#r74a0395]
- Sanday-bridge アーキテクチャーのCore i7 CPUで構成される...
- AVX機能があり高速に計算できますが、組み込んだ新しいコン...
- smithのデータを直接見ることができます。/homesmithにsmit...
- スクリプトの例 (bashの場合)
#$ -S /bin/bash
#$ -cwd
#$ -q sb.q
#$ -pe x6 6
#$ -N CO
#$ -o CO_out
#$ -e CO_err
module load intel/2021.2.0
module load intelmpi/2021.2.0
export OMP_NUM_THREADS=1
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:ofi
unset I_MPI_TCP_NETMASK
ROOTDIR=${HOME}/STATE
SRCDIR=${ROOTDIR}/src/state-5.6.9/src
PPDIR=${ROOTDIR}/gncpp
MPI_COMMAND="mpirun"
STATE_EXEC=STATE
STATE=./STATE
ln -fs ${SRCDIR}/${STATE_EXEC} ${STATE}
ln -fs ${PPDIR}/C_pbe1/#vnew.data fort.37
ln -fs ${PPDIR}/O_pbe1/#vnew.data fort.38
INPUT_FILE=nfinp_dav
OUTPUT_FILE=nfout_dav
${MPI_COMMAND} ${STATE} < $INPUT_FILE > $OUTPUT_FILE
- スクリプトの例 (cshの場合)
-- ハイブリッド並列(12コア確保、各ノードにプロセス確保、...
#!/bin/csh -f
$$ -q sb.q
#$ -pe x6 12
#$ -cwd
#$ -N JOB_NAME ← ジ...
setenv OMP_NUM_THREADS 6
ln -fs ~/STATE/src/STATE_5.4.1/wrksrc6i5_/STATE .
mpirun -perhost 1 -np $NHOSTS ./STATE < nfinp > nfout
-- フラット並列(12コア)
#!/bin/csh -f
#$ -q sb.q
#$ -pe x6 12
#$ -cwd
#$ -N JOBNAME
ln -fs ~/STATE/src/STATE_5.4.1/STATE .
mpirun -np $NSLOTS ./STATE < nfinp > nfout
***グループ8 xsシステム [#r2affc72]
- Sanday-bridge アーキテクチャーのXeon CPUで構成される計...
- AVX機能があり高速に計算できます。
- スクリプトの例 (bash)
#$ -S /bin/bash
#$ -cwd
#$ -q xs2.q
#$ -pe x16 16
#$ -N JOB_NAME
module load intel/2020.2.254
module load intelmpi/2020.2.254
# Above settings should be consistent with those used in...
MPI_COMMAND=mpirun
export I_MPI_PIN=1
export I_MPI_ADJUST_ALLGATHERV=2
export OMP_NUM_THREADS=1
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
$MPI_COMMAND ./a.out < input.dat > output.dat
- スクリプトの例(cshの場合)
-- ハイブリッド並列(32コア確保、各ノードにプロセス確保、...
#!/bin/csh -f
#$ -cwd
#$ -q xs2.q
#$ -pe x16 32
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 4
#setenv I_MPI_FABRICS shm:dapl
#setenv I_MPI_FABRICS shm:ofa
setenv I_MPI_FABRICS shm:tcp
#setenv I_MPI_DEBUG 7
setenv OMP_NUM_THREADS 1
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
-- フラット並列(32コア)
#!/bin/csh -f
#$ -cwd
#$ -q xs2.q
#$ -pe x16 32
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
#setenv I_MPI_FABRICS shm:dapl
#setenv I_MPI_FABRICS shm:ofa
setenv I_MPI_FABRICS shm:tcp
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ←ココ...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ9 xiシステム [#c01adc3f]
- 大容量なメモリ・localディスク搭載機です。gaussian計算は...
- Ivy-bridge アーキテクチャーのXeon CPUで構成される計算機...
- AVX機能があり高速に計算できます。
- スクリプトの例(bash)
#$ -S /bin/bash
#$ -cwd
#$ -q xi1.q
#$ -pe x16 16
#$ -N JOB_NAME
module load intel/2020.2.254
module load intelmpi/2020.2.254
# Above settings should be consistent with those used in...
MPI_COMMAND=mpirun
export I_MPI_PIN=1
export I_MPI_ADJUST_ALLGATHERV=2
export OMP_NUM_THREADS=1
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
hostfile.$JOB_ID
$MPI_COMMAND ./STATE < nfinp_1 > nfout_1
- スクリプトの例(cshの場合)
-- フラット並列(32コア)
!/bin/csh -f
#$ -cwd
#$ -q xi1.q
#$ -pe x16 32
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
#setenv I_MPI_FABRICS shm:dapl
#setenv I_MPI_FABRICS shm:ofa
setenv I_MPI_FABRICS shm:tcp
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ← hybr...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ10a-d xhシステム [#nbaf823d]
- Haswell アーキテクチャーのXeon CPUで構成される計算機グ...
- グループ10内ではINFINIBANDによる並列計算が可能
- グループ11内ではINFINIBANDによる並列計算が可能
- AVX機能があり高速に計算できます。
- スクリプトの例(bashの場合)
-- フラット並列(48コア)
!/bin/bash -f
#$ -cwd
#$ -q xh1.q
#$ -pe x24 48
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:tcp ← xh1...
#export I_MPI_DEBUG=7
setenv OMP_NUM_THREADS 1 ← hybr...
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
- スクリプトの例(cshの場合)
-- フラット並列(48コア)
!/bin/csh -f
#$ -cwd
#$ -q xh1.q
#$ -pe x24 48
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
setenv I_MPI_FABRICS shm:tcp ← xh1...
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ← hybr...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ13 xbシステム [#ufe4b9fc]
- Broadwell アーキテクチャーのXeon CPU(Intel(R) Xeon(R) C...
- スクリプトの例(bashの場合)
-- フラット並列(64コア)
#$ -S /bin/bash
#$ -cwd
#$ -q xb1.q
#$ -pe x32 64
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:dapl ← shm...
#export I_MPI_DEBUG=7
setenv OMP_NUM_THREADS 1 ← hyb...
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ...
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
- スクリプトの例(cshの場合)
-- フラット並列(64コア)
!/bin/csh -f
#$ -cwd
#$ -q xb1.q
#$ -pe x32 64
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
setenv I_MPI_FABRICS shm:dapl ← shm...
#setenv I_MPI_DEBUG 7
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ...
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
setenv OMP_NUM_THREADS 1 ← hyb...
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ14 x17システム [#f319cab5]
- SkylakeアーキテクチャーのXeon CPU(Intel(R) Xeon(R) Gold...
- スクリプトの例(bashの場合)
#$ -S /bin/bash
#$ -cwd
#$ -q x17.q
#$ -pe x32 32
#$ -N JOB_NAME
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
# Above settings should be consistent with those used in...
MPI_COMMAND=mpirun
export I_MPI_PIN=1
export I_MPI_FABRICS=shm:dapl
export OMP_NUM_THREADS=1
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
$MPI_COMMAND ./a.out < input.dat > output.dat
- スクリプトの例(cshの場合)
-- フラット並列(2ノード64コア)
!/bin/csh -f
#$ -cwd
#$ -q x17.q
#$ -pe x32 64
#$ -N JOB_NAME ← ジ...
#$ -j y
module load intel/2020.2.254
module load intelmpi/2020.2.254
setenv I_MPI_PIN 1
setenv I_MPI_FABRICS shm:dapl ← shm...
#setenv I_MPI_DEBUG 7
setenv OMP_NUM_THREADS 1 ← hyb...
ln -fs ~/STATE/src/develop/STATE5.6.0/STATE STATE ...
ln -fs ~/STATE/gncpp/pot.O_pbe1 fort.37
ln -fs ~/STATE/gncpp/pot.H_lda1 fort.38
cat $PE_HOSTFILE | awk '{ print $1":"$2/ENVIRON["OMP_NUM...
mpirun ./STATE < nfinp_1 > nfout_1
***グループ15 x19システム [#o3556ccf]
- Cascade LakeアーキテクチャーのXeon CPU(Intel(R) Xeon(R)...
***グループ16 x20システム [#z32d950d]
- Cascade LakeアーキテクチャーのXeon CPU(Intel(R) Xeon(R)...
**使用可能なキューの調べ方 [#ud5db6ae]
-Yオプションなどを利用してsmithなどのログインノードへssh...
qmon
を実行することでqmonのウィンドウが立ち上がり
Queue Control
を見ると使用可能なキュー名(qsubの-qオプション以降に指定...
Parallel Environment
見ると並列環境(qsubの-peオプション以降に指定するオプショ...
** コンパイル [#db7201d0]
-コンパイラの環境設定: ホームディレクトリにある.bashrc(l...
module load intel/2020.2.254
module load intelmpi/2020.2.254
過去の情報は[[Smithシステムの使い方>計算機システムの使い...
** ネットワーク構成 [#rd9d48f4]
~-- | 等はネットワークの接続を、[]でくくられた名前はコン...
+ 工学部内 ODINS network
|
| Backbone network( 工学部ネットワークから直接...
| |
+- [smith] -----+ 133.1.116.161 ログイン&アプリケーシ...
+- [rafiki] ----+ 133.1.116.162 ログイン&アプリケーシ...
+- [tiamat] ----+ 133.1.116.211 ログイン&アプリケーシ...
| |
| | ■ノード名 サーバー CPUコアxC...
| | G番号 =ノードコア数
| +-- [xe00]-[xe01] 4 4x2=8 ...
| +-- [xe02]-[xe06] 5 4x2=8 ...
| +-- [xe02]-[xe06] 6 6x2=12 ...
| |
| +-- [xs01]-[xs18] 8 8x2=16 ...
| +-- [xi01]-[xi13] 9 8x2=16 ...
| | (大メモリ機)
| +-- [xh01]-[xh36] 10a 12x2=24 ...
| +-- [xh37]-[xh43] 10b 12x2=24 ...
| +-- [yh01]-[yh03] 10d 12x2=24 ...
| |
| +-- [xb01]-[xb14] 13 16x2=32 ...
| +-- [x1701]-[x1708] 14 16x2=32 ...
| +-- [x1901]-[x1906] 15 20x2=40 ...
| +-- [x2001]-[x2020] 16 26x2=52 ...
| |
| | ■引退ノード■
| +-- [it??]-[it??] 0 (itanium)
| +-- [opt00], [opt01] コンパイルサーバ...
| +-- [opt02]-[opt11] 1 (各ノード2CORE...
| +-- [opt12]-[opt21] 2 (各ノード4CORE...
| +-- [opt22]-[opt36] 3 (各ノード4CORE...
| +-- [xeon00] ---+ サブログイン・計...
| | +--- [xeon01-07] グルー...
| |
| |
+- [sb100] -----+ 133.1.116.165 別グループ計算サーバー
|
+-- [sb101]-[sb120] 7a 6x1=6 ...
|
|
+-- [rl03]-[rl20] 7b 6x1=6 ...
ページ名: