smith 計算機システムの使い方 †SMITHクラスタ計算機システムはインテルまたは互換CPUを用いた計算機システムです。 はじめに -クラスタシステムとは- †クラスタシステム †複数の計算機を束ねて多量の計算要求を効率よく実行できるように構成されたシステムのことです。 アクセス †システムへはログインサーバーという名前の計算機にアクセスして用います。
その他の計算機の利用方法 †直接ログインせず、「ジョブ投入」という形式で利用します。
ログインサーバー †smithシステム †
sbシステム †
ログイン方法 †以下では"$"はコマンドプロントを表すと見てください。
初めてログインする際には †$ passwd を実行してパスワードを変更すること。 公開鍵の登録方法 †鍵システムを利用してsshで通信する場合に用います。データを暗号化して通信するので、通信経路でデータが覗き見られない安全な通信手段です。
工学研究科の外部からログインする場合 †工学研究科の外部からログインするには先ず工学研究科のゲートウェイサーバにログインし、さらにsmith/sb100にログインする必要があります。従ってゲートウェイにユーザーアカウントを持っている必要があります。持っていない方は管理者に問い合わせて下さい。ゲートウェイにユーザーアカウントを作成する場合、公開鍵の登録が必要となりますので準備しておいて下さい。 以下はポートフォワーディングしてsmithにログインする手順です。
コンパイル/実行環境の設定 †
ジョブキューイングシステム †
複数ノードを用いた並列計算について †
ジョブの投入(実行)方法 †
$ qsub run.sh ジョブをキャンセルするには $ qdel [job ID] ジョブの状態を見るには $ qstat を実行します。特定のユーザのジョブの状態を見るには $ qstat -u [user name] すべてのジョブの状態を見るには $ qstat -Q を実行します。Job IDはqstatで表示される1コラム目の数字です。 またすべてのノードとジョブの状態を見るにはConcurrent systems者のエンジニアの方が準備して下さったqstat2を使用すると良いでしょう。 $ qstat2 計算機グループと対応するキュー及び並列環境 †
グループ4, 5 xeシステム †
グループ7a sb100システム †
グループ8 xsシステム †
グループ9 xiシステム †
グループ10a-d xhシステム †
グループ13 xbシステム †
グループ14 x17システム †
グループ15 x19システム †
グループ16 x20システム †
コンパイル †
ネットワーク構成 †-- | 等はネットワークの接続を、[]でくくられた名前はコンピュータの名称をそれぞれ表す。 + 工学部内 ODINS network
|
| Backbone network( 工学部ネットワークから直接アクセスできない )
| |
+- [smith] -----+ 133.1.116.161 ログイン&アプリケーションサーバー & ファイルサーバー
+- [rafiki] ----+ 133.1.116.162 ログイン&アプリケーションサーバー & バックアップ
+- [tiamat] ----+ 133.1.116.211 ログイン&アプリケーションサーバー
| |
| | ■ノード名 サーバー CPUコアxCPU数 並列環境 キュー
| | G番号 =ノードコア数
| +-- [xe00]-[xe01] 4 4x2=8 x8 xe1
| +-- [xe02]-[xe06] 5 4x2=8 x8 xe1
| +-- [xe02]-[xe06] 6 6x2=12 x12 xe2
| |
| +-- [xs01]-[xs18] 8 8x2=16 x16 xs2
| +-- [xi01]-[xi13] 9 8x2=16 x16 xi1
| | (大メモリ機)
| +-- [xh01]-[xh36] 10a 12x2=24 x24 xh1
| +-- [xh37]-[xh43] 10b 12x2=24 x24 xh2
| +-- [yh01]-[yh03] 10d 12x2=24 x24 yh1
| |
| +-- [xb01]-[xb14] 13 16x2=32 x32 xb1
| +-- [x1701]-[x1708] 14 16x2=32 x32 x17
| +-- [x1901]-[x1906] 15 20x2=40 x40 x19
| +-- [x2001]-[x2020] 16 26x2=52 x52 x20
| |
| | ■引退ノード■
| +-- [it??]-[it??] 0 (itanium)
| +-- [opt00], [opt01] コンパイルサーバー(opteron,opt01)
| +-- [opt02]-[opt11] 1 (各ノード2CORE) mpich-opt
| +-- [opt12]-[opt21] 2 (各ノード4CORE) mpich-opt2
| +-- [opt22]-[opt36] 3 (各ノード4CORE) mpich-opt3
| +-- [xeon00] ---+ サブログイン・計算サーバー (ノード8CORE)
| | +--- [xeon01-07] グループ6 (各ノード8CORE)
| |
| |
+- [sb100] -----+ 133.1.116.165 別グループ計算サーバー
|
+-- [sb101]-[sb120] 7a 6x1=6 x6 ? sb.q
|
|
+-- [rl03]-[rl20] 7b 6x1=6 x6 ? rl.q
|