PBS管理系統(tǒng)(一)作業(yè)提交系統(tǒng)Torque個(gè)人安裝總結(jié)(PBS)
PBS是功能最為齊全,歷史最悠久,,支持最廣泛的本地集群調(diào)度器之一,。 PBS的目前包括openPBS,PBS Pro和Torque三個(gè)主要分支,。其中OpenPBS是最早的PBS系統(tǒng),,目前已經(jīng)沒有太多后續(xù)開發(fā),PBS pro是PBS的商業(yè)版本,,功能最為豐富,。Torque是Clustering公司接過了OpenPBS,并給與后續(xù)支持的一個(gè)開源版本,。 下面是本人安裝torque的過程,。 一、Torque安裝 在master(管理結(jié)點(diǎn)上) 1,、解壓安裝包 [root@master tmp]# tar zxvf torque-2.3.0.tar.gz 2,、進(jìn)入到解壓后的文件夾 ./configure --with-default-server=master make make install 3、 (1)[root@master torque-2.3.0]#./torque.setup <user> <user>必須是個(gè)普通用戶 (2)[root@master torque-2.3.0]#make packages 把產(chǎn)生的 tpackages , torque-package-clients-linux-x86-64.sh, torque-package-mom-linux-x86-64.sh 拷貝到所有節(jié)點(diǎn),。 (3)[root@master torque-2.3.0]# ./torque-package-clients-linux-x86_64.sh --install [root@master torque-2.3.0]# ./torque-package-mom-linux-x86_64.sh --install (4)編輯/var/spool/torque/server_priv/nodes (需要自己建立) master node01 np=4 ........ node09 np=4 (5)啟動pbs_server,pbs_sched,pbs_mom,并把其寫到/etc/rc.local里使其能開機(jī)自啟動,。 (6)創(chuàng)建隊(duì)列 [root@master ~]# qmgr create queue students set queue students queue_type = Execution set queue students Priority = 40 set queue students resources_max.cput = 96:00:00 set queue students resources_min.cput = 00:00:01 set queue students resources_default.cput = 96:00:00 set queue students enabled = True set queue students started = True 4、在node0x (x=1-9,計(jì)算結(jié)點(diǎn)上) [root@node0x torque-2.3.0]# ./torque-package-clients-linux-x86_64.sh --install [root@node0x torque-2.3.0]# ./torque-package-mom-linux-x86_64.sh --install 然后啟動pbs_mom ,把pbs_mom寫入/etc/rc.local 二,、Torque PBS使用 1,、創(chuàng)建用戶 在master的root下 useradd test passwd test 輸入test密碼 到/var/yp下make一下 2、配置普通用戶的ssh su test cd ssh-keygen -t dsa cd .ssh cat id_pub.dsa >>authorized_keys chmod 600 authorized_keys 3,、編寫作業(yè)腳本 [test1@master t]vi pbsjob #!/bin/tcsh #PBS -o /home/test1/pbstest/t/output 標(biāo)準(zhǔn)輸出文件 #PBS -e /home/test1/pbstest/t/error 錯(cuò)誤輸出文件 #PBS -l nodes=5:ppn=4 規(guī)定使用的節(jié)點(diǎn)數(shù)以及每個(gè)節(jié)點(diǎn)能跑多少核 #PBS –q students 把任務(wù)提交到students隊(duì)列中 cd $PBS_O_WORKDIR 到工作目錄下(此為PBS提供的環(huán)境變量) mpirun –machine $PBS_NODEFILE -np 20 ./vasp 4,、啟動mpd mpdboot -n 10 -f mfa mfa內(nèi)容: master:4 node01:4 …. node09:4 5、提交,,查詢,,刪除作業(yè) 提交作業(yè):qsub pbsjob 作業(yè)提交后會有一個(gè)作業(yè)號 [test1@master pbstest]$ qsub pbsjob 48.master 查詢作業(yè):qstat [test1@master pbstest]$ qstat Job id ------------------------- ---------------- --------------- -------- 48.master 刪除作業(yè):qdel 作業(yè)號 [test1@master pbstest]$ qdel 48 (二)PBS腳本使用 qsub -N Relax #!/bin/sh VASP="/home/user15/soft/mpi/bin/mpirun -machinefile $PBS_NODEFILE -np 8 i=36 times=1000 while((i<=times)) do cp rm WAVECAR CHG* ./produKPTS.x $VASP cp CONTCAR rm WAVECAR CHG* ./produKPTS.x $VASP cp CONTCAR rm WAVECAR CHG* ./produKPTS.x $VASP cp CONTCAR cp OUTCAR let i=i+1 done cd /temp/user15/RST1000 ./relax.sh >& log (三)pbs常用命令和選項(xiàng) 一、基本選項(xiàng) 鏈接http://hi.baidu.com/pkuwwt/blog/item/d6e094b1b910df5c0923022f (四)PBS 命令與使用 PBS(Portable Batch System)是由NASA開發(fā)的靈活的批處理系統(tǒng),。它被用于集群系統(tǒng)、超級計(jì)算機(jī)和大規(guī)模并行系統(tǒng),。PBS主要有如下特征:
OpenPBS( http://www.OpenPBS.org/)是PBS的Open Source的實(shí)現(xiàn),。商業(yè)版本的PBS可以參照: http://www./。 1,、PBS命令 (1) 命令格式: qsub [-e path] [-I] [-j join] [-k keep] [-l resource_list] [-M user_list][-N name] [-o path] [-p priority] [-q destination] [-r c] [-S path_list] [-u user_list][-v variable_list] [-V] [-W additional_attributes] [-z] [script] 參數(shù)說明:因?yàn)樗捎玫倪x項(xiàng)一般放在pbs腳本中提交,所以具體見PBS腳本選項(xiàng),。 例:# qsub (2) 命令格式:qatat [-f][-a][-i] [-n][-s] [-R] [-Q][-q][-B][-u] 參數(shù)說明: -f -a -i -n -s -R -Q -q -au userid -B -r -Qf queue 列出指定隊(duì)列的信息 -u 若操作符為destination id,,則列出運(yùn)行在其上的屬于user_list中用戶的作業(yè)狀態(tài),。 例:# qstat -f 211 (3) qdel 命令—用于刪除已提交的作業(yè) 命令格式:qdel 命令行參數(shù): 例:# qdel -W 15 211 (4) 2,、PBS腳本文件 PBS腳本文件由腳本選項(xiàng)和運(yùn)行腳本兩部分組成,。 (1) PBS作業(yè)腳本選項(xiàng) (若無-C選項(xiàng),則每項(xiàng)前面加‘#PBS’) -c -C 令選項(xiàng),。(若無此選項(xiàng),,則默認(rèn)為’#PBS’ ) -e -I -j -k -l -m -M -N -o -p -q -r -S -u -v -V -W -z (2) [注]:腳本文件中的mpirun_rsh命令行中的節(jié)點(diǎn)列表文件要用環(huán)境變量表示 $PBS_NODEFILE,,這個(gè)環(huán)境變量表示由pbs自動分配給作業(yè)的節(jié)點(diǎn)列表; 節(jié)點(diǎn)數(shù)為命令行中指定的進(jìn)程數(shù),。 格式如下: mpirun_rsh –np 進(jìn)程數(shù) –hostfile $PBS_NODEFILE 可執(zhí)行程序名 命令詳解如下:
鏈接http://blog./u1/34200/showart_1880946.html (五)GM并行作業(yè)提交PBS腳本 PBS模板腳本文件路徑為:/export/home/pbs/mpich-gm.pbs.pbs 按照如下示例文件,,建立pbs作業(yè)提交腳本,修改紅色的部分即可,。 #LJRS -S /bin/bash #LJRS -o script.out #LJRS -j oe #LJRS -q dpool #LJRS -l nodes=8:ppn=1 #LJRS -l walltime=48:00:00 limit -s unlimited TMPFILE=`whoami`_mpich_gm.tmp sed 's/c/g/g' $LJRS_NODEFILE > /tmp/$TMPFILE GM_NODEFILE=/tmp/$TMPFILE echo Working directory is $LJRS_O_WORKDIR cd $LJRS_O_WORKDIR echo Runing on host `hostname` echo Starting Time is `date` echo Directory is `pwd` echo This jobs runs on the following processors: echo `cat $GM_NODEFILE` NPROCS=`wc -l < $GM_NODEFILE` echo This job has allocated $NPROCS nodes ## User Parallel Program ########### mpirun -v -machinefile $GM_NODEFILE -np $NPROCS ~/my_parallel.exe > out (修改為用戶的并行作業(yè)執(zhí)行命令) #################################### rm -f /tmp/$TMPFILE 鏈接http://cftcc./show.aspx?id=25&cid=12 echo Ending Time is `date` |
|