Cluster de Computació - IUIIPer a resumir l'ús dels comandos de Grid Engine veiem ací un exemple detallat.
Enviem el script mi_trabajo.sh d'abans amb:
[hpuser@login ]$ qsub ./mi_trabajo.sh
Your job 193 ("El meu_Treball") has been submitted
El comando ens retorna el nombre d'identificació del treball (ací 193). Executem el comando qstat per a veure el seu estat:
[hpuser@login ]$ qstat
job-ANEU prior name user state submit/start at queue slots ja-task-ANEU
-----------------------------------------------------------------------------------------------------------------
193 0.00000 El meu_Treball hpuser qw 08/29/2011 10:00:00 1
L'estat qw significa que el treball està assignat a una cua (q-queued) i esperant al fet que hi haja un node disponible per a executar-ho (w-waiting). Després d'una estona, el treball entra en l'estat d'execució (r: running).
[hpuser@login ]$ qstat
job-ANEU prior name user state submit/start at queue slots ja-task-ANEU
-----------------------------------------------------------------------------------------------------------------
193 0.55500 El meu_Treball hpuser r 08/29/2011 10:00:12 normal.q@cn01.iuii.ua.local 1
Per a veure els detalls del treball mentre que estiga actiu podem executar el comando qstat %u2013j
[hpuser@login ]$ qstat -j 193
==============================================================
job_number: 193
exec_file: job_scripts/193
submission_estafe: Mon Aug 29 10:00:00 2011
owner: hpuser
uid: 2010
group: clusers
gid: 2001
sge_o_home: /home/hpuser
sge_o_log_name: hpuser
sge_o_path: /usr/kerberos/bin:/opt/ge6/bin/lx-amd64:/usr/local/bin:/bin:/usr/bin:/home/hpuser/bin
sge_o_shell: /bin/bash
sge_o_workdir: /home/hpuser
sge_o_host: login
account: sge
cwd: /home/hpuser
stderr_path_list: NONE:NONE:el meu_treball.$JOB_ANEU.err
mail_list: hpuser@login.iuii.ua.local
notify: FALSE
job_name: El meu_Treball
stdout_path_list: NONE:NONE:el meu_treball.$JOB_ANEU.out
jobshare: 0
env_list:
script_file: ./mi_trabajo.sh
binding: unknown unknown
usage 1: cpu=00:00:00, mem=0.00000 GBs, io=0.00000, vmem=N/A, maxvmem=N/A
binding 1: NONE
scheduling info: (Collecting of scheduler job information is turned off)
En quan haja acabat el treball podem mirar els fitxers d'eixida
[hpuser@login ]$ cat el meu_treball.193.out
Estic corrent en el node cn01.iuii.ua.local
Vaig dormir a les Mon Aug 29 10:00:12 CEST 2011
[hpuser@login ]$ cat el meu_treball.193.err
Com el treball s'ha executat sense problemes el fitxer d'error està buit. Amb el comando qacct podem veure la informació guardada en la base de dades d'accounting sobre el nostre treball quan haja acabat:
[hpuser@login ]$ qacct -j 193
==============================================================
qname normal.q
hostname cn01.iuii.ua.local
group clusers
owner hpuser
project NONE
department defaultdepartment
jobname El meu_Treball
jobnumber 193
taskid undefined
account sge
priority 0
qsub_estafe Mon Aug 29 10:00:00 2011
start_estafe Mon Aug 29 10:00:12 2011
end_estafe Mon Aug 29 10:01:12 2011
granted_pe NONE
slots 1
failed 0
exit_status 0
ru_wallclock 60
ru_utime 0.002
ru_stime 0.003
ru_maxrss 1084
ru_ixrss 0
ru_ismrss 0
ru_idrss 0
ru_isrss 0
ru_minflt 2261
ru_majflt 0
ru_nswap 0
ru_inblock 0
ru_oublock 0
ru_msgsnd 0
ru_msgrcv 0
ru_nsignals 0
ru_nvcsw 38
ru_nivcsw 10
cpu 0.005
mem 0.000
io 0.000
iow 0.000
maxvmem 119.980M
arid undefined

