Archive for the ‘SGE’ Category

dns problem!

Saturday, December 1st, 2007

sgeadmin@bagong:/export/home/aku$ qsub sub1.sh matrice-lama
error: commlib error: access denied (client IP resolved to host name “blade1.grid.computer.ee.its.ac.id”.
This is not identical to clients host name “bagong.grid.computer.ee.its.ac.id”)
Unable to run job: unable to contact qmaster using port 536 on host “bagong.grid.computer.ee.its.ac.id”.
Exiting.

coba deh liat dns sama /etc/hosts. pastikan bener.

mengurangi exec host sge

Friday, November 30th, 2007
  • hapus host dari machine file MPICH master
  • hapus host dari host group sge, qconf -mhgrp @allhost
  • hapus host dari daftar exec host, qconf -de host.example.org
  • hapus host dari daftar antrian, qconf -mq all.q

menambah exec host sge

Friday, November 30th, 2007
  • sinkronkan waktu pake ntp
  • buka port sge_qmaster 536/tcp dan port sge_execd 537/tcp di /etc/service
  • mount $SGE_ROOT master
  • execute qconf -sh, pastikan host yg akan diinstall sudah terdaftar sbg administation host. kalau belum, tambahkan saja
  • install sge_execd
  • tambahkan nama node baru di file machine MPICH master
  • MPICH node baru harus sudah diinstall

eksekusi perintah di remote node…

Wednesday, November 21st, 2007

gak tau kenapa. node2 worker sge tidak secara otomatis nge-mount /export dari nfs server meskipun sudah dimasukkan ke /etc/fstab. node2 ini juga tidak menjalankan service sgeexecd secara otomatis. dan juga mereka tidak mengeset path environment sge secara otomatis. mengikuti tutorial yang ini dari mas fajran. saya buat script untuk menjalankan itu semua hanya dg satu perintah:

#!/bin/sh
for addr in `seq 2 5`
do
ssh sgeadmin@192.168.0.$addr sudo mount -a
ssh sgeadmin@192.168.0.$addr . /opt/sge/default/common/settings.sh
ssh sgeadmin@192.168.0.$addr sudo /opt/sge/default/common/sgeexecd start
done

jangan lupa mengubahnya menjadi executable.

sgeexec node state E

Wednesday, November 21st, 2007

tiba2 salah satu node eksekusi sge-ku bernilai(state) E ketika di jalankan. hal ini berakibat node tersebut tidak mau di beri job. error ini disebabkan adanya error di queue. menurut tutorial ini. solusinya dg perintah:

$qmod -c all.q

dmn all.q adalah queue yang anda gunakan. it solved. :D

install SGE

Saturday, November 17th, 2007

yang harus diperhatikan:

1. $SGE_ROOT yg ada di master harus di mount oleh worker2.

2. DNS berjalan baik. baik forward maupun reverse

3. sebaiknya spool worker di local space, agar lebih optimal

4. pastikan waktu master dan worker sama. makanya pake ntp.

5. dll (nanti saya tambah lagi klo ingat)