STUBA klaster - IBM iDataPlex


Súpis výpočtových zdrojov klastra:

Klaster pozostáva z 52 výpočtových uzlov IBM iDataPlex dx360 M3, z toho 4 sú osadené dvoma GPU akcelerátormi NVIDIA Tesla.
K dispozícii je 624 cpu + 3584 cuda jadier, 2,5TB ram, disková raw kapacita zdieľaného úložiska dát 115TB a ďalších 104TB na lokálnych diskoch.
Jeho výpočtový výkon cpu je 6,76 TFLOPS (Linpack benchmark), čo je 92% teoretického výkonu. 
Maximalny príkon spolu s dátovým úložiskom a obslužnými zariadeniami vrátane chladena je 40kW.

Výpočtový uzol

  • CPU 2x 6 jadrový Intel Xeon X5670 2.93 GHz
  • Operačná pamäť: 48GB (24GB na procesor/socket, NUMA architektúra)
  • Lokálny disk 1x 2TB 7200rpm SATA
  • 2x NVIDIA Tesla M2050 448 cuda jadier, 3GB ECC RAM
  • Operačný systém: Scientific Linux 6.4 (kernel 2.6.32-358.el6)
  • Vysokorýchlostná sieť: 2x10Gb/s Ethernet (RoCE)

Dostupné súborové systémy

Filesystem popis zálohovanie diskové kvóty automatické mazanie súborov
/home/$USER domovské priečinky používateľov (GPFS) plánované 32GB/80k inodes 1 nie
/work/$USER zdieľaný sieťový disk na výpočty (GPFS) 3 nie nie (56TB) ano 2
$TMPDIR (/scratch/$PBS_JOBID) lokálny disk (ext4) 4 nie nie (1.6TB) ano / po skončení úlohy
/apps zdieľaný sieťový disk pre aplikácie (GPFS) N/A N/A N/A
  1. výpis aktuálne nastavených kvót príkazom: mmlsquota
  2. súbory väčšie ako 200MB budú zmazané po 14 dňoch nepoužívania, ostatné po 30 dňoch.
    Automatické mazanie neznamená, že sa používateľ nemusí starať o to, čo po úlohách v pracovnom priestore zostane!
  3. GPFS - paralelný sieťový súborový systém s agregovanou priepustnosťou približne 5GB/s vhodný na sekvenčný prenos
    objemnejších dát v blokoch >16kB.
  4. Lokálny disk je vhodný na spracovanie väčšieho počtu malých súborov s náhodným prístupom ( env. premenná $TMPDIR).

Vysokorýchlostné prepojenie (Interconnect)

Každý uzol je vzájome prepojený 2x10Gb/s Ethernet (RoCE alebo inak IBoE) v dvoch oddelených sieťach s celkovou priepustnosťou 2x640Gb/s.

  • výpočtová sieť (TCP: compNN-eth1, IB: mlx4_0:2), 
  • všeobecná sieť určená pre komunikáciu s hlavným uzlom a pre GPFS (TCP: compNN, IB: mlx4_0:1)

Na výpočty je vhodné používať iba sieť na to určenú, pretože intenzívna Infiniband komunikácia medzi uzlami, može veľmi významne spomaliť TCP protokol, ktorý využíva popri ďalších sieťových službách aj paralelný súborový systém GPFS. V takom prípade dôjde výraznému zhoršieniu jeho výkonnostných parametrov a dostupnosti dát.

Výpočtové fronty úloh

Na správu front a prideľovanie zdrojov klastra bol nainštalovaný software PBS Torque/Maui a nakonfigurované následovné fronty úloh.

Názov popis limity na jedného používateľa 1
debug fronta s vysokou prioritou, určená na odladenie úloh iba 2 krátke súčasne spustené úlohy, walltime = 30min
serial určená pre sériové úlohy max 1 cpu, pmem = 4gb, walltime = 240h
parallel určená pre paralelné úlohy (MPI, OpenMP...) min ppn = 4, max nodes = 8, walltime = 240h* )
gpu fronta úloh využívajúcich GPU akcelerátor walltime = 24h
  1. Na každý evidovný projekt je vyhradených max. 11520 aktívnych hodín (ncpu*walltime). Ďalšie úlohy daného projektu budú čakat vo frontách dovtedy, kým sa kumulovaný požadovaný walltime jeho spustených úloh neskráti o už použitý strojový čas natoľko, aby sa mohla v limite spustiť ďalšia úloha. Administrátor môže limity meniť individuálne podľa aktuálneho vyťaženia klastra, alebo podľa významnosti úloh.
© 2013 Slovenská technická univerzita v Bratislave,  Centrum výpočtovej techniky, Vazovova 5, 812 43 Bratislava, HPC-Team: hpc [at] stuba.sk