ZIDline
Vienna Scientific Cluster

Der gemeinsame Hochleistungsrechner von Universität Wien, Universität für Bodenkultur und TU Wien

Peter Berger
Herbert Störi, Institut für Allgemeine Physik

Wie bereits in der ZIDline 19 berichtet, bemühen sich die drei Universitäten, gemeinsam einen Hochleistungsrechner zu beschaffen. Nach einem intensiven Workshop mit potentiellen Anwendern und nach Abschluss des Ausschreibungsverfahrens wird nun ein entsprechendes Clustersystem von Sun Microsystems im Sommer an der TU Wien aufgestellt werden. Die Finanzierung erfolgt aus dem Globalbudget der beteiligten Universitäten.

Computational Science and Engineering Workshop

Computational Science and Engineering Workshop (CSE 2009): 8. - 9. 1. 2009, Seehotel Rust

Die zukünftigen Anwendungen des Supercomputers wurden über Einladung von Frau Prof. Seidler (Vizerektorin für Forschung der TU Wien) bei einem gemeinsamen Workshop mit Anwendern aller drei beteiligten Universitäten diskutiert. Der Workshop fand am 8. und 9. Jänner im Seehotel Rust statt. Bei den Vorträgen und Diskussionen im Rahmen des Workshops zeigte sich, dass eine unerwartet große Zahl von relativ gut skalierenden parallelen Programmen existiert, andererseits aber die Parallelisierung mit MPI immer noch der Standard ist und viele Programme eine entsprechend leistungsfähige Kopplung zwischen den Rechnerknoten brauchen. Ein mehr oder weniger kompakter Rechner-Cluster, dessen Knoten mit einem Hochgeschwindigkeitsnetzwerk (etwa InfiniBand) gekoppelt sind, kann also nur in einzelnen Fällen durch lose gekoppelte Rechner (Grid Computing) ersetzt werden.

Neue Konzepte der parallelen Verarbeitung und neue Entwicklungstools sind für die Zukunft sicher ein wesentlicher Punkt. Die Hoffnung ruht hier einerseits auf der Tatsache, dass mit der zunehmenden Verbreitung von multi-core Prozessoren die Parallelisierung zu einem Element der main-stream Softwareentwicklung wird, und andererseits auf der konkreten Beteiligung der Informatik am gegenständlichen Projekt. Eine projektierte Koopera-tion zwischen Prof. Dustdar (TU, verteilte Systeme) und Prof. Kreil (BOKU, Bioinformatik) ist hier ein erster konkreter Ansatz.

Es wurde auch klar, dass im Moment Prozessoren mit Intel-artiger Architektur und das Betriebssystem Linux den gemeinsamen Standard darstellen. Einige verwendete Programme sind für andere Architekturen nicht verfügbar. In Zukunft könnte aber auch eine speziell für Hochleis-tungsrechner adaptierte Version von Windows auch hier eine zunehmende Rolle spielen.

Steering Committee

Fragen in Zusammenhang mit dem Vienna Scientific Cluster (VSC) werden auf oberster Ebene von einem gemeinsam besetzten „Steering Committee“, bestehend aus den Vizerektoren für Forschung, den Leitern der zentralen Informatikdienste (ZID) und Vertretern der Nutzer entschieden. Bisherige Aufgaben waren die Freigabe der Ausschreibung, die Zuschlagsentscheidung und Diskussionen über die Regelung des Zugangs zum VSC für Wissenschaftler.

Ausschreibung

Bei der ersten Sitzung des Steering Committees am 20. Jänner wurde der Ausschreibungstext genehmigt und das System in den folgenden Tagen europaweit ausgeschrieben. Verlangt wurde ein Cluster, dessen Knoten über Prozessoren mit x86-Architektur, 64 bit, und über mindestens 2 GByte Hauptspeicher je Prozessor-Kern (core) verfügen und untereinander mindestens mit InfiniBand 4xDDR (20 GBit/s full duplex, netto 16 GBit/s) vernetzt sind. Aus Kostengründen war allerdings eine Reduktion der Bandbreite im Backbone-Bereich erlaubt. Teilt man den Cluster von n Knoten gedanklich in 2 Teile zu n/2 Knoten, dann müsste die gesamte Bandbreite der Netzwerkleitungen, die die Teilungslinie überqueren, eigentlich n/2*16 GBit/s je Richtung betragen. Diese Forderung wurde auf die Hälfte reduziert, d. h. ein Blockungsfaktor von max. 2 wurde zugelassen.

Der maximal zulässige Preis inklusive Cluster-Kühlsysteme und Mehrwertsteuer war 1,6 Millionen €. Zur Beurteilung der Leistungsfähigkeit wurden den Anbietern eine Anzahl von Benchmark-Programmen übergeben, welche hauptsächlich aus Programmen zukünftiger Anwender bestehen. Die Bewertung erfolgte auf Basis eines Punktesystems, das hauptsächlich auf den Gesamtdurchsatz des Systems abstellte. Ende der Ausschreibungsfrist war der 31. März 2009.

Insgesamt wurden von 10 Anbietern 13 Angebote eingereicht. Alle Angebote enthielten Knoten mit je 2 Quad-Core Prozessoren (insgesamt 8 Prozessor-Kerne) und je 16, 18 oder 24 GByte Hauptspeicher. Die angebotenen Prozessoren waren entweder Intel Nehalems (X55x0) oder AMD Opterons mit 2,26 bis 2,93 GHz. Das Rennen war in der Spitzengruppe eher spannend; es gab 4 weitere Angebote, welche weniger als 10% hinter dem Bestbieter lagen.

Zuschlag

Bei der Steering Committee Sitzung am 21. April wurde entschieden, dem laut Punktesystem bestbewerteten Angebot den Zuschlag zu erteilen. Dabei handelt es sich um ein System von Sun Microsystems, welches von der Wiener Firma IPS angeboten wurde. Das angebotene System besteht aus 424 Knoten mit je 2 Intel X5550 Nehalem Prozessoren mit 2,66 GHz und je 24 GByte 1,333 GHz DDR3 RAM als Hauptspeicher und je einer 500 GByte SATA Platte. Die Kopplung erfolgt über InfiniBand mit gemischter DDR und QDR (40 Gbit/s full duplex, netto 32 GBit/s) Geschwindigkeit (siehe Abbildung „Infini-Band-Netzwerkstruktur“). Ein zusätzliches GBit-Ethernet sorgt für den Zugriff auf die Fileserver. Zusätzlich hat das System 5 Zugangsknoten. Alle Knoten und Netzwerk-Komponenten werden in 14 konventionelle 19-Zoll Rack-Schränke eingebaut.

Die theoretische Spitzenleistung des Systems beträgt Rpeak=36,1 TFlops, die tatsächliche Leistung Rmax dürfte bei ca. 30 TFlops liegen (vgl. LINPACK Benchmarks). Der gesamte Hauptspeicher beträgt etwa 10 TByte.

Das System wird eine Anschlussleistung von ca. 150 kW haben. Die Knoten und Netzwerk-Komponenten sind luftgekühlt und blasen die warme Abluft in einen geschlossenen Gang, aus dem sie von Kühlgeräten abgesaugt und wieder auf Raumtemperatur gekühlt wird (Warmgangeinhausung).

Die angebotenen Systemkomponenten im Detail

Compute Nodes

Als Compute Nodes werden 1U Rackmountserver (Sun Fire X2270) zum Einsatz kommen, die mit den neuesten Intel Nehalem CPUs ausgestattet sind.

CPU:

2x Intel Xeon X5550
4-Kern Prozessor Nehalem
8 MB L3 Cache, 2.66 GHz,
6,4 GT/s QPI, 95 Watt

Hauptspeicher:

24GB (6x 4 GB DDR3-1333 Registered ECC Memory)

Festplatten:

1x 500 GB SATA Festplatte, 3,5 Zoll, 7.200rpm

Powersupply:

1x Stromversorgung

Netzwerk:

2x 10/100/1000 Ethernet Anschluss on Board

Chipset:

Intel Tylersburg 24D

Management:

ILOM Service Prozessor Module

InfiniBand Netzwerk

Für die Kopplung der Clusterknoten für die Parallelisierung wird ein schneller Cluster Interconnect über Infini- Band zur Verfügung gestellt. Die IB Fabric wird in QDR Technologie aufgebaut (Quad Data Rate, 40 Gbit/s full duplex, 8B/10B Codierung – 32 Gbit/s netto), wobei jedoch DDR HCAs (Double Data Rate Host Channel Adapter) in den Servern verwendet werden. Als Switches kommen 36 Port Switches zum Einsatz. Dabei werden 4 Spine- und 18 Edge-Switches verwendet. Zwischen den Spine und Edge Switches werden 8 Uplinks verwendet. Daher stehen 18*28 = 504 Ports für Compute Nodes, Zugangsknoten und externe Systeme zur Verfügung.

Core Switches:

2x Qlogic Truescale 12300 (36ports QDR), managed
2x Qlogic Truescale 12200 (36ports QDR), unmanaged

Edge Switches:

18x Qlogic Truescale 12200 (36ports QDR), unmanaged

HCA:

QLE7240 Truescale/Infinipath HCAs
(Single Port 4x DDR)

IB Kabel:

QSFP-CX4 Cables for Host connection
QSFP-QSFP Optical Cables core-edge connection

Gbit-Netzwerk

Das Gbit-Netzwerk dient vor allem für das Fileservice (NFS) und zum Booten der Compute-Nodes. Die Fileserver sind mit je 10 Gbit/s Ethernet angeschlossen, die Zugangsknoten haben je 2 Anschlüsse in das jeweilige Netzwerk der Universitäten.

Es ist in naher Zukunft geplant, das Fileservice ebenfalls über InfiniBand zu realisieren.

Management Netzwerk

Sun verwendet für die Verwaltung und Steuerung der X86-Server ein ILOM (Integrated Lights out Manager) System. Dieses System ist eine Kombination der ILOM Service Prozessor (SP) Hardware und der ILOM Software Suite.

Mit ILOM ist das Monitoring und die Verwaltung der Systeme remote möglich. Der Service-Prozessor arbeitet unabhängig vom restlichen System und besitzt ein eigenes Management LAN Interface. ILOM beinhaltet ein eigenes Web-Interface (https), ein CLI (ssh oder seriell), ein SNMP Interface (v1,v2c,v3) und ein IPMI v2.0 Interface.

Zugangsknoten und Fileserver

Als Master- und Zugangsknoten kommen 5 Stück SunFire X4245 (2 Sockel Intel Nehalem E5540) mit je 4x 300 GB SAS-Platten zum Einsatz.

Kühlung

Die Clusterkühlung wird mit Schrankkühlsystemen der Firma Knürr durchgeführt, 6 CoolLoops werden zwischen den Schränken installiert. Eine Cluster-Einhausung (geschlossene Decke, Schiebetüren) verhindern eine zu intensive Durchmischung der heißen Abluft mit der Raumluft.

Batch-System und Software

Betriebssystem

Als Betriebssystem wird Linux CentOS zum Einsatz kommen.

Sun HPC Software

Angeboten wurde die Sun HPC Software, Linux Edi-tion 1.2. Dies ist ein umfassender Software Stack unter Linux, der es erlaubt, hochskalierbare Applikationen zu entwickeln, ablaufen zu lassen und den Cluster effizient zu managen. Abgedeckt werden hier unter anderem: Linux Distribution (CentOS, basierend auf Red Hat Enterprise Linux), Netzwerktreiber, Filesysteme und Werkzeuge für Provisionierung und Management.

Sun Studio Entwicklungstools für Linux

  • C, C++ und Fortran 90/95 Compiler
  • Debugger und Performance-Analyser für parallele Applikationen
  • Shared Memory OpenMP
  • Performance Library
  • Open MPI Stack
  • Intel C++ und Fortran Compiler 11 Professional Edition für Linux

Batch-System

Als Batch-System steht die „Sun Open Source Grid Engine“ zur Verfügung, es wird zurzeit der Einsatz eines kommerziellen Batch-Systems evaluiert.

Installation

Das System wird im Rechenraum im 2. Stock des Freihaus-Gebäudes der TU Wien installiert. Die Vorbereitung des Aufstellungsortes ist abgeschlossen. Dort musste vor allem der 20 Jahre alte Doppelboden saniert und verstärkt werden, da das System 7-8 Tonnen wiegen wird. Alte Glykol-Kühlleitungen des früher dort installierten CDC CYBER Mainframes wurden entfernt.

An einer neuen Kaltwasserzuleitung mit 150 mm Nennweite von der Kältezentrale im 11. Stock bis in den Rechenraum wird derzeit gearbeitet. Diese Arbeit gestaltet sich schwierig, da die Rohre neben einer Vielzahl von Kabeln in den Installationsschächten geschweißt werden müssen. Zusätzliche Stromzuleitungen sind bereits fertig gestellt.

Für die Installationsarbeiten am System selbst sind etwa 14 Tage anberaumt. Diese werden nach jetziger Planung in der ersten Hälfte des Monats Juli erfolgen. Anschließend erfolgt der Abnahmetest, bei dem die Benchmark-Leistung verifiziert wird, sowie ein 2-wöchiger Dauertest. Nicht unwichtig ist die Durchführung des so genannten LINPACK-Benchmarks, welcher für die Position in der Top500 Liste der weltweit leistungsfähigsten Computer entscheidend ist. Wenn alles nach Plan läuft, startet der Benutzerbetrieb Anfang September.

Zugang und Betrieb

Die genauen Modalitäten der Account-Vergabe sind derzeit in Ausarbeitung. Jedenfalls soll der Zugang abgesehen von Test-Accounts auf wissenschaftlich begutachtete Projekte beschränkt werden. Bereits begutachtete, etwa von FWF oder EU finanzierte Projekte, werden dabei nicht nochmals begutachtet. In Ausnahmefällen ist auch eine Benutzung gegen Kostenerstatz möglich. Grundsätzlich werden Ressourcen für Projekte an einen Projektleiter vergeben, der dann die Möglichkeit haben wird, persönliche Accounts für Mitarbeiter auf einfache Weise anzulegen.

Ein professionelles Queueing-System wird eine entsprechend saubere Zuteilung von Ressourcen bei guter Gesamtauslastung ermöglichen. Für zeitkritische Arbeiten können je nach Bedarf und Genehmigung auch Reservierungen im Voraus verwaltet werden.

Die Fileserver dienen grundsätzlich dem Handling der bearbeiteten Jobs. Die Anwender werden für die Sicherung und Archivierung der Datenbestände selbst verantwortlich sein. Ein entsprechendes Massenspeicher- und Sicherungssystem hätte den finanziellen Rahmen deutlich gesprengt.

Vienna Scientific Cluster:  http://www.zid.tuwien.ac.at/vsc/