ZIDline
Vienna Scientific Cluster - die Erfolgsgeschichte geht weiter
Peter Berger, Ernst Haunschmid
Herbert Störi, Institut für Angewandte Physik
Das gemeinsame Hochleistungsrechner-Projekt von TU Wien, Universität Wien und Universität für Bodenkultur
Nach der erfolgreichen Installation und der Aufnahme des Produktionsbetriebs des Vienna Scientific Clusters Ende 2009 war bereits nach einigen Monaten klar, dass aufgrund der extrem hohen Auslastung und der laufend steigenden Zahl an Projektanträgen aller drei Universitäten entweder ein signifikanter Ausbau des bestehenden Clustersystems oder die Planung eines weiteren Systems dringend erforderlich war.

Nachdem sowohl der Universität Wien wie auch der TU Wien finanzielle Mittel für den Bereich Hochleistungsrechnen im Zuge der Leistungsvereinbarungen  2010 - 2012 zur Verfügung gestellt wurden, wurde im HPC Steering Committee der Beschluss gefasst, eine Ausschreibung für ein neues Hochleistungs-Clustersystem durchzuführen, das an einem neuen Standort installiert und betrieben werden soll.

Die VSC-2 Projektgruppe

Wie bereits bei der erfolgreichen Realisierung des VSC-1 Projekts wurde eine Arbeitsgruppe eingesetzt, die sowohl mit der Ausarbeitung eines neuen Standorts als auch mit der Erstellung der Ausschreibung für das neue Clustersystem (VSC-2) beauftragt wurde. Diese Projektgruppe setzt sich aus folgenden Personen zusammen:

Herbert Störi (Inst. für Angewandte Physik, TU Wien, Projektleiter Wissenschaft)
Peter Berger (ZID, TU Wien, Projektleiter Technik)
Ernst Haunschmid (ZID, TU Wien)
Bernhard Hermann (ZID, TU Wien)
Peter Marksteiner (ZID, Universität Wien)
Markus Ankner (ZID, Universität Wien)
Jan Zabloudil (ZID, Universität für Bodenkultur)

Von dieser Projektgruppe wurden in guter und konstruktiver Zusammenarbeit die Grundlagen für die Standortentscheidung wie auch die Spezifikationen für die VSC-2 Ausschreibung ausgearbeitet.

Die Standortentscheidung für das neue Clustersystem

Folgende Spezifikationen waren für die Standortfrage ausschlaggebend:

  • mindestens 100 m2 Systemraum + technische Nebenräume (Netzwerk, Klima, Strom USV), erweiterbar auf zusätzlich 200 m2 für die weiteren Ausbaustufen
  • mindestens 1500 kW Anschlussleistung (VSC-2 und Ausbau auf VSC-3), möglichst Industriestandort wegen der Schallpegel der Kaltwassersätze
  • gute Verkehrsanbindung und Anliefermöglichkeiten
  • günstige Miet- und Energiekosten

Nach Prüfung von zwei kommerziellen Standorten, einer Alternative an der Universität Wien und dem Standort Arsenal der TU Wien wurde am 10. Mai 2010 vom Steering Committee der Beschluss gefasst, als neuen Standort für den VSC-2 inkl. einem weiteren Ausbau das Objekt 214 im Arsenal zu wählen.

Mit der Planung wurde nach einigen Verzögerungen  mit dem Mietvertrag zwischen der BIG und der TU Wien unverzüglich begonnen, als Fertigstellungstermin wurde von der TU Wien der 31. 3. 2011 festgelegt.

Die Ausschreibung

Am 30. September 2010 wurde von der TU Wien in Abstimmung mit der Universität Wien eine EU-weite öffentliche Ausschreibung zur Beschaffung eines Hochleistungs-Clustersystems (VSC-2) durchgeführt (offenes Verfahren nach dem Bundesvergabegesetz). Der maximal zur Verfügung stehende Finanzrahmen betrug € 4,2 Mio (inkl. USt), wobei in diesem Betrag das Clustersystem, die erforderlichen System-Kühlkomponenten sowie die Stromversorgung inkludiert waren.

Bis zum Ende der Angebotsfrist am 7. Dezember 2010, 10:00 Uhr wurden von 10 Firmen Angebote abgegeben; die Angebotseröffnung um 11:00 Uhr ergab 14 Angebote von 10 Firmen.

Die Bewertung erfolgte nach dem Bestbieterprinzip, es wurden die Gruppen „Durchsatzleistung des Gesamtsystems“, „Energieeffizienz“ und „Preis“  bewertet.

Nach der Prüfung der rechtlichen und kommerziellen Ausschreibungsbedingungen durch die Rechtsabteilung der TU Wien und die Erstellung einer Punktebewertungsmatrix wurde von der Vergabevorschlagskommission (bestehend aus Nutzervertretern und den ZIDs der beiden Universitäten) die Firma MEGWARE aus Chemnitz (Deutschland) als Bestbieter mit dem Hauptangebot ermittelt. Die Unterlagen der Bestbieterermittlung wurden dem HPC Steering Committee am 10. Jänner 2011 vorgelegt und einstimmig beschlossen.

Nach der Zustimmung der Rektorate beider Universitäten erfolgte am 12. Jänner 2011 die Bekanntgabe der Zuschlagsentscheidung und am 25. Jänner 2011 die Bestellung des Clusters durch die Rechtsabteilung der TU Wien.

Die angebotenen Systemkomponenten im Detail

Compute Nodes

Das Clustersystem besteht aus 1.314 Einheiten (21.024 Cores) MEGWARE Saxonid Dual Opteron Nodes im SlashFive Design mit bis zu 15 integrierten Nodes auf 8 Höheneinheiten.

CPU: 2x AMD Opteron Magny Cours 6132HE mit je 8-Cores 12 MB L3 Cache, 2.2 GHz Taktfrequenz, Hypertransport 3, 80 Watt
Hauptspeicher: 32 GB (8x 4 GB DDR3-1333 Registered ECC Memory)
Festplatten: 16 GB SSD Festplatte, Rest des Systems über NFS
InfiniBand: 4x QDR Single Port
Ethernet: 2x 10/100/1000 Ethernet Anschluss on Board
Chipset: AMD SR5670 und AMD SP5100
Management: IPMI 2.0 Managementcontroller
Kühlung: Knürr CoolDoor, 18°C Kühlwasser-Vorlauftemperatur, 24°C Raumtemperatur

Zugangs- und Masterknoten

3 Zugangsknoten und 2 Masterknoten (2x AMD Opteron Magny Cours 6132HE mit je 8 Cores, 32 GB Memory) mit je 2x 300 GB SAS-Platten und je einem dual-10 GB LAN-Anschluss kommen zum Einsatz.

Fileserver und Paralleles Filesystem

Als Cluster-Filesystem ist FhGFS (Fraunhofer Parallel File System) vorgesehen. Es werden 12 Storage-Nodes eingesetzt, die direkt im InfiniBand-Netzwerk integriert sind. An Storage-Kapazität werden ca. 250 TB netto zur Verfügung stehen.

InfiniBand-Netzwerk

Für die Kopplung der Clusterknoten für die Parallelisierung wird durchgehend ein schneller Cluster Interconnect über InfiniBand zur Verfügung gestellt. Die IB Fabric wird in QDR-Technologie aufgebaut (Quad Data Rate, 40 Gbit/s full duplex, 8B/10B Codierung – 32 Gbit/s netto).

Das Netzwerk besteht aus 2 Teilnetzwerken in einer zweistufigen Clos-Topologie, jedes der beiden Teilnetzwerke verfügt über einen Blockungsfaktor von 2, die Teilnetzwerke sind mit einem Blockungsfaktor von 8 mit-einander verbunden. Es werden Switches von Voltaire zum Einsatz kommen.

Gbit-Netzwerk und Servicenetzwerk

Das Gbit-Netzwerk dient vor allem zum Booten der Compute-Nodes, zum Verteilen von Systemupdates und zur Verfügungstellung von Anwendersoftware über NFS. Die NFS-Server sind mit je 10 Gbit/s Ethernet angeschlossen, die Zugangsknoten haben je 2 Anschlüsse in das jeweilige Netzwerk der Universitäten.

Das Servicenetzwerk (Fast Ethernet) dient der Anbindung der IPMI-Ports aller Nodes und ermöglicht die Überwachung des Clustersystems.

Kühlung

Zur Clusterkühlung wird das Kühlkonzept „CoolDoor“ von Knürr eingesetzt. Dieses Schrankkühlsystem ist vollkommen passiv aufgebaut (es gibt in der Kühltür keine Lüfter, nur den Anschluss für Vor- und Rücklauf), die Raumluft (Raumtemperatur 24°C) wird von den Nodes angesaugt, durch den Wärmetauscher geführt und wieder in den Raum mit 24°C abgegeben. Die Kühlwasser-Vorlauftemperatur beträgt 18°C, dadurch kann die Erzeugung des Kühlwassers während eines großen Teils des Jahres sehr energiesparend („freie Kühlung“) erfolgen.

Batch-System und Software

Betriebssystem

Als Betriebssystem wird Linux CentOS mit Intel MPI und Open MPI zum Einsatz kommen.

Batch-System

Als Batch-System steht die „Oracle Grid Engine“ zur Verfügung, zurzeit wird der Einsatz eines kommerziellen Batch-Systems evaluiert.

Compiler und numerische Bibliotheken

Es werden das Intel Cluster Studio für Linux sowie VTune für 5 User (floating) zu Verfügung stehen, weiters GNU C, C++ und Fortran Compiler sowie numerische Bibliotheken.

Management-Software

Das Managementsystem MEGWARE ClustWare-Appliance bietet eine große Anzahl von Managementtools und Funktionen, welche zur Steuerung und Überwachung des ganzen Clustersystems eingesetzt werden können.

Installation

Das System wird in einem neuen Rechenraum im Arsenal (Objekt 214) auf Ebene 1 installiert.

Die erforderlichen Um- und Neubaumaßnahmen (inkl. Trafoanlagen und Kaltwassersätze) werden derzeit unter hohem Zeitdruck durchgeführt, wir hoffen auf eine rechtzeitige Fertigstellung Mitte April.

Für die Installationsarbeiten am System selbst sind etwa 15 Tage anberaumt, die Anlieferung aus Chemnitz (wo die Nodes einer intensiven „burn-in procedure“ unterzogen werden) wird in 3 Tranchen durchgeführt. Die Installation wird nach dem jetzigen Planungsstand Ende April, Anfang Mai erfolgen. Anschließend erfolgen die Abnahmetests, bei denen die Benchmarks sowie die Energie-Effizienz überprüft werden, sowie ein zweiwöchiger Dauertest. Nicht unwichtig ist die Durchführung des so genannten LINPACK-Benchmarks, welcher für die Position in der Top 500 Liste der weltweit leistungsfähigsten Computer entscheidend ist.

Zugang und Betrieb

Die Ressourcenvergabe  wird sehr ähnlich wie beim VSC-1 erfolgen,  Details sind derzeit in Ausarbeitung und müssen vom Steering Committee genehmigt werden.

Die Anwender werden für die Sicherung und Archivierung ihrer Datenbestände selbst verantwortlich sein. Ein entsprechendes Massenspeicher- und Sicherungssystem hätte den finanziellen Rahmen deutlich gesprengt.

Vergleich mit dem VSC-1

Im Vergleich zum VSC-1, welcher im Oktober 2009 in Probebetrieb ging, verfügt der VSC-2 zwar über die etwa vierfache Rechenleistung, hat aber nur die doppelte Anschlussleistung. Die Energieeffizienz ist also beim neuen VSC-2 um einen Faktor 2 besser als beim VSC-1. Dazu kommt noch die höhere Kühlwassertemperatur, die in Kombination mit dem eigenen, von anderen Verbrauchern unabhängigen Kühlsystem des VSC-2 nochmals eine deutliche Energieersparnis ermöglicht. Bedenkt man, dass auch der VSC-1 in der so genannten Green 500 Liste der energieeffizienten Supercomputer den respektablen Platz 122 (Juni 2010, Platz 151 im November 2010) einnahm, kann man hoffen, dass der VSC-2 auch in Richtung Energieeffizienz ein Zeichen setzen wird.

Im Zusammenhang mit der Energieeffizienz setzt der VSC-2 auch den internationalen Trend zu etwas langsameren, energieeffizienteren Prozessorkernen fort. Der Verlust an Leistung der einzelnen Kerne wird durch die wesentlich höhere Anzahl mehr als wettgemacht. Das steigert natürlich Anforderungen an die Parallelisierung der Anwendungen. Der VSC-1 mit seinen 4-Kern 2,66 GHz Nehalem Prozessoren wird also in der nächsten Zukunft wohl das System mit der höchsten Leistung pro Prozessorkern bleiben. Damit wird der VSC-1 für schlecht oder nicht parallelisierbare Programme nach wie vor die erste Wahl bleiben, was auch dessen Weiterbetrieb in den kommenden Jahren und die Erweiterung um ein paralleles File-System rechtfertigt.

Letztlich ist der VSC-2 auch wesentlich kosteneffizienter. Die Rechenleistung je Million Anschaffungspreis ist gegenüber dem VSC-1 etwa um den Faktor 1,7 gestiegen.

Die Entwicklung der letzten 18 Monate zeigt auch, dass es sinnvoll ist, in relativ kurzen Abständen in neue Systeme zu investieren, selbst wenn diese dann etwas kleiner ausfallen. Man vermeidet, das Geld von morgen in die Technologie von heute zu stecken.

Ausblick

Im Rahmen der gegenwärtigen Leistungsvereinbarung sind noch Mittel für einen VSC-3 vorgesehen, der etwa Ende 2012 in Betrieb gehen soll. Die Ausschreibung ist also etwa in einem Jahr durchzuführen. Dabei wird sich natürlich wieder die Frage nach der Architektur des Systems stellen. Sollen dann etwa GPUs (Grafik-Prozessoren) massiv eingesetzt werden? Die Entscheidung wird natürlich wieder Input vonseiten der User-Gemeinde erfordern. Es gibt zurzeit einige GPU-Testknoten am VSC-1 und eine offene GPU User Group, um entsprechende Erfahrung zu sammeln. Das primäre Ziel muss jedenfalls die optimale Versorgung der Wiener Computational Science Community mit Rechenleistung auf international kompetitivem Niveau bleiben.


HPC Steering Committee: ist ein Gremium bestehend aus den Vizerektoren für Forschung, den Leitern der zentralen Informatikdienste (ZID) und Vertretern der Nutzer der Universität Wien und der TU Wien

Vienna Scientific Cluster: http://www.zid.tuwien.ac.at/vsc/