ZIDline
Das HPC-Cluster Projekt
Peter Berger und Herbert Störi
Ein Gemeinschaftsprojekt der Universität für Bodenkultur, der Universität Wien und der TU Wien

Die drei Universitäten beabsichtigen, gemeinsam einen Hochleistungsrechner zu beschaffen. Das geplante System soll an der TU aufgestellt werden und international wettbewerbsfähig sein.

Frühere Hochleistungsrechner in Österreich

Es war sicherlich schon in der Frühzeit der Computer klar, dass auch österreichische Universitäten Rechner entsprechender Leistung brauchen, um vor allem in den Natur- und Ingenieurwissenschaften international konkurrenzfähig zu sein. Bei den damaligen exorbitanten Kosten solcher Maschinen und der Dotation der Universitäten, die noch bescheidener war als heute, war dies ein schwieriges Unterfangen.

Im Jahre 1974 wurde daher in Wien als Kooperation zwischen Universität Wien, TU Wien und Akademie der Wissenschaften das Interuniversitäre EDV-Zentrum (IEZ) gegründet und vom Ministerium auch entsprechend dotiert. Es bleibt wohl Historikern überlassen, zu beurteilen, warum das IEZ letztlich zum bürokratisch-politischen Monster entartet ist und wohl nicht als Erfolgsgeschichte in Erinnerung bleiben wird. Im Jahre 1991 wurde es letztlich aufgelöst.

Trotzdem wurden in Österreich im Laufe der Jahre immer wieder international einigermaßen konkurrenzfähige Großrechner installiert (Abb. 1), wie aus der seit Juni 1993 geführten Top500 Liste (www.top500.org) hervorgeht. Österreich war von 1993 bis 2003 mit Unterbrechungen vertreten, meist auch mit Systemen an Universitäten. Das Diagramm zeigt auch, dass einzelne Universitäten nicht in der Lage waren, eine Position gegen die internationale Konkurrenz einigermaßen zu halten, obwohl bis Anfang der 90er Jahre vom Wissenschaftsministerium beachtliche finanzielle Mittel in leistungsfähige Rechner investiert wurden. Beispielsweise betrugen die 5 Jahresraten für den 1992 in Betrieb genommenen Vektorrechner S100 (Abb. 1) je etwa 20 Millionen Schilling. Korrigiert auf heutigen Geldwert wären das jährlich 2 Millionen €. Die jetzt geplante Investitionssumme beträgt einmalig 2 Millionen €. Anzumerken wäre auch, dass frühe Parallelrechner wie Paragon (TU Graz) und Meiko (Universität Wien) zwar relativ leistungsfähig waren, allerdings darunter litten, dass die damaligen Methoden der Software-Parallelisierung für Systeme mit verteiltem Hauptspeicher eher als experimentell einzustufen waren.

Es ist wahrscheinlich auch kein Zufall, dass seit 2004 kein österreichischer Eintrag in der Liste mehr aufscheint. Mit Inkrafttreten des UG 2002 hatten die Universitäten andere (finanzielle) Sorgen als Hochleistungsrechner.

Der Antrag „The Green Cluster“

Im Herbst 2007 wurde im Zuge des Forschungsinfrastruktur IV Programms ein Projekt „The Green Cluster“ von TU und BOKU ausgearbeitet, mit dem Ziel, ein Cluster- system für numerisch intensives Rechnen in einer Dimension von etwa 2000 cores (z. B. 500 quad core Prozessoren) an der TU Wien aufzustellen. Die Koordination der eingereichten wissenschaftlichen Projektanträge wurde von Herbert Störi (Inst. f. Allgemeine Physik) übernommen, die technische Ausarbeitung wurde von Peter Berger (ZID) durchgeführt. Das dem Entwurf zugrunde liegende Prinzip war es, die Rechenleistung ohne die Infrastruktur eines full-service Rechenzentrums zur Verfügung zu stellen und auf diese Weise das Verhältnis der erzielten Rechnerleistung zu den Gesamtkosten zu optimieren. Da den Arbeitsgruppen im Allgemeinen lokale Systeme zur Verfügung stehen, auf denen auch Daten gehalten werden, wurde etwa auf ein Datensicherungssystem für die Filesysteme der Nutzer verzichtet.

Das Besondere an diesem Projekt war die Kooperation mit der Universität für Bodenkultur (BOKU), mit der uns eine jahrzehntelange gute Zusammenarbeit verbindet. Der Projekttitel „The Green Cluster Project“ sollte ein Zeichen dafür sein, dass uns die Reduktion der hohen Energiekosten für Clustersysteme dieser Dimension (z. B. durch den Einsatz energiesparender Prozessoren) ein wichtiges Anliegen ist.

Eingereicht wurden über 10 wissenschaftliche Projekte aus fast allen Fakultäten der TU Wien sowie aus der Bioinformatik, der Meteorologie und der Bodenchemie. Eine Vorziehprofessur für Informatik (Parallele Systeme) ergänzte diesen Antrag. Erstmals an der TU Wien sollte auch die Informatik in ein Hochleistungsrechner-Projekt eingebunden sein. Diese Entscheidung ist natürlich mit der Hoffnung auf neue Synergien zwischen Informatik und Mathematik einerseits und Anwendern aus dem Bereich der Natur- und Ingenieurwissenschaften andererseits verbunden.

Die Ablehnung des Projektes „The Green Cluster“

Nach der Begutachtungsfrist (Ende Jänner 2008) wurden wir vom BMWF darüber informiert, dass dieses Clusterprojekt der TU Wien / BOKU sowie die ähnlichen Clusterprojekte der Universität Wien, der TU Graz und der Universität Graz abgelehnt wurden. Die in unserem Projekt enthaltene Vorziehprofessur wurde jedoch genehmigt. In der Stellungnahme der Gutachter ist zu lesen, dass eher ein österreichisches Hochleistungsrechenzentrum mit einem Aufwand jenseits der hundert Millionen Euro anzustreben wäre. Eine Integration in das Projekt PRACE wäre ebenfalls wünschenswert.

Die folgenden Zitate aus dem allgemeinen Gutachten zu allen vier abgelehnten Anträgen geben den Tenor der Gutachten ganz gut wieder:

...
It was puzzling that the proposals excluded data archiving and backup; comparable initiatives elsewhere had revealed a high requirement for storage facilities.  A UPS would be required to ensure data were not lost in the event of power loss and this had also not been taken into account.
...
The panel commented that a significant, Europe-wide, visible HPC facility would require enormous infrastructural investments (up to ca. 10 MW of cooling capability, which imposed vast constraints on its location:  e.g. air cooling would be prohibitively loud, while water cooling could heat to boiling point all the water flowing along a major river).
...
The reviewers stated that it would be highly desirable to interlink Austrian activities with those on the European level.  As an example, Austria was not a full partner in the European PRACE effort, ... Other countries had already committed about €120-150 million to create facilities to enable them to enter the programme.
...

Da sofort klar war, dass Mittel in der vorgeschlagenen Höhe auch nicht annähernd zur Verfügung stehen würden, andererseits aber der Bedarf nach high-end Rechenleistung tatsächlich existiert und dessen Deckung für die Position der TU als Forschungsuniversität unabdingbar ist, musste eine andere Lösung gefunden werden.

Ein neuer Anlauf – die TU Wien / BOKU Lösung

Nach der Ablehnung der finanziellen Mittel für das Clusterprojekt (wobei aber die Vorziehprofessur bewilligt wurde) wurden wir von Vizerektorin Prof. Dr. Seidler (VR für Forschung) beauftragt, eine „Sparvariante“ zusammen mit der BOKU auszuarbeiten, wobei der Einsatzschwerpunkt vor allem auf Projekte mit hohem Parallelisierungsgrad ausgerichtet werden soll. Für kleinere Projekte stehen weiter die kleinen Clustersysteme am ZID zur Verfügung.

Nach einer neuerlichen Befragung der Nutzergruppen wurden die Spezifikationen für ein Clustersystem erarbeitet und dem Rektorat der TU Wien am 30. Juni 2008 vorgelegt. Die Beschlussfassung sieht nun einen Betrag von € 1 Mio (inkl. Infrastrukturkosten wie elektrischen Anschluss, Klima, Raumadaptionen) vor, das Projektteam wurde mit der Erstellung eines Leistungsverzeichnisses für eine EU-weite Ausschreibung beauftragt.

Die Zusammenarbeit mit der Universität Wien

Im September 2008 gab es eine vorerst inoffizielle Anfrage der Universität Wien, ob eine Beteiligung am geplanten Cluster denkbar wäre. Inzwischen sind die Gespräche weit fortgeschritten und die Universität Wien plant, vorbehaltlich der noch ausstehenden Genehmigung der Investition durch den Universitätsrat der Universität Wien, sich ebenfalls mit 1 Million € an diesem Projekt zu beteiligen. Dadurch wird zwar die ursprüngliche Dimension des Projektes mit einem Cluster von etwa 2000 cores wieder erreicht, allerdings für eine wesentlich größere Benutzergemeinde.

Der geplante Aufstellungsort ist nach wie vor der zentrale Rechnerraum des ZID der TU Wien im Freihaus. Allerdings sind die erforderlichen Adaptierungsarbeiten wegen der erwarteten Anschlussleistung in der Größenordnung von 120 kW deutlich umfangreicher. Überdies erfordert die Aufstellung die Demontage der Origin2000. Der Maschinenraum ist dann komplett ausgelastet. Sollte eine weitere Ausweitung geplant werden, was vom Bedarf her sehr wünschenswert wäre, wäre ein neuer Standort für Großrechner erforderlich.

Die Schwerpunkte der Ausschreibung

Ziel der Ausschreibung ist ein Rechnercluster mit einer Kombination an hoher Gesamtleistung und hoher Durchsatzleistung. Um echte Paralleljobs rechnen zu können, ist eine entsprechend leistungsfähige Kopplung, wahrscheinlich mit Infiniband DDR, vorzusehen. Abbildung 2 zeigt ein Prinzipschema eines derartigen Systems. Randbedingungen sind eine Unterbringung im verfügbaren Raum und eine Anschlussleistung, welche sowohl elektrisch als auch klimamäßig mit vertretbarem Aufwand realisierbar ist.

Terminplan

Der nächste Schritt ist die am 5. Dezember geplante Entscheidung der Universität Wien. Anschließend kann die bereits fertiggestellte und unter den drei Universitäten vorabgestimmte Ausschreibung veröffentlicht werden. Bei der Festsetzung der Fristen muss dabei neben den Erfordernissen des EU-Rechts auch auf unmittelbar bevorstehende technologische Entwicklungen Bedacht genommen werden. Realistischerweise kann mit einer Installation im Laufe der Sommerferien 2009 gerechnet werden. Wie auch im ursprünglichen Projekt angedacht, soll ein kleiner Teil der Projektsumme für einen Ausbau nach 6 Monaten zurückgehalten werden, um das System dann an das tatsächliche Belastungskollektiv anpassen zu können, also etwa entweder die Anzahl der Rechnerknoten oder die Größe und Art des Massenspeichersystems erweitern zu können. Denkbar wären auch speziell ausgestattete Rechnerknoten für spezielle Applikationen.

Workshop

Neben der Ausschreibung und Installation der Maschine ist aber auch die Planung der Projekte und die Realisierung der oben angesprochenen Synergien ein wichtiges Anliegen. Zu diesem Zweck wird am 8. und 9. Jänner unter der Leitung von Prof. Scharam Dustdar (Institut für Informationssysteme) ein Workshop zum Thema „Hochleistungsrechnen“ veranstaltet, zu dem alle potentiellen Nutzer von den drei Universitäten herzlich eingeladen sind.

Zusammenfassung und Ausblick

Es ist geplant, im Wiener Raum (wieder einmal) einen international halbwegs konkurrenzfähigen Hochleistungsrechner zu installieren. Nachdem zwei Anträge im Rahmen von Uni-Infrastruktur IV abgelehnt wurden, muss dies aus Mitteln des Globalbudgets der drei beteiligten Universitäten erfolgen. Es ist dabei anzumerken, dass sich die Finanzierungszusagen im Moment auf eine einmalige Aktion beschränken, was mittelfristig das Problem der Nachhaltigkeit aufwirft (vgl. Abb. 1).

Es gibt allerdings Aussagen aus dem Wissenschaftsministerium, dass die Finanzierung einer wien- oder österreichweiten Lösung durchaus vorstellbar ist, sofern gezeigt wird, dass die interuniversitäre Zusammenarbeit in diesem Bereich nunmehr mit geringen Reibungsverlusten funktioniert. Eine solche zukünftige Lösung könnte auch die gewünschte Nachhaltigkeit bieten.

Zuletzt wäre festzuhalten, dass die Positionierung eines Systems in der TOP500 Liste nicht das einzige Kriterium ist. Sie gibt allerdings einen Hinweis darauf, wie sich die Ressourcen, welche den eigenen wissenschaftlichen Arbeitsgruppen zur Verfügung mit denen vergleichen, die Kollegen bzw. Konkurrenten zur Verfügung stehen. Ein wesentlicher weiterer Parameter, der in letzter Konsequenz über die Attraktivität des Systems für die Spitzenforschung entscheidet, ist das Verhältnis von Rechenleistung und Anzahl der Benutzer bzw. Jobs. Um in dieser Hinsicht eine vernünftige Situation zu erreichen, ist es nach wie vor erforderlich, dass kleinere Systeme existieren, die für Programmentwicklung und kleinere Jobs verwendet werden. Der zukünftige Einsatz des Phoenix-Clusters fällt etwa in diesen Bereich.