Ein Supercomputer von heute
Schrödinger I

von Peter Marksteiner (Ausgabe 02/1, März 2002)

 

Erwin Schrödinger
war kein Blödinger.
Dennoch hatte er keinen Schimmer:
Lebt meine Katze, oder lebt sie nimmer?

Supercomputing einst und jetzt

Am 7. März 1989 fand eine Feier zur Einweihung des Supercomputers IBM 3090-400E VF statt, der im Rahmen der European Academic Supercomputing Initiative (EASI) am EDV-Zentrum der Universität Wien installiert wurde. Herzstück des neuen Rechners waren die sogenannten Vector Facilities, mit denen arithmetische Operationen erheblich beschleunigt werden konnten (damals waren die Begriffe "Supercomputer" und "Vektorrechner" weitgehend synonym). Eine ganze Nummer des Comment war ausschließlich diesem historischen Ereignis gewidmet: Die Reden der Festgäste - unter ihnen Wissenschaftsminister Tuppy und IBM-Generaldirektor Riesenfelder - wurden in voller Länge abgedruckt. Immer wieder betonten die Redner die strategische Bedeutung des Supercomputing für die Uni Wien, für IBM, für Wissenschaft und Forschung in Österreich.

Im Vergleich dazu war die Eröffnung des Linux-Clusters "Schrödinger I", die am 28. Jänner 2002 stattfand, eine bescheidene Angelegenheit - obwohl auch dieser mit vollem Recht "Supercomputer" genannt werden kann und keineswegs bescheidener ist, was die Rechenleistung betrifft: Jeder einzelne der 160 Knoten des Clusters ist ungefähr 25mal so schnell wie einer der beiden Vektorprozessoren der IBM 3090-400E VF, der Gesamtdurchsatz ist daher etwa 2000mal so groß.1) Im Februar 2002 wurden beim Linpack-Test 204,5 GFlops gemessen, was dem 147. Platz auf der Liste der 500 schnellsten Supercomputer (Stand November 2001) entsprechen würde.

Bevor der neue Cluster näher vorgestellt wird, soll hier jedoch kurz darauf eingegangen werden, welche Bedeutung der Begriff "Supercomputing" nach den radikalen Umwälzungen der vergangenen Jahre noch hat. Supercomputing, bzw. allgemeiner "Numerisch Intensives Computing" (NIC), ist ein Nischenmarkt. Der Marktanteil war schon vor zehn Jahren recht klein und ist seither noch stark geschrumpft - die absoluten Verkaufszahlen sind zwar gestiegen, aber in anderen Bereichen (Büroautomation, Datenbanken, Heimcomputer, Internet) war das Wachstum viel schneller. Viele große Computerfirmen zeigen daher kaum mehr Interesse an Supercomputing und haben ihre entsprechenden Projekte weitgehend eingestellt. In den achtziger Jahren, die man als das "Goldene Zeitalter" des Supercomputing bezeichnen kann, gab es zahlreiche kleinere Firmen, die auf Supercomputer spezialisiert waren; von diesen hat kaum eine bis heute überlebt. Besonders das Scheitern des Supercomputer-Pioniers Cray Research2) war ein Symbol für den Niedergang des Supercomputing, der durch mehrere Faktoren begründet war: Das Ende des Kalten Krieges und die dadurch sinkenden Militär-Budgets (das US-Militär und militärische Forschungseinrichtungen wie Los Alamos oder Oak Ridge waren die größten Abnehmer von Supercomputern); die hohen Entwicklungskosten, die sich bei den geringen Stückzahlen in sehr hohen Preisen niederschlugen, die sich nur wenige Kunden leisten konnten oder wollten; vor allem aber die Konkurrenz durch immer leistungsfähigere und weitaus billigere Workstations.

Diese Konkurrenz führte schließlich zu einer Neudefinition des Begriffs Supercomputing. Standard-Workstations mit schnellen RISC-Prozessoren konnten in großen Stückzahlen eingekauft werden. Um daraus einen Supercomputer zu bauen, benötigt man dann "nur" noch ein leistungsfähiges Netzwerk, das die einzelnen Workstations ("Knoten") miteinander verbindet, sowie geeignete Software, die die Knoten zu einem einheitlichen Gesamtsystem ("Cluster") integriert und die Applikationen auf viele Prozessoren verteilt ("parallelisiert").3)

Workstation-Cluster wurden lange Zeit unterschätzt (Puristen lehnen die Bezeichnung "Supercomputer" für solche Systeme immer noch ab), was sich auch am Beispiel der Uni Wien illustrieren läßt: Mit einer feierlichen Vertragsunterzeichnung am 19. März 1992 wurde das ursprünglich auf zwei Jahre befristete Supercomputing-Projekt verlängert und der Vektorrechner auf eine Sechsprozessor-Anlage IBM ES/9000 720 VF ausgebaut. Gleichzeitig wurden im Rahmen des Projekts (wenig beachtet und von den Festrednern mit keiner Silbe erwähnt) auch zwanzig Workstations des Typs RS/6000-550 angeschafft - hauptsächlich, um diese damals noch ziemlich neuen Technologien kennenzulernen. Der Preis der Workstations, von denen einige zu einem Cluster zusammengefaßt wurden, betrug nur einen Bruchteil der Gesamtkosten des Projekts. Schon bald stellte sich heraus, daß die kumulierte Rechenleistung der Workstations die des Vektorrechners bei weitem überstieg. Im Jänner 1995 wurde der Vektorrechner schließlich sang- und klanglos abgebaut, während die Workstations noch einige Jahre länger gute Dienste leisteten.

Die Glanzzeit der RISC-Prozessoren scheint jedoch ebenfalls vorbei zu sein: Fast überall werden RISC-Workstations durch ganz gewöhnliche PCs ersetzt, deren Prozessorleistung sich im Schnitt alle 18 Monate verdoppelt (das bedeutet eine Vertausendfachung in 15 Jahren). Weltweit gibt es einige Projekte, die sich mit der Integration von Standard-PCs zu leistungsfähigen Clustern beschäftigen; das bekannteste ist Beowulf. An Software werden dabei hauptsächlich Open Source-Produkte eingesetzt (Linux, GNU-Software, Parallelisierung über Message Passing mittels PVM und MPI).

Auch die Uni Wien folgte diesem Trend: Nach dem oben beschriebenen Workstation-Cluster wurde von 1995 bis 2001 ein weiterer Cluster auf RISC-Basis (der "Alpha-Cluster") betrieben, der nun vom PC-basierten Schrödinger I abgelöst wird. Das Konzept von Schrödinger I ist dem eines Beowulf-Clusters sehr ähnlich.

Wissenschaftliche Projekte

Supercomputer mögen zwar aus den Schlagzeilen der Zeitungen verschwunden sein, Supercomputing im weiteren Sinne gehört jedoch in vielen Bereichen von Industrie und Forschung mittlerweile zum Alltag: Anwendungen in den Bereichen Strömungsmechanik (Computational Fluid Dynamics) und Structural Mechanics (Methode der Finiten Elemente) sind aus Automobil- und Luftfahrtindustrie, Bergbau, Erdölindustrie, Meteorologie und vielen anderen Bereichen nicht mehr wegzudenken. An der Universität Wien sind solche Anwendungen nur vereinzelt zu finden: Hier sind es vor allem die Theoretische Chemie und die Physik (insbesondere Festkörperphysik - Materials Science), die praktisch unbegrenzten Bedarf an Rechenleistung haben.

Im Gegensatz zu den Methoden sind die Anwendungsgebiete dabei bemerkenswert gleich geblieben: Die meisten der Arbeitsgruppen, die vor zehn Jahren die Vector Facilities verwendeten, rechnen heute auf Schrödinger I. Vor zehn Jahren war das Interesse an Computational Physics allerdings oft ein rein akademisches: Ein Industriebetrieb, der sich mit dem Sintern von Hartstoffen bei 1500° C beschäftigt, interessiert sich kaum für Berechnungen, die die Eigenschaften solcher Stoffe nur am absoluten Nullpunkt vorhersagen können. Durch die weitaus höhere Rechenleistung und durch die Weiterentwicklung und Verfeinerung der Methoden können inzwischen aber nicht nur komplexere Systeme berechnet werden, die Ergebnisse sind auch für die Praxis relevanter geworden.

Daher werden heute zahlreiche Projekte auf Schrödinger I in Zusammenarbeit mit der Industrie durchgeführt. Einige Beispiele aus dem Bereich der Materialwissenschaften: Phononenspektren von Aluminiumnitrid und anderen Halbleitern sind für die Stahlindustrie von Interesse, die dadurch Informationen über die Eigenschaften von Einschlüssen in Stahl gewinnt; mehrere Großprojekte beschäftigen sich mit Oberflächenphysik, im speziellen mit heterogener Katalyse, die Anwendungen in der Erdölindustrie hat; die Grenzflächen von Silizium mit Siliziden spielen in der Optoelektronik eine wesentliche Rolle; ein weiteres Projekt untersucht die Eigenschaften von Titanverbindungen, die als Material für Prothesen eingesetzt werden.

Schrödinger I: Der aktuelle Stand

Die Lieferung und Inbetriebnahme von Schrödinger I erfolgte planmäßig und ohne besondere Probleme: Ende September 2001 wurden die ersten 80 Knoten des Clusters aufgestellt; wenige Tage später konnten die ersten Benutzer das System testen.

Schon vor der Lieferung der zweiten Hälfte (Anfang Dezember 2001) wurde der erste Ausbau beschlossen: Im Kaufvertrag ist eine Anpassung an den jeweiligen technischen Fortschritt vorgesehen, der ja in der Computertechnologie extrem schnell vonstatten geht. Dadurch war es möglich, bei allen Knoten schnellere Prozessoren (AMD Athlon XP 1700+ statt AMD Thunderbird 1,4 GHz) und schnelleren Hauptspeicher (DDR) einzusetzen. Auch wurden alle Knoten auf 1 GB Hauptspeicher ausgebaut (der ursprüngliche Plan sah bei 96 von 160 Knoten nur 768 MB Hauptspeicher vor). Damit ist die Rechenleistung des Clusters schon jetzt um etwa 25% höher als geplant - und das bei niedrigeren Gesamtkosten, sodaß das Budget für die geplanten Ausbaustufen in zwei und vier Jahren aufgestockt werden konnte.

Auch das Software-Angebot wurde noch etwas erweitert, vor allem, was die Compiler betrifft: Insgesamt stehen jetzt sechs verschiedene Fortran-Compiler zur Verfügung.

Zukunftsaussichten

Der Cluster war schon bald weitgehend ausgelastet und läuft sehr stabil und ohne größere Probleme. Dennoch gibt es - wie nicht anders zu erwarten - einige Schwachstellen. Diese sind hauptsächlich auf eine tiefere Ursache zurückzuführen, nämlich den Personalmangel. Ein Cluster dieser Größe ist ein recht komplexes System, dessen Betreuung einiges an Aufwand erfordert. Obwohl ein großer Teil der Wartungsarbeiten in vorbildlicher Weise vom Hersteller init.at erledigt wird, bleiben viele Aufgaben dennoch dem Zentralen Informatikdienst, wo es niemanden gibt, der sich zur Gänze oder zumindest halbtags damit beschäftigen könnte: Die Betreuung des Clusters kann nur "nebenbei" erfolgen, zusätzlich zu den sonstigen Aufgaben der ZID-Mitarbeiter. (Zum Vergleich: Für das EASI-Projekt wurden vier Vollzeit-Mitarbeiter angestellt, obwohl der Großteil des Personals am EDV-Zentrum ohnehin mit der Betreuung der IBM 3090-400E VF beschäftigt war.) Immerhin soll demnächst für Aufgaben wie Benutzerbetreuung, Unterstützung bei der Parallelisierung usw. ein Mitarbeiter der Firma init.at halbtägig zur Verfügung stehen.

Die Arbeit der nächsten Monate wird sich darauf konzentrieren, die bestehenden Schwachstellen so weit wie möglich zu eliminieren. Vor allem folgende Punkte sind noch verbesserungsbedürftig:

  • Dokumentation und Benutzerbetreuung:
    Es ist ein universales Phänomen, daß Techniker nur mit Widerwillen bereit sind, ihre Leistungen auch zu dokumentieren. Schrödinger I ist hier keine Ausnahme: Derzeit ist die Dokumentation noch ziemlich dürftig. Wir werden uns bemühen, auf der Webseite http://www.univie.ac.at/nic/ möglichst vollständige Informationen zu präsentieren und das dort befindliche Benutzerhandbuch zu ergänzen und zu aktualisieren.
  • Batchsystem:
    Das Batchsystem VQS, das auf dem Alpha-Cluster gute Dienste leistete, konnte - einzig und allein aus Personalmangel - nicht portiert werden. Das auf Schrödinger I eingesetzte Batchsystem PBS hat einige Schwächen, vor allem, was den Scheduling-Algorithmus betrifft. Hier sind noch etliche Anpassungen erforderlich, um eine gerechte Verteilung der vorhandenen Ressourcen zu erreichen.
  • Parallelisierung:
    Ein großer Teil der Rechnungen wird noch immer seriell durchgeführt. Serielle Jobs sind zwar in vielen Fällen adäquat, wenn man hauptsächlich an Durchsatz und nicht so sehr an der Laufzeit einer einzelnen Rechnung interessiert ist. Viele Applikationen könnten aber durch Parallelisierung beschleunigt werden; außerdem ermöglicht Parallelrechnen oft auch eine effizientere Nutzung der vorhandenen Ressourcen.

Längerfristige Prognosen sind zwar immer etwas problematisch, es bestehen aber kaum Zweifel, daß Schrödinger I noch lange Zeit gute Dienste leisten wird: Die vorhandenen Budgetmittel garantieren, daß der Cluster während der vierjährigen Laufzeit des Projekts (möglicherweise auch darüber hinaus) kontinuierlich dem Fortschritt der Technik und dem steigenden Bedarf angepaßt werden kann.

 

1) Diese Angaben sind Richtwerte. Es gibt keine absolute Maßzahl zur Definition der Leistungsfähigkeit eines Rechners - diese hängt von vielen Faktoren ab, z.B. von der jeweiligen Applikation.

2) Nachdem die Firma Cray Research mehrmals den Eigentümer gewechselt hatte, wurde sie schließlich in Cray Inc. umbenannt. Hauptgeschäft von Cray Inc. ist der Vertrieb von Supercomputern des japanischen Elektronik-Konzerns NEC. Es gibt daher noch immer Cray-Supercomputer, die allerdings nichts mit den Original-Crays zu tun haben.

3) Eine Variante sind dedizierte Parallelrechner, die auf Standard-RISC-Prozessoren beruhen, für die übrigen Hardware-Komponenten (insbesondere Vernetzung) jedoch Spezialanfertigungen verwenden. Solche Systeme sind für manche Anwendungen durchaus erfolgreich, konnten sich aber nicht allgemein durchsetzen.