Schrödinger III im Exil

von Peter Marksteiner (Ausgabe 07/1, März 2007)

 

Als in der letzten Novemberwoche des Jahres 2006 klar wurde, dass der akute Engpass in der Stromversorgung des Neuen Institutsgebäudes (siehe Kasten Der Strom kommt aus der Steckdose!?) durch Stromsparmaßnah­men wie dem Abschalten von Testservern alleine nicht behoben werden konnte, entschloss sich der ZID schweren Herzens, einen Teil des Supercomputers "Schrödinger III" zu opfern: Die Hälfte der Rechenknoten wurde abgeschaltet, wodurch der Cluster zwar voll funktionsfähig blieb, die Durchsatz­leistung aber logischerweise halbiert wurde.

Nachdem dieser Zustand so kurz wie möglich anhalten sollte und dauerhafte Lösungen (neue Stromanspeisung im NIG, neuer Systemraum im Universitäts-Hauptgebäude) mit Vorlaufzeiten von mehreren Monaten verbunden sind, wurde der Beschluss gefasst, den Cluster möglichst rasch - am besten noch vor Weihnachten - in einem externen Rechenzentrum unterzubringen. Eine fieberhafte Suche nach einem neuen Zuhause für Schrödinger III begann.

Das günstigste Angebot kam von der Firma Interxion, einem internationalen Datacenter-Betreiber, mit dem der ZID im Rahmen des Vienna Internet eXchange (VIX) schon seit vielen Jahren zusammenarbeitet. Die ersten Pläne, den Cluster an einem Standort von Inter­xion in Liesing aufzustellen, mussten verworfen werden - auch dort war die Stromversorgung nicht ausreichend. Einige Tage später konnte ein passender System­raum im Interxion-Rechenzentrum in Floridsdorf gefunden werden. Einziger Nachteil: Dieser Systemraum ist bereits einem anderen Kunden versprochen und steht nur für wenige Monate zur Verfügung, dann geht die "Herbergssuche" weiter.

Nachdem eine solche Übersiedlung ein komplexes Unter­fangen ist (schließlich muss der Cluster in mehr als 1000 Einzelteile zerlegt und anschließend wieder richtig zusammengesetzt werden), wurde dafür eine ganze Arbeitswoche veranschlagt. Dank der guten Zusammenarbeit und des großen Einsatzes aller drei Beteiligten (ZID, Interxion und init.at, der Hersteller des Clusters) konnte diese sehr kurz bemessene Frist eingehalten werden: Am 21. Dezember, während ein Teil von Schrödinger III noch in Betrieb war, wurde der Großteil der Knoten abgebaut und für den Trans­port verpackt. Am Morgen des 22. Dezember wurde der Cluster endgültig abgeschaltet und die restlichen Kompo­nenten verpackt. Gleich nach den Weihnachtsfeiertagen (am 27. Dezember) lieferte eine Spedition die Bestandteile von Schrödinger III nach Floridsdorf; noch am selben Tag wurde der Cluster aufgebaut und am nächsten Tag verkabelt. Am 29. Dezember erfolgten dann die notwendigen Anpas­sun­gen der Software-Konfiguration, und bereits am Nach­mittag dieses Tages - früher als geplant - nahm Schrö­dinger  II mit einem Großteil der Knoten den Betrieb wieder auf.

Die Gelegenheit wurde auch genutzt, um einige Neuerun­gen in der Hard- und Softwareausstattung durchzuführen. Für das Batchsystem SGE (Sun Grid Engine), das bisher auf den Fileservern lief, wurde aus Performance-Gründen ein eigener Server angeschafft. Dieser verwendet die Virtuali­sierungs-Software Xen, sodass auf einem Server mehrere unabhängige Batchsysteme laufen können. Einige Software­pakete wurden aktualisiert, z.B. steht jetzt Matlab in der neuesten Version (R2006b) zur Verfügung. Sonst hat sich, außer den IP-Adressen, durch die Übersiedlung nicht allzu viel geändert.

Die Zukunft des Supercomputing an der Uni Wien

Die Unterbringung eines so großen Clusters bei einem externen Provider ist nicht ganz billig. Allerdings entsteht mehr Transparenz und Kostenwahrheit, wenn für die Infra­struktur bares Geld bezahlt werden muss: Auch beim Be­trieb in den Systemräumen des NIG sind Kosten in vergleichbarer Höhe angefallen. Bei den diversen dezentralen, an verschiedenen Instituten aufgestellten Clustern sind die Kosten für Stellfläche, Stromversorgung und Klimatisierung ebenfalls beträchtlich; bei Budget-Planungen für Super­com­puting-Projekte werden diese jedoch gerne "vergessen".

Offiziell ist das Supercomputing-Projekt, dessen letzte Aus­baustufe der Cluster Schrödinger III darstellt, bereits be­endet (siehe Artikel Von Gigaflops zu Teraflops: Vier Jahre Supercomputing mit "Schrödinger" in Comment 05/2, Seite 20). In den Zielvereinbarungen des Rektorats mit dem ZID für das Jahr 2007 wurde festgelegt, dass bis Mai 2007 gemeinsam mit allen Interessierten ein Konzept ausgearbeitet wird, in welcher Form Supercompu­ting an der Uni Wien in Zukunft betrieben werden soll. Wenn Sie Schrödinger III oder ein Nachfolge-System be­nutzen wollen, wenn Sie einen Cluster betreiben oder einen errichten wollen: Kontaktieren Sie uns bitte (per eMail an peter.marksteiner@univie.ac.at), damit eine umfassende Lösung gefunden werden kann, die alle Anforderun­gen an Rechenleistung und Funktionalität erfüllt und auch alle Aspekte der erforderlichen Infrastruktur berücksichtigt.

 

 

Der Strom kommt aus der Steckdose!?

von Markus Ankner

Im Neuen Institutsgebäude (NIG / 1010 Wien, Universitätsstraße 7), aber auch an einigen anderen Standorten der Univer­si­tät Wien, ist die Stromversorgung mittlerweile an ihre Grenzen gestoßen: Der Vormarsch der PCs in den letzten Jahren, deren kontinuierliche Leistungssteigerung (verbunden mit einer immer höheren Stromaufnahme) sowie die Errichtung weiterer Energie benötigender Einrichtungen bringen die vorhandenen Strominstallationen an ihre Leistungsgrenze - sowohl im Steigleitungs- wie auch im Anspeisungsbereich und bei der Trafoleistung.1)

Das NIG, das 1962 fertig gestellt wurde, war ursprünglich mit einem 500 kVA-Trafo zur Versorgung der beiden Gebäude Universitätsstraße 7 und Liebiggasse 5 ausgestattet. Nach 30 Jahren musste dieser Trafo aufgrund des Einzugs der PCs an den Arbeitsplätzen und unter anderem auch aufgrund des Energiebedarfs der zentralen Serverräume des ZID gegen einen leistungsfähigeren 850 kVA-Trafo (dies entspricht 1200 Ampere pro Phase) getauscht werden. Im September 2006 stellte der ZID fest, dass inzwischen auch diese Trafoleistung permanent grenzwertig belastet war, und meldete diesen Umstand den Verantwortlichen der BIG (Bundesimmobiliengesellschaft m.b.H.) und der Universität Wien. Es musste mit einem jederzeitigen Stromausfall im NIG und in der Liebiggasse 5 durch Auslösen des Lastabwurfschalters (bei 1250 Ampere pro Phase) wegen Überlastung gerechnet werden. Davon waren neben sämtlichen Arbeitsplätzen, Seminarräumen und Hörsälen an diesen Standorten auch die zentralen Serverräume des ZID und somit ein wesentlicher Teil der IT-Versorgung der Universität bedroht.

Eine unmittelbare Reduktion des Energieverbrauchs in den beiden Gebäuden bzw. eine rasche Aufstockung der verfügbaren Stromleistung innerhalb weniger Wochen konnte durch die Verantwortlichen nicht initiiert werden. Daher entschloss sich der ZID, in seinem Bereich Maßnahmen zu ergreifen, den Verbrauch in den von ihm betriebenen zentralen Serverräumen zu reduzieren und somit die Aufrechterhaltung des Betriebes zu gewährleisten. Analysen ergaben, dass 10% der insgesamt zur Verfügung stehenden Energie allein für den Betrieb des Supercomputers "Schrödinger III" aufgewendet werden mussten; dies entspricht einem Verbrauch von 130 Ampere pro Phase. Eine Ausquartierung des Super­computers schien daher die einzige rasch umsetzbare Maßnahme zur Aufrechterhaltung sowohl des Serverbetriebs des ZID als auch des ungestörten Lehr- und Forschungsbetriebs im NIG und in der Liebiggasse 5 zu sein.

1) Bei der Energieversorgung im innerstädtischen Bereich unterscheidet man mehrere Spannungsebenen: Die Energiezubringer zu den Städten liegen auf der Hoch- (110 000 Volt) bzw. Höchstspannungsebene (220 000 Volt oder 380 000 Volt). Innerhalb einer Stadt wird die Energie auf der so genannten Mittelspannungsebene (üblicherweise 20 000 Volt bzw. 10 000 Volt) bis zu Trafostationen geführt, wo sie auf die Nieder­spannung (230 Volt bzw. 400 Volt) zur Stromversorgung innerhalb von Gebäuden transformiert wird.