Alpha-Cluster aufgerüstet

von Peter Marksteiner (Ausgabe 98/1, Februar 1998)

 

Der in der letzten Ausgabe des Comment angekündigte Ausbau des Alpha-Clusters für numerisch intensive Anwendungen konnte im wesentlichen plangemäß durchgeführt werden: Für die notwendigen Vorbereitungsarbeiten wurde der Cluster am Nachmittag des 26. November 1997 abgeschaltet. Der Umbau selbst erfolgte am Tag darauf. Bereits am 28. November war der Cluster wieder voll in Betrieb.

Der Cluster-Ausbau enthält folgende Komponenten:

  • Alle Prozessoren des Typs 21064A (Taktfrequenz 275 MHz) wurden durch Prozessoren des Typs 21164 mit 375 MHz Taktfrequenz ersetzt. Die neuen Prozessoren sind nicht nur aufgrund der höheren Taktfrequenz schneller, sondern auch wegen der verbesserten Architektur und des größeren Cache-Speichers (8 MB statt 4 MB). Bei den meisten numerisch intensiven Anwendungen ist der neue Prozessor zwei- bis dreimal schneller als der alte. Die offizielle Typenbezeichnung der Rechner ist nunmehr AlphaServer 5/375.
  • Zu den bestehenden 8,5 GB Hauptspeicher wurden zwölf zusätzliche Speichermodule zu 512 MB angeschafft. Acht der sechzehn Maschinen verfügen jetzt über 1 GB Hauptspeicher, zwei Maschinen sogar über 2 GB. Diese beiden Maschinen haben nur drei Prozessoren, weil bei diesem Modell ein Maximalausbau sowohl mit Prozessoren als auch mit Hauptspeicher nicht möglich ist. Insgesamt hat der Cluster nun 62 Prozessoren (statt früher 64).
  • Die Plattenkapazität wurde durch drei 9 GB-Platten in einem externen Gehäuse mit einem RAID-Controller um 27 GB erhöht.
  • Zur besseren Unterstützung von Parallelverarbeitung sollen zwei Maschinen im Cluster durch einen Memory-Channel verbunden werden. Dadurch kann ein Programm von einer der beiden Maschinen aus ohne nennenswerte Verzögerung auf Daten zugreifen, die sich auf der anderen Maschine befinden. Der Memory-Channel kann mit parallelen Softwareprodukten wie PVM, MPI und HPF genutzt werden. Aufgrund von technischen Problemen hat sich der Einbau des Memory-Channel jedoch verzögert und wird zu einem späteren Zeitpunkt nachgeholt werden.
  • Vom Betriebssystem sowie von etlichen Softwareprodukten gibt es jetzt neue Versionen (Digital UNIX 4.0B, Digital Fortran 5.0, Digital C++ 5.6, Matlab 5.0). Auch beim Batchsystem VQS waren einige Anpassungen an das neue Betriebssystem notwendig. Bei dieser Gelegenheit konnten etliche Fehler ausgebessert werden: Beispielsweise enthält die Status-Anzeige jetzt auch Angaben über den Hauptspeicherbedarf von Batchjobs.

Der Ausbau und die damit verbundenen Umstellungen verliefen ohne größere Probleme. Natürlich gab es die üblichen "Kinderkrankheiten": Beispielsweise äußerte sich ein Fehler in der neuen Betriebssystemversion durch zahlreiche Abstürze in den ersten Tagen; dieser Fehler konnte aber durch einen Patch rasch behoben werden. Auch mußte der Cluster anfänglich etliche Male abgeschaltet werden, um einem mysteriösen Hardware-Fehler auf die Spur zu kommen, der schließlich auf Inkompatibilitäten der neuen Prozessoren mit bestehenden Komponenten zurückgeführt und ebenfalls behoben werden konnte.