Die Rechenanlage Biochemie

von Martin Grabner (Ausgabe 94/2, September 1994)

 

Geschichte und Hintergründe

Am 6. November 1989 wurde in der Dr. Bohr-Gasse im 3. Bezirk der Grundstein für die Errichtung eines neuen wissenschaftlichen Zentrums der Wiener Universität, des "Wiener Biozentrums Dr. Bohr-Gasse", gelegt. Die Projektidee war von Anfang an geprägt durch eine Intensivierung der Kommunikationsstrukturen - sowohl zwischen den einzelnen Instituten und Fakultäten als auch zwischen industrieller und akademischer Forschung. Unter anderem wurde dies auch durch Planungsgespräche mit Institutsbeauftragten und durch die Wahl des Standortes betont: Das neue Biozentrum wurde am ehemaligen Linienwall, zwischen Gemeindebau und Industriegelände, neben dem Institut für Molekulare Pathologie (I.M.P.) - damals ein Joint Venture der Firmen Boehringer Ingelheim und Genentech, San Francisco - angesiedelt.

Die Kommunikation sollte aber nicht nur durch das Aneinanderrücken der Institute (die vorher auf mehrere Standorte verstreut waren) verstärkt werden, es sollten vielmehr auch die modernen Hilfsmittel hierfür vorhanden sein - es ist ja selbst heute noch nicht selbstverständlich, daß ein neues Universitätsgebäude mit moderner Netzwerktechnologie ausgestattet wird. Die Sonderstellung des Biozentrums mag vielleicht auch durch damalige internationale Entwicklungen beeinflußt worden sein, denn 1988, im selben Jahr, in dem das I.M.P. und die Universitätsdirektion einen Kooperationsvertrag unterzeichneten, wurde von der Vereinigung europäischer molekularbiologischer Laboratorien (EMBL) im Rahmen des "EMBL Biocomputing Programme" der Vorschlag zum Aufbau eines europaweiten Kommunikationsnetzes zum Austausch molekularbiologischer Daten (EMBnet) formuliert. Die Gelegenheit, mit einem Beitritt zum EMBnet (für den allerdings verschiedenste Kriterien erfüllt werden mußten) auch den Kontakt zu internationalen Experten zu verbessern, wollte man nicht versäumen.

Um im Bereich der Netzwerkplanung eine europareife Ausstattung zu gewährleisten, wurde das EDV-Zentrum um Mitarbeit gebeten. Die betroffenen Institute der naturwissenschaftlichen und der medizinischen Fakultät der Universität Wien wurden immer wieder in Planungsgespräche involviert. Auch das EDV-Zentrum machte dabei keine Ausnahme. Im Gespräch mit den EDV-Beauftragten der einzelnen Institute wurde eine plattformübergreifende Lösung angestrebt, die Entwicklungsmöglichkeiten offenließ und die Institute in ihrem Arbeitsprofil nicht einschränkte. Aufgrund der Projektidee des Wiener Biozentrums - im internationalen Jargon "Vienna Biocenter" (VBC) genannt - war die Arbeit des EDV-Zentrums von besonderer Bedeutung. Die Aufgaben waren vielfältig: So sollte jedem Institut sein "persönliches Netz" maßgeschneidert und gleichzeitig Vorsorge für eine Anbindung an internationale Netzverbindungen getroffen werden; die Einrichtung des EMBnet-Knotens war zu planen und durch Schaffung von Planposten dessen Aufrechterhaltung abzusichern. Heute sind die Institute des VBC in einer Ausnahmesituation - sie genießen Vorteile, von denen andere Institute nur träumen können.

Das international bedeutende EMBnet war ein deutlicher Hinweis dafür, wie wichtig eine fachspezifische EDV-Betreuung geworden ist, und so bewilligte das BMWF dem EDV-Zentrum zwei zusätzliche Planstellen für die Betreuung des lokalen Netzwerkes und des EMBnet-Knotens im Wiener Biozentrum. Die zwei Planposten wurden vom EDV-Zentrum durch Spezialisten in Netz- und Serverbetreuung sowie auf dem Gebiet bioinformatischer Anwendungen besetzt. Damit ist das EDV-Zentrum in der Lage, lokal Services anzubieten und direkte Hilfestellung zu leisten, wobei durch die 1993 erfolgte Eingliederung in das EMBnet auch fachbezogene Fragen rascher abgeklärt werden können. Für die Institute bedeutete die Übersiedlung in das VBC vor allem, einen Quantensprung im Umgang mit der EDV zu bewältigen. Durch die neugegründete "Rechenanlage Biochemie" des EDV-Zentrums in der Dr. Bohr-Gasse konnte die notwendige Unterstützung angeboten werden, sodaß dieser Übergang rasch und koordiniert ablief.

Die lokalen Einrichtungen

Gerne wird das Wiener Biozentrum als Modell für ein Universitätsgebäude mit funktionierendem lokalen Netzwerk zitiert. Das EDV-Zentrum darf sich darüber freuen, es hat einen wohl nicht unwesentlichen Anteil daran: Die fünf im Wiener Biozentrum untergebrachten Institute

  • Institut für Biochemie und Molekulare Zellbiologie
  • Institut für Biochemie
  • Institut für Genetik und Mikrobiologie
  • Institut für Molekularbiologie
  • Institut für Molekulare Genetik

sind vorbildlich vernetzt und betreut. Die Labor- und Schulungsräume der Institute sind hauptsächlich auf fünf Ebenen untergebracht. Auf diesen fünf Ebenen unterstützt je ein Novellserver maximal je 100 Benutzer. Das physische Netzwerk basiert auf einem dreistufigen Verkabelungskonzept nach IEEE 802.3-Standard (Ethernet) und erlaubt Übertragungsraten von bis zu 10 Mbit/s. In Summe sind mehr als 130 Arbeitsstationen miteinander vernetzt - zum Großteil PCs und Macs, die im Bedarfsfall auch unabhängig vom Netz betrieben werden können. Das Tor zur Außenwelt ist ein Wellfleet-Router, der die Kommunikationspakete der verschiedenen Institutsdomänen und des I.M.P. über eine 64 kbit/s-Leitung mittels TCP/IP an die Router des EDV-Zentrums im NIG weiterreicht. Soweit die eher trockenen Daten.

Der Medienraum

Interessanter ist, welche Services dadurch lokal zur Verfügung stehen bzw. national und international in Anspruch genommen werden können. Die Präsentation wissenschaftlicher Daten hat sich ja von der Auflistung einzelner Zahlenkolonnen entfernt und verlangt heute vielmehr eine ansprechende Visualisierung. Posterpräsentationen und internationale Kongresse gehören zum Jahresprogramm eines Wissenschaftlers. Auch die populärwissenschaftliche Aufbereitung wissenschaftlicher Daten gewinnt zusehends an Bedeutung. Die Einrichtung des Medienraumes soll die Wissenschaftler und Studenten des Biozentrums dabei unterstützen, das notwendige Medienmaterial zusammenzustellen. Um Mißverständnissen vorzubeugen: Es handelt sich nicht um eine Verleihstelle für Dia- und Filmprojektoren - vielmehr stehen spezielle, lokal zu bedienende Ein- und Ausgabegeräte (wie ein Diabelichter, eine multifunktionelle Einheit für Farbscannen, -kopieren und -drucken sowie ein A1-Plotter) zur Verfügung. Für die dreidimensionale Darstellung von Molekülstrukturen, die im Bereich des "Molecular Modelling" von Bedeutung ist, wurde mit der Erstausschreibung eine hochwertige Graphikworkstation (Iris Indigo 24Z) und die Biosym-Software "Insight" angeschafft. Im Rahmen eines internationalen Projekts wird zur Zeit ein Kurzfilm über das Docking von Antikörperfragmenten an Rhinoviren auf dieser Graphikworkstation zusammengestellt.

Der Schulungsraum

Studenten, die erwarten, daß auch die Grundvorlesungen der Institute im VBC stattfinden, werden enttäuscht sein: Das universitäre Fortbildungsprogramm im Biozentrum beschränkt sich mehr auf den Praktikums- und Seminarbetrieb und in weiterer Folge auf eine individuellere Betreuung für Diplomanden und Dissertanten. Große Hörsäle waren nie vorgesehen. Das EDV-Zentrum hat jedoch aufgrund der besonderen Anforderungen einen Schulungsraum eingerichtet. Dieser EDV-Ausbildungsraum mit derzeit 12 Arbeitsstationen bietet Platz für 18 Kursteilnehmer. Verschiedenste EDV-orientierte Übungen der Institute werden in Blöcken angeboten.

Neben den universitären Schulungen bietet auch das EMBnet Kurse mit Hauptaugenmerk auf aktuelle bioinformatische Entwicklungen an. So wurde im Februar 1994 der erste EMBnet-Kurs für Sequenzanalyse in Österreich abgehalten. Die im Schulungsraum angebotene Software soll sowohl der Laborprotokoll-Führung und der Kommunikation im Internet wie auch einfachen bioinformatischen Anwendungen genügen. Die typische Softwarekonfiguration eines Kurs-PC's kann wie folgt beschrieben werden:

  • Windows 3.1
  • Word für Windows (Textverarbeitung)
  • Excel für Windows (Tabellenkalkulation)
  • PFE (Freeware-Editor)
  • Pmail (Mailprogramm unter Novell)
  • PC/TCP (Kommunikations-Softwarepaket - Terminalemulationen, ftp, etc.)
  • HCL-eXceed (X-Windows-Emulation)
  • pcgopher III (Gopher-Klient unter DOS)
  • hgopher (Gopher-Klient unter Windows)
  • Wmosaic (WWW-Klient unter Windows)
  • WinVN (Newsreader unter Windows)
  • Nentrez (Software f. Sequenzsuche am NCBI)
  • clustallv (Phylogenetik-Freeware)
  • phylip (Phylogenetik-Freeware)
  • kinemage (Freeware für Molecular Modelling)
  • raswin (Freeware für Molecular Modelling)

Der EMBnet-Knoten

Das elektronische Herz des EMBnet-Knotens ist eine DECsystem 5900, die durch das I.M.P. finanziert wurde und vom EDV-Zentrum betreut wird. Das Betriebssystem des Rechners ist Ultrix, ein Unix-Derivat der BSD-Linie. Dieser Rechner muß im wesentlichen die molekularbiologischen Daten verwalten können und genügend Rechenleistung besitzen, um Sequenz- und Strukturanalysen auch im Multiuser-Betrieb durchführen zu können. Die Analysemöglichkeiten sind vielfältig. Als Einstiegsbeispiel für den Laien kann der Sequenzvergleich dienen, der eine fundamentale Aufgabenstellung in den Biowissenschaften ist:

Der genetische Code setzt sich im wesentlichen aus den vier Buchstaben A-G-C-T zusammen. Jeder dieser Buchstaben steht für einen chemischen Baustein (Nukleotid) der DNA, der Trägersubstanz der Erbinformation. Chemische Methoden erlauben die exakte Bestimmung der Nukleotidabfolge, der DNA-Sequenz. Sowohl die biochemische Isolierung von DNA (das Trennen der DNA von den übrigen chemischen Bestandteilen der Zelle) als auch die DNA-Sequenzierung, d.h. also das Ermitteln der Nukleotidabfolge, zählen zu den Standardmethoden eines Labors. Wenn ein Wissenschaftler nun eine DNA isoliert und durchsequenziert hat, so interessiert ihn in erster Linie, ob er auf Neuland gestoßen ist oder ob er es mit einem altbekannten DNA-Fragment zu tun hat. Dazu vergleicht er seine Sequenz mit dem Datenbestand vorhandener Nukleotidsequenz-Datenbanken. Meistens ist nicht eine klare Aussage, wie "diese DNA ist ident zu DNA xy" (oder, anders ausgedrückt, "diese DNA ist 100% homolog zu DNA xy") zu erwarten. Vielmehr ist doch die Vielfalt des Lebens in der DNA kodiert und eine 100%ige Homologie nur ein Grenzfall. Ein geeigneter Vergleichsalgorithmus vermag nun die Homologie zu bewerten und nach den statistisch signifikanten Treffern zu suchen. Eine Frage, die sich anschließend stellt, ist: "Hat die Ähnlichkeit mit den besten Treffern auch eine Bedeutung?" Ein genauerer Vergleich einer DNA-Sequenz mit einem Topscore-Treffer durch den "bestfit"-Algorithmus könnte z.B. ergeben, daß die Enden der Proben-DNA ausgeprägte Homologie zeigen, während im Mittelteil Fragmente fehlen - die Ähnlichkeit ist also signifikant. Solche Ähnlichkeiten erlauben dem Wissenschaftler, sein Versuchsfeld einzuengen und danach gezielter weiterzuforschen.

Auch wenn sich die Zeichenketten einer DNA-Sequenz nicht im klassischen Sinn lesen lassen, steckt in ihnen viel Information. Um zumindest einen Teil dieser Information zu extrahieren, bedient man sich vieler bioinformatischer Hilfsmittel. Bislang mußten die Institute um teure Einzelplatz-Lizenzen für Programmpakete, die diese Analysen bewerkstelligen, raufen. Heute geht es - sofern ein Anschluß an das Internet besteht - einfacher: Man sucht um eine User-ID auf dem EMBnet-Server an! Dort findet man eine Sammlung von leistungsfähigen Werkzeugen, die für die Suche in Sequenz- und Strukturdatenbanken und für die Analyse entwickelt worden sind. Konkret wurde eine Multiuser-Lizenz für das an der Universität von Wisconsin entwickelte Programmpaket GCG angekauft. Dieses Paket wurde um Entwicklungen von Bioinformatikern des EMBnet ("EGCG") erweitert. Zusätzlich sind einige Routinen ("XGCG") des CAOS/CAMM Center - das ist der niederländische EMBnet-Knoten - enthalten. Für den Einsteiger wird ein Menü, das dem Aufbau des GCG-Manuals entspricht, bereitgestellt. Die Graphikausgabe ist X-Windows-unterstützt. Da aber die meisten Anwender nicht die Möglichkeit haben, X-Windows-Graphiken auf ihrem Terminal darzustellen, ist es von größerer Bedeutung, die Ausgabe in einer für diese Anwendergruppe brauchbaren Form zu ermöglichen. Dazu können die GCG-Graphiken in Form von PostScript- oder HP-GL-Dateien generiert werden, die dann, mit FTP auf den lokalen Rechner transferiert, zur Ausgabe auf einem geeigneten Drucker bereit sind. Da das EMBnet in bezug auf bioinformatische Entwicklungen in Europa führend ist, sind die Benutzer des EMBnet-Servers immer mit den aktuellsten Entwicklungen konfrontiert. Auch die Datenbanken, die über das EMBnet verteilt werden, sind immer auf dem neuesten Stand.

Gerade die Datenbanken sind jedoch ein Sorgenkind der Systemadministration: Der Datenzuwachs in den Biowissenschaften hat sich durch methodische Fortschritte der experimentellen Sequenzanalyse und auch aufgrund international koordinierter Sequenzierprojekte drastisch gesteigert. Schon heute bietet das EMBnet eine breite Palette an Datenbanken an. Österreich ist erst ein junges Mitglied des EMBnet und bestrebt, den internationalen Standard zu erreichen. Dies bedeutet jedoch, höhere Ausbauraten als die etablierten Knoten aufzuweisen. Bedenkt man, daß im Jahr 1993 im Durchschnitt 8 GB Plattenkapazität je Knoten hinzugefügt wurden, so wird deutlich, daß dies mit einem beträchtlichen finanziellen Aufwand verbunden ist - wobei vom Ausbau der Rechnerleistung noch nicht einmal die Rede ist. Mit dem Ausbau der Plattenkapazität wird auch das Angebot an Datenbanken erweitert werden können. Dennoch sind wir schon jetzt in der Lage, die wichtigsten Sequenzdatenbanken am österreichischen EMBnet-Knoten zu offerieren:

  • EMBL: DNA Nukleotidsequenz-Datenbank (täglich aktualisiert durch den schwedischen Knoten)
  • Genbank: DNA Nukleotidsequenz-Datenbank (embl excluded, d.h. nur die Sequenzen, die nicht in der EMBL-Datenbank aufscheinen)
  • Swissprot: Protein-Datenbank (tägliche Aktualisierung ab Oktober 1994 geplant)
  • PIR: Protein-Datenbank
  • Prosite: Proteinsequenzmuster
  • Rebase: Restriktionsenzyme
  • Vecbase: Vektoren-Datenbank (nicht mehr aktualisiert)
  • ECD: E.Coli Sequenzdaten
  • Cpgisle: Sammlung bekannter CpG-Inseln
  • EPD: Charakterisierung eukaryotischer Promotoren
  • FlyBase: Sequenzdaten von Drosophila
  • TFD: Transkriptionsfaktoren-Datenbank

Alle diese Datenbanken lassen sich durch das in Heidelberg von Thure Etzold entwickelte SRS (Sequence Retrieval System) abfragen.

Zusätzlich zum Newsserver NEWS.UNIVIE.AC.AT bietet auch der EMBnet-Server in der "Rechenanlage Biochemie" des EDV-Zentrums für den Biowissenschaftler lokal ein auf die wichtigsten Gruppen beschränktes News-Service. Viele Fragen zu GCG werden z.B. in der Newsgruppe bionet.software.gcg behandelt. Es lohnt sich, diese Newsgruppe ab und zu durchzuarbeiten. Die sogenannten FAQs (Frequently Asked Questions) werden üblicherweise in der Newsgruppe bionet.general zusammengefaßt.

Es bleibt natürlich noch eine Frage offen: Was braucht man, um eine User-ID auf dem EMBnet-Server des EDV-Zentrums zu bekommen?

  • Zugang zum Internet,
  • eine vt100-Terminalemulation,
  • das Antragsformular Ansuchen um Benutzung des EMBnet-Rechners, das in der Servicestelle des EDV-Zentrums, in der Rechenanlage Biochemie und als PostScript-Datei am FTP-Server der Universität Wien erhältlich ist.

Dieses Formular dann bitte ausgefüllt weiterleiten an:
Martin Grabner
EDV-Zentrum der Universität Wien
Rechenanlage Biochemie
Dr. Bohr-Gasse 9
1030 Wien

 

embnet.news

Das European Molecular Biology network (EMBnet) hat im Juli 1994 erstmals eine eigene Zeitschrift publiziert, die embnet.news. Der Leser findet unter anderem Informationen über aktuelle Entwicklungen und Veranstaltungen, über Anwendungsmöglichkeiten des EMBnet sowie Berichte über die nationalen EMBnet- Knoten. Die Zeitschrift ist mit Hilfe von WWW-Client- Software von folgenden URLs (Universal Resource Locators) abrufbar:

  • www.embnet.unibas.ch/embnet.news/info.html
  • biomaster.uio.no/embnet.news/info.html
  • ftp://s-ind2.dl.ac.uk/pub/embnet/embnet.news/
  • ftp://dbmdec5.ulb.ac.be/pub/embnet.news/

Die beiden letztgenannten Server erlauben auch den Zugriff über Anonymous FTP. Selbstverständlich ist die Zeitschrift auch auf dem EMBnet-Rechner der Rechenanlage Biochemie im Verzeichnis /usr/users/ USERS-PUBLIC/embnet.news verfügbar. (Dieser Rechner ist allerdings nicht frei zugänglich - für den Zugriff benötigen Sie eine User-ID.)