WWW und Caching
Was man als Benutzer darüber wissen sollte

von Herbert Stappler (Ausgabe 97/1, Jänner 1997)

 

Cache ist in der EDV ein vielgebrauchtes Wort. Es bezeichnet einen Speicher, in dem man Daten temporär ablegt, von denen man annimmt, daß sie bald wieder benötigt werden. Der Cache bietet zwar wesentlich weniger Platz als das übliche Speichermedium, dafür kann man aber auf im Cache gespeicherte Daten um Größenordnungen schneller zugreifen. Dieses Verfahren, Caching genannt, findet in modernen Rechenanlagen auf vielen Ebenen statt. Jeder neuere Prozessor verfügt über einen Cache, der die Anzahl der Zugriffe auf den wesentlich langsameren Hauptspeicher verringern soll. Dateien, die eigentlich auf Platte residieren, werden zum Teil oder zur Gänze im Hauptspeicher gehalten, da die Daten auf diese Weise viel schneller verfügbar sind (File Caching). Welche Daten gerade im Cache gehalten werden, bestimmen ausgeklügelte Algorithmen, auf die der Benutzer keinen direkten Einfluß hat. Für WWW-Dokumente können solche Techniken auf zwei Ebenen erfolgreich eingesetzt werden:

Lokales Caching des WWW-Browsers

Die meisten WWW-Browser nützen derartige Caching-Techniken, um häufig verwendete Dokumente lokal auf Platte oder im Hauptspeicher zu halten und so die Anzahl der Zugriffe über das Netz zu verkleinern. Die Arbeitsweise des lokalen Cache legt man im Netscape Navigator über das Fenster Cache fest, welches über den Menüpunkt Options/Network Preferences erreicht wird. In diesem Fenster kann man einerseits die Größe des für den Cache verwendeten Hauptspeichers und den Plattenplatz bestimmen (Standardwerte sind 600 kB Hauptspeicher und 5 MB Plattenplatz). Andererseits kann man in der Zeile Verify Documents wählen, wie oft die Aktualität des Dokuments überprüft werden soll. Als Möglichkeiten werden angeboten: immer, einmal pro Netscape-Aufruf oder nie.

Durch Klicken auf den Reload-Knopf wird der Netscape Navigator beauftragt, am Server nachzufragen, ob das Dokument im Cache noch aktuell ist. Dabei wird das Datum der letzten Änderung überprüft. Ist das im Cache befindliche Dokument noch aktuell, wird auf eine neuerliche Übertragung verzichtet. (Klicken auf den Reload-Knopf, der bei gleichzeitig gedrückter SHIFT-Taste bewirkt, daß das Dokument auf jeden Fall neu vom Server geholt wird.) Eine Ausnahme bilden Dokumente, die mittels sogenannter Frames in mehrere Subfenster gegliedert sind. Hier sollte man die im Menü View vorhandene Funktion Reload Frame verwenden, um den Inhalt eines Frames auf den neuesten Stand zu bringen.

Definition des lokalen Cache im Netscape Navigator

WWW-Caching über Proxy-Server

Untersucht man den durch WWW-Dokumente verursachten Netzwerkverkehr einer größeren Institution wie der Universität Wien, so wird man feststellen, daß oftmals Dokumente über das Netz geholt werden, die erst vor kurzem ein anderer Benutzer erhalten hat. Große Teile der Nachfrage konzentrieren sich auf einige populäre WWW-Server. Um zu vermeiden, daß mehrmals täglich dasselbe Dokument über die ohnehin stark belasteten internationalen Verbindungen geschickt wird, kann man einen Proxy-Server mit WWW-Cache verwenden.

Proxy-Server (proxy: engl. Stellvertreter, Bevollmächtigter) sind eigentlich für Netze geschaffen, die keinen direkten Zugang zum Internet haben. Viele Firmen und Institutionen schirmen ihr Netz mittels eines Firewalls ab (siehe Comment 95/2). Benutzer dieser Netze können mit dem Internet nur über den Firewallrechner kommunizieren. Ein Proxy-Server ist nun ein auf dem Firewallrechner laufendes Programm, das aus dem internen Netz Anforderungen entgegennimmt, diese überprüft und in das Internet weiterleitet. Die angeforderten Daten gelangen zuerst an den Proxy-Server, der diese ohne Verzögerung an den Benutzer weiterleitet. Da damit alle WWW-Dokumente den Proxy-Server passieren, ist dieser für WWW-Caching geradezu prädestiniert. Das ist auch der Grund, warum viele Institutionen, die wie die Universität Wien ihren Benutzern offenen und unbeschränkten Zugang zum Internet bieten, für die Zwecke des WWW-Cachings einen Proxy-Server betreiben.

Proxy-Server; WWW-Server

Die Anforderung eines WWW-Dokumentes unter Benutzung eines Proxy-Servers erfolgt in drei Schritten:

  1. Zuerst wird überprüft, ob das gewünschte Dokument im lokalen Cache des WWW-Browser ist. Wenn ja, wird diese Version des Dokumentes angezeigt, sonst wird der URL des gewünschten Dokumentes dem Proxy-Server übermittelt.
  2. Der Proxy Server stellt fest, ob er das verlangte Dokument in seinem Cache hat. Findet er es dort, schickt er es an den Benutzer. Ist das Dokument nicht vorrätig, so fordert er es stellvertretend für den Benutzer vom betreffenden WWW-Server an.
  3. Das Dokument wird vom WWW-Server nun nicht direkt an den Benutzer geschickt. Es gelangt zuerst zum Proxy-Server, der es sofort an dem Benutzer weiterleitet. Bei dieser Gelegenheit erzeugt der Proxy-Server eine Kopie des Dokumentes und legt diese in seinem Cache ab.

Ein Benutzer, dessen Dokument weder in seinem lokalen Cache noch im Cache des Proxy-Servers war, hat natürlich keinen Vorteil gegenüber der konventionellen Arbeitsweise. Aber der Umweg über den Proxy-Server sollte zu keinen wesentlichen Zeitverzögerungen führen, und bereits der nächste Benutzer, der dieses Dokument anfordert, wird deutlich profitieren.

Konfiguration des Proxy-Servers in Netscape

Die Entscheidung, ob jemand dieses Service verwendet oder nicht, liegt ausschließlich bei ihm. Im Netscape Navigator wird dies im Fenster Proxies festgelegt, das über den Menüpunkt Options/Network

Preferences erreicht wird. Hier kann man zwischen drei Vorgangsweisen wählen:

No Proxies: keine Verwendung eines Proxy-Servers (Voreinstellung).

Manuelle Proxy-Konfiguration

Manual Proxy Configuration: Wählt man diesen Punkt aus und klickt auf die Schaltfläche View, so erscheint das in der folgenden Abbildung dargestellte Fenster. Will man die Dienste des Proxy-Servers der Universität Wien für WWW-Dokumente in Anspruch nehmen, so trägt man in der Zeile HTTP Proxy den Host proxy.univie.ac.at und den Port 3128 ein. Dieser Server unterstützt auch die Protokolle FTP und Gopher. Wichtig ist auch, daß der Proxy-Server nur in Anspruch genommen wird, wenn der WWW-Server sich außerhalb des Datennetzes der Universität Wien befindet. Daher trägt man in das Feld No Proxy for: die Bereiche univie.ac.at/ und akh-wien.ac.at ein. Dies bewirkt, daß alle Rechner in diesen Subnetzen direkt und nicht über den Proxy-Server angesprochen werden.

Automatic Proxy Configuration: Hier kann man einen URL angeben, über den ein kleines Programm (Java-Script) in den Browser geladen wird. Dieses wird bei jeder Anforderung eines WWW-Dokumentes aufgerufen und entscheidet, ob ein Proxy-Server verwendet wird oder nicht. Das EDV-Zentrum stellt unter http://www.univie.ac.at/cgi-bin/select-univie-proxy.cgi ein für die Erfordernisse des Datennetzes der Universität Wien optimiertes Programm zur Verfügung. Da dieses Programm immer an die neuesten Gegebenheiten des Netzwerks angepaßt wird und bei Ausfall des Proxy-Servers automatisch auf direkten Zugriff umschaltet, sollte man sich seiner bedienen.

Die Tücken von WWW-Caches

Bei lokalen Caches sind die Gefahren relativ gering. Ist kein Plattenplatz mehr vorhanden oder scheint der lokale Cache nicht einwandfrei zu arbeiten, so kann man im Fenster Cache mit den beiden Clear-Knöpfen den Inhalt des Cache komplett löschen. In der Regel kann man dann die Arbeit ungestört fortsetzen. Komplizierter ist die Situation bei der Verwendung des Proxy-Servers. Hier gibt es vor allem zwei Gefahrenquellen:

  1. Wenn der Proxy-Server nicht funktioniert, ist er naturgemäß nicht imstande, die Anforderungen des Benutzers weiterzuleiten. Das ist dann kein Problem, wenn der WWW-Browser so konfiguriert ist, daß er von selbst auf einen Betrieb ohne Verwendung des Proxy-Servers umschaltet, wie dies bei der Automatic Proxy Configuration geschieht. Ansonsten muß die Umkonfiguration händisch vorgenommen werden.
  2. Das Wesen eines WWW-Caches ist es, die gespeicherten WWW-Dokumente eine gewisse Zeit - meist einige Tage - aufzuheben. Dies birgt immer die Gefahr in sich, daß das im Cache befindliche Dokument inzwischen unaktuell ist. Es ist sowohl dem Autor eines Dokumentes als auch dem Server, auf dem es sich befindet, möglich, das Dokument mit einem Haltbarkeitsdatum (http Header-Feld Expires:) zu versehen. Der überwiegende Teil der im Netz verfügbaren Dokumente enthält aber keine derartigen Angaben. Wer Dokumente mit Wetterberichten, Börsenkursen, Weltnachrichten oder dem Kinoprogramm abruft, sollte genau darauf achten, daß ihm der Proxy-Server nicht eine veraltete Version des Dokumentes liefert. In diesem Fall schafft das Klicken auf den Reload-Knopf (am besten bei gedrückter SHIFT-Taste) Abhilfe. Damit erhält man auf jeden Fall die letzte Version des Dokumentes, unabhängig davon, ob sich das gewünschte Dokument im lokalen Cache oder im Cache des Proxy-Servers befand.

Resümee

Generell ist die Verwendung eines Proxy-Servers beim Zugriff auf jene WWW-Server sinnvoll, zu denen eine deutlich langsamere Netzwerkverbindung als zum Proxy-Server existiert. Vor allem Netzwerkbenutzer, die über Wählleitungsanschlüsse in das Datennetz der Universität gelangen, können so einiges an Telefongebühren sparen. In der Praxis hat sich der Einsatz von Proxy-Servern sehr bewährt. Trefferquoten von 50% sind durchaus nicht selten. Dies führt zu deutlich verbesserten Antwortzeiten und zu einer spürbaren Entlastung der internationalen Netzwerkleitungen. Zu einer weiteren Verbesserung kann es kommen, wenn man den Proxy-Servern die Möglichkeit gibt, mit anderen Proxy-Servern, zu denen leistungsfähige Verbindungen bestehen, zusammenzuarbeiten. So betreibt das EDV-Zentrum einen weiteren Proxy-Server (ebone-proxy.univie.ac.at) mit einem noch größeren WWW-Cache, auf den alle österreichischen Proxy-Server (aber keine Einzelbenutzer) zugreifen können. Damit erhöht man die Chancen, das gewünschte Dokument wenigstens im eigenen Land zu finden. Für den Benutzer bleibt die Kooperation von Proxy-Servern unsichtbar. Es sind keine Konfigurationsänderungen am WWW-Browser erforderlich. Man sollte sich nur über eine etwas erhöhte Trefferquote freuen können.