Informationssuche im WorldWideWeb

von Raphael Kirchner (Ausgabe 96/1, Jänner 1996)

 

Im Internet findet man eine Fülle von Informationen zu allen erdenklichen Themen - durchaus, aber: Wo und wie? Fragt man "netzerfahrene" Personen, bekommt man häufig die Antwort: "Ja, äh, da gibt's was im WWW, und zwar ... (Mausklickgeräusche, gebanntes Starren auf den Bildschirm) hier - nein, das war's nicht ... (wieder Mausgeklicke) ah ja! Ah nein, doch nicht ..." Die Idee, quer durch das ganze Netz nach bestimmten Begriffen suchen zu können, ist selbstverständlich älter als das WorldWideWeb. In den Zeiten, als das Internet noch nicht in aller Munde war, etablierten sich Suchsysteme wie WAIS und Archie (letzteres ist nach wie vor von breiterer Bedeutung - siehe Comment 94/3 ), deren Vorteil darin liegt, daß es sich um gut eingeführte Systeme handelt, die in einem relativ eng definierten Bereich einen verbindlichen Standard darstellen.

Ein solcher allgemein akzeptierter Standard steht im WWW noch aus - die gezielte Suche nach Informationen ist in diesem Bereich vielmehr eines der Probleme, zu dem es bis jetzt lediglich eine Reihe von Lösungsansätzen gibt. Der naheliegendste Ansatz, nämlich gut strukturierte Server und Sammlungen von Verweisen (geordnet nach Themen und nach der geographischen Lage der Server) zu produzieren, wird natürlich weltweit von vielen Server-BetreuerInnen mit unermüdlichem Einsatz vorangetrieben ;-). Der zweite Ansatz, nämlich automatische Suchmaschinen zu bauen, mit deren Hilfe man das gesamte Netz oder wohldefinierte Teile desselben nach frei wählbaren Suchbegriffen durchforsten kann, ist aber für die BenutzerInnen weitaus verlockender.

Diese automatische Suche nach Stichwörtern kann sehr komfortabel sein, hat aber auch große Nachteile: Es gibt bis dato noch keine wirklich ausgereiften Suchsysteme (wie etwa im Bibliotheksbereich), d.h. es existieren keine systematischen Beschlagwortungen oder gar standardisierte Thesauri, die eine strukturierte Suche ermöglichen würden. Man ist darauf angewiesen, daß für die Dokumententitel sinnvolle Ausdrücke gewählt wurden bzw. man muß eine echte Volltextsuche durchführen, was unter anderem den Nachteil hat, daß nach meist langer Wartezeit eine Unzahl von unsinnigen Treffern von Hand nach den paar gewünschten Ergebnissen durchsucht werden muß. Außerdem ist die Organisation und Koordination der Suchsysteme weltweit praktisch noch nicht vorhanden, wodurch es oft schwer festzustellen ist, welchen Datenpool man nun tatsächlich durchsucht.

Suchmaschinen können außerdem massive Probleme bei den Serverbetreibern selbst verursachen - so wurde vor kurzem der Info-Server der Universität Wien durch eine Suchmaschine lahmgelegt, die innerhalb kürzester Zeit tausende Abfragen an das Vorlesungsverzeichnis abschickte. Trotzdem sind mit den im folgenden beschriebenen Systemen oft sehr brauchbare Ergebnisse zu erzielen, sofern man über immer wieder auftretende Unsinnigkeiten (etwa Ergebnisse wie ">line 1: GIF89aÜ wwwrrrZZZ@@@333&&&, was durch ein vom System versehentlich als Textdatei behandeltes GIF-Bild zustandekam) großzügig hinwegsehen kann ...

Suchen im Info-Server

Innerhalb des Info-Servers der Universität Wien gibt es derzeit zwei Suchmaschinen, die sich allerdings noch in Entwicklung befinden und laufenden Änderungen unterworfen sein können (bis hin zum vollständigen Ersatz durch "das neueste Super-System, das alles noch besser kann"):

Harvest

Um eine freie Volltextsuche im Dokumentenbestand des gesamten Info-Servers durchführen zu können, wurde ein sogenannter "Harvest Broker" installiert. Mit seiner Hilfe kann in mehreren, verschieden großen Kreisen nach einem bestimmten Stichwort gesucht werden - z.B. im Info-Server, im Bereich der Uni Wien, im ACOnet oder in ganz Österreich, wobei bei letzterem nicht jede einzelne WWW-Seite, sondern nur die Struktur der Server bis zu einer gewissen Tiefe durchsucht wird. Die Bedienung ist unkompliziert: Über einen Link auf der Homepage des Info-Servers gelangt man auf ein Suchformular, in das man im einfachsten Fall den gewünschten Suchbegriff einträgt und Submit anklickt (zusätzlich läßt sich eine Reihe von Einstellungen vornehmen, die aber für eine erfolgreiche Suche nicht unbedingt nötig sind). Man erhält dann eine Liste der Dokumente, in denen der Begriff gefunden wurde; zu jedem Dokument wird u.a. die Zeile, in der der Begriff vorkommt, angegeben und zitiert. Klickt man auf den Namen des Dokuments, so gelangt man direkt zu dieser Seite.

In diesem Zusammenhang sei darauf darauf hingewiesen, daß über alle hier geschilderten Suchsysteme nicht in diversen Datenbanken (Personal, Vorlesungen etc.) gesucht werden kann - dies ist nur über die jeweiligen speziellen Suchformulare möglich!

Comment

Auf der Comment-Homepage ist seit einiger Zeit auch der Punkt Suche zu sehen. Hier wurde eine "Glimpse"-Suchmaschine implementiert, mit der im Gegensatz zum oben beschriebenen Harvest-System ausschließlich innerhalb der Comment-Seiten gesucht werden kann - dies allerdings mit deutlich höherem Komfort: Sucht man nach einem bestimmten Begriff, führt einen das System nicht nur zu der (den) betreffenden Seite(n), sondern präzise zu jeder Stelle im Text, an der der gesuchte Begriff zu finden ist. Ähnlich wie im Harvest-Suchformular kann auch hier zwischen "exakter" und "fast exakter" Übereinstimmung von Suchbegriff und Ergebnis gewählt werden, sodaß Unsicherheiten bezüglich der Schreibweise der Stichwörter, aber auch Plural- oder Fallendungen kein unüberwindliches Hindernis darstellen.

Suchen weltweit

Um das gesamte Web durchsuchen zu können, wurde eine ganze Reihe von Suchsystemen erfunden, die alle in etwa wie die oben geschilderten, lokal installierten Systeme funktionieren. Eine Auswahl solcher Suchmaschinen ist über die Homepage des Info-Servers zu finden; stellvertretend sei hier "Lycos" genannt, ein inzwischen sehr professionell anmutendes System, das dementsprechend auch mit Werbeeinschaltungen an jeder strategisch günstigen Stelle aufwartet.

Alle weltweiten Suchmaschinen stehen jedoch vor einem prinzipiellen Problem: Sie müssen alle Dokumente, die sie durchsuchbar machen möchten, nach einem mehr oder weniger ausgeklügelten System zunächst einzeln abrufen und speichern und anschließend indizieren. Was das bedeutet, kann sich wohl jeder leicht ausmalen ... Insofern können solche Sammel-Durchläufe nur von Zeit zu Zeit durchgeführt werden, was es unmöglich macht, wirklich aktuelle Informationen anzubieten. Außerdem ist es auch mit dem ausgefuchstesten System unmöglich, wirklich flächendeckend zu sein. Lycos verfügt daher über ein Registrierservice, in das man die eigenen Seiten eintragen kann, damit sie ab dem nächsten Suchlauf zuverlässig berücksichtigt werden.

Zum Abschuß sei nochmals darauf hingewiesen, daß auch die nach Themen bzw. nach geographischem Server-Standort geordneten Indizes (etwa der Themenindex der W3-Organisation) das gezielte Auffinden von Informationen sehr erleichtern können - sofern sich das, was man sucht, in die verfügbaren Kategorien einordnen läßt.

Alle erwähnten Informationsquellen sind in einer starken Dynamik begriffen. Da die Gefahr des Veraltens sehr groß ist (wer weiß, wie lange der obige Verweis auf die W3-Organisation halten wird?), verzichten wir auf URL-Sammlungen in gedruckter Form und bemühen uns statt dessen, die Verweise auf der Homepage des Info-Servers möglichst aktuell zu halten. Für Hinweise auf neue, interessante Services sind wir natürlich immer dankbar.