Wie gut sind Suchmaschinen?

von Vera Potuzak (Ausgabe 99/3, Oktober 1999)

 

Jeder, der im Laufe der Zeit an der Qualität von Suchmaschinen zu zweifeln begonnen hat, wird durch die beiden Forscher Steve Lawrence und C. Lee Giles bestätigt: Die beiden setzten sich in einer Studie, die im April 1998 im US-Wissenschaftsmagazin Science publiziert wurde, mit der Leistungsfähigkeit internationaler Suchmaschinen auseinander. Diese Studie wurde in der ersten Hälfte des Jahres 1999 aktualisiert (siehe http://www.wwwmetrics.com/) und unter dem Titel Accessibility and Distribution of Information on the Web in der Zeitschrift Nature (Vol. 440) veröffentlicht.

Gestern

Die ursprüngliche Studie kam zu überraschenden Ergebnissen: Das WWW, das 1997 ca. 320 Millionen Seiten umfaßte, konnte laut Lawrence und Giles von keiner der vorhandenen Suchmaschinen zu mehr als einem Drittel erfaßt werden - und das, obwohl manche Suchmaschinen den Eindruck zu erwecken versuchen, das gesamte WWW unter ihrer Kontrolle zu haben. Zudem überlappen sich die Datenbanken der Suchmaschinen nur wenig, sodaß der Einsatz von Metasuchmaschinen (die parallel mehrere Suchmaschinen abfragen und die Ergebnisse ordnen) mehr und bessere Treffer bringt. Aufgrund dieser Ergebnisse der Studie stieg die Zahl der Metasuchmaschinen, wobei deren Qualität nicht in allen Fällen mit der Entwicklung schritthalten konnte.

Heute

Der aktualisierten Studie zufolge ist das WWW bis 1999 auf geschätzte 800 Millionen Seiten, die sich auf rund 3 Millionen Servern befinden, angewachsen. Die Suchmaschinen haben jedoch maximal 16% davon erfaßt (Northern Light 16%, Altavista 15,5%, HotBot 11,3%, alle anderen unter 10%), und ihre Datenbanken enthalten viele tote Links. Seiten, die durch Paßwörter geschützt sind, sind für Suchmaschinen überhaupt nicht zugänglich; Daten, die dynamisch aus Datenbanken generiert werden, können nur eingeschränkt erfaßt werden.

Überdies läßt laut Lawrence und Giles die Aktualität der Suchmaschinen immer mehr zu wünschen übrig: Es kann durchaus mehrere Monate dauern, bis neue oder geänderte Web-Dokumente von einem Suchmaschinen-Roboter erfaßt werden. Häufig besuchte und bekannte Server (d.h. solche, auf die viele Links gerichtet sind), aber auch US-Server im allgemeinen werden von fast allen Suchdiensten bevorzugt, woraus sich ein verzerrtes Bild ergeben kann.

Ein Ausbau der Systeme, um mehr Seiten erfassen zu können, kostet viel Geld, führt aber nicht notwendigerweise zu mehr Werbeeinnahmen, aus denen sich die Suchsysteme finanzieren. Abgesehen davon sind größere Datenmengen nicht zwangsläufig mit einem höheren Informationsgehalt gleichzusetzen, da das Ranking - d.h. die Reihenfolge, in der die Suchergebnisse aufgelistet werden - mindestens ebenso wichtig ist wie die Anzahl der Treffer: Je besser relevante Dokumente erkannt und gereiht werden, desto brauchbarer sind die Ergebnisse für den Benutzer.

Aus der Studie geht weiters hervor, daß die Zahl der kommerziellen Webseiten zunimmt: 83% aller Seiten werden mittlerweile von Firmen gestellt. Infolgedessen liefern auch die Suchmaschinen in den Trefferlisten überwiegend kommerzielle Seiten. Wissenschaftliche und bildungsbezogene Dokumente machen nur mehr 6% des Gesamtvolumens aus; 1,5% der Seiten haben pornographische Inhalte.

Morgen

Trotz alledem entstehen immer wieder neue Suchmaschinen - z.B. alltheweb aus Trondheim/Norwegen, laut eigenen Angaben mit mehr als 200 Millionen Datenbank-Einträgen das weltweit größte Suchsystem. Die Pläne von alltheweb sind sehr ehrgeizig: Im Laufe eines Jahres wollen seine Betreiber, die unter anderem sehr stolz auf die Qualität ihres Rankings sind, mit Hilfe von parallel arbeitenden Servern und Systemen das gesamte WWW katalogisiert haben und danach mit seinem Wachstum mithalten.


Quellen:

  • Suchmaschinen halten mit dem WWW-Wachstum weniger denn je Schritt - In: BI 329 (Zeitschrift des RRZN in Hannover)
  • http://www.wwwmetrics.com/ (Studie)