Und ewig lockt die Suchmaschine

von Vera Potuzak (Ausgabe 02/2, Oktober 2002)

 

Suchmaschinen sind im Comment ein immer wiederkehrendes Thema.1) Dieser Artikel ist - im Gegensatz zu den vorangegangenen - nicht als praktische Suchhilfe konzipiert, sondern soll einen Blick hinter die Kulissen ermöglichen. Konkrete Tips zum Suchen und Finden werden im Comment 98/2 im Kasten Bessere Fragen - Bessere Antworten anschaulich erörtert (generell empfiehlt es sich immer, mehrere miteinander verknüpfte Suchbegriffe zu verwenden und die Suche mit Hilfe weiterer Optionen einzugrenzen). Eine Auswahl von Suchmaschinen, die im Comment noch nicht vorgestellt bzw. seither grundlegend überarbeitet wurden, finden Sie im Kasten Es muß nicht immer Google sein.

Wie Suchmaschinen arbeiten:

Bevor eine Suchmaschine ihr Wissen über die im WWW publizierten Informationen weitergeben kann, muß sie sich dieses erst aneignen, und das gestaltet sich bei der Anzahl der verfügbaren Webseiten (geschätzt in Milliardenhöhe) gar nicht so einfach. Um das Informationsangebot sichten und aufbereiten zu können, betreibt eine Suchmaschine Spezialsoftware, sogenannte Robots (auch Crawler, Spider, Agent u.dgl. genannt).

Ein Robot beginnt seine Reise durch das WWW meist mit dem Erfassen stark benutzter Server mit populären Seiten, wobei er deren Texte indiziert und jedem Verweis auf andere Seiten nachgeht - eine Methode, bei der sich die gesammelten Daten rasch vervielfachen. Dieser Vorgang wird regelmäßig wiederholt, um der laufenden Veränderung des Informationsangebots Rechnung zu tragen.

Die so gefundenen Informationen werden analysiert, bewertet, strukturiert und in Form eines Index in einer riesigen Datenbank gespeichert. Erst dann sind die Inhalte einer Webseite über die Suchmaschine auffindbar. Bei jeder Suchanfrage wird nun dieser Index nach Übereinstimmungen mit dem gewünschten Begriff durchforstet. Nachdem der Index großer Suchmaschinen aber hunderte Millionen Seiten umfassen kann, erzielen die meisten Anfragen tausende Treffer. Ausschlaggebend ist daher weniger die Größe als vielmehr die Aktualität und die Darstellung des Informationsangebots.

Was bedeutet Ranking?

Die Qualität einer Suchmaschine wird zu einem großen Teil davon bestimmt, wie gut oder schlecht es ihr gelingt, die Ergebnisse in eine sinnvolle Reihenfolge zu bringen: Da bei einer allzu umfangreichen Trefferliste das Interesse des Benutzers rasch erlahmen kann, sollten diejenigen Treffer, die am besten zur Suchabfrage passen, möglichst weit vorne aufgelistet sein. Die Suchmaschinen verwenden daher sogenannte Ranking-Algorithmen, um die Relevanz der gefundenen Informationen abzuschätzen und eine entsprechend sortierte Trefferliste anzeigen zu können.

Diese Aufgabe bereitet jedoch mitunter Schwierigkeiten, da die Suchanfragen oft nicht eindeutig sind. Welche Ergebnisse erwartet wohl jemand, der lediglich nach Inn sucht, ohne weitere Spezifikationen anzugeben?

Auch ist es problematisch, die Relevanz eines Textes allein danach zu bewerten, wie häufig der gesuchte Begriff darin enthalten ist. So kann z.B. eine Paul Celan-Biographie durchaus nur ganz selten das entscheidende Wort Celan benutzen: Oft werden, um Wiederholungen zu vermeiden, Synonyme eingesetzt - Dichter, Autor, Schriftsteller oder in den frühen Phasen der Biographie der bürgerliche Name des Dichters, Antschel. Für eine Suchmaschine ist somit schwer zu erkennen, daß sich dieser Text vollständig um Paul Celan dreht.

Die wichtigsten Ranking-Kriterien

Natürlich spielt es eine Rolle, wie oft der Suchbegriff im Text vorkommt. Dabei ist meist die relative Häufigkeit wichtiger als die absolute Anzahl: Ein nur 50 Worte langer Text, in dem der Suchbegriff fünfmal aufscheint, wird demnach besser bewertet als ein Text von 500 Worten mit zehn Vorkommen. Deshalb haben auch kurze Seiten meist eine bessere Position in der Trefferliste.

Für das Ranking ist jedoch weniger die Häufigkeit der einzelnen Wörter von Bedeutung als deren Position. Beispielsweise wird Dokumenten, in denen der gesuchte Begriff weit oben im Text zu finden ist, mehr Relevanz zugesprochen als solchen, die ihn tief in verschachtelten Tabellen verstecken. Bei Suchanfragen, die zwei oder mehr Worte enthalten (z.B. Celan Biographie), ist es wichtig, daß beide Begriffe möglichst nahe zueinander im Text bzw. im Titel stehen.

Für die Relevanzbestimmung werden weiters auch HTML-Tags (Formatierungsanweisungen) herangezogen. Beispielsweise gilt eine Seite als besonders relevant, wenn der Suchbegriff im <title>-Tag oder innerhalb einer Überschrift (z.B. <h1>) vorkommt. Darüber hinaus werden oft auch noch andere HTML-Tags berücksichtigt, z.B. <strong> (hervorgehoben), <u> (unterstrichen) oder <em> (kursiv). Auch das Aufscheinen des Suchbegriffs innerhalb bestimmter <meta>-Tags kann eine höhere Relevanz bewirken. <meta>-Tags sind Vermerke im Kopfbereich (<head>) einer HTML-Datei, die vom Browser nicht angezeigt werden und allgemeine Informationen über die jeweilige Seite enthalten. Für das Ranking sind lediglich die Meta-Angaben keywords und description relevant.

  • Mittels keywords können Schlüsselbegriffe definiert werden, die für die Seite charakteristisch sind:
    <meta name="keywords" content="paul celan, lyrik, interpretation, todesfuge, meister, deutschland, sulamith">
    Dieser Tag eignet sich auch gut, um Synonyme für die Schlüsselwörter anzugeben (wenn im sichtbaren Text lediglich das Wort Schmuck vorkommt, wird eine Suche nach Kleinod nichts nützen).
  • Mittels description kann eine kurze Beschreibung der Seite eingefügt werden:
    <meta name="description" content="Die beste Interpretation von Celan's Todesfuge im WWW!">
    Viele Suchmaschinen zeigen diesen Text an, wenn sie in ihrer Trefferliste auf die Seite verweisen.

Wichtig für die meisten Suchmaschinen scheint inzwischen auch der URL einer Seite zu sein. Damit ist nicht nur die Domain des Webservers gemeint, sondern auch der Pfad und der Dateiname auf dem Server. In unserem Fall wäre eine Celan-Biographie also am besten als Datei biographie.html in einem Verzeichnis namens celan aufgehoben. Der URL sieht dann etwa folgendermaßen aus: <http://www.domain/celan/biographie.html>.

Weiters können auch die URLs und die Beschreibungen von Links sowie die Beschreibungstexte von Grafiken als zusätzliche Relevanzkriterien herangezogen werden. Einige Suchmaschinen berücksichtigen auch das letzte Änderungsdatum, wobei neuere Seiten besser bewertet werden.

Feinheiten

Alle diese Vorgehensweisen sind für eine perfekte Welt gedacht, in der Autoren ihre Webseiten wahrheitsgetreu und gewissenhaft beschreiben. Viele Webmaster kümmern sich jedoch gar nicht darum, im Web gefunden zu werden - zahllose gute Seiten haben weder einen passenden Titel noch entsprechende Meta-Tags. Seit sich via WWW Geld verdienen läßt, haben die Suchmaschinen zudem erhebliche Probleme mit manchen Betreibern von kommerziellen Seiten und Sexseiten, die sich mittels search engine spamming (das sind diverse Tricks, die auf bekannten Relevanzkriterien basieren) eine gute Ranking-Position sichern wollen.

Jede Suchmaschine hat daher ihre eigenen, sehr geheimen Regeln beim Ranking. Zusätzlich gehen Suchmaschinen vermehrt dazu über, auch externe Informationen im Ranking-Algorithmus zu berücksichtigen. Eine zentrale Rolle nimmt dabei die sogenannte link popularity ein, das ist die Anzahl externer Links, die auf diese Seite verweisen. Ähnlich funktioniert DirectHit - hier zählt, wie oft Suchmaschinenbenutzer auf ein bestimmtes Ergebnis klicken. Weiters wird immer häufiger nicht nur die Relevanz einer einzelnen HTML-Seite beurteilt, sondern mittels Domain-Indizierung eine Domain als ganzes zur Bewertung herangezogen.

Woran Suchmaschinen scheitern:

  • Fehlende Referenzen: Eine Webseite, auf die kein Link von einer bereits indizierten Seite verweist, kann von einer Suchmaschine nicht erfaßt werden - es sei denn, sie wurde direkt angemeldet.
  • Versteckte Bereiche: Paßwortgeschützte Seiten und Server, die sich hinter einer Firewall verbergen, können nicht durchsucht werden. Einen anderen Weg, Robots von bestimmten Seiten fernzuhalten, bietet ein <meta>-Tag: Mit <meta name="robots" content="noindex"> oder <meta name="robots" content="none"> verbietet man Suchprogrammen, die Inhalte der betreffenden HTML-Datei in ihre Datenbank aufzunehmen. Für Betreiber von Webservern wurde darüber hinaus der sogenannte Robot Exclusion Standard entwickelt: Dieser basiert darauf, daß im Startverzeichnis des Webservers eine Datei mit dem Namen robots.txt abgelegt werden kann, in der spezifiziert wird, wie sich Suchprogramme verhalten sollen - wobei die Beachtung des Standards allerdings vom guten Willen der Suchmaschine abhängig ist.
  • Dynamisch generierte Seiten: Dokumente, die nicht als fertige Dateien auf WWW-Servern liegen, sondern dynamisch aus einer Datenbank generiert werden, können meist nicht gefunden werden. Dynamisch bedeutet in diesem Fall, daß der HTML-Code von den übergebenen Parametern abhängig ist (z.B. bei Zeitungen). Erst wenn dynamisch erstellte Seiten statisch gespeichert werden, sind sie für Suchmaschinen auffindbar.
  • Ungeeignete Dateiformate: Befindet sich in einer Webseite kein Text, weil sie z.B. nur aus HTML-Tags und Grafiken besteht, kann sie nicht in den Volltextindex aufgenommen werden: Mit optischen Elementen oder akustischen Signalen kann selbst die beste Suchmaschine nichts anfangen - es wird stets nur der umgebende bzw. beschreibende Text erfaßt. Manche Suchmaschinen (z.B. Google) finden auch Dokumente im .doc- und .pdf-Format, die meisten sind damit jedoch überfordert.

Was dabei herauskommt:

Die Suchmaschine liefert eine Ergebnisliste, in der jeder Treffer mit Überschrift, Kurzbeschreibung und URL präsentiert wird. Die Aussagekraft kann dabei stark schwanken - sie hängt nicht nur von der Suchmaschine ab, sondern vor allem von den verwendeten HTML-Tags: Als Überschrift für einen Treffer wird meist der Titel des Dokuments eingesetzt; für die Darstellung von Detailinformationen wird die Kurzbeschreibung (bzw. bei deren Fehlen die ersten Zeilen des Textes) herangezogen. Ein fehlender Titel bedeutet Treffereinträge ohne Überschrift. Eine fehlende Beschreibung bedeutet Treffereinträge ohne aussagefähige Detailinformationen.

Last but not least: Aufgrund von Faktoren wie Indexgröße und -aufbau oder Strategie der Robots führt dieselbe Suchanfrage bei verschiedenen Suchmaschinen zu ganz unterschiedlichen Ergebnissen (siehe Abbildungen) - dieser Vielfalt sollte man sich nicht aus Bequemlichkeit berauben.

Es muß nicht immer Google sein

 

1) Comment 98/2, Seite 18; Comment 99/3, Seite 22; Comment 00/2, Seite 31