Wenn der Postmann zweimal klingelt
Der neue Spamfilter der Uni Wien

von Wolfgang Breyha & Peter Marksteiner (Ausgabe 06/2, Juni 2006)

 

Kasten: Ausschnitt aus einer Spam-Mail: Kopfzeilen und Inhalt

Noch immer Spam?

Seit Sommer 2003 bietet der Zentrale Informatikdienst einen Spamfilter auf seinen Mailservern an. Dieser wurde im Comment 03/1 vorgestellt, wo im Artikel Forever Spam!? - Warum Spam nicht schon längst abgeschafft wurde eine ausführliche Diskussion zum Thema Spam und zur Problematik der Spambekämpfung zu finden ist.1) Die wichtigsten Punkte sind im Folgenden kurz zusammengefasst:

  • Als "Spam" werden unerwünschte eMail-Nachrichten bezeichnet, die massenweise - oft millionenfach - verschickt werden. Zweck dieser Massensendungen ist fast immer schlicht und einfach das Geldverdienen; man spricht dann von Unsolicited Commercial E-Mail (UCE, unerwünschte Werbemail). Massensendungen zu anderen Zwecken - z.B. politische Propaganda - kommen seltener vor und werden allgemein als Unsolicited Bulk E-Mail (UBE, unerwünschte Massenmail) bezeichnet.

  • Manche Formen von Spam sind nicht nur leicht anrüchige Methoden des Geschäftemachens, sondern eindeutig kriminell. Dazu gehören Phishing-Mails, das sind gefälschte Nachrichten von Banken, Online-Versandhäusern usw., die auf ebenfalls gefälschten Webseiten zur Preisgabe von Konto- und Kreditkartennummern, Passwörtern, TANs2) usw. verleiten (Näheres siehe Artikel Phishing: Bitte nicht anbeißen!). Beim Nigeria- oder 419-Scam3) wird um Unterstützung beim Transfer fabelhafter Summen von einem Land in ein anderes gebeten. Auch wenn manche dieser Geschäftsangebote durchaus seriös und verlockend wirken: Bitte lassen Sie davon unbedingt die Finger!

  • Eine automatisierte, fehlerfreie Spam-Erkennung ist unmöglich: Das entscheidende Kriterium ist "unerwünscht", und das ist ein subjektives Kriterium. Bei jeder Form der automatisierten Spambekämpfung besteht daher die Gefahr so genannter False Positives: Es kann vorkommen, dass legitime und vom Empfänger gewünschte Nachrichten fälschlicherweise als Spam klassifiziert werden.

  • In Österreich ist das Versenden von Massenmail im § 107 des Telekommunikationsgesetzes 2003 geregelt. Bei unerwünschter elektronischer Post aus Österreich ist eine Beschwerde beim jeweiligen örtlich zuständigen Fernmeldebüro möglich und sinnvoll. Fast alles an Spam kommt jedoch aus dem Ausland, und die Aussichten auf Erfolg sind bei einer gerichtlichen Verfolgung außerhalb Österreichs bzw. der EU sehr gering.

Bei der Implementierung des Spamfilters vor drei Jahren wurde größter Wert auf die Vermeidung von False Positives gelegt. In dieser Hinsicht war er auch außerordentlich erfolgreich: Es ist uns kein einziger derartiger Fall bekannt. Trotz des ehrgeizigen Zieles "keine False Positives" konnte nach einigen Anlaufschwierigkeiten eine respektable Trefferquote erzielt werden. Leider ist diese im Lauf der Jahre wieder gesunken: Form und Inhalt von Spam sowie die Methoden von Spammern ändern sich andauernd, was laufende Anpassungen am Spamfilter erforderlich macht. Diese konnten nicht immer schnell genug durchgeführt werden.

Nicht nur der Spam hat sich in den letzten drei Jahren verändert, sondern auch die Maßnahmen zur Spambekämpfung: Heute stehen ganz andere Werkzeuge zur Verfügung als noch vor drei Jahren. Deshalb hat der ZID beschlossen, im Zuge der Erneuerung des Mailsystems auch einen vollständig neuen Spamfilter zu entwickeln, wobei möglichst viele der bisher gewonnenen Erfahrungen in das neue System einfließen sollten.

Die Tricks der Spammer ...

Nachdem sie einem unsauberen und in fast allen Ländern der Welt illegalen Gewerbe nachgehen, müssen Spammer große Anstrengungen unternehmen, um ihre Spuren zu verwischen. Auch müssen sie sich immer wieder etwas Neues einfallen lassen, um die Gegenmaßnahmen der Internet-Provider und Software-Hersteller zu umgehen. Vor einigen Jahren wurde Spam hauptsächlich über ungenügend geschützte Mailserver, so genannte "offene Relays", versendet.4) Inzwischen sind die meisten dieser offenen Relays abgedichtet, und die verbliebenen stehen auf Schwarzen Listen (siehe weiter unten). Deshalb verbünden sich viele Spammer kurzerhand mit den Urhebern von Viren und Trojanern (siehe dazu auch den Artikel Ferngesteuerte Spam-Armeen im c't-Magazin 5/04, Seite 18). Einerseits fungieren die von solchen Schädlingen infizierten Rechner als ferngesteuerte Spambots5) und verschicken - von ihren ahnungslosen BenutzerInnen unbemerkt - große Mengen an Spam. Andererseits durchforsten die ungebetenen Gäste auf dem Wirtssystem etliche Dateien nach eMail-Adressen. So verschicken z.B. einige Varianten des Sobig-Wurms nichts als eMail-Adressen, um die Adresslisten anderer Systeme zu füttern. Auf diesem Weg kommen die Spammer auch an die bestgehüteten Adressen, die nur im privaten Bereich verwendet werden.6)

... und die Waffen der Spamjäger

Die meisten der nachfolgend beschriebenen Methoden liefern nur Indizien, ob es sich bei einer Mail um Spam handelt oder nicht. Zur erfolgreichen Spambekämpfung ist daher immer eine Kombination möglichst vieler Methoden erforderlich. Die Aufzählung erhebt keinen Anspruch auf Vollständigkeit, beinhaltet jedoch die wichtigsten der Verfahren, die im neuen Spamfilter der Uni Wien eingesetzt werden.

Die Masse macht's

Eine Eigenschaft hat Spam immer: Er wird in Massen versandt. Zwar gibt es auch legitime Massenmails, aber in jedem Fall ist das massenhafte Vorkommen von Nachrichten gleichen oder ähnlichen Inhalts verdächtig. Das Distributed Checksum Clearinghouse (DCC) bietet die Möglichkeit, Prüfsummen zu bilden, die Prüfsumme bei einer zentralen Stelle zu registrieren und festzustellen, wie oft weltweit eine Nachricht mit derselben Prüfsumme schon registriert wurde. Auch Spamtraps lassen sich in Verbindung mit DCC erfolgreich einsetzen: Das sind Mailadressen, deren einziger Zweck es ist, von automatischen Suchprogrammen (so genannten Harvestern) gefunden zu werden. Mail an solche Adressen ist ausschließlich Spam und kann beim Clearinghouse wesenlich höher gewichtet werden.

Schwarze, weiße und graue Listen

Zahlreiche Organisationen und Firmen pflegen Blacklists - "Schwarze Listen", auf denen üblicherweise IP-Adressen stehen, von denen aus Spam versandt wurde. Details dazu sind im Artikel Spammer vs. Blacklists: Ein ewiges Wettrüsten im Comment 03/1 zu finden.7) Eine relativ neue Entwicklung sind Blacklists, welche die Domains von URLs enthalten, die in Spam-Mails beworben werden. Solche Blacklists sind außerordentlich erfolgreich, weil sie eine Schwachstelle von Spammern treffen: Diese können sich zwar immer gefinkeltere Umwege ausdenken, um IP-basierten Blacklists zu entgehen, aber die URLs der Webseiten, über die sie ihre zweifelhaften Produkte verkaufen wollen, müssen irgendwo im Klartext stehen und können sich auch nicht allzu schnell ändern.

Es gibt auch Whitelists, das sind "Weiße Listen" von vertrauenswürdigen Adressen. In Österreich wird z.B. eine Whitelist vom Verband der Internet-Provider (ISPA) gepflegt: Die teilnehmenden Provider verpflichten sich, an ihren Mailservern ausreichende Maßnahmen gegen Spam zu ergreifen, im Gegenzug behandeln sie alle anderen Mailserver auf dieser Whitelist bevorzugt und ignorieren etwaige Einträge in beliebigen Blacklists (auch als seriöser Betreiber eines Mailservers kann man relativ leicht auf einer Schwarzen Liste landen).

Spammer haben es beim Mailversand grundsätzlich sehr eilig. So kommen sie mit dem Umstand, dass ein Mailsystem temporär Probleme haben könnte, nicht sonderlich gut zurecht. Normalerweise legt ein Mailserver bei Zustellungsproblemen die betroffene Nachricht in eine Warteschlange und versucht es in regelmäßigen Intervallen erneut. Spammern ist das aber zu aufwendig. Sie probieren es daher meist nur einmal pro Mail und ignorieren alle Rückmeldungen vom Mailserver des Empfängers. Dieser Umstand wird vom Greylisting ausgenutzt, einer höchst wirksamen Methode zur Spambekämpfung: Beim Eintreffen einer neuen Nachricht wird diese vorerst mit einem temporären Fehler abgewiesen, aber dabei die Kombination aus Absenderadresse, Empfängeradresse und IP-Adresse notiert. Erst wenn "der Postmann zweimal klingelt", d.h. wenn innerhalb eines gewissen Intervalls ein zweiter Zustellversuch erfolgt, wird daraus gefolgert, dass es der Absender ernst meint, und die Nachricht wird zugestellt. Der große Vorteil von Greylisting ist, dass praktisch keine False Positives auftreten: Schlimmstenfalls kommt es zu gewissen Verzögerungen bei der Zustellung. "Kollateralschäden" gibt es höchstens bei fehlerhaften Programmen zur automatisierten (aber legitimen) Versendung von Mail, die temporäre Fehler bei der Zustellung ebenfalls nicht richtig behandeln.

Inhalt und Form

Zu guter Letzt bleibt noch die Möglichkeit, programmgesteuert das zu tun, was auch ein Mensch tut, der seine Post liest und Spam dabei löscht: anhand verschiedener formaler und inhaltlicher Kriterien zu entscheiden, ob es sich um Spam handelt oder nicht. Für einen "menschlichen Spamfilter" sind hauptsächlich inhaltliche Kriterien ausschlaggebend, die sich aber relativ schwer automatisiert überprüfen lassen. Zwar sind viele Programme in der Lage, nach verdächtigen Phrasen wie Order Viagra now zu suchen, im Allgemeinen sind jedoch formale Kriterien Erfolg versprechender: Blacklists, Phantasie-Adressen als Absender, spezielle HTML-Formatierung und viele andere.

Eines der erfolgreichsten Programme dieser Art ist SpamAssassin. Dieser unterwirft jede Nachricht einer Reihe von aufwendigen Tests. Für jede "verdächtige" Eigenschaft gibt es Schlechtpunkte (in seltenen Fällen vergibt SpamAssassin auch Gutpunkte). Am Ende werden alle Testergebnisse addiert und das abschließende Urteil in Form von Kopfzeilen (Header) vermerkt. SpamAssassin ist sehr flexibel und kann beliebig an individuelle Bedürfnisse angepasst werden. Diese Flexibilität ist sehr wichtig, um auch für die Zukunft gerüstet zu sein, da Spammer ihre Taktiken andauernd ändern.

Neu: Drei Fallen für Spammer

Beim neuen Spamfilter der Universität Wien muss eine Nachricht im Wesentlichen drei Tests bestehen, bevor sie zugestellt wird:

  • Der Transport von eMail erfolgt nach wohldefinierten Regeln. Die Basis bildet das Simple Mail Transfer Protocol (SMTP), das in mehreren Standard-Dokumenten, so genannten RFCs, definiert ist. Wer das Protokoll nicht einhält, muss damit rechnen, dass seine Nachrichten nicht ankommen. Da sich Spammer an keinerlei Regeln halten, ist es weiter nicht verwunderlich, dass sie auch bei der Einhaltung von RFCs immer wieder Fehler begehen. Deshalb ist es möglich, bis zu einem Viertel der unerwünschten Mails schon anhand solcher Kriterien einfach abzulehnen, ohne sich der Gefahr von False Positives auszusetzen.

  • Die zweite Hürde, die eine Nachricht zu überwinden hat, ist das Greylisting. Um eine generelle Verzögerung bei der Zustellung zu vermeiden, kommt eine leicht abgeschwächte Version von Greylisting zum Einsatz: Mails von unverdächtigen IP-Adressen werden sofort zugestellt (dazu gehören insbesondere alle Adressen, die auf der ISPA-Whitelist stehen). Dadurch ist weitestgehend sichergestellt, dass erwünschter Mailverkehr ungehindert passieren kann. Ist der Absender aber auch nur im Geringsten verdächtig, d.h. steht er auf einer beliebigen der zahlreichen Blacklists, so heißt es beim ersten Zustellversuch "bitte warten". Insbesondere werden auch jene Listen berücksichtigt, die Netze mit dynamisch vergebenen IP-Adressen beinhalten (Wählleitungszugänge, ADSL-Anschlüsse usw.). Zwar sind das meist die Adressen von braven BürgerInnen, aber gerade die haben oft virenverseuchte PCs und verschicken, ohne es zu wissen, massenhaft Spam.8) Nach unseren bisherigen Erfahrungen scheitert weit mehr als die Hälfte aller Spam-Nachrichten am Greylisting.

  • Anschließend werden alle restlichen Nachrichten von SpamAssassin auf Herz und Nieren geprüft. Dieses Programm markiert in Form von Kopfzeilen, ob es die jeweilige Nachricht für Spam hält oder nicht. Natürlich gibt es dann noch immer einen unvermeidlichen Rest, der auch SpamAssassin durch die Lappen geht - der ist allerdings kaum mehr der Rede wert.

Wie aktiviere ich den Spamfilter?

Den schon eingangs abgeblockten Spam - sei es aufgrund von Regelwidrigkeiten oder durch Greylisting - bekommt man sowieso nie zu Gesicht; hier ist eine Aktivierung nicht erforderlich. SpamAssassin hingegen filtert Spam nicht aus, sondern markiert ihn nur. Das eigentliche Filtern kann auf mehrere Arten erfolgen:

  • Am Mailserver (die empfohlene Methode): Zur Aktivierung muss die Webseite www.univie.ac.at/ZID/spamfilter-webmaske/ aufgerufen werden. In den Standard-Einstellungen werden alle Nachrichten mit einem Spam-Level von 15 oder mehr automatisch gelöscht - hier sind False Positives praktisch ausgeschlossen. Mails mit einem Spam-Level von 8 oder mehr werden in einen eigenen Ordner verschoben. Auch hier sind False Positives extrem selten, aber nicht ganz unmöglich, weshalb sich von Zeit zu Zeit ein Blick in diesen Ordner empfiehlt (wer seine Mail mittels POP abruft, kann den Spam-Ordner via Webmail überprüfen). Nach einer frei wählbaren Zeitspanne (Standard: 30 Tage) werden die Nachrichten in diesem Ordner automatisch gelöscht.

    Im Unterschied zum bisherigen Spamfilter werden nun auch Nachrichten gefiltert, die indirekt zugestellt werden, z.B. über eine Service-Mailadresse mit einer Weiterleitung. Eine separate Aktivierung des Spamfilters für Service-Mailadressen ist daher normalerweise nicht erforderlich.

  • Am Klienten: Die meisten Mailprogramme unterstützen das Sortieren anhand beliebiger Kopfzeilen. SpamAssassin ist so konfiguriert, dass es zahlreiche Kopfzeilen mit sehr vielen Detailinformationen liefert (siehe Kasten). Am besten geeignet zur Filterung durch Klienten ist wohl die Zeile X-Univie-Spam-Level. In Abb. 1 ist dargestellt, wie eine solche Sortier-Regel im Mailprogramm Thunderbird konfiguriert werden kann; das Dialogfenster ist unter Extras - Filter - Neu zu finden. Falls Sie zusätzlich eigene Filter-Regeln (z.B. nach Absender/Betreff oder anhand von Black-/Whitelists) definieren wollen, so verwenden Sie dazu bitte Ihr Mailprogramm: Diese Funktionen werden vom neuen Spamfilter vorerst nicht unterstützt.
Abb. 1: Thunderbird - Konfiguration einer Regel zum Löschen von Mails,

Electronic Mail ohne Spam - bis auf Weiteres ist das wohl ein unerreichbares Ideal. Mit dem neuen Spamfilter kommen wir diesem Ideal aber ein gutes Stück näher.

 

Ausschnitt aus einer Spam-Mail: Kopfzeilen und Inhalt

Date: Wed, 31 May 2006 02:05:21 +0600 
From: "Charles Dupree" <FRDYJN@msn.com> 
To: pugilistik@univie.ac.at 
Subject:  Best Pharmacy r56 
X-DCC-Univie-Metrics: ray.univie.ac.at 32722; Body=1 Fuz1=1 Fuz2=8300035 
X-Univie-Virus-Scan: scanned by ClamAV on ray.univie.ac.at 
X-Univie-Spam-Score: 29.3 X-Univie-Spam-Score-Int: 293 
X-Univie-Spam-Level: +++++++++++++++++++++++++++++ 
X-Univie-Spam-Checker-Version: SpamAssassin 3.1.1 (2006-03-10) on ray.univie.ac.at 
X-Univie-Spam-Status: Yes, score=29.3, required=8.0, tests=DNS_FROM_RFC_ABUSE,     
DNS_FROM_RFC_POST,FUZZY_GUARANTEE,FUZZY_PHARMACY,FUZZY_VLIUM,     
FUZZY_VPILL,FUZZY_XPILL,SPF_SOFTFAIL,UNPARSEABLE_RELAY,URIBL_AB_SURBL,     
URIBL_JP_SURBL,URIBL_OB_SURBL,URIBL_SC_SURBL,URIBL_WS_SURBL,ZIDDCC_ONE 
X-Univie-Spam-Languages: en 
X-Univie-Spam-Report: Content analysis details:   (29.3 points, 8.0 required)      
*  1.5 SPF_SOFTFAIL SPF: sender does not match SPF record (softfail)     
*      [SPF failed: Please see www.openspf.org/why.html;
ip=194.152.96.145&receiver=ray.univie.ac.at]
*  0.0 UNPARSEABLE_RELAY Informational: message has unparseable relay lines     
*  3.0 FUZZY_GUARANTEE BODY: Attempt to obfuscate words in spam     
*  0.6 FUZZY_VLIUM BODY: Attempt to obfuscate words in spam     
*  2.6 FUZZY_XPILL BODY: Attempt to obfuscate words in spam     
*  2.6 FUZZY_PHARMACY BODY: Attempt to obfuscate words in spam     
*  0.7 FUZZY_VPILL BODY: Attempt to obfuscate words in spam     
*  0.5 DNS_FROM_RFC_ABUSE RBL: Envelope sender in abuse.rfc-ignorant.org     
*  1.4 DNS_FROM_RFC_POST RBL: Envelope sender in postmaster.rfc-ignorant.org     
*  3.6 URIBL_SC_SURBL Contains an URL listed in the SC SURBL blocklist     
*      [URIs: bestproofonline.com]     
*  3.4 URIBL_JP_SURBL Contains an URL listed in the JP SURBL blocklist     
*      [URIs: bestproofonline.com]     
*  3.3 URIBL_AB_SURBL Contains an URL listed in the AB SURBL blocklist     
*      [URIs: bestproofonline.com]     
*  1.5 URIBL_WS_SURBL Contains an URL listed in the WS SURBL blocklist     
*      [URIs: bestproofonline.com]     
*  2.6 URIBL_OB_SURBL Contains an URL listed in the OB SURBL blocklist     
*      [URIs: bestproofonline.com]     
*  2.0 ZIDDCC_ONE reached threshold in one DCC category 
X-Univie-Spam-Flag: YES 
The most complete Phar macy Online 
We carry all major medds at bargain price Viggra, 
Ci ialis, VaIium, Xa naax Phantermiine, Ulltraam and etc... 
SatiisfactIon Gua ranteeed 
       

Beim neuen Spamfilter der Uni Wien beginnen alle von SpamAssassin erzeugten Kopfzeilen mit X-Univie-Spam. Für die hier abgebildete Nachricht wurden 29.3 Schlechtpunkte vergeben (das ist ein sehr hoher Wert). Diese Zahl wird in mehreren Formaten ausgegeben (X-Univie-Spam-Score, X-Univie-Spam-Score-Int, X-Univie-Spam-Level), um ein automatisches Verarbeiten durch Filterprogramme zu erleichtern. Unter X-Univie-Spam-Report ist detailliert aufgelistet, aufgrund welcher Tests die Punkte vergeben wurden. Das abschließende Urteil ist unter X-Univie-Spam-Flag zu finden: YES - es ist eindeutig Spam.

 

1) siehe Artikel Forever Spam!? - Warum Spam nicht schon längst abgeschafft wurde in Comment 03/1

2) TAN steht für Transaktionsnummer; damit werden die im Online-Banking verwendeten Einmalpasswörter bezeichnet.

3) Benannt nach § 419 des nigerianischen Strafgesetzbuches, weil diese Art des Betrugs in Nigeria besonders beliebt ist (Näheres siehe http://de.wikipedia.org/wiki/Scam).

4) siehe Artikel We do not relay in Comment 98/2

5) Als Bot (abgekürzt für Robot) wird ein Computerprogramm bezeichnet, das weitgehend autonom und unbeaufsichtigt simple, aber arbeitsintensive Aufgaben erledigt - wie z. B. das Versenden von Spam.

6) Spammer erhalten Adressen auf vielen Wegen, u.a. auch durch systematisches Probieren. Es wird immer wieder diskutiert, wie sehr das Publizieren von Adressen (z.B. auf Webseiten oder in Newsgruppen) zu einer "Verseuchung" durch Spam führt; wirklich schlüssige Antworten auf diese Fragen gibt aber es nicht. Die Veröffentlichung von eMail-Adressen im Online-Personalverzeichnis der Uni Wien trägt vermutlich kaum - wenn überhaupt - zum Spam-Aufkommen bei. Auch sind diese Adressen im Quelltext der Seite kodiert angegeben, was ein automatisiertes Auslesen erschwert.

7) siehe Artikel Spammer vs. Blacklists: Ein ewiges Wettrüsten in Comment 03/1

8) siehe Artikel Kammerjäger im Netz in Comment 06/1