Bachelorarbeit, 2013
42 Seiten
1 Einleitung
1.1 Gliederung
1.2 Ziel
1.3 Stand der Forschung
2 Grundlagen
2.1 E-Mail
2.2 Aufbau einer E-Mail
2.3 E-Mail-Übertragung im Internet
2.3.1 Funktionsweise von SMTP
2.3.2 Funktionsweise von POP3
2.3.3 Funktionsweise von IMAP
2.4 Spam
2.4.1 Begriffsursprung
2.4.2 Auswirkungen von Spam
2.5 Entstehungsgeschichte
2.5.1 Card Lottery
2.5.2 Die erste Spamware
3 Anti-Spam Techniken
3.1 Absendervalidierung
3.2 Filtern mit Listen
3.2.1 Blacklisting
3.2.2 Whitelisting
3.2.3 Greylisting oder Challange-Response-Verfahren
3.2.4 Dynamische Adressen
3.2.5 Open Relay
3.2.6 Gemeldete Absender
3.3 Filtern mit Algorithmen
3.3.1 Artificial Neural Network - ANN
3.3.2 Naiver Bayes Algorithmus
3.3.3 Lazy Algorithmen
4 Evaluierung
4.1 Test Corpora
4.2 TREC
4.3 Evaluierung von Cormack und Lynam
4.3.1 Getestete Methoden
4.3.2 Fazit der Studie
4.3.3 Kritik
5 Zusammenfassung
5.1 Schlussfolgerung
5.2 Exkurs
Das Hauptziel dieser Arbeit ist es, die Funktionsweise unterschiedlicher Anti-Spam-Lösungen zu analysieren und deren technische Unterschiede sowie Effektivität bei der Spambekämpfung zu bewerten, um eine fundierte Entscheidungshilfe für den Schutz von IT-Infrastrukturen zu bieten.
3.3.3 Lazy Algorithmen
Lazy Algorithmen sind auf das schnelle Lernen ausgelegt. Das Antrainieren von Mustern gerät in den Hintergrund.12 Ein Vertreter der Lazy Algorithmen ist der Kstar (K*) Algorithmus. Er wird auch als Nächste-Nachbarn-Klassifikation bezeichnet.13 Es handelt sich hier um ein Klassifikationsverfahren, bei dem eine Klassenzuordnung unter Berücksichtigung der nächstgelegenen Nachbarn vorgenommen wird. Die Klassifikation einer vermeintlichen Spam-E-Mail geschieht im einfachsten Fall durch Mehrheitsentscheidung. Wie bei anderen Algorithmen kommen auch hier Merkmalvektoren zum Einsatz. Mit Trainingsdaten, wie z.B. bereits klassifizierte Spam- und Nicht-Spam-Nachrichten, kann gelernt werden, indem diese Trainingsdaten einfach abgespeichert werden.
In Abbildung 3.3 ist zu erkennen, wie die Nächste-Nachbarn-Klassifikation funktioniert. Die Trainingsdatei (grüner Kreis) muss nun entweder der ersten Klasse (blaue Quadrate) oder der zweiten Klasse (rote Rechtecke) zugeordet werden. In diesem Fall würde sie der zweiten Klasse (rote Rechtecke) zugeteilt werden, da mehr rote Dreiecke in der unmittelbaren Umgebung (kreisrunde Begrenzung) sind. Würde man die Klassifizierungsregel lockern (quadratische Begrenzung), so würde der Algorithmus die Trainingsdatei der ersten Klasse (blaue Quadrate) zuordnen.
1 Einleitung: Diese Einleitung führt in die Problematik des Spam-Aufkommens ein und definiert das Ziel, die Effizienz verschiedener Anti-Spam-Methoden für Unternehmen zu bewerten.
2 Grundlagen: Hier werden die technischen Basisinformationen zum E-Mail-Verkehr, zu relevanten Protokollen und zur Entstehungsgeschichte sowie den ökonomischen Auswirkungen von Spam vermittelt.
3 Anti-Spam Techniken: Dieses Kapitel stellt verschiedene Ansätze zur Spam-Abwehr vor, unterteilt in die Absendervalidierung, das Filtern mit Listen und den Einsatz fortgeschrittener Algorithmen.
4 Evaluierung: Hier werden verschiedene Spam-Filter anhand von Test Corpora wissenschaftlich bewertet, wobei die Ergebnisse einer Studie von Cormack und Lynam detailliert analysiert werden.
5 Zusammenfassung: Das abschließende Kapitel fasst die gewonnenen Erkenntnisse zusammen, leitet daraus die Schlussfolgerung ab, dass Kombinationen aus verschiedenen Filtermethoden am effektivsten sind, und bietet einen Ausblick auf präventive Maßnahmen.
Spam, E-Mail, Anti-Spam-Filter, SMTP, Algorithmen, Bayes-Filter, Artificial Neural Network, Spam-Bekämpfung, Netzwerksicherheit, E-Mail-Protokolle, Blacklisting, Whitelisting, Greylisting, Spamware, IT-Sicherheit
Die Arbeit bietet eine umfassende Analyse der Mechanismen und Algorithmen, die zur Identifizierung und Filterung von unerwünschten E-Mails (Spam) verwendet werden.
Die zentralen Themen umfassen die technischen Grundlagen des E-Mail-Versands, die verschiedenen Kategorien von Spam-Filtern und deren Wirksamkeit sowie eine wissenschaftliche Evaluation der Filterperformance.
Ziel ist es zu identifizieren, welche Anti-Spam-Lösungen auf dem Markt verfügbar sind, wie sie sich methodisch unterscheiden und welche Strategien den bestmöglichen Schutz für Unternehmen versprechen.
Es wird eine Literaturrecherche durchgeführt und eine detaillierte Auswertung bestehender wissenschaftlicher Studien, insbesondere im Bereich der algorithmischen Spam-Erkennung, vorgenommen.
Der Hauptteil erörtert zunächst die technischen Grundlagen des Internet-E-Mail-Verkehrs, beleuchtet dann verschiedene Filtertechniken (Listen-basiert vs. algorithmisch) und evaluiert schließlich deren Leistungsfähigkeit.
Wichtige Begriffe sind unter anderem Spam, E-Mail-Protokolle, Bayes-Filter, Machine Learning, Blacklisting und IT-Sicherheit.
Hybride Systeme kombinieren die Vorteile verschiedener Techniken wie Listen-Prüfung und autodidaktische Algorithmen, wodurch sie sowohl bekannte als auch neue Spam-Muster effizienter erkennen können.
Die Hauptschwachstelle ist ihre reaktive Natur; Filter basieren oft auf dem Ist-Zustand, während Spammer ihre Methoden ständig anpassen, um die Filtertechniken zu umgehen.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

