Masterarbeit, 2020
59 Seiten, Note: 1,3
1 Introduction
1.1 Motivation
1.2 Research Objective
1.3 Research Approach
2 Related Work
3 Modern NLP Approaches
3.1 Transformers
3.2 BERT
3.3 RoBERTa
3.4 XLNet
3.5 ALBERT
3.6 DistilBERT
3.7 ELECTRA
3.8 MobileBERT
4 Data and Methodology
4.1 The IWSPA-AP Dataset
4.2 Data Preprocessing for Classic NLP Methods
4.3 Splitting and Oversampling
4.4 Model Selection
4.5 Performance Metrics
5 Results
5.1 Results of classic machine learning models
5.2 Results of modern NLP models
6 Discussion
7 Conclusion
Die vorliegende Masterarbeit untersucht die Anwendbarkeit moderner Natural Language Processing (NLP) Einbettungsmethoden zur Identifizierung von Phishing-E-Mails. Dabei wird der Frage nachgegangen, ob auf Transformatoren basierende Modelle wie BERT eine höhere Erkennungsleistung erzielen als klassische Machine-Learning-Verfahren, und wie diese modernen Modelle für eine präzise Klassifizierung zwischen legitimen Nachrichten und Phishing-Versuchen optimal gestaltet und trainiert werden sollten.
3.1 Transformers
The central component of all modern NLP embedding approaches presented in this work is the advanced processing of natural language through transformers (Vaswani et al. 2017). Transformers were originally developed to perform machine translation. The attention mechanism (Bahdanau et al. 2014) is a core element of transformers. The idea of attention is to output numerical vectors for each word that depend on the relevant context for that word. Figure 1 illustrates the architecture of the transformer model.
Transformers are based on an encoder-decoder architecture. The encoder’s role is to generated encodings of the input sequence that contain information about which parts of the inputs are relevant to each other. In contrast to the encoder, the decoder takes all the encodings and processes them using their incorporated contextual information to generate an output sequence. Originally, one transformer block consists of a stack of six encoders and six decoders. Each encoder contains two sublayers: one multi-head self-attention layer and one fully connected feed-forward network (FFN). Each decoder contains three sub-layers: one masked multi-head self-attention layer, one additional layer that performs multi-head self-attention over the encoder outputs and one fully connected FFN. Each sublayer in encoder and decoder has residual connections followed by layer normalization.
1 Introduction: Einführung in das Thema Phishing und die Motivation, moderne NLP-Methoden für die E-Mail-Klassifizierung zu evaluieren.
2 Related Work: Überblick über existierende Ansätze zur Phishing-Erkennung, von einfachen Blacklists bis hin zu klassischen Machine-Learning-Verfahren.
3 Modern NLP Approaches: Detaillierte technische Beschreibung von Transformer-basierten Modellen wie BERT, RoBERTa, XLNet und deren Varianten.
4 Data and Methodology: Beschreibung des IWSPA-AP Datensatzes, der Vorverarbeitungsschritte und der methodischen Vorgehensweise zur Modell-Evaluation.
5 Results: Präsentation und Vergleich der experimentellen Ergebnisse der verschiedenen Machine-Learning- und NLP-Modelle.
6 Discussion: Kritische Reflexion der gewählten Validierungsstrategien, Hyperparameter und methodischen Einschränkungen.
7 Conclusion: Fazit zur Überlegenheit moderner NLP-Methoden bei der Phishing-Erkennung und Empfehlungen für zukünftige Forschungsarbeiten.
Phishing-Erkennung, NLP, BERT, Transformer, Machine Learning, Künstliche Intelligenz, E-Mail-Sicherheit, Textklassifizierung, Deep Learning, Datensatz-Balancierung, Modell-Architektur, Knowledge Distillation, Sprachmodellierung.
Die Arbeit untersucht den Einsatz moderner Natural Language Processing (NLP) Einbettungsmethoden, um Phishing-E-Mails präzise von legitimen E-Mails zu unterscheiden.
Die zentralen Themen umfassen die Anwendung von Transformer-Architekturen, den Vergleich klassischer und moderner Klassifizierungsansätze sowie die Optimierung von Trainingsdaten durch Resampling-Techniken.
Das Hauptziel ist es zu klären, ob moderne NLP-Modelle (wie BERT) eine höhere Performance bei der Phishing-Erkennung erreichen als klassische Machine-Learning-Verfahren, und welche Design-Parameter diese Modelle beeinflussen.
Es werden verschiedene moderne NLP-Modelle (BERT, RoBERTa, XLNet, ALBERT, DistilBERT, ELECTRA, MobileBERT) mit klassischen Baselines auf dem IWSPA-AP Datensatz unter variierenden Trainingsbedingungen (balanciert/unbalanciert) experimentell verglichen.
Der Hauptteil behandelt die theoretischen Grundlagen der Transformer-Modelle, das methodische Vorgehen bei der Datenaufbereitung, das Training der Modelle und die detaillierte Auswertung der Ergebnisse anhand verschiedener Performance-Metriken.
Zu den wichtigsten Begriffen zählen Phishing-Erkennung, Transformer, BERT, Deep Learning, E-Mail-Sicherheit und Textklassifizierung.
RoBERTa zeigte in den Experimenten eine besonders hohe Leistungsfähigkeit und konnte in den durchgeführten Tests die besten Ergebnisse erzielen, was auf die optimierte Trainingsmethodik und größere Datenbasis zurückzuführen ist.
Da der verwendete Datensatz ein starkes Ungleichgewicht zwischen legitimen und Phishing-E-Mails aufwies, wurde Oversampling genutzt, um das Modell nicht auf die Majoritätsklasse zu biasen und so die Validität der Ergebnisse zu erhöhen.
Aufgrund der hohen Anzahl an Parametern der untersuchten NLP-Modelle ist ein GPU-Training (hier: Tesla T4) zwingend erforderlich, um die Rechenzeiten in einem praktikablen Rahmen zu halten.
Die Ergebnisse deuten darauf hin, dass Modelle mit mehr Layern und Parametern tendenziell eine bessere Klassifikationsleistung erzielen, wobei jedoch auch die Menge der Pre-training-Daten eine kritische Rolle spielt.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

