Bachelorarbeit, 2023
170 Seiten, Note: 1,3
1. Einleitung
1.1. Problemstellung
1.2. Forschungsfrage und Zielsetzung
1.3. Abgrenzung
1.4. Aufbau der Arbeit
2. Theoretische Grundlagen
2.1. Schadsoftware
2.1.1. Taxonomie und Aufbau von Schadsoftware
2.1.2. Erkennung von Schadsoftware
2.1.3. Verschleierung von Schadsoftware
2.2. Maschinelles Lernen im Kontext der Schadsoftware-Erkennung .
2.2.1. Überblick
2.2.2. Umgehung von ML-basierten Erkennungssystemen
2.3. Generative Adversariale Netzwerke
2.3.1. Künstliche Neuronale Netze
2.3.2. Grundlagen und Funktionsweise von GAN's
3. Methodisches Vorgehen
3.1. Qualitative Forschung
3.2. Erarbeitung des Forschungsstandes mittels Literaturrecherche . .
3.3. Datenerhebung mittels Expertenbefragungen
3.3.1. Entwicklung des Befragungsleitfadens
3.3.2. Auswahl der zu befragenden Experten
3.3.3. Aufbereitung der erhobenen Daten
4. Literaturrecherche zum aktuellen Forschungsstand
4.1. Offensive Verwendung von GAN's
4.2. Defensive Verwendung von GAN's
4.3. Hypothesenaufstellung
5. Evaluation der Untersuchungsergebnisse
5.1. Überprüfung der Hypothesen
5.2. Beantwortung der Forschungsfrage
5.2.1. Nutzungsapotenziale durch den Einsatz von GANs
5.2.2. Herausforderungen beim Einsatz von GANs
5.2.3. Einfluss von GANs auf Entwicklungen und Strategien bei der Schadsoftware-Erkennung
6. Diskussion und Limitationen der Untersuchungsergebnisse
7. Fazit und Ausblick
A. Anhang
A.1. Signaturbasierte Erkennungssysteme
A.2. Verhaltensbasierte Erkennungssysteme
A.3. Hybride Erkennungssysteme
A.4. Leitfaden zur Expertenbefragung
A.5. Transkripte der Befragungen
A.6. Hierarchie des Kategoriesystems
A.7. Kategorisierung der relevanten Textsegmente
A.8. Kausalbeziehungen der Textsegmente
B. Tabellenverzeichnis
C. Abbildungsverzeichnis
D. Abkürzungsverzeichnis
E. Literaturverzeichnis
In dieser Arbeit wird der mögliche Einfluss einer Anwendung von Generativen Adversarialen Netzwerken (GANs) auf Entwicklungen und Strategien im Kontext der Erkennung von Schadsoftware untersucht. Diese generativen Modelle aus dem Bereich des Maschinellen Lernens (ML) sind in der Lage, anhand eines gegebenen Trainingsdatensatzes neue Datenbeispiele mit den gleichen Merkmalen der zugrundeliegenden Trainingsdaten zu synthetisieren. Das Untersuchungsziel orientierte sich an der Beantwortung der folgenden Forschungsfrage: Inwieweit hat der Einsatz von GANs Einfluss auf die Entwicklung von Systemen und Strategien, die zur Erkennung von Schadsoftware genutzt werden? Dabei wurden sowohl offensive als auch defensive Anwendungsmöglichkeiten von GANs sowie mögliche Nutzungspotenziale und Herausforderungen betrachtet. Zur Beantwortung der Forschungsfrage wurde eine qualitative Befragung von Experten durchgeführt, die aufgrund ihrer Fachexpertise den Untersuchungsgegenstand einordneten. Die Auswertung dieser Expertenbefragungen zeigte, dass die Anforderungen von Schadsoftware-Erkennungssystemen und die derzeit bestehenden technischen Einschränkungen von GANs deren Einfluss auf Entwicklungen und Strategien stark begrenzen. Hier werden weitere Fortschritte in der Forschung nötig sein, um bestehende Potenziale besser nutzen und Herausforderungen bewältigen zu können. Dennoch konnten Konzepte aufgezeigt werden, die eine Verwendung von GANs bei der Schadsoftware-Erkennung beinhalten.
Meinen Dank möchte ich dem Bundesamt für Sicherheit in der Informationstechnik für die Betreuung und Hilfestellungen bei der Anfertigung dieser Arbeit aussprechen, insbesondere gegenüber Herrn Jan Ibisch aus dem Referat TK 24 (Sicherheit in der Künstlichen Intelligenz), der mit seinen Anmerkungen und Hinweisen wesentlich zu der vorliegenden Fassung der Arbeit beitrug.
Weiterhin gilt mein Dank den befragten Experten, die mit ihren Ausführungen einen Erkenntnisgewinn zum Untersuchungsgegenstand überhaupt erst ermöglicht haben.
Die durch Cyberkriminalität jährlich entstehenden wirtschaftlichen Schäden werden bis zum Jahr 2025 weltweit auf mehr als 10,5 Billionen US-Dollar anwachsen (vgl. Morgan 2020). Aktuell registriert das AV-Test Institut jeden Tag mehrere hunderttausend neue Schadprogramme (vgl. AV-TEST-GmbH 2022a), deren Gesamtmenge im Dezember 2022 erstmals bei über einer Milliarde verschiedener Dateien lag, davon 100 Millionen allein im Jahr 2022 (vgl. AV-TEST-GmbH 2022b).
Die Quantität neuer, bisher unbekannter Varianten von Schadsoftware, mit der die digitale Welt täglich konfrontiert wird, macht den Einsatz von Verfahren zu deren automatisierten Erkennung und Klassifizierung notwendig. Aus diesem Grund bilden verschiedene Anwendungen des ML den Kern moderner Sicherheitslösungen, beispielsweise bei der Analyse von Netzwerkdaten und der Verhaltensüberwachung von Programmen (vgl. Jagsir Singh und Jaswinder Singh 2021, S. 3). Trotz der Vorteile, die ML im Bereich der IT-Sicherheit bietet, hat sich gezeigt, dass diese Verfahren durch manipulierte Eingabedaten zu einer Fehlentscheidung verleitet werden können (vgl. Sikos 2019, S. 67). Somit besteht die Möglichkeit, Schadprogramme durch Veränderung ihrer Merkmale derart zu verschleiern, dass diese fälschlicherweise als gutartig klassifiziert werden und Sicherheitssysteme umgehen können (vgl. Jagsir Singh und Jaswinder Singh 2021, S. 6). Eine Methode, mit der aus einem einzigen Schadprogramm eine Vielzahl solcher verschleierten Varianten erstellt werden kann, ist die Verwendung von GANs (vgl. Aryal, Gupta und Abdelsalam 2021, S. 25). Dabei handelt es sich um zwei in Konkurrenz zueinander stehende künstliche neuronale Netze (KNNs), mit denen synthetische Daten generiert werden können, die im Idealfall nicht von originalen Daten unterschieden werden können (vgl. I. J. Goodfellow, Pouget-Abadie u.a. 2014, S. 1). Ein mit diesem Verfahren gewonnener Datensatz aus künstlich erzeugter Schadsoftware kann zur Umgehung eines Schadsoftware-Detektors verwendet werden (vgl. Chenna 2022, S. 1). Gleichwohl bietet die Verwendung von GANs zur Synthese von Schadsoftware für Hersteller von Sicherheitslösungen die Möglichkeit, ihre Produkte gegenüber Umgehungsversuchen widerstandsfähiger zu machen, indem der zum Training von Schadsoftware-Detektoren verwendete Datensatz erweitert wird (vgl. Cai u. a. 2021, S. 23). In den letzten Jahren wurden sowohl offensive als auch defensive Anwendungsszenarien von GANs anhand verschiedener Implementierungen untersucht, jedoch handelt es sich hierbei weiterhin um ein offenes Forschungsfeld (vgl. Aryal, Gupta und Abdelsalam 2021, S. 39). Aktuell gibt es keinen Sachstand darüber, inwieweit GANs in Schadsoftware-Erkennungssystemen implementiert sind oder ob diese mit durch GANs erstellten Datensätzen trainiert werden. Weiterhin ist nicht bekannt, ob sich mithilfe von GANs erzeugte Schadprogramme im Umlauf befinden und wie hoch das generelle Nutzungs- und Bedrohungspotenzial hinsichtlich der Erkennung von Schadsoftware durch diese Technologie ist oder für die Zukunft eingeschätzt wird.
Aufgrund der Tatsache, dass es sich beim dargestellten Sachverhalt um ein recht neues Forschungsfeld handelt und gegensätzliche Betrachtungsweisen bezüglich des Einsatzes von GANs bei der Schadsoftware-Erkennung existieren, ergibt sich die nachfolgende Forschungsfrage:
Inwieweit hat der Einsatz von GANs Einfluss auf die Entwicklung von Systemen und Strategien, die zur Erkennung von Schadsoftware genutzt werden?
Und daraus abgeleitet:
Welche Nutzungspotenziale und Herausforderungen ergeben sich hieraus?
Ziel dieser Bachelorarbeit ist es, anhand von Expertenbefragungen eine Einschätzung über die Quantität und Qualität der Nutzung von GAN-basierten Verfahren hinsichtlich der Erkennung von Schadsoftware zu erarbeiten. Dabei sollen sowohl Verfahren zur Verbesserung als auch zur Umgehung von entsprechenden Sicherheitsmaßnahmen thematisiert und eine potentielle zukünftige Einflussnahme auf die IT-Sicherheit untersucht werden. Die hieraus gewonnen Ergebnisse werden anschließend ausgewertet und diskutiert, um einen Überblick zum Untersuchungsgegenstand zu schaffen, auf dessen Grundlage Interpretationen für eine zukünftige Nutzung von GANs sowie neue Sichtweisen und Motivationen zur tiefgreifenderen Forschung ableiten werden sollen.
Die vorliegende Arbeit thematisiert GAN-basierte Verfahren zur Umgehung beziehungsweise Verbesserung von Schadsoftware-Erkennungssystemen. Auf die Möglichkeiten der Kompromittierung von Daten, die während der Trainingsphase eines ML-Modells eingesetzt werden, wird hierbei nicht eingegangen, da ein solcher Angriff als unwahrscheinlich angesehen wird (vgl. Aryal, Gupta und Abdelsalam 2021, S. 2). Zudem erfolgt keine Betrachtung der entsprechenden Erkennungssysteme im Verbund mit anderen Sicherheitslösungen oder eine Implementierung eines vorgestellten Verfahrens.
Im theoretischen Teil werden zunächst die Taxonomie und der allgemeine Aufbau von Schadsoftware sowie etablierte Verfahren zu deren Erkennung und Verschleierung dargestellt. Anschließend wird ein Überblick zu ML-basierenden Systemen zur Schadsoftware-Erkennung und deren Umgehung vermittelt. Im letzten Ab- schnitt des Theorieteils erfolgt eine Einführung zu KNNs und darauf aufbauend zu GANs als Grundlage für die im weiteren Verlauf der Arbeit verwendeten Be- grifflichkeiten. Das sich anschließende Kapitel zur Methodik spezifiziert die wissenschaftliche Vorgehensweise bei der Bearbeitung des Forschungsgegenstandes. Daraufhin folgt eine Zusammenstellung zum aktuellen Stand der Technik von offensiven und defensiven Anwendungen von GANs, die sich auf die Umgehung von Schadsoftware-Detektoren beziehungsweise Erkennung von Schadprogrammen beziehen. Die Erarbeitung des aktuellen Forschungsstandes wird das Ergebnis einer Literaturrecherche zu allen verfügbaren wissenschaftlichen Artikeln sein, deren Umfang unter Berücksichtigung des thematischen Bezugs eingegrenzt wurde. Auf Grundlage dessen sollen Einschätzungen von Experten dazu beitragen, das gewonnene Lagebild einzuordnen, um daraus Potenziale und Problematiken ableiten zu können. Hierfür erfolgt mithilfe von Expertenbefragungen eine Datenerhebung, deren abschließende Evaluierung schließlich die Forschungsfrage beantworten und zu einem Ausblick hinsichtlich weiterer Entwicklungen führen soll.
Zunächst wird der Begriff Schadsoftware eingeführt und ein generischer Aufbau skizziert. Weiterhin erfolgt eine Übersicht zu etablierten Erkennungsverfahren und der Verschleierung von Schadprogrammen.
Der Begriff Schadsoftware (engl. malware, Kurzform für „malicious software“, schädliche Software) bezeichnet ein Programm, das mit dem Ziel entwickelt wird, „Daten zu zerstören, destruktive oder aufdringliche Programme auszuführen oder auf andere Weise die Vertraulichkeit, Integrität oder Verfügbarkeit der Daten, Anwendungen oder des Betriebssystems des Opfers zu gefährden“ (übersetzt aus Souppaya und Scarfone 2013, S. 2). Dabei wird allgemein zwischen folgenden Schadsoftware-Klassen unterschieden (vgl. BSI 2018, S. 13):
- Viren
- Trojanische Pferde
- Bots und Botnetze
- Würmer
- Rootkits
- Ransomware
- Spyware
- Backdoors
Moderne Varianten von Schadsoftware sind modular aufgebaut, können dynamisch angepasst werden und besitzen unterschiedliche Funktionalitäten (vgl. BSI 2018, S. 13). Der generische, klassenunabhängige Aufbau von Schadprogrammen umfasst laut Mohanta und Sadanha einige wenige Hauptkomponenten und Funktionen, die nachfolgend näher erläutert werden (vgl. Mohanta und Saldanha 2020, S. 166 ff.).
Packer Ein Packer ist ein Programm, das die Nutzdaten einer ausführbaren Datei komprimiert und zu einer neuen Datei mit veränderter Signatur packt. Dadurch soll eine Erkennung durch statische Analyseverfahren verhindert oder erschwert werden, da hierfür zunächst eine vollständige Dekomprimierung der gepackten Datei notwendig wird (vgl. Sun u. a. 2010, S. 372).
Nutzdaten Die Nutzdaten sind die wichtigste Komponente von Schadsoftware. Sie stellen die nachfolgend beschriebenen Funktionen bereit, welche die Absichten eines Angreifers umsetzen. Anhand ihrer Nutzdaten werden Schadprogramme klassifiziert (vgl. Mohanta und Saldanha 2020, S. 166).
Persistenz Mit den Funktionen zur Persistenz von Schadprogrammen soll erreicht werden, dass diese nach einem Neustart des betroffenen Betriebssystems wieder ausgeführt werden. (vgl. Gittins und Soltys 2020, S. 88).
Kommunikation Die meisten Schadprogramme sollen nach deren erfolgreichen Verteilung mit dem Angreifer kommunizieren können, um beispielsweise gestohlene Daten zu empfangen oder Befehle ausführen zu können. Die Kommunikation wird über ein Command-and-Control-System gewährleistet (vgl. Gardiner, Cova und Nagaraja 2014, S. 3).
Verbreitung Je nach Verwendungszweck beinhaltet Schadsoftware Funktionen, die eine Ausbreitung auf weitere Geräte ermöglichen, um beispielsweise eine höhere Opferzahl zu erzielen oder um zu einem Zielsystem zu gelangen, das sich an einer anderen Stelle im Netzwerk befindet (vgl. Mohanta und Saldanha 2020, S. 169).
Selbstschutz Schadsoftware soll aus Sicht des Angreifers weder als solche identifiziert, noch analysiert werden können. Dazu werden Funktionen implementiert, mit denen eine Analyseumgebung erkannt werden soll, innerhalb der die Schadsoftware ihr schadhaftes Verhalten temporär pausiert (vgl. Mo- hanta und Saldanha 2020, S. 169 f.).
Verschleierung Um nicht durch Nutzer eines infizierten Systems oder Antivirenprogramme entdeckt zu werden, bedient sich Schadsoftware einfachen Techniken wie dem Ändern von Dateieigenschaften, bis hin zu komplexeren Techniken wie dem Infizieren anderer gutartiger Programme auf dem System (vgl. Mohanta und Saldanha 2020, S. 170).
„Die Erkennung von Schadsoftware bezieht sich auf den Prozess, das Vorhandensein von Schadprogrammen auf einem System zu erkennen oder zu unterscheiden, ob ein bestimmtes Programm schadhaft oder gutartig ist“ (übersetzt aus Katzenbeisser, Kinder und Veith 2011, S. 752).
Schadsoftware-Detektor
Als Schadsoftware-Detektor wird ein Programm bezeichnet, das schadhafte Anwendungen und Funktionen identifizieren soll (vgl. Tahir 2018, S. 24). Die allgemeine Funktion D eines solchen Detektors kann wie folgt beschrieben werden (vgl. Saeed, Selamat und Abuagoub 2013, S. 27): schadhaft, wenn P Schadcode enthält D (P)= gutartig, wenn P keinen Schadcode enthält unentscheidbar, wenn P durch D nicht bestimmt werden kann Die Funktion D des Detektors überprüft eine Anwendung oder ein Programm P, um entscheiden zu können, ob es sich um ein normales Programm oder ein Schadprogramm handelt (vgl. Vinod u.a. 2009, S. 75). Der Detektor kann in ungünstigen Fällen je nach Effizienz der Funktion D falsch-positive, falsch-negative oder unentscheidbare Ergebnissen liefern (vgl. Saeed, Selamat und Abuagoub 2013, S. 27). Ein Ergebnis wird als falsch-positiv definiert, wenn ein Programm als Schadsoftware eingestuft wird, obwohl es nicht schadhaft ist. Ein falsch-negatives Ergebnis klassifiziert Schadsoftware fälschlicherweise als gutartig (vgl. Vinod u. a. 2009, S. 75). Bei neuer oder unbekannter Schadsoftware, für deren Erkennung die Klassifizierungsmethoden eines Detektors unzureichend sein können, kann eine Unent- scheidbarkeit eintreten (vgl. Saeed, Selamat und Abuagoub 2013, S. 27).
Bei der Erkennung von Schadsoftware wird zwischen drei Hauptverfahren, der signaturbasierten, verhaltensbasierten und hybrid angesetzten Erkennung, unterschieden (vgl. Jagsir Singh und Jaswinder Singh 2021, S. 1). Angesichts der Anzahl der täglich neu entwickelten und in Umlauf gebrachten Schadsoftware, ist es notwendig, diese automatisiert als solche identifizieren zu können. Aus diesem Grund kommen Verfahren des ML in Systemen zur Schadsoftware-Erkennung im großen Umfang zum Einsatz (vgl. Aryal, Gupta und Abdelsalam 2021, S. 2).
Signaturbasierte Erkennung
Der signaturbasierte Ansatz ist die häufigste Methode, die bei der SchadsoftwareErkennung eingesetzt wird (vgl. Souri und Hosseini 2018, S. 3). Für die Erstellung einer Signatur wird innerhalb einer Datei eine Reihe von Bytes oder ein Hash des Dateiinhalts verwendet. Bei der Überprüfung einer Datei wird deren Signatur mit den in einer Datenbank angelegten Signaturen von bekannter Schadsoftware verglichen. Enthält die Datenbank die gesuchte Signatur, wird die Datei als schadhaft klassifiziert (vgl. Reznik 2021, S. 219). Andere signaturbasierte Verfahren verwenden zur Identifizierung von Schadprogrammen Merkmale, die aus Programmanweisungen, Kontrollflussgraphen und mnemonischen Sequenzen ab- geleitet werden. In Abhängigkeit des jeweiligen Klassifizierungsalgorithmus werden diese extrahierten Merkmale verwendet, um die Datensätze einfacher Erkennungsmethoden zu erweitern oder um ML-basierte Schadsoftware-Detektoren zu trainieren (vgl. Jagsir Singh und Jaswinder Singh 2021, S. 6). Eine schematische Darstellung hierzu kann dem Anhang A.1 entnommen werden. Der signaturbasierte Ansatz zeichnet sich durch Schnelligkeit und Effizienz bei der Erkennung von bereits bekannten Schadprogrammen aus, ist allerdings hinsichtlich der Identifizierung neuer Varianten von Schadsoftware ungeeignet und kann leicht mit Verschleierungstechniken umgangen werden (vgl. Aslan und Samet 2020, S. 6253).
Verhaltensbasierte Erkennung
Die Begriffe heuristikbasierte und anomaliebasierte Erkennung werden teilweise synonym zur verhaltensbasierten Erkennung verwendet (vgl. Landage und Wank- hade 2013, S. 64). Bei der verhaltensbasierten Erkennung wird versucht, potenzielle Schadsoftware anhand von Verhaltensweisen mittels folgender Verfahren zu identifizieren:
- Prozessüberwachung (vgl. Sikorski und Honig 2012, S. 43 ff.)
- Überwachung von Dateiänderungen (vgl. Sikorski und Honig 2012, S. 528)
- Überwachung von Systemaufrufen (vgl. Das u. a. 2016, S. 1)
- Überwachung der Netzwerkaktivitäten (vgl. Alosefer 2012, S. 19)
- Vergleich von Registry-Snapshots (vgl. Aslan und Samet 2017, S. 1280)
Ein weiterer Ansatz ist die Verwendung von Sandbox-Umgebungen, bei dem das Laufzeitverhalten von Code in einer isolierten virtuellen Maschine analysiert wird (vgl. Sikorski und Honig 2012, S. 40 ff.). Allerdings kann eine Sandbox-Umgebung durch ein Schadprogramm erkannt werden und im Zuge dessen seine schadhaften Funktionen verschleiern, sodass eine korrekte Analyse nicht gewährleistet werden kann (vgl. Aslan und Samet 2020, S. 6258 f.). Der verhaltensbasierte Ansatz zur Schadsoftware-Erkennung bietet den Vorteil, auch bisher unbekannte oder verschleierte Schadsoftware erkennen zu können (vgl. Souri und Hosseini 2018, S. 5). Im Gegensatz zu signaturbasierten Erkennungsverfahren sind diese Verfahren allerdings ressourcenintensiv und komplex (vgl. Souri und Hosseini 2018, S. 14). Eine schematische Abbildung ist im Anhang A.2 dargestellt.
Hybrider Ansatz zur Erkennung
Die signatur- und verhaltensbasierten Techniken bieten spezifische Vor- und Nachteile. Beim hybriden Ansatz zur Erkennung von Schadsoftware werden Elemente beider Verfahren genutzt, um die jeweiligen Nachteile zu kompensieren (vgl. Jag- sir Singh und Jaswinder Singh 2021, S. 13). Eine schematische Darstellung hierzu kann dem Anhang A.3 entnommen werden.
Entwickler von Schadprogrammen nutzen Verschleierungstechniken, um Code zu verbergen und schwer rekonstruierbar zu machen, damit dessen schadhafte Funktionen unentdeckt bleiben (vgl. Vinod u. a. 2009, S. 76).
Allgemein kann ein Verschleierungsprozess wie folgt beschrieben werden. Gegeben seien ein Programm P und eine Transformationsfunktion T, die P in ein Programm P' mit folgenden Eigenschaften überführt (vgl. Vinod u. a. 2009, S. 76):
- P lässt sich schwer aus P' rekonstruieren
- P' enthält die Funktionalität von P
- P' verhält sich vergleichbar mit P
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2.1.: Verschleierung von Schadsoftware (entnommen aus Vinod u. a. 2009)
Etablierte Verschleierungstechniken zur Erzeugung eines Programms P' werden anhand der folgenden Hauptkategorien eingeordnet (vgl. You und Yim 2010, S. 298 f.).
Einfügen von totem Code Beim Einfügen von „totem“ Code werden einem Programm ineffektive Anweisungen hinzugefügt, um dessen Erscheinungsbild zu ändern (vgl. Balakrishnan und Schulze 2005, S. 8).
Ersetzung von Befehlen Bei dieser Technik werden Anweisungen bei jeder Generation der Schadsoftware durch andere Anweisungen ersetzt, die dieselbe Funktion beihalten (vgl. Konstantinou und Wolthusen 2008, S. 42).
Neuzuweisung von Registern Diese Technik weist Register bei jeder Generation der Schadsoftware neu zu, ohne den Programmcode zu ändern (vgl. Kon- stantinou und Wolthusen 2008, S. 39 f.).
Neuanordnung von Subroutinen Ein Satz von Anweisungen wird bei dieser Technik so permutiert, dass sich der Code in seinem Aussehen ändert (vgl. Wong und Stamp 2006, S. 4).
Code-Transposition Die Code-Transposition ordnet die Reihenfolge der Anweisungen eines Originalcodes neu an. Es existieren zwei Methoden, um diese Technik zu erreichen (vgl. Christodorescu und Jha 2004, S. 6):
- Die Anweisungen werden zufällig gemischt; anschließend wird die ursprüngliche Ausführungsreihenfolge wiederhergestellt, indem Verzweigungen oder Sprünge einfügt werden.
- Er werden Anweisungen, die unabhängig sind und keinen Einfluss auf andere Anweisungen haben, ausgewählt und neu angeordnet.
Code-Integration Bei der Code-Integration fügt sich eine Schadsoftware in den Code ihres Zielprogramms ein (vgl. Konstantinou und Wolthusen 2008, S. 43).
In den nachfolgenden Unterkapiteln wird ein Überblick zu ML hinsichtlich der Schadsoftware-Erkennung und deren Umgehung thematisiert. Dabei wird auf das Bedrohungsmodell und die Übertragbarkeit von Umgehungsangriffen eingegangen.
„ML ist ein Teilgebiet der Künstlichen Intelligenz, das die Untersuchung von Algorithmen umfasst, die in der Lage sind, sich automatisch durch Erfahrung zu verbessern, um Probleme ohne externe Anweisungen zu lösen, indem zuvor trainierte Modelle verwendet werden“ (übersetzt aus Reznik 2021, S. 35). Ein Modell wird durch Training mit einem Satz von Datenpunkten erstellt, um Vorhersagen auf Grundlage der Lösung von Klassifizierungs-, Clustering- oder Regressionsaufgaben treffen zu können (vgl. Thomas, Vijayaraghavan und Emmanuel 2020, S. 4). Die Genauigkeit eines Modells bei der Schadsoftware-Erkennung kann er- höht werden, indem eine Vielzahl an Merkmalen von Schadprogrammen und gutartigen Anwendungen zum Training verwendet werden (vgl. McLaughlin u. a. 2017, S. 305). Abbildung 2.2 veranschaulicht die grundlegende Architektur von ML- basierten Klassifikatoren im Kontext der Schadsoftware-Erkennung. Während der Analyse werden erste Merkmale extrahiert. Anschließend erfolgt die Merkmalsauswahl und -darstellung, auf deren Grundlage das Training durchgeführt wird.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2.2.: Schematische Darstellung von Schadsoftware-Erkennung mittels
ML (entnommen aus Jagsir Singh und Jaswinder Singh 2021)
Nach Singh und Singh bietet der Einsatz von ML folgende Vorteile (vgl. Jagsir Singh und Jaswinder Singh 2021, S. 4):
- Vorhandene Virenschutz- und Sandbox-Techniken können ergänzt werden
- Die Gewinnung von Erkenntnissen aus Schadsoftware wird automatisiert
- Unbekannte Varianten von Schadprogrammen können besser verallgemeinert werden
- Der durch Menschen benötigte Aufwand und die Zeit zur Analyse von Schadsoftware kann reduziert werden
Allerdings bringt der Einsatz von ML die Herausforderung mit sich, dass die Klassifikatoren trotz der Fähigkeit zur Generalisierung häufig aktualisiert oder neu trainiert werden müssen, um neue Schadsoftware erkennen zu können. Aus diesem Grund ist ML im Vergleich zu anderen Verfahren rechen- und zeitintensiv (vgl. Jagsir Singh und Jaswinder Singh 2021, S. 5 f.). Ein weiteres Problemfeld sind Umgehungsangriffe, die im nächsten Unterkapitel erläutert werden.
Umgehungsangriffe sind Manipulationsversuche, die während der Testphase und ohne Veränderung eines ML-Klassifikators durchgeführt werden, bei denen ein Angreifer darauf abzielt, mit manipulierten Eingabedaten einen Klassifizierungsfehler zu erzeugen (vgl. Muñoz-González und Lupu 2019, S. 67). Diese manipulierten Eingabedaten werden auch als adversariale Beispiele bezeichnet (vgl. I. J. Goodfellow, Shlens und Szegedy 2014, S. 1). Dabei werden bestimmte Bereiche des Merkmalsraums eines ML-Modells ausgenutzt, um im Falle der SchadsoftwareErkennung eine Fehlklassifizierung zu erzeugen, die Schadprogramme als gutartig einstuft (vgl. Anderson 2017, S. 1). Es wird zwischen zwei verschiedenen Szenarien unterschieden (vgl. Muñoz-González und Lupu 2019, S. 67):
- Das Ausnutzen von Bereichen des Merkmalsraums, deren Punkte sich deutlich von denen unterscheiden, die während des Trainings des ML-Algorithmus verwendet wurden. Diese Angriffe können jedoch leicht durch eine Datenvorfilterung oder durch die Erkennung von Ausreißern abgewehrt werden.
- Das Ausnutzen von Bereichen des Merkmalsraums, für die sich die erlernte Entscheidungsgrenze von der realen, jedoch unbekannten Entscheidungsgrenze unterscheidet, welche die Klassen optimal voneinander trennt. Diese Möglichkeit besteht, da die Anzahl der zum Trainieren des ML-Algorithmus verwendeten Merkmale endlich ist oder das jeweilige Klassifizierungsproblem zu komplex ist.
Bedrohungsmodell
Die Möglichkeiten eines Angreifers zum Umgehen eines ML-Modells hängen von seinen Zielen und den Informationen ab, die er über ein solches Modell besitzt (vgl. Yin, Liu und Chawla 2019, S. 2). Abbildung 2.3 zeigt die entsprechenden Schwierigkeitsgrade eines Umgehungsangriffes aus Sicht eines Angreifers hinsichtlich
Abbildung in dieser Leseprobe nicht enthalten
Die Komplexität der Angriffsziele, dargestellt auf der horizontalen Achse in Abbildung 2.3, kann nach Papernot u.a. folgendermaßen eingestuft werden (vgl. Papernot, McDaniel, Jha u. a. 2015, S. 3):
1. Reduzierung der Klassifizierungsgenauigkeit Hierbei wird versucht, die Genauigkeit zu reduzieren, mit der ein Klassifikator eine Eingabe einer bestimmten Klasse zuordnet.
2. Fehlklassifizierung Bei der einfachen Fehlklassifizierung wird versucht, ein Modell dazu zu verleiten, eine Eingabe als eine beliebig andere Klasse einzustufen als die ursprüngliche Klasse.
3. Gezielte Fehlklassifizierung Ziel ist es hierbei, eine Klassifizierung der Eingabe zu einer bestimmten Klasse zu erzwingen, die sich von der ursprünglichen Klasse der Eingabe unterscheidet.
4. Fehlklassifizierung von Eingabe und Ausgabe Hierbei wird versucht, eine Klassifizierung einer spezifischen Eingabe in eine bestimmte Zielklasse, die sich von der ursprünglichen Klasse unterscheidet, zu erzwingen.
Die vertikale Achse in Abbildung 2.3 zeigt die verschiedenen Stufen des zur Verfügung stehenden Modell- und Datenwissens. Ein Umgehungsangriff wird schwerer, wenn die Menge an verfügbarer Information abnimmt. Papernot u.a. spezifizieren diese Einstufung wie folgt (vgl. Papernot, McDaniel, Jha u. a. 2015, S.3):
1. Kenntnisse über Modellarchitektur und Trainingsdaten Der Angreifer hat umfangreiche Kenntnisse über das Modell F, den Trainingsdatensatz T und die Verlustfunktion c.
2. Kenntnisse über Modellarchitektur Hier hat der Angreifer lediglich Kenntnisse über die Modellarchitektur F.
3. Kenntnisse über den Trainingsdatensatz Der Angreifer hat nur Kenntnisse über den Trainingsdatensatz T oder vergleichbare Ersatzdaten. Hiermit ist beispielsweise das Training eines Ersatzmodells möglich, mit dem sich an das anzugreifende Modell F angenähert werden kann.
4. Orakel In diesem Fall hat der Angreifer keine Informationen zum Modell F und dessen Trainingsdaten T. Allerdings hat er Zugriff auf die Ausgabeklassifikation y einer bestimmten Eingabe x, deren Beziehung er für seine Zwecke analysieren kann.
5. Zugriff auf einzelne Proben Der Angreifer ist in der Lage, Paare von Eingaben und Ausgaben {(x, y)} zu sammeln, kann jedoch weder Eingaben x in das Modell F tätigen, noch resultierende Ausgaben y analysieren.
Umgehungsangriffe, die auf Grundlage von Kenntnissen über die jeweilige Modellarchitektur durchgeführt werden, bezeichnet man als White-Box-Angriffe (vgl. Yin, Liu und Chawla 2019, S. 4). Aktuelle Forschungen zu Angriffen auf White- Box-Modelle beschreiben sehr hohe Erfolgsquoten (vgl. Aryal, Gupta und Abdel- salam 2021, S. 14). Erlangt ein Angreifer keinen Zugriff auf die Modellarchitektur oder deren Parameter, stellt sich ihm das Modell als sogenannte Black-Box dar, bei dem die Parameter des Modells experimentell erraten werden müssen (vgl. Yin, Liu und Chawla 2019, S. 4). Die Durchführung von Black-Box-Angriffen entspricht eher realen Szenarien, da ein Angreifer in den wenigsten Fällen umfangreiche Kenntnisse zum Zielmodell hat (vgl. Aryal, Gupta und Abdelsalam 2021, S. 14). Aufgrund der Tatsache, dass adversariale Beispiele von erfolgreichen Umgehungsangriffen auf andere ML-Modelle anwendbar sind, kann die Durchführung von Black-Box-Angriffen aus Sicht eines Angreifers dennoch zielführend sein (vgl. X. Yuan u. a. 2017, S. 4).
Übertragbarkeit von adversarialen Beispielen
Die Übertragbarkeit von adversarialen Beispielen beschreibt die Möglichkeit, mittels manipulierter Eingabedaten, die ursprünglich bei einem ML-Modell F zu einer Fehlklassifizierung führten, für ein Modell F ' ebenfalls eine Fehlklassifizierung zu erreichen, selbst wenn sich deren Architekturen stark unterscheiden (vgl. Papernot, McDaniel und I. Goodfellow 2016, S. 1). Dies ist deshalb möglich, da der Abstand der Entscheidungsgrenze eines Modells zur realen Entscheidungsgrenze durchschnittlich größer ist als der von den Entscheidungsgrenzen zwischen zwei verschiedenen Modellen (vgl. Tramèr u. a. 2017, S. 2). Dabei ist der Einsatz ungerichteter adversarialer Beispiele bei einer Umgehung effizienter als der von zielgerichteten (vgl. X. Yuan u. a. 2017, S. 16). Unter Verwendung eines Ersatzmodells zum Generieren von adversarialen Beispielen kann ein Angreifer trotz eingeschränkter Informationslage über das Zielmodell Umgehungsangriffe durchführen (vgl. Papernot, McDaniel und I. Goodfellow 2016, S. 1).
Dieses Kapitel soll die Grundlagen und Funktionsweise zu GANs vermitteln. Dazu werden zunächst KNNs und die damit zusammenhängenden Begriffe eingeführt, auf denen die Theorie von GANs aufbaut.
Der Einsatz von KNNs ist ein Anwendungsgebiet innerhalb des ML, bei dem anhand des Trainings eines mehrschichtigen Modells das Ziel verfolgt wird, eine Funktion f *(x ) = y zu approximieren, sodass die Eingabe x einer Kategorie y zugeordnet wird (vgl. I. Goodfellow, Bengio und Courville 2016, S. 164). Ein KNN f kann als Verkettung f = fn ◦ •••◦ f ◦ ··· ◦ f 1 der Funktionen f = f 1, f1,..., fn beschrieben werden, die als Schichten bezeichnet werden. Dabei wird die erste Schicht f 1 als Eingabeschicht und die letzte Schicht fn als Ausgabeschicht des Modells bezeichnet. Schichten fi, die zwischen der Ein- und Ausgabeschicht angeordnet sind, werden als verborgene Schichten bezeichnet. Die Anzahl der Funktionen gibt die Tiefe eines Modells an (vgl. I. Goodfellow, Bengio und Courville 2016, S. 165). Abbildung 2.4 stellt den schematischen Aufbau eines solchen KNN dar.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2.4.: Beispiel eines KNN mit mehreren vollständig verbundenen Schichten (entnommen aus Silva u. a. 2016)
Die Schichten eines KNN setzen sich aus einer Menge von als künstliche Neuronen bezeichneten Knoten zusammen, die durch gerichtete Verknüpfungen miteinander verbunden sind. Die Verknüpfung zwischen einem Neuron i und einem Neuron j dient dazu, die Aktivierung a i von i nach j weiterzuleiten. Dabei ist jeder Verknüpfung ein numerisches Gewicht w i, j zugeordnet, das die Intensität und das Vorzeichen der Verknüpfung angibt (vgl. Russel und Norvig 2012, S. 846).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2.5.: Schematische Darstellung eines künstlichen Neurons (entnommen aus Russel und Norvig 2012)
Für jedes Neuron j wird die gewichtete Summe seiner Eingaben nach folgender Formel berechnet (vgl. Russel und Norvig 2012, S. 847):
Abbildung in dieser Leseprobe nicht enthalten
Anschließend wird eine Aktivierungsfunktion g auf die errechnete Summe angewendet, um die Ausgabe a j des Neurons zu bestimmen (vgl. Russel und Norvig 2012, S. 847):
Abbildung in dieser Leseprobe nicht enthalten
Innerhalb eines KNN besteht die Möglichkeit, die Ergebnisse vorheriger Berechnungen zu speichern und die dabei verwendeten Gewichte anzupassen. Diese Fähigkeit ermöglicht den künstlichen Neuronen eine Änderung ihres Verhaltens als Reaktion auf erhaltene Eingaben, wodurch ein Lernprozess stattfindet (vgl. Reznik 2021, S. 45). Für einen derartigen Optimierungsprozess kann eine große Anzahl an Trainingsdaten benötigt werden, was bei deren mangelnder Verfügbarkeit den Einsatz von Verfahren zur Datensatzerweiterung zweckdienlich macht (vgl. I. Goodfellow, Bengio und Courville 2016, S. 236). Mit den nachfolgend detaillierter beschriebenen GANs ist dies beispielsweise möglich.
GANs wurden erstmals im Jahre 2014 beschrieben (vgl. I. J. Goodfellow, Pouget- Abadie u. a. 2014). Hierbei handelt es sich um zwei KNNs, die in gegenseitiger Konkurrenz ein Nullsummenspiel austragen. Dabei agiert ein KNN als ein Generator G, der aus einem eingehenden Zufallsrauschen z ~ pz ( z ) versucht, synthetische Daten G (z) zu erstellen, die wie Stichproben aus einer echten Datenverteilung x ~ p data(x) wirken sollen, mit der das GAN im Vorfeld trainiert wurde. Das andere KNN verhält sich als ein Diskriminator D, der als Eingabe entweder synthetische Daten G (z) oder echte Daten x erhält. Die Aufgabe von D ist es, als Ausgabe zu berechnen, mit welcher Wahrscheinlichkeit D (x) die Eingabe aus der echten Verteilung x und somit nicht von G stammt. Dabei beschreibt D (G (z)) die Wahrscheinlichkeit, dass ein generiertes Beispiel echt ist. Auf Grundlage dieses Ausgangswertes werden beide KNNs angepasst, was zur Folge hat, dass D und G effizienter werden (vgl. I. Goodfellow, Bengio und Courville 2016, S. 696 f.). Das Training der beiden KNNs wird anhand folgender Zielfunktion beschrieben:
Abbildung in dieser Leseprobe nicht enthalten
Dabei zielt G darauf ab, für D (G (z) ) einen möglichst hohen Wert zu erreichen, so- dasslog(1- D (G (z))) möglichstkleinausfällt.Gleichzeitigwirdvon D versucht, x und G (z) korrekt zu klassifizieren. Nach einer bestimmten Anzahl an Trainigsepo- chen wird zwischen D und G ein Nash-Gleichgewicht erreicht, sodass ab diesem Punkt keine Verbesserung mehr möglich ist. In diesem Fall entspricht D ( x ) = 1 (vgl. I. Goodfellow, Bengio und Courville 2016, S. 697).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2.6.: Architektur eines GAN (entnommen aus Vint u. a. 2021)
Nach Gläser und Laudel sind die theoretischen und strategischen Vorüberlegungen entscheidend für die Qualität einer empirischen Untersuchung (vgl. Gläser und Laudel 2009, S. 61). Demnach erfolgen in diesem Kapitel Überlegungen zur Vorgehensweise des Forschungsteils, die letztlich unter Einhaltung der Gütekriterien zur Beantwortung der Forschungsfrage führen sollen.
Da sich die Forschungsfrage dieser Arbeit nicht experimentell oder durch allgemeine Umfragen beantworten lässt, erfolgt die Anwendung einer qualitativen Methodik. Eine Forschung, bei der qualitative Methoden verwendet werden, zeichnet sich durch eine induktive und theoriegenerierende Arbeitsweise bei der Untersu- chug zu Kausalmechanismen aus (vgl. Gläser und Laudel 2009, S. 26). Es wird eine möglichst genaue, lückenlose und vielseitige Darstellung des Forschungsgegenstands angestrebt, die praktische Problemstellungen aufgreift und deren Ergebnisse auf die Realität bezieht (vgl. Reinders u. a. 2015, S. 120). Zudem zeichnen sich qualitative Methoden durch ein hohes Maß an Offenheit gegenüber dem Forschungsgegenstand aus, wodurch die Datenerhebung nur durch wenige Vorgaben limitiert wird (vgl. Reinders u. a. 2015, S. 54). Das Ziel qualitativer Forschung ist das Verständnis subjektiver Bedeutungen und die Herausarbeitung von Sinnzusammenhängen durch Auslegung und Interpretation der erhobenen Daten (vgl. Reinders u. a. 2015, S. 120). Für die Datenerhebung in dieser Arbeit werden diesbezüglich leitfadengestützte Expertenbefragungen durchgeführt, die induktiv aus zuvor aufgestellten Hypothesen formuliert und mittels qualitativer Inhaltsanalyse ausgewertet und interpretiert werden.
Anhand von Gütekriterien wird die Qualität von Forschungsergebnissen abgesichert. Reinders u.a. definieren für die qualitative Forschung die nachfolgend aufgeführten spezifischen Gütekriterien, die auch in dieser Arbeit Beachtung finden und in den entsprechenden Verfahrensschritten angewendet werden (vgl. Reinders u. a. 2015, S. 126).
Verfahrensdokumentation Der Forschungsprozess und dessen Methodik ist zur Gewährleistung der Nachvollziehbarkeit so genau wie möglich zu dokumentieren.
Regelgeleitetheit Eine systematische und nachvollziehbare Vorgehensweise sowie das Festlegen von Verfahrensregeln muss trotz der Offenheit gegenüber dem Forschungsgegenstand eingehalten werden.
Intercoder-Reliabilität Die Interpretation erhobener Daten muss zu einer Übereinstimmung zwischen verschiedenen Auswertern führen. Dies gelingt durch Beachtung der Stabilität, Reproduzierbarkeit und Exaktheit im Forschungsprozess.
Kommunikative Validierung Anhand der Diskussion der Forschungsergebnisse mit den Forschungsteilnehmern können Interpretationen und die Gültigkeit der ermittelten Ergebnisse überprüft werden.
Methodentriangulation Die Kombination qualitativer und quantitativer Analyseansätze kann Schwächen der jeweiligen Einzelmethoden ausgleichen und ist daher vorzuziehen. Somit kann der Untersuchungsgegenstand aus unterschiedlichen Perspektiven betrachtet werden, was zu einem erweiterten Erkenntnishorizont führen kann.
Die Ausarbeitung eines Leitfadens und die Durchführung einer Expertenbefragung setzen eine vorangestellte Aufarbeitung des Forschungsstandes des zu untersuchenden Themenkomplexes voraus (vgl. Kaiser 2015, S. 55). Dabei ist das akkumulierte Vorwissen so zu organisieren, dass es die Untersuchung anleiten kann (vgl. Gläser und Laudel 2009, S. 77). Hierfür bietet sich die systematsiche Literaturrecherche an, bei der unter Beachtung von im Vorfeld definierten Kriterien alle publizierten wissenschaftlichen Arbeiten eines Untersuchungsgegenstandes einbezogen werden. Dabei werden die methodische Qualität und die Intension einer Publikation beurteilt und die einzelnen Ergebnisse der Studien miteinander verglichen (vgl. Klug, Ressing und Blettner 2009, S. 457). Zur Durchführung der in dieser Arbeit durchgeführten Literaturrecherche wird eine Strategie definiert, die beschreibt, anhand welcher Kriterien und mittels welcher Schlagworte in den festgelegten Quellen nach Literatur gesucht wird. Nähere Ausführungen hierzu erfolgen im entsprechenden Kapitel. Das Ziel der Literaturrecherche ist die Aufstellung von Hypothesen, aus denen Fragestellungen für die Expertenbefragungen abgeleitet werden sollen.
Expertenbefragungen
Zur Beantwortung der Forschungsfrage werden qualitative Expertenbefragungen durchgeführt, da aufgrund der begrenzten Perspektiven der bisherigen Forschung und Komplexität des Themengebietes exklusives Wissen von entsprechendem Fachpersonal erschlossen werden muss. Dabei erfolgt die Auswahl der Fragen und die Auswertung der Antworten systematisch im Hinblick auf die Forschungsfrage (vgl. Reinders u.a. 2015, S. 94).
Die Planung, Durchführung und Auswertung des Experteninterviews wird angelehnt an Kaiser folgende Phasen durchlaufen (Auswahl) (vgl. Kaiser 2015, S. 6):
1. Entwicklung des Interviewleitfadens
2. Pre-Test des Interviewleitfadens
3. Auswahl und Kontaktierung der Interviewpartner
4. Durchführung des Experteninterviews
5. Sicherung der Ergebnisse
6. Kodierung des Textmaterials
7. Identifikation der Kernaussagen
8. Erweiterung der Datenbasis
9. Theoriegeleitete Generalisierung und Interpretation
Die einzelnen Phasen setzen sich aus einer Reihe von Arbeitsschritten zusammen, die der wissenschaftlichen Methodik unterliegen. Als erstes erfolgt die Erstellung eines Befragungsleitfadens, der zentrale Inhalte der Forschungsfrage erfasst und eine Erhebung in der Befragungssituation zugänglich macht (vgl. Reinders u. a. 2015, S. 103). Die aus der Literaturrecherche abgeleiteten Hypothesen sollen hierfür die Grundlage bilden. Als Ergebnis entsteht ein Fragebogen, der einem Pre-Test unterzogen wird, um vorab zu überprüfen, ob die angestrebten Ziele der Befragung auch erreicht werden können (vgl. Schnell 2019, S. 123). Anschließend werden Experten nachvollziehbar ausgewählt und kontaktiert, die für eine Untersuchung in Frage kommen. Im Gegensatz zum Verhalten und zu den Reaktionen der Befragten innerhalb der Befragungssituation liegt das Interesse auf der Gewinnung von Informationen zum Forschungsgegenstand. Daher eröffnet sich die Möglichkeit einer schriftlichen Befragung via EMail, wodurch gleichzeitig die Objektivität gewährleistet wird. Die Aufarbeitung der Ergebnisse anhand einer qualitativen Inhaltsanalyse führen zu einer Erweiterung der Datenbasis, die den Ausgangspunkt für eine Interpretation und Diskussion hinsichtlich der Forschungsfrage bildet.
Die Entwicklung eines Leitfadens zur Durchführung der Expertenbefragungen dient einerseits der Systematisierung des Themenfeldes zum Untersuchungsgegenstand und andererseits als konkretes Hilfsmittel während der Befragungen (vgl. Bogner, Littig und Menz 2014, S. 27). Die Leitfadenkonstruktion beinhaltet folgende Schritte (vgl. Bogner, Littig und Menz 2014, S. 32 ff.):
1. Sammlung und Systematisierung der Forschungsfragen und Hypothesen
2. Methodenspezifizierung
3. Gruppierung der Fragen und Hypothesen in Themenblöcke
4. Entwurf von Leitfadenfragen, die bei den Interviews verwendet werden
5. Differenzierung und Systematisierung der Leitfadenfragen
6. Durchführung eines Pretests
Eine Sammlung der Hypothesen erfolgt im Anschluss an die Literaturrecherche. Zusammen mit der Forschungsfrage bilden diese die Grundlage für die Erstellung der Leitfadenfragen. Dabei werden zur Systematisierung Themenblöcke mit unmittelbarem Bezug auf die Forschungsfrage definiert, die den aktuellen und zukünftigen Einsatz von GANs anhand ihrer Nutzungspotenziale und Herausforderungen aus Sicht der Entwickler von Sicherheitslösungen behandeln. Demnach erfolgt zunächst die Festlegung auf eine Betrachtung der Nutzungspotenziale und Herausforderungen, die im Folgenden die beiden hauptsächlichen Themenblöcke bilden. Diese werden weiter unterteilt, um gezielt auf aktuelle und zukünftige Sachverhalte eingehen zu können. Innerhalb der Vorbemerkungen werden Metainformationen mit aufgenommen, die allgemeine Beschreibungen zum Leitfaden und den Befragungsdaten enthalten. Dies betrifft Angaben zum Befragungsthema, zur Forschungsfrage, zur Expertenauswahl und zum Befragungszeitraum. Zudem werden Einstiegs- und Ausstiegsfragen implementiert, um einerseits die Experten durch eine Abfrage ihrer zeitlichen Erfahrung mit dem Untersuchungsgegenstand nicht unmittelbar mit dem Hauptteil des Fragenkatalogs zu konfrontieren. Anderer-
seits sollen die Ausstiegsfragen zu einer Diskussion anregen und die Möglichkeit bieten, weitere Gegebenheiten zu beleuchten. Der Aufbau des Leitfadens stellt sich wie folgt dar:
- Vorbemerkungen
- Einstiegsfragen
- Aktuelle Nutzungspotenziale
- Zukünftige Nutzungspotenziale
- Aktuelle Herausforderungen
- Zukünftige Herausforderungen
- Ausstiegsfragen
Zur Ableitung konkreter Fragen aus den Hypothesen und der Forschungsfrage soll zunächst überlegt werden, wie sich deren Inhalte in zielführende Fragestellungen überführen lassen. Dabei sollte die Gewährleistung der Offenheit sichergestellt und eine Gewinnung aktueller und zukünftiger Einschätzungen sowie zusätzlicher Informationen möglich gemacht werden. Die ausgearbeiteten Fragen werden den entsprechenden Themenblöcken zugeordnet und sollen je nach Inhalt der jeweiligen Antwort, mehrere Hypothesen gleichzeitig verifizieren oder falsifizieren können. Demnach erfolgt anhand des jeweiligen Index eine Mehrfachzuordnung der Hypothesen zu den Fragen. Nach der Fertigstellung des Leitfadens wird ein Pretest durchgeführt, der folgende Tätigkeiten nach Schnell umfasst (Auswahl) (vgl. Schnell 2019, S. 123) :
- Überprüfung des Verständnisses der Fragen durch den Befragten
- Überprüfung des Interesses des Befragten an den Fragen
- Überprüfung der Kontinuität des Interviewablaufs
- Überprüfung der Wirkung der Strukturierung des Erhebungsinstruments
- Überprüfung der Dauer der Befragung
Der ausgearbeitete Leitfaden istim Anhang unterA.4 dargestellt.
Die nachvollziehbare Auswahl der Experten bedarf folgender Vorüberlegungen (vgl. Gläser und Laudel 2009, S. 117):
- Welcher Experte verfügt über die relevanten Informationen?
- Welcher dieser Experten ist am ehesten in der Lage, präzise Informationen zu geben?
- Welcher dieser Experten ist am ehesten bereit und verfügbar, um diese Informationen zu geben?
Da sich der Untersuchungsgegenstand innerhalb eines neuen und sehr speziellen Forschungsfeldes befindet, ist die Verfügbarkeit von Experten überschaubar. Der Fokus richtet sich hierbei auf Personen, die sich aufgrund ihrer Forschungsarbeiten bzw. Arbeitstätigkeiten sowohl mit Schadsoftware als auch mit GANs beschäftigen. Zudem liegt das Hauptaugenmerk auf aktuelle und zukünftige Entwicklungen in der praktischen Anwendung von GANs bei der Schadsoftware-Erkennung, die vorrangig für Entwickler von IT-Sicherheitslösungen von Interesse sind. Von daher wurde der Adressatenkreis für die Expertenbefragung auf zwei Personengruppen festgelegt: Zum einen wurden die Forscher betrachtet, die bereits wissenschaftliche Artikel innerhalb des Forschungsfeldes veröffentlicht haben und zum anderen Experten in Unternehmen, die der Branche der Herstellung von IT- Sicherheitslösungen, vorzugsweise im Bereich der Schadsoftware-Erkennung, zuzuordnen sind. Für diese Personengruppen kann zudem angenommen werden, dass sie am ehesten in der Lage sind, präzise Informationen zum Sachverhalt zu geben. Dabei ist die zeitliche Verfügbarkeit und Auskunftsbereitschaft der mutmaßlichen Experten zunächst ungewiss und kann durch die Art und Weise der Kontaktierung und der Argumentation darüber, welcher wissenschaftlicher Beitrag mithilfe der geleisteten Antworten erbracht wird, beeinflusst werden (vgl. Bogner, Littig und Menz 2014, S. 38 f.).
Die Kontaktierung der Forscher erfolgte direkt unter den in den wissenschaftlichen Artikeln veröffentlichten E-Mail-Adressen. Zur Kontaktaufnahme mit den Experten in den Unternehmen wurde zunächst die Presseabteilung per E-Mail angeschrieben, da einerseits direkte Kontaktmöglichkeiten mit einzelnen Mitarbeitern mangels veröffentlichter E-Mail-Adresse nicht vorhanden waren und um andererseits die Berechtigung für die Befragung sicherzustellen. Das Anschreiben enthielt Informationen über das Forschungsthema, die Verwertung der Datenerhebung innerhalb dieser Bachelorarbeit, die Notwendigkeit der Expertenbefragung, den Ablauf der Durchführung und den Zeitansatz, die Wichtigkeit einer Teilnahme und die Anonymisierung der Daten. Dabei unterschieden sich die Anschreiben zwischen den beiden Personengruppen minimal hinsichtlich der Adressierung einer Einzelperson oder eines Unternehmens. Der Durchführungszeitraum der Befragung wurde vom 06.02.2023 bis zum 19.02.2023 festgelegt. Von den insgesamt 67 angeschriebenen Forschern sagten zwei der Teilnahme an der Befragung zu, während drei von insgesamt 15 kontaktierten Unternehmen mit der Befragung einverstanden waren. In den meisten Fällen erfolgte trotz wiederholter Nachfrage keine Antwort.
Nachdem einer Teilnahme an der Expertenbefragung zugesagt wurde, erhielten die Adressaten die Fragebögen inklusive eines Begleitschreibens, das inhaltlich an das Anfrageschreiben angelehnt ist und zusätzliche Hinweise zur Beantwortung der Fragen enthält.
Die Aufbereitung und Auswertung der erhaltenen Antworten wird anhand einer qualitativen Inhaltsanalyse durchgeführt. Diese zeichnet sich durch die Vorbereitung und Durchführung einer Extraktion der Rohdaten, deren Aufbereitung und der abschließenden Auswertung aus (vgl. Gläser und Laudel 2009, S. 202).
Transkription der Antworten
Zunächst mussten die erhobenen Daten transkribiert werden, um ein einheitliches Format als Grundlage für die nachfolgenden Arbeitsschritte vorzubereiten. Dabei wurden die in Textform vorliegenden Antworten in die Standardorthographie überführt, triviale Formulierungen eliminiert und fremdsprachige Ausführungen übersetzt. Die entstandenen Transkriptionen folgen einem Schema, bei dem die gegebenen Antworten den jeweiligen Fragen und Experten mittels eines Index zugeordnet sind, um ein übersichtlicheres Referenzieren während der Auswertung der Daten und der Diskussion der Ergebnisse zu ermöglichen. Diese Kodierung der Fragen und deren zugehörigen Antworten wurden anhand der entsprechenden Nummerierung im Fragebogen vorgenommen, wobei Fragen mit einem vorangestelltem F und Antworten mit dem Index des jeweiligen Experten und einem A versehen wurden. Die Experten werden am Anfang des entsprechenden Transkriptes kurz anonym beschrieben. Die Transkripte sind dem Anhang unter A.5 nacheinander beigefügt.
Extraktion und Aufbereitung der relevanten Inhalte
Den Hauptbestandteil der Datenaufbereitung stellt die Extraktion dar, bei der anhand eines aus den theoretischen Vorüberlegungen und Hypothesen abgeleiteten Kategoriesystems den Transkripten die zur Beantwortung der Forschungsfrage benötigten Informationen entnommen werden (vgl. Gläser und Laudel 2009, S. 200 f.). Die Kategorien beziehen sich auf vermutete Einflussfaktoren, die eine Nutzung von GANs bei der Schadsoftware-Erkennung begünstigen oder einschränken könnten und ermöglichen eine Mehrfachzuordnung von Textsegmenten, wenn getätigte Aussagen Aufschluss über mehrere Sachverhalte gleichzeitig geben. Die Kategorisierung wurde unter Verwendung weiterer Unterkategorien festgelegt und thematisiert folgende Themenfelder:
- Die praktische Anwendbarkeit von GANs und Faktoren zu deren Begünstigung oder Einschränkung
- Die Leistung von GANs hinsichtlich der Verbesserung von SchadsoftwareDetektoren bezogen auf mögliche Steigerungen, Einschränkungen und dem Vergleich mit bestehenden Ansätzen
- Verschiedene Anwendungsmöglichkeiten von GANs im Kontext der Erkennung von Schadsoftware
- Die aktuelle und zukünftige Anwendung und Berücksichtigung von GANs bei Entwicklungen
- Die aktuelle und zukünftige kriminelle Nutzung von GANs sowie deren Begünstigungen, Einschränkungen und Gegenmaßnahmen
- Die Auswirkungen einer Verwendung von GANs auf das Tätigkeitsprofil von Experten
Das aufgestellte Kategoriesystem, bestehend aus Haupt- und Unterkategorien, ist im Anhang unter A.6 hierarchisch dargestellt.
Die Zuordnung der relevanten Inhalte aus den Transkripten zu den jeweiligen Kategorien erfolgte unter Zuhilfenahme der Webanwendung QCAmap, die eine systematische Textanalyse in wissenschaftlichen Projekten auf Basis der Techniken der qualitativen Inhaltsanalyse ermöglicht. Dazu wurden die Transkripte in die Anwendung importiert und iterativ hinsichtlich der einzelnen Kategorien untersucht. Passte ein Textsegment in eine oder mehrere Kategorien, wurde eine entsprechende Markierung vorgenommen. Die unter den Kategorien subsummierten Aussagen wurden im nächsten Arbeitsschritt bei Bedarf so aufgearbeitet und ergänzt, dass der Kontext zur jeweiligen Frage beziehungsweise zum ursprünglichen Sachverhalt ersichtlich wurde. Als Ergebnis entstanden zu jeder Unterkategorie die im Anhang unter A.7 aufgeführten Tabellen.
Darauf aufbauend wurde anhand der Tabellen im Anhang unter A.8 die eigentliche Extraktion der Informationen aus den berichteten Sachverhalten, Meinungen und Erfahrungen vorgenommen, indem diese nach Gläser und Laudel hinsichtlich ihrer Ursachen und der daraus abgeleiteten Wirkungen auf den Untersuchungsgegenstand betrachtet wurden (vgl. Gläser und Laudel 2009, S. 209). Hierfür wurden Textsegmente gestrichen, wenn die verschiedenen Experten zu einem bestimmten Sachverhalt inhaltlich die selben Aussagen getätigt haben. Dieser Vorgang unterliegt zusammen mit der Formulierung von möglichen Ursachen und Wirkungen der Sachverhalte und deren vorherigen Kategorisierung bereits ersten Interpretationen (vgl. Gläser und Laudel 2009, S. 218). Die dargelegten Ursachen und Wirkungen ergaben sich je nach Sachverhalt aus dem Kontext innerhalb der gegebenen Antworten oder eigenen Überlegungen. Diese Untersuchung verfolgte das Ziel, Kausalmechanismen zu formulieren, die zur Beantwortung der Forschungsfrage beitragen. Während der Durchführung einer qualitativen Inhaltsanalyse bildet jeder der zuvor beschriebenen Zwischenschritte die Grundlage des nächsten Arbeitsschrittes, deren Ergebnisse zusätzlich der Verfahrensdokumentation dienen, um eine Rekonstruktion der durchgeführten Untersuchung zu ermöglichen (vgl. Gläser und Laudel 2009, S. 229)
In diesem Kapitel werden GANs hinsichtlich ihrer Anwendungsmöglichkeiten bei der Schadsoftware-Erkennung betrachtet. Die Ausführungen sind das Ergebnis einer Literaturrecherche, die einerseits als theoretische Grundlage für die Befragungen den aktuellen Forschungsstand wiedergeben und andererseits der Hypothesenaufstellung dienen sollen. Die Literatursuche wurde innerhalb der Fachdatenbanken Semantic Scholar, Google Scholar und Arxiv mithilfe einer Schlagwortsuche durchgeführt, die nachfolgend als Suchstring dargestellt ist, wobei die 30 relevantesten wissenschaftlichen Artikel seit 2017 betrachtet wurden.
(Generative Adversarial Network OR GAN) AND malware AND detect*
Die ausgewählten Artikel wurden zunächst in Abhängigkeit der Inhalte ihrer Zusammenfassungen und Schlussfolgerungen auf die Erfüllung der geforderten Kriterien überprüft, die folgendermaßen festgelegt wurden:
- Der Artikel beschreibt ein offensiv oder defensiv anwendbares GAN-Modell im Kontext der Schadsoftware-Erkennung.
- Das beschriebene Modell wurde experimentell getestet und analysiert.
Die Artikel, welche den Kriterien entsprachen, wurden vollständig ausgewertet und nachfolgend zusammengefasst beschrieben. Je nach Verwendungszweck der beschriebenen Modelle wurden diese den offensiven oder defensiven Verfahren zugeordnet. Innerhalb dieser Einordnung erfolgte eine Strukturierung hinsichtlich des Veröffentlichungsdatums, der vorgestellten Ansätze und der darauf aubauen- den Untersuchungen. Es werden jeweils zu Beginn die grundlegenden offensiven beziehungsweise defensiven Konzepte erläutert, bevor ein zusammenfassender Überblick der verwendeten Modelle und deren Vergleich dargestellt wird.
Für die offensive Verwendung von GANs werden hauptsächlich Modellarchitekturen verwendet, bei denen ein GAN im Verbund mit einer Instanz eines SchadsoftwareDetektors implementiert wird, dessen Modell sich dem Angreifer als Black-Box darstellt. Dabei erhält der Generator eine Verkettung von Schadsoftwaremerkmalen und Rauschvektoren als Eingabe, aus denen neue Schadprogramme synthetisiert werden. Diese werden zusammen mit gutartigen Programmen dem SchadsoftwareDetektor zugeführt, der die eingehenden Daten als gutartig oder schadhaft klassifiziert. Der Diskriminator agiert als Ersatz-Detektor, der als Eingabe die durch den Schadsoftware-Detektor gekennzeichneten Programme erhält und auf deren Grundlage versucht, sich an den Schadsoftware-Detektor anzupassen. Das Ziel dieser Anpassung ist es, Gradienteninformationen des Schadsoftware-Detektors zu erhalten, um adversariale Beispiele erzeugen zu können, die im Idealfall den Schadsoftware-Detektor zu einer Fehlklassifizierung verleiten.
Die erste wissenschaftliche Arbeit, die den offensiven Einsatz eines GAN nach der oben skizzierten Vorgehensweise beschreibt, wurde 2017 veröffentlicht. Das hierbei vorgeschlagene Modell wird als MalGAN bezeichnet und stellt die einfachste Architektur eines solchen Ansatzes dar (vgl. Hu und Tan 2017). Stellvertretend für jegliche Varianten dieser Architektur ist das Modell von MalGAN in Abbildung 4.1 schematisch dargestellt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4.1.: Architektur von MalGAN (entnommen aus Hu und Tan 2017)
[...]
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!
Kommentare