Diplomarbeit, 2006
116 Seiten, Note: 2,3
Abbildungsverzeichnis v
Tabellenverzeichnis vii
Abkürzungsverzeichnis viii
1 Hinführung zum Thema
1.1 Wissensentdeckung als Erfolgsfaktor
1.2 Definition zentraler Begriffe
1.3 Ziel und Gang der Untersuchung
2 Data Mining in der Praxis
2.1 Überblick
2.2 Operationen des Data Mining
2.2.1 Beschreibungsprobleme
2.2.2 Vorhersageprobleme
2.3 Ausgewählte Techniken des Data Mining . .
2.3.1 Künstliche Neuronale Netze
2.3.2 K-Nächste-Nachbarn
2.3.3 Entscheidungsbäume
2.3.4 Visualisierung
2.4 Ausgewählte Anwendungsbereiche im CRM
2.4.1 Kundensegmentierung
2.4.2 Zielgruppenselektion
2.4.3 Warenkorbanalyse
3 Erfolgsfaktoren des Data Mining
3.1 Herleitung erfolgskritischer Faktoren
3.1.1 Systematisierung der Erfolgsfaktoren
3.1.2 Kritische Erfolgsfaktoren von Data-Mining-Projekten
3.1.2.1 Mental-kulturelle Faktoren
3.1.2.2 Organisatorische Faktoren
3.1.2.3 Informationstechnische Faktoren
3.1.2.4 Externe Ressourcen
3.2 Durchführung der Umfrage
3.3 Ergebnisse der Umfrage
3.4 Interpretation der Ergebnisse
4 Reflektion am Reifegradmodell
4.1 Reifegradstufen des Modells
4.1.1 Massenkommunikation
4.1.2 Direktwerbung
4.1.3 Direktmarketing
4.1.4 Dialogmarketing
4.1.5 Profiling
4.2 Dimensionen des Reifegradmodells
4.2.1 Daten
4.2.2 Prozesse
4.2.3 Systeme
4.2.4 Organisation
4.3 Reflektion der Studienergebnisse
4.3.1 Gegliedert nach Dimensionen
4.3.2 Harmonische Gesamtsicht
4.4 Integration in den Kommunikationsprozeß
5 Zusammenfassung und Ausblick
I Empirische Studie
I.1 Weitere Umfrageergebnisse
I.2 Analyseergebnisse zur Umfrage
I.3 Fragebogen
II Begriffsabgrenzungen
II.1 Informationsbegriff
II.2 Datenhaltung
Literaturverzeichnis
Eidesstattliche Erklärung
1 Erfolg von IT-Projekten laut Chaos-Bericht
2 KDD-Prozeß
3 KDD, Data Warehouse und OLAP im CRM-Kontext
4 Reifegradmodell der CPC - The Profiling Company GmbH . .
5 Künstliches Neuronales Netz
6 K-Nächste-Nachbarn
7 Entscheidungsbaum zur Kreditwürdigkeitsprüfung
8 Visuelles Data Mining
9 Fragebogenaufbau
10 Eigenschaften der internen Kommunikation
11 Aufgeschlossenheit und Qualität der internen Kommunikation
12 Organisationsstruktur und Integrationsgrad des Data Mining .
13 Umsetzung der Data-Mining-Ergebnisse
14 Datenzukauf und -qualität
15 Probleme von Data Mining
16 IT-Integration und OLAP vs. Data Mining
17 Faktorenrelevanz für den Erfolg von DM-Projekten
18 Faktorenrelevanz Scheitern von Data-Mining-Projekten
19 Gründe gegen den Einsatz von Data Mining
20 Alternative Techniken zur Datenanalyse
21 Gesamterfolg von Data Mining
22 Zielspezifischer Erfolg von Data Mining
23 Qualitätskriterien für Datenelemente
24 Dimensionsbetrachtungen der Unternehmen
25 Geregelte Prozesse für Data-Mining-Erfolg
26 Verwendete Data-Mining-Operationen
27 Durch Data Mining beeinflußte Prozesse
28 Datenherkunft und Verbleib
29 Reifegradmodell und Data Mining
30 Kommunikationsmodell der CPC - The Profiling Company GmbH
A.1 Mitarbeiterzahlen und Umsatz
A.2 Erfolgskontrolle der Data-Mining-Aktivitäten
A.3 Datenorganisation
A.4 Häufigkeiten und Status der DM-Techniken
A.5 Verfolgte Zielsetzung
A.6 Eingesetzte Art Software und Anwendungsbereich
A.7 Eingesetzte statistische Verfahren
A.8 Einordnung von Datenbanken, Data Warehouse und Data Marts . .
1 Systematisierung des Data Mining
2 Zehn Erfolgsfaktoren laut Chaos-Bericht
3 Branchenverteilung der Grundgesamtheit
A.1 Innovationsfreude und Aufgeschlossenheit
A.2 Management Commitment und dessen Auswirkungen
A.3 Arbeitsablaufanpassung zur DM-Integration
A.4 Aufgeschlossenheit und Ergebnisumsetzung
A.5 Organisatorische Absicherung
A.6 Data-Mining-Systemumfeld
A.7 Relevanz externer Ressourcen
Abbildung in dieser Leseprobe nicht enthalten
Durch zunehmend bessere technische Möglichkeiten werden in Unternehmen und wissenschaftlichen Institutionen immer größere Datenmengen gespeichert. Diese liefern z.B. Informationen zum Unternehmen selbst, zu Prozessen oder über Kun- den. Oft stellen diese Datenbestände und deren Analyse den Erfolgsfaktor einer Unternehmung dar.1 Für die Marketingkommunikation werden beispielsweise mit Testmailings die positiven sowie negativen Reaktionen einer kleinen Anzahl po- tentieller Kunden untersucht. Die Ergebnisse werden mit Daten über das Kunden- umfeld verbunden. Daraus erstellte Charakteristika können durch eine gezielte Kundenansprache bei der eigentlichen Kommunikationsmaßnahme für eine höhere Effizienz und für Kosteneinsparungen sorgen.2
Die Datenanalyse ist somit ein sehr wichtiger und sensibler Unternehmensbereich. Daraus ergibt sich das Bedürfnis nach Wissensgewinnung bzw. -generierung aus vorhandenen Daten, das sogenannte Knowledge Discovery in Databases (KDD). Hauptbestandteil ist die Algorithmensammlung des Data Mining (DM), durch die sich Muster und Zusammenhänge in Daten erkennen lassen.3
Data Mining wird heutzutage in vielen Bereichen eingesetzt und zählt, neben OLAP4, zu den wichtigsten Arten der Datenanalyse. Einsatzbereiche sind bspw. das Entdecken medizinischer Zusammenhänge5, das Aufspüren von Versicherungs- betrug6 oder aktuell die Analyse von Flugzeugpassagierdaten zur Terrorismus- bekämpfung7. Mehrheitlich sind die Beispiele in der Literatur jedoch aus den Be- reichen Handel, Marketing bzw. Customer Relationship Management (CRM).
Bedingt durch die aus der Datenanalyse resultierenden Wettbewerbsvorteile ist Data Mining in vielen Unternehmen und Forschungseinrichtungen geplant, pro- jektiert oder operativ im Einsatz. Trotz zunehmender Anzahl erfolgreicher Pro- jekte scheitern jedoch auch viele Projekte des Data Mining, denn für sie gelten dieselben problematischen Eigenschaften wie für IT-Projekte. Abbildung 1 zeigt die Ergebnisse des sogenannten Chaos-Berichts8 für die Jahre 1994 bis 2000.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Erfolg von IT-Projekten laut Chaos-Bericht
Im Jahr 2000 scheiterten 23% aller IT-Projekte. 49% wurden operationalisiert, waren aber teurer als erwartet, zu spät fertiggestellt oder mit weniger Funktionen ausgestattet als geplant. Nur 28% waren hinsichtlich der geplanten Kosten, Zeit und Funktionen erfolgreich abgeschlossen und operativ umgesetzt. Trotz einer Verbesserung der Situation ist der Anteil gescheiterter Projekte sehr hoch. Somit hat das Identifizieren und Steuern der Erfolgsfaktoren einen hohen Stellenwert für das Management eines Unternehmens.9
Ein Grund für Mißerfolge bei Data-Mining-Projekten ist, daß die gewonnenen Er- gebnisse nicht ausreichend oder gar falsch interpretiert werden. Ausschlaggebend ist häufig die mangelnde Vorbereitung der richtigen Ergebnisnutzung bzw. ein nicht ausreichender Reifegrad (vgl. Abschnitt 1.2) bezüglich Dialogmarketing und Profiling. Diese Vermutung dient in der vorliegenden Arbeit als Ausgangspunkt für die Untersuchung der Faktoren, die zum Erfolg eines DM-Projektes führen.
Diese Arbeit will Erfolgsfaktoren ermitteln. Im folgenden sollen darunter Faktoren verstanden werden, die einen ”nachhaltigenundlängerfristigenEinflußaufdenErfolgdesUnterneh- mens haben und erfolgsfördernd sind. Durch ihren gezielten Einsatz können Wettbewerbsvorteile . . . erzielt werden.“10
Diese Faktoren werden bezüglich des Data Mining untersucht, welches ausgehend vom KDD beschrieben wird. Fayyad et al. definieren KDD als
”nontrivialprocessofidentifyingvalid,novel,potentiallyuseful,and ultimately understandable patterns in data.“11
In der Literatur werden die Begriffe KDD und Data Mining gelegentlich synonym verwendet, oder DM wird mit trivialen Datenbankabfragen oder -analysen (OLAP) gleichgesetzt.12 In dieser Arbeit wird jedoch die Ansicht vertreten, daß
”DataminingisastepintheKDDprocessthatconsistsofapplying data analysis and discovery algorithms that, under acceptable com- putational efficiency limitations, produce a particular enumeration of patterns (or models) over the data.“13
Somit umfaßt KDD den gesamten Wissensgewinnungsprozeß - ausgehend von gege- benen Rohdaten bis zu aufbereiteten Aussagen und Zusammenhängen. Abbildung 2 zeigt den KDD-Prozeß mit integriertem DM14, wobei die Datenbasis meist in einem Data Warehouse15 oder einem Data Mart16 zur Verfügung gestellt wird.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: KDD-Prozeß
Die einzelnen Phasen des KDD-Prozesses werden beschrieben als17
1. Zieldefinition, um den Anwendungsbereich und die wesentlichen Fakten ent- sprechend der Problemstellung zu erfassen.
2. Datenselektion bezüglich der Objekte (Datensätze) und ihrer Attribute (Merk- male) aus dem Datenbestand, meist als repräsentative Stichprobe, um Kosten und Zeit zu sparen.
3. Vorverarbeitung und Datenbereinigung. Es werden z.B. fehlende Werte in Datensätzen durch Standardwerte ersetzt, Datensätze gelöscht (Ausreißer) oder Daten angereichert.
4. Transformation der Datenbestände. Bei Bedarf dient sie dem Verändern gan- zer Datenbereiche. Beispielsweise werden Daten normiert, quantitative in kategorielle Daten umgewandelt oder neue Datenfelder durch Aggregation generiert. Die Art der Transformation richtet sich nach der ausgewählten Technik des Data Mining.
5. Data Mining. Es umfaßt Auswahl und Bewertung der zu benutzenden Algo- rithmen, die Auswahl der Software-Werkzeuge und das eigentliche Anwenden eines oder mehrerer Algorithmen des Data Mining auf die konkreten aufbereiteten Datenbestände.
6. Interpretation/Evaluation handlungsrelevanter gefundener Muster und In- formationen. Erst hiernach können geeignete Aktionen zum Erreichen des Zieles beschlossen werden.
Die ersten drei Schritte des Prozesses haben vorbereitenden Charakter. Sie sind in der Regel algorithmisch wenig komplex, beanspruchen aber bis zu 80% des Gesamtaufwandes des Knowledge Discovery in Databases.18
Die Abbildung 2 skizziert auch die allgemeine Vorgehensweise im Prozeß des Da- ta Mining. Sie zeigt das Einbinden der Aufgabenbereiche Hypothesengenerierung und -validierung, die von allen DM-Techniken selbständig abgedeckt werden. Da- bei beinhaltet das Generieren die Strategie zur Suche gültiger Muster und Zu- sammenhänge. Durch Ausnutzen bereits bekannter Informationen (z.B. Hinter- grundwissen) oder im Laufe der Untersuchung gefundener neuer Hypothesen wird der Suchraum immer weiter verdichtet. Neues Wissen wird fortlaufend durch den Abgleich mit den Eingabedaten validiert und im Anschluß als Ergebnis an die Hypothesengenerierung zurückgegeben. Dort wird es in einem Kreislauf als Infor- mation ausgegeben, weiter verarbeitet oder als ungültig verworfen. Dieser Prozeß wird fortgesetzt, bis ein vorgegebenes Abbruchkriterium erreicht ist.19
Ähnlichwie im Bergbau (engl. Mining) werden mit großem technologischen Aufwand und mit anspruchsvollen, automatisierten Techniken große Materialmengen (z.B. Kohle) nach wertvollen Inhalten (z.B. Diamanten) durchsucht, wodurch der Begriff Data Mining geprägt wurde.20
Erste Algorithmen wurden in der Statistik und in der Forschung zu Datenbank- managementsystemen verwendet. Dabei wurden Hypothesen über Datenzusam- menhänge aufgestellt und anhand von Daten und Algorithmen bestätigt oder verworfen. In den 1980er Jahren begannen Forscher der Künstlichen Intelligenz (KI)21 mit der Entwicklung von Algorithmen zur umgekehrten Vorgehensweise. Aus vorhandenen Daten sollten neue und interessante Hypothesen generiert wer- den.22 Eine interdisziplinäre Wissenschaft mit vielen Einzeldisziplinen entwickelte sich, wodurch DM keinem bestimmten Wissenschaftszweig zuordenbar ist.23
Meist ist das Data Mining datengetrieben, d.h. die Analyse beschreibt und verall- gemeinert die Muster einer Datengesamtheit. Hingegen geht die modellgetriebene Datenanalyse von Hypothesen aus, die von einem einschränkenden Modell der Realität abgeleitet worden sind, und versucht, diese Hypothesen zu überprüfen.24
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: KDD, Data Warehouse und OLAP im CRM-Kontext
Abbildung 3 zeigt ein Data Warehouse, OLAP und Data Mining im Prozeß des Customer Relationship Management.25 Hier setzen die Techniken des Data Mining auf die durch OLAP strukturierten Daten auf, um Zusammenhänge und Muster zu erkennen, die durch normale Ad-hoc-Abfragen verdeckt bleiben würden26, oder die Ergebnisse des Data Mining werden durch OLAP interpretiert und evaluiert.27
Auch wenn zwischen Data Mining und OLAP ein fließender Übergang besteht, ist der Einsatzbereich ein klassisches Unterscheidungskriterium. Während Data Mining zum Entdecken neuer Informationen in Datenbeständen eingesetzt wird, sind die Techniken des OLAP im Bereich der Verifikation angesiedelt. Bei OLAP spielt die Interaktion des Benutzers eine entscheidende Rolle, da er über die zu untersuchenden Hypothesen und den jeweiligen Blickwinkel entscheidet, unter dem die Hypothesen betrachtet und validiert werden. Im Data Mining werden dieselben Ziele verfolgt, jedoch soll das System automatisiert Hypothesen generieren, diese anhand vorhandener Daten validieren und aus den vielen gefundenen Hypothesen nur die gültigen Ergebnisse zurückgeben.
Somit handelt es sich bei Data Mining mehr um das Automatisieren der OLAPVerarbeitung als um eine neue Verfahrensweise.28 Lediglich der Interaktionsbedarf wird reduziert, denn OLAP-Funktionen setzen Anwenderkenntnisse der technischen und fachlichen Datenzusammenhänge voraus. Anders als beim Data Mining muß der Anwender bei OLAP die Art der gewünschten Ergebnisse kennen, um die benötigten Fragestellungen für das Auswerten zu formulieren.29
Nach der Erläuterung der Zusammenhänge und Unterschiede von Data Mining und OLAP muß der Begriff eines Reifegradmodells erklärt werden, wobei eine allgemeine Definition in der Literatur nur zaghaft vorgenommen beziehungsweise häufig umgangen wird.
Diese Arbeit faßt ein Reifegradmodell auf als ein ”speziellesKompetenzmodell,dasunterschiedlicheReifegradedefiniert, um beurteilen zu können, inwieweit ein Kompetenzobjekt die für eine Klasse von Kompetenzobjekten allgemeingültig definierten qualitativen Anforderungen erfüllt.“30
Das Reifegradmodell der CPC - The Profiling Company GmbH beschreibt speziell die Unternehmenskompetenz bezüglich Profiling in den Abstufungen Massenkom- munikation, Direktwerbung, Direktmarketing sowie Dialogmarketing und Profiling. Die Eignung resultiert aus dem Betrachten der erfolgskritischen Dimensionen Da- ten, Prozesse, Systeme und Organisation - dargestellt in Abbildung 431.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4: Reifegradmodell der CPC - The Profiling Company GmbH
Das Bewerten der Dimensionen erfolgt anhand von verschiedenen Indikatoren, wo- bei die tatsächliche Unternehmensreife aus dem Konsolidieren aller Dimensionen resultiert. Dabei ist zu beachten, daß sich der entscheidende Faktor für den Über- gang in die nächste Stufe aus der Dimension mit der schwächsten Ausprägung ergibt. Auf Basis der Ergebnisse werden strukturelle Entwicklungspotentiale iden- tifiziert, über die Unternehmen auf einer Zeitachse zielgerichtet ihren angestrebten Reifegrad erreichen.32
Diese Arbeit wird für die CPC - The Profiling Company GmbH erstellt, welche im Bereich Database Marketing tätig ist. Deshalb wird Data Mining hauptsächlich aus Sicht der Marketingkommunikation und somit des CRM behandelt. Ziel ist dabei das Auffinden und Kategorisieren von Faktoren, die ein erfolgreiches Einführen von Data Mining bzw. einen problemlosen Übergang vom projektierten zum operativen Status in Unternehmen begünstigen.
Der theoretische Teil (Kapitel 1 und 2) beschreibt, was DM darstellt und ord- net es wissenschaftlich ein. Ein Überblick betrachtet und klassifiziert ausgewählte Operationen, Techniken und Anwendungsbereiche. Aufgrund der Vielzahl unter- schiedlicher Möglichkeiten wird dabei auf Vollständigkeit verzichtet. Die Auswahl der Techniken und Anwendungsbereiche orientiert sich an den Ergebnissen einer empirischen Studie (Kapitel 3), um ein Spiegelbild der aktuellen Unternehmens- praxis zu geben.
Diese Studie untersucht das Bewußtsein von Unternehmen bezüglich der Erfolgs- faktoren, um u.a. die eingangs genannte Vermutung zu bewerten (vgl. Abschnitt
1.1). Kritische Zeitpunkte sind das Projektieren und das Überführen in den operativen Status. Deshalb werden Faktoren hergeleitet, kategorisiert und Erfahrungen abgefragt, die in diesen Phasen in Unternehmen gemacht wurden. Aus diesen Ergebnissen werden die erfolgskritischen Faktoren extrahiert.
Ebenso wird untersucht, welche Techniken bei welchem Reifegrad angewendet wer- den können (Kapitel 4). Dabei werden jeweils die Dimensionen Daten, Prozesse, Systeme und Organisation einbezogen. Anhand von Beispielen wird gezeigt, welche Ergebnisse erreichbar sind und in welchen Formen sie in den Kommunikationspro- zeß integrierbar sind. Anhand dieser Erkenntnisse werden die vorgestellten Metho- den am Reifegradmodell der CPC - The Profiling Company GmbH reflektiert.
Kapitel 5 enthält eine Zusammenfassung sowie einen Ausblick auf die Zukunft des Data Mining in Zusammenhang mit den ermittelten Erfolgsfaktoren.
Die Techniken, einzelnen Operationen und Anwendungsbereiche des Data Mining werden in der Literatur nicht eindeutig gegeneinander abgegrenzt. Einen pragmatischen Ordnungsrahmen zum Systematisieren der verschiedenen Operationen liefern aber Fayyad et al.33, wobei die Techniken in die beiden Oberklassen der Beschreibungs- und Vorhersageprobleme unterteilt werden.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 1: Systematisierung des Data Mining
Tabelle 1 stellt die Zusammenhänge zwischen den unterschiedlichen Operationen, Anwendungsbereichen und Techniken des Data Mining dar und dient als Über- blick für dieses Kapitel.34 Die Aufzählungen sind keineswegs vollständig, da die große Anzahl der Techniken und dazugehörigen Algorithmen sowie die unendlichen Möglichkeiten der Anwendungen den Rahmen dieser Arbeit sprengen würden.
Die einzelnen Problembereiche werden in den folgenden Unterkapiteln näher be- schrieben. Es werden kurz die in der Tabelle genannten Operationen und aus- gewählte Techniken vorgestellt sowie konkrete Anwendungsbeispiele gegeben. Da einer der Schwerpunkte dieser Arbeit auf der später folgenden Reflektion der Stu- dienergebnisse am Reifegradmodell der CPC - The Profiling Company GmbH liegt (vgl. Abschnitt 4.3), und somit in der Marketingkommunikation im CRM, sind die vorgestellten Beispiele entsprechend aus diesem Bereich gewählt.
Mittels einer Abweichungsanalyse werden Objekte identifiziert, die sich von statis- tischen Regelmäßigkeiten und erwarteten Normwerten besonders stark unterschei- den. Das Analysieren der Gründe und Ursachen ist der Zweck dieser Operation, denn Abweichungen können beispielsweise auf Probleme mit den vorliegenden Da- ten hinweisen.35 In diesem Fall müssen die Daten untersucht und vor der weiteren Analyse problembezogen bereinigt werden, denn Ausreißer spielen bei der Progno- se eine entscheidende Rolle, da sie die Ergebnisse verzerren können.36
Die Algorithmen der Abhängigkeitsanalyse (auch Link-Analyse) suchen nach Be- ziehungen zwischen Objekt- bzw. Vorgangsmerkmalen oder einzelnen Objekten, welche sich auf einen oder mehrere Zeitpunkte beziehen können. Unter diese Art der Analyse fällt auch das Beispiel aus dem Bereich der Warenkorbanalyse (vgl. Abschnitt 2.4.3), wonach ein Zusammenhang zwischen dem Kauf von Babywin- deln und Bier besteht. Die Abhängigkeitsanalyse ist somit komplementär zur oben genannten Abweichungsanalyse. Bei der ersten Operation geht es darum, die Re- gelmäßigkeiten in Daten herauszufinden. Die zweite Operation hingegen identifi- ziert die Objekte, die den Regelmäßigkeiten gerade nicht folgen.37
Die Segmentierung faßt diverse multivariate statistische Verfahren zusammen, zum Beispiel die Clusteranalyse oder das symbolische Segmentieren. Sie dienen dazu, untersuchte Objekte in einzelne, vor Analysebeginn unbekannte, homogene Grup- pen (Cluster) zusammenzufassen. Ähnlichkeiten zwischen Gruppenobjekten eines Clusters werden minimiert und die Unähnlichkeiten zwischen den einzelnen Clus- tern maximiert.38 Die Bedeutung der gebildeten Gruppen wird erst im Anschluß durch die gemeinsamen Eigenschaften der Gruppenmitglieder festgelegt.
Oft dient das Segmentieren nur als Teiloperation im gesamten Prozeß des KDD, um zum Beispiel große Datenmengen übersichtlich zu halten oder um Teilmengen zu extrahieren, die im weiteren Verlauf durch andere Techniken einfacher zu ana- lysieren sind.39 Bei den Clusteranalysen muß zwischen scharfen und unscharfen Verfahren unterschieden werden. Bei ersteren wird das untersuchte Objekt ein- deutig einer Klasse zugeordnet, während beim unscharfen Ansatz die Zuordnung nicht eindeutig sein muß. In neuerer Zeit wird vermehrt eine Segmentierung durch sogenannte Künstliche Neuronale Netze (KNN) vorgenommen, die im Abschnitt 2.3.1 näher beschrieben werden.40
Anders als bei der Segmentierung werden bei der Klassifikation die Objekte in Klassen eingeordnet, die bereits vor der Analyse festgelegt wurden, um daraus eine allgemein gültige Funktionsbeschreibung abzuleiten. Das Zuordnen erfolgt anhand von Objektmerkmalen und der Klasseneigenschaften, wobei die zuordnende Funk- tion als Klassifikator bezeichnet wird, der in Form von Regeln dargestellt wird. Die einzelnen Klassen erhalten Namen, die die klassenbildende Eigenschaft aller Klassenmitglieder beschreiben. Der Klassifikator kann im weiteren zur Vorhersage der Klassenzugehörigkeit noch nicht untersuchter Objekte dienen.41
Die Klassifikationsverfahren stammen größtenteils aus der Statistik und der KI. Zu den statistischen Verfahren zählen unter anderem die K-Nächste-Nachbarn- Technik (vgl. Abschnitt 2.3.2) und die Diskriminanzanalyse. Künstliche Neurona- le Netze (vgl. Abschnitt 2.3.1), Entscheidungsbäume (vgl. Abschnitt 2.3.3) und regelbasierte Systeme entstammen dem Bereich der Künstlichen Intelligenz.42
Mit der Prognose wird versucht, Vorhersagen unbekannter Merkmalswerte auf Basis anderer Merkmale oder Werten aus der Vergangenheit zu generieren. Prognosen beziehen sich somit meist auf die Zukunft43, sind aber der Klassifikation sehr ähnlich. Wesentlicher Unterschied ist, daß bei einer Prognose numerische Werte vorhergesagt werden, während bei der Klassifikation symbolische Werte als Zielvariable dienen.44 Jedoch können auch Techniken der Klassifikation zur Prognose eingesetzt werden, wenn diskrete Werte vorhergesagt werden sollen. In jüngerer Vergangenheit werden zur Prognose auch Techniken der Künstlichen Intelligenz, wie zum Beispiel Neuronale Netze, eingesetzt.45
Die ursprüngliche Intention der Künstlichen Neuronalen Netze (KNN) lag in der Simulation der Informationsverarbeitung im menschlichen Gehirn. Heute werden sie u.a. auch zur Prognose, Klassifikation und Clusterbildung eingesetzt.
Allgemein gesprochen identifiziert ein KNN mittels eigenständiger oder manueller Anpassung mathematischer Funktionen Muster in Trainingsdaten, die zur Klassifikation weiterer Daten genutzt werden können. Somit existiert beispielsweise die Möglichkeit, durch ein trainiertes Künstliches Neuronales Netz neue Kundenprofile vorher definierten Klassen zuordnen zu lassen.
Konkret besteht ein KNN aus einer Menge miteinander verbundener Verarbei- tungseinheiten. Diese verknüpfen Eingabedaten der Inputschicht innerhalb des Netzes46 mittels mathematischer Funktionen47 und leiten das Ergebnis an nach- folgende Einheiten weiter. Die Informationen in der Outputschicht stellen das Er- gebnis der Verarbeitungsprozesse dar. Dabei ist eine Stärke dieser Technik das hochparallele Verarbeiten der Eingabedaten, welches durch das Verknüpfen der Verarbeitungseinheiten und ihrer Funktionen48 ermöglicht wird. Dadurch können sehr komplexe, nicht-lineare Abhängigkeiten (Muster) in den Eingabeinformatio- nen identifiziert und abgebildet werden.49
KNN müssen diese Abhängigkeiten aber zunächst erlernen, was auf zwei Arten geschehen kann: Erstens durch überwachtes Lernen, wobei das Netz mit Eingaben und vorgegebenen korrekten Ausgaben (bekannter Klassenzugehörigkeit) trainiert wird und somit dem Beschreiben von Mustern dient. Zweitens existiert unüberwachtes Lernen durch SOM50, welche durch selbständiges Beobachten von Eingaben Muster (unbekannter Klassenzugehörigkeit) erkennen.51
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 5: Künstliches Neuronales Netz
Abbildung 5 zeigt beispielhaft die Grundstruktur eines KNN mit Verarbeitungs- einheiten52 und den jeweiligen Verbindungen. Ziel dieses Netzes ist die Prognose der Bestellwahrscheinlichkeit. Als Eingabe dienen Stammdaten, die unabhängig vom Kaufverhalten des Kunden sind. Ein weiterer Parameter ist das Aktivitäten- raster als Aggregation des vergangenen Kaufverhaltens, wobei ein Kunde aktiv ist, wenn er in einem festgelegten Zeitraum einen Artikel gekauft hat. Kumulier- te zeitraumspezifische Informationen, wie der Bruttobestellwert, der Nettoumsatz und die Anzahl der Bestellungen im festgelegten Zeitraum ergänzen den Datenin- put. Sortimentsspezifische Informationen, beispielsweise Bestellwerte eines Artikels zum Ermitteln der bevorzugten Preisstruktur, runden das Bild ab. Der Ausgabe- wert des Neuronalen Netzes drückt in seiner Höhe die Bestellwahrscheinlichkeit für ein bestimmtes Kundenprofil aus.53
Die K-Nächste-Nachbarn-Technik oder Nearest Neighbor dient ebenfalls der Klassifikation, wobei zum Zuordnen neuer Datenmuster k bereits bekannte Nachbardaten hinzugezogen werden.
Diese Technik basiert auf dem Lernen durch Analogien, wobei die Lernphase aus dem simplen Abspeichern von Trainingsbeispielen besteht. Nach der Trainingsphase wird ein noch nicht klassifiziertes Objekt einer Klasse zugeordnet, indem aufgrund seiner zugrundeliegenden Merkmalswerte die k ähnlichsten Objekte54 gefunden werden, für die die Klassenzugehörigkeit bereits bekannt ist. Schließlich wird das Objekt derjenigen Klasse zugeordnet, der die Mehrzahl dieser k Objekte angehört55 - dargestellt in der Abbildung 6.
Wird die Trainingsmenge um neue Beispiele erweitert, so kann sich die Entschei- dung für ein bereits klassifiziertes Objekt wieder verändern, falls in der Nachbar- schaft die Mehrheitsentscheidung durch die neuen Beispiele beeinflußt wird.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 6: K-Nächste-Nachbarn
Entscheidungsbäume ermöglichen die Datenklassifikation durch Abbilden von Re- gelhierarchien. Entscheidungsbäume sind ein gängiges Werkzeug bei Entscheidungs- problemen, jedoch stellen sie hier nur das Ergebnis dar. Der eigentliche DM-Prozeß ist das automatisierte Generieren der Bäume, die für weitere Entscheidungen ver- wendet werden können. Dazu untersuchen unterschiedliche mathematische Algo- rithmen56 die Abhängigkeit einer Zielvariable von bestimmten Attributkombina- tionen. Dabei werden Datenobjektgruppen gebildet, in denen eine Forderung an bestimmte Kombinationen erfüllt ist. Es wird diejenige Unterteilung ausgewählt, die bezüglich eines speziellen Auswahlmaßes57 am besten bewertet wird.58
Abbildung 7 zeigt beispielsweise einen (nur) binären Baum59 zum Prüfen der Kreditwürdigkeit. Am Ende des Beantwortens der Fragen steht genau eine Folgerung, die einer Entscheidungsklasse entspricht.60
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 7: Entscheidungsbaum zur Kreditwürdigkeitsprüfung
Die Visualisierung dient dem grafischen Darstellen komplexer Daten, um neue Hy- pothesen, Zusammenhänge und Ergebnisse zu entdecken. Der Analytiker muß die Resultate vor der Untersuchung nicht kennen, wie bei einer rein textbasierten Aus- wertung mit vorher teils durch OLAP bewerteten Zusammenhängen. Er bekommt vielmehr die neuen Erkenntnisse optisch aufbereitet präsentiert. Dadurch kann der Analytiker die Zusammenhänge leichter erkennen und als relevant einstufen.
Das Visualisieren ergänzt andere Algorithmen des Data Mining, ist aber auch als eigene Wissenschaft anzusehen, da neue Darstellungsarten entwickelt werden müssen. Diese Arten lassen sich nach dem Diagrammtyp, den dargestellten Dimen- sionen oder der Art der veranschaulichten DM-Technik gliedern. Kurven-, Kreis-, Flächen-, Balken- und Streudiagramme sind nur einige der Möglichkeiten.61
Abbildung 8 zeigt zwei selbsterstellte Beispiele für das Visualisieren von Daten- zusammenhängen mit dem frei erhältlichen Software-Tool YALE62. Links sind Andrews-Kurven und rechts eine sogenannte Surface-3D-Darstellung abgebildet.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 8: Visuelles Data Mining
Im Marketing besteht großes Interesse daran, homogene Kundensegmente zu iden- tifizieren, um ähnliche Kaufverhalten beziehungsweise Interessen durch individu- elle Werbemaßnahmen zu nutzen. Bei kleineren Unternehmen mag es sein, daß der Unternehmer die Kunden persönlich kennt und gezielt ansprechen kann. Bei größe- ren Unternehmen mit vielen Kunden ist eine gezielte Ansprache weitaus schwie- riger, da die Erfahrungen und Kenntnisse in der Regel bei den Vertriebs- und Kundendienstmitarbeitern liegen.
Ein Kunde ist dabei nicht durch individuelle Interessen, Vorlieben und Eigenschaf- ten bestimmt, die mit den Produkten und Dienstleistungen in Zusammenhang stehen, sondern lediglich durch die Informationssumme, die das Unternehmen im (virtuellen) Kundendialog in den Geschäftsprozessen gewinnt. Auch dabei kann nur mit den Informationen gearbeitet werden, die standardisiert sowie digital vor- liegen und zugänglich sind.
Obwohl dieser Einsatzbereich der Clusteranalyse von zentraler Bedeutung ist, gibt es diverse weitere Einsatzmöglichkeiten. Eine ganz wesentliche und in der heu- tigen Zeit immer wichtiger werdende Anwendung von Clusteranalysen im Mar- keting ist die Analyse von qualifizierten Zugriffsdaten auf den Internetseiten der Unternehmen. Auf diesen hinterlassen der Kunde sowie der Interessent relevante Spuren in sogenannten Log-Dateien. Diese Daten können genutzt werden, um die Interessen der Kunden noch zielgenauer mit entsprechenden Produkten, Dienst- leistungen und Marketingmaßnahmen anzusprechen. Hier entstehen riesige Daten- mengen, die besonders mit Clusteranalyse-Techniken im Data Mining untersucht werden können.63 Aber auch für die Analyse von Cross-Selling-Potentialen oder zur Bewertung der Kundentreue sind diese und andere Techniken von Bedeutung.
Zum Durchführen einer Clusteranalyse existieren eine Vielzahl unterschiedlicher Techniken. Die wichtigsten algorithmischen Methoden sind hierarchische64 und partitionierende Clusteralgorithmen65. Gemeinsam haben diese Techniken, daß je- des Individuum in ein bereits teilweise gebildetes Cluster eingefügt wird oder ge- gebenenfalls ein Individuum den Ursprung eines neuen Clusters bildet. Zu den partitionierenden Algorithmen gehören auch Künstliche Neuronale Netze.66
Die Zielgruppenselektion baut auf der Kundensegmentierung auf. Sie bietet die Möglichkeit, durch eine vorgelagerte Analyse aktiver Kunden Kampagnen effizienter zu gestalten. Sind erst einmal die Segmente anhand einer Clusteranalyse mittels Künstlicher Neuronaler Netze (vgl. Abschnitt 2.3.1) identifiziert, müssen die Informationen weiter ausgewertet werden. Durch das Bilden von Kundensegmenten, die durch einen positiven Deckungsbeitrag für das Unternehmen sehr profitabel sind, können sich die Akquisitionsanstrengungen dann auf solche potentiellen Neukunden konzentrieren, die ein ähnliches Profil aufweisen.67
Sowohl bei der Segmentierung von Kunden als auch bei der Zielgruppenselektion muß darauf geachtet werden, daß die zur Analyse herangezogenen Kundenmerkmale auch für die potentiellen Kunden verfügbar sind. Eine Analyse von Umsatzmerkmalen einzelner Kundensegmente bezogen auf ein spezifisches Produkt ist also nicht sinnvoll. Soziodemographische und mikrogeographische Daten etc. können jedoch leicht aus externen Quellen hinzugekauft werden.68
Die Warenkorbanalyse ist ein klassisches Beispiel für die Assoziationsanalyse mit- tels des Apriori-Algorithmus69. In nahezu allen Supermärkten, Warenhäusern und anderen Formen des Einzelhandels werden die verkauften Waren an der Kasse mit optischen Barcode-Scannern erfaßt. Die Kasse speichert sämtliche Kaufdaten direkt in einer operativen Datenbank, so daß es im nachhinein möglich ist, eine Analyse der zusammen gekauften Artikel durchzuführen. Dadurch werden Werbe- kampagnen überprüfbar und es kann festgestellt werden, ob bestimmte Präsentati- onsmethoden effektiv sind oder optimiert werden müssen. Auch erlauben Assozia- tionsanalysen das Untersuchen des Kaufverhaltens der Kunden und bieten somit eine Möglichkeit zur zielgerichteten Abstimmung des Angebots.
Der Auslöser eines Einkaufsvorganges ist oft der Kauf eines einzigen Artikels (z.B. Grillfleisch). Mit einer Assoziationsanalyse können sämtliche in Verbindung stehen- de Produkte erkannt und dadurch zu einem Warenkorb zusammengefaßt werden (bspw. Chips, Salat, Dip, Soßen). Besitzt der Handel fundierte Kenntnisse über diese Beziehungen, so kann er seine Kunden durch angepaßte Plazierungen dahin- gehend beeinflussen, auch diese verwandten Produkte zu erwerben. Unterstützt durch eine produktübergreifende Assoziationsanalyse kann ein solches Cross- oder auch ein Up-Selling gezielter durchgeführt werden als noch vor ein paar Jahren.
Komplementär ist durch eine Assoziationsanalyse erkennbar, welche der untersuchten Produktpräsentationen überdenkenswert sind. Wenn beispielsweise im Warenkorb erwartete Produkte vom Kunden nicht erworben werden, so sollte über eine andere Plazierung dieser Produkte nachgedacht werden, um die Effektivität der Präsentation zu steigern.70
Über die verschiedenen Operationen, Techniken, Anwendungen und erfolgreichen Projekte des Data Mining existiert eine große literarische Auswahl.71 Ebenso zeigen Studien wie der Chaos-Bericht, daß viele IT-Projekte scheitern und teils auch, warum sie scheitern. Interessant sind aber die Faktoren, die helfen, einen Mißerfolg zu vermeiden. Tabelle 2 zeigt beispielsweise Faktoren, die speziell in IT-Projekten am häufigsten ein erfolgreiches Durchführen der Projekte unterstützen.72
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 2: Zehn Erfolgsfaktoren laut Chaos-Bericht
Wenn die genannten Faktoren für den Erfolg eines Projektes verantwortlich sind, beeinflussen sie komplementär auch den Mißerfolg. Erfolgsfaktoren speziell für Projekte des Data Mining wurden bisher aber nur in einer empirischen Studie im Bereich des Customer Relationship Management73 untersucht.
Ein Grund für die mangelnde Existenz von Studien in diesem Bereich ist die ver- gleichsweise kurze Zeitspanne, in der sich Data Mining als professionelle und ak- zeptierte Algorithmensammlung im Unternehmensumfeld74 durchgesetzt hat.75
Ein vergleichendes Darstellen verschiedener Studien ist somit nicht möglich. Des- halb wurde eine eigene empirische Erhebung durchgeführt, die (Haupt-)Bestandteil dieser Arbeit ist. Zur Identifikation und Analyse der Erfolgsfaktoren des Data Mi- ning wird die Ist-Situation in Unternehmen verschiedener Branchen untersucht. Ziel ist es, sich ein Bild von den eingesetzten Techniken machen zu können, wie sie und die erzielten Ergebnisse genutzt und im Unternehmen kommuniziert werden.
Um diese Studie durchführen zu können, müssen die komplexen Zusammenhänge in Unternehmen analysiert und die relevanten Bereiche extrahiert werden. Als Grundlage für das Erstellen des Fragenkatalogs und die weitere Analyse werden die einzelnen Faktoren als erstes identifiziert und systematisiert, denn es existiert eine Vielzahl unterschiedlicher Einflußgrößen, die sich auf den Erfolg eines Pro- jektes auswirken. Da es nicht möglich ist, alle internen und externen Größen zu untersuchen, ist es auch Aufgabe dieser Arbeit, nur die kritischen Erfolgsfaktoren und somit die Schlüsselgrößen aus dieser Vielzahl zu extrahieren.
Der allgemeine Begriff des Erfolgsfaktors, wie er in dieser Arbeit verwendet wird, wurde bereits im einleitenden Kapitel definiert (vgl. Abschnitt 1.2). Für die Identifikation der Faktoren(bereiche), die in der Studie überprüft werden, ist eine ausführliche Literaturrecherche durchgeführt worden.
Hilbert untersucht in einer Studie76 unter anderem die Einflußgrößen anhand ei- ner umfangreichen Analyse der Problemfelder in IT-, CRM-, Data-Warehouse- und DM-Projekten. Er systematisiert diese Einflußgrößen in die vier Bereiche der mental-kulturellen, organisatorischen und informationstechnischen Faktoren sowie externe Ressourcen.
Dieser Ordnungsrahmen, die inhaltlichen Tendenzen sowie ein Teil der Hypothesen werden hier übernommen, da sie sich für ein weiteres Vorgehen bei der empirischen Studie eignen. Sie berücksichtigen bereits die Ergebnisse anderer verwandter Stu- dien (z.B. des Chaos-Berichts) und werden ergänzt um Einflußgrößen, die speziell für die spätere Reflektion am Reifegradmodell der CPC - The Profiling Company GmbH (Kapitel 4) benötigt werden. Beispielsweise werden neben dem bereits pro- jektiert/operativ Vorhandenen (z.B. eingesetzte Systeme) auch geplante Projekte und das Bewußtsein der Unternehmen (z.B. bezogen auf die Ziele) untersucht.
Im folgenden Unterkapitel werden die Arbeitshypothesen (H1 bis H7) aufgestellt und erläutert. Sie dienen als Gundlage für die empirische Studie und somit für das Erstellen und Auswerten der Umfrage. Nicht berücksichtigt werden dabei die Markt- und Wettbewerbssituation der einzelnen Unternehmen, da eine Abfrage und Analyse dieser Faktoren Einflußgrößen beinhaltet, die von den Unternehmen nicht steuerbar und für die Studie zu umfangreich sind. Eine weitere Hypothese H8 wird in Kapitel 4 untersucht, da sie sich explizit auf das Reifegradmodell der CPC - The Profiling Company GmbH bezieht.
An dieser Stelle sei angemerkt, daß bei den nachfolgenden Bereichen ebenso un- tersucht werden muß, ob überhaupt ein Bewußtsein seitens der Unternehmen bezüglich der Voraussetzungen77 eines erfolgreichen Projekts vorhanden war bzw. sich erst entwickelte. Übergeordnet spielt auch die Zieldefinition eine entscheiden- de Rolle. Ist das Ziel unklar formuliert, so wird es auch keine zufriedenstellende Lösung geben können.78
Der Bereich der eher weichen mental-kulturellen Faktoren79 umfaßt im wesentlichen die allgemeine Unternehmenskultur und das Commitment80.
Die Unternehmenskultur bezieht sich auf die Modernität eines Unternehmens und auf die entsprechende Innovationsfreudigkeit: ist ein Unternehmen konservativ eingestellt oder eher aufgeschlossen gegenüber innovativem Wandel.
Es wird analysiert, in welchem Umfang Neuerungen von den Entscheidungsträgern und Mitarbeitern akzeptiert werden und wie die Qualität, die Heterogenität und das Volumen der internen Kommunikation sind. Dies umfaßt ebenso die Aufgeschlossenheit der involvierten Abteilungen gegenüber den Resultaten des Data Mining und die Integration der Ergebnisse in die vorhandenen Unternehmensprozesse. Entsprechend lautet die erste Hypothese :
H1: Die Innovationsfreude eines Unternehmens sowie die Aufgeschlossenheit des Managements wirken sich positiv auf den Erfolg von Projekten im Data Mining aus. Dabei beeinflußt eine gute interne Kommunikation den erfolg- reichen Einsatz neuer Technologien positiv.
Der zweite Schwerpunkt untersucht das Commitment, welches wichtigen Projek- ten, der IT im allgemeinen, CRM-Systemen, Data Warehousing und speziell dem Data Mining entgegengebracht wird. Kommt der Wille zur Umsetzung und Einfüh- rung neuer Technologien aus dem Management, so drückt es die Projektwichtigkeit aus. Das Engagement, die Aufmerksamkeit und die Sensibilität der involvierten Mitarbeiter werden dadurch gesteigert und die Wahrscheinlichkeit eines erfolg- reichen Umsetzens erhöht.
[...]
1 Vgl. Wietzorek, Heidrun/Henkel, Gerhard: ”DataMiningundDatabaseMarketing:Grund- lagen und Einsatzfelder“, in: Link, Jörg et al. (Hrsg.): Handbuch Database Marketing,2. überarb. und erweit. Aufl., Ettlingen: IM Fachverlag,1997, S.237.
2 Vgl. Poloni, Marco/Nelke, Martin: ”KundensegmentierungundZielgruppendefinitionim Database Marketing am Beispiel von Direktvertriebsprodukten“, in: Hippner, Hajo et al. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden: Gabler,2001, S.643.
3 Vgl. Nakhaeizadeh, Gholamreza: ”Vorwort“,in:Nakhaeizadeh,Gholamreza(Hrsg.):Data Mining - Theoretische Aspekte und Anwendungen, Heidelberg: Physica-Verlag,1998, S. V. Erfolgsfaktoren des Data Mining 1
4 On-Line Analytical Processing ist eine Abfragemethode, die mehrdimensionale Analysen auf z.B. Data Marts ermöglicht. Im Vordergrund steht dabei das Unterstützen von Analyseanfragen oder das Aufbereiten geschäftskritischer Daten für Entscheidungsträger eines Unternehmens.
5 U.a. Jensen, Susan: ”MiningMedicalDataforPredictiveandSequentialpatterns:PKDD 2001 “,2001, Internet: - Abruf: 05.05.2006.
6 Vgl. Mors, Michael: ”MiningbringtAction“,in:isreport,9 2005,S.21.
7 U.a. Rötzer, Florian: ”UndurchsichtigeSpielemitData-Mining-ProgrammenderUS- Regierung“, in: Telepolis,2003, Internet: http://www.telepolis.de/r4/artikel/15/15698/1.html - Abruf: 01.06.2006.
8 Vgl. The Standish Group International: Extreme Chaos, West Yarmouth (US), 2001 , In- ternet: http://www.standishgroup.com/sample research/PDFpages/extreme chaos.pdf - Abruf: 19.03.2006, S. 2. Erfolgsfaktoren des Data Mining 2
9 Vgl. Müller, Ralf: Erfolgsfaktoren schnell wachsender Software-Startups, Frankfurt/M.: Lang, 1999, S. 58.
10 Vgl. Müller: (FN 9), S. 53.
11 Vgl. Fayyad, Usama/Piatetsky-Shapiro, Gregory/Smyth, Padhraic: ”FromDataMiningto Knowledge Discovery in Databases“, in: AI Magazine,17 (3 )1996, S.40 f.. Erfolgsfaktoren des Data Mining 3
12 U.a. Küsters, Ulrich: ”DataMiningMethoden:EinordnungundÜberblick“,in:Hippner, Hajo et al. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden: Gabler,2001, S.97.
13 Vgl. Fayyad/Piatetsky-Shapiro/Smyth: (FN 11), S. 41.
14 Vgl. Fayyad/Piatetsky-Shapiro/Smyth: (FN 11), S. 41.
15 Logisch zentrales und einheitliches Datenbanksystem, das Informationen aus internen ope- rativen Datenbanken und externen Quellen aggregiert für Analysezwecke zur Verfügung stellt.
16 Kleiner Ausschnitt eines Data Warehouse (z.B. abteilungsspezifisch), wobei die Analysen aus Performanzgründen direkt auf dem entsprechenden Data Mart durchgeführt werden. Erfolgsfaktoren des Data Mining 4
17 Vgl. Alpar, Paul/Niedereichholz, Joachim:
”EinführungzuDataMining“,in:Alpar,Paul/ Niedereichholz, Joachim (Hrsg.): Data Mining im praktischen Einsatz - Verfahren und Anwen- dungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Wiesbaden: Gabler, 2000, S.6 f..
18 U.a. Ceyp, Michael H.:
”PotenzialedesWebMiningfürdasDialogMarketing“,in:Schögel, Markus/Schmidt, Inga (Hrsg.): eCRM mit Informationstechnologien Kundenpotenziale nutzen, Düsseldorf: Symposion,2002, S.114. Erfolgsfaktoren des Data Mining 5
19 Vgl. Breitner, Christoph/Lockemann, Peter/Schlösser, Jörg: ”DieRollederInformationsver- waltung im KDD-Prozeß“, in: Nakhaeizadeh, Gholamreza (Hrsg.): Data Mining - Theoretische Aspekte und Anwendungen, Heidelberg: Physica-Verlag,1998, S.45.
20 Vgl. Wilde, Klaus D.:
”DataWarehouse,OLAPundDataMiningimMarketing-Moderne Informationstechnologien im Zusammenspiel“, in: Hippner, Hajo et al. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden: Gabler,2001, S.13.
21 Simulation kognitiver menschlicher Fähigkeiten auf einem Computer, vor allem das Darstellen und Manipulieren von Wissen.
22 Vgl. Alpar/Niedereichholz: (FN 17), S. 3.
23 Vgl. Säuberlich, Frank; Gaul, Wolfgang/Gemünden, Hans Georg (Hrsg.): KDD und Data Mining als Hilfsmittel zur Entscheidungsunterstützung, Frankfurt/M.: Lang, 2000, S. 16. Erfolgsfaktoren des Data Mining 6
24 Vgl. Lusti, Markus: Data Warehousing und Data Mining - Eine Einführung in entschei- dungsunterstützende Systeme, 2. überarb. und erweit. Aufl., Berlin: Springer, 2002, S. 263.
25 In Anlehnung an Hippner, Hajo/Wilde, Klaus:
”DataMiningimCRM“,in:Helmke,Stefan/ Uebel, Matthias/Dangelmaier, Wilhelm (Hrsg.): Effektives Customer Relationship Management - Instrumente, Einführungskonzepte, Organisation, Wiesbaden: Gabler, 2002 , S.221. 26 Vgl. Säuberlich: (FN 23), S. 19.
27 Vgl. Chamoni, Peter: ”On-LineAnalyticalProcessing“,in:Hippner,Hajoetal.(Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden: Gabler,2001, S.555. Erfolgsfaktoren des Data Mining 7
28 Vgl. Breitner/Lockemann/Schlösser: (FN 19), S. 44f..
29 Vgl. Alpar/Niedereichholz: (FN 17), S. 19.
30 Vgl. Ahlemann, Frederik/Schroeder, Christine/Teuteberg, Frank: Kompetenz- und Reife- gradmodelle für das Projektmanagement - Grundlagen, Vergleich und Einsatz, 1 2005 , Internet: http://www.ispri.de/download/Reifegradmodelle.pdf - Abruf: 06.08.2006, S. 15. Erfolgsfaktoren des Data Mining 8
31 Die Grafik wurde von CPC - The Profiling Company GmbH zur Verfügung gestellt.
32 Interview mit Brosig, Christian/Gall, Harald von CPC - The Profiling Company GmbH, geführt am: 26.04.2006 Erfolgsfaktoren des Data Mining 9
33 Vgl. Fayyad/Piatetsky-Shapiro/Smyth: (FN 11), S. 44. Erfolgsfaktoren des Data Mining 11
34 In Anlehnung an Wietzorek/Henkel: (FN 1), S. 242.
35 Vgl. Nakhaeizadeh, Gholamreza/Reinartz, Thomas/Wirth, Rüdiger: ”Wissensentdeckung in Datenbanken und Data Mining: Ein Überblick“, in: Nakhaeizadeh, Gholamreza (Hrsg.): Data Mining - Theoretische Aspekte und Anwendungen, Heidelberg: Physica-Verlag,1998, S.10.
36 Vgl. Meyer, Matthias: ”DataMiningimMarketing:EinordnungundÜberblick“,in:Hippner, Hajo et al. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden: Gabler,2001, S.569. Erfolgsfaktoren des Data Mining 12
37 Vgl. Alpar/Niedereichholz: (FN 17), S. 10.38 Vgl. Lusti: (FN 24), S. 399.
39 Vgl. Nakhaeizadeh/Reinartz/Wirth: (FN 35), S. 7.
40 Vgl. Säuberlich: (FN 23), S. 45. Erfolgsfaktoren des Data Mining 13
41 Vgl. Alpar/Niedereichholz: (FN 17), S. 9.
42 Vgl. Säuberlich: (FN 23), S. 42.
43 Vgl. Alpar/Niedereichholz: (FN 17), S. 10.
44 Vgl. Nakhaeizadeh/Reinartz/Wirth: (FN 35), S. 9.
45 Vgl. Alpar/Niedereichholz: (FN 17), S. 10. Erfolgsfaktoren des Data Mining 14
46 Mit ggf. optionalen versteckten Schichten.
47 Eine Eingabefunktion verknüpft die Werte zu einem neuen Wert, aus welchem eine Aktivierungsfunktion den Zustand der Verarbeitungseinheit bestimmt. Mittels diesem wird durch eine Ausgabefunktion ein Ausgabewert ermittelt.
48 Jede Funktion für sich ist sehr einfach (z.B. tan, log). Die Komplexität des Netzes ergibt sich aus der Menge der verknüpften Verarbeitungseinheiten.
49 Vgl. Gabler: Wirtschaftslexikon, 15. Aufl., Wiesbaden: Gabler, 2000, S. 2240. Erfolgsfaktoren des Data Mining 15
50 Self-Organizing Maps bzw. Kohonen-Netze.
51 Vgl. Lusti: (FN 24), S. 415.
52 Hier N1 −N6 als Eingabewerte, N7 −N9 zur weiteren Verarbeitung und N10 als Ausgabewert
53 Vgl. Dastani, Parsis: ”DataMiningimDatabaseMarketing“,in:Link,Jörgetal.(Hrsg.): Handbuch Database Marketing,2. überarb. und erweit. Aufl., Ettlingen: IM Fachverlag,1997, S. 263. Erfolgsfaktoren des Data Mining 16
54 Zur Ähnlichkeitsmessung kann z.B. der kleinste Euklidische Abstand zwischen zwei Beispielen verwendet werden.
55 Vgl. Säuberlich: (FN 23), S. 44. Erfolgsfaktoren des Data Mining 17
56 Vergleich von Algorithmen zum Erstellen mehrdimensionaler Bäume, wie bspw. CHAID, ID3 und C4.5 bei Säuberlich: (FN 23), S. 40ff..
57 Z.B. Informationsgewinn, Informationsgewinnverhältnis oder Ausfallwahrscheinlichkeit.
58 Vgl. Säuberlich: (FN 23), S. 44.
59 Bspw. Ja/Nein, 0/1.
60 Vgl. Lusti: (FN 24), S. 97. Erfolgsfaktoren des Data Mining 18
61 Vgl. Lusti: (FN 24), S. 269.
62 http://www-ai.cs.uni-dortmund.de/software/yale/index.html Erfolgsfaktoren des Data Mining 19
63 Vgl. Grabmeier, Johannes: ”SegmentierendeundclusterbildendeMethoden“,in:Hippner, Hajo et al. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden: Gabler,2001, S.299 f.. Erfolgsfaktoren des Data Mining 20
64 In mehreren Schritten werden entweder aus einer gegebenen Partition durch Vereinigung von zwei Clustern oder durch Trennung eines Clusters in zwei Teilcluster neue Partitionen gebildet.
65 Teils mit Vorgabe der Maximalzahl der Cluster, teils selbststeuernd.
66 Vgl. Grabmeier: (FN 63), S. 304ff..
67 Vgl. Hippner, Hajo: ”KomponentenundPotenzialeeinesanalytischenCustomerRelation- ship Management“, in: Chamoni, Peter/Gluchowski, Peter (Hrsg.): Analytische Informationssys- teme - Business Intelligence-Technologien und -Anwendungen,3. Aufl., Berlin: Springer,2006, S.374.
68 Vgl. Hippner: (FN 67), S. 375. Erfolgsfaktoren des Data Mining 21
69 Klassisches Verfahren zum effizienten Analysieren einfacher Mengenzusammenhänge durch Assoziationsregeln innerhalb aller relevanten Beziehungen in einer Datenbasis.
70 Vgl. Hettich, Stefanie/Hippner, Hajo:
”Assoziationsanalyse“,in:Hippner,Hajoetal. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden: Gabler,2001, S.454. Erfolgsfaktoren des Data Mining 22
71 U.a. dient als Überblick Hippner: (FN 67).
72 Vgl. The Standish Group International: (FN 8), S. 4. Erfolgsfaktoren des Data Mining 23
73 Hilbert, Andreas: Data Mining Projekte im unternehmerischen Umfeld: Eine empirische Studie deutscher Unternehmen, Augsburg: Institut für Statistik und Mathematische Wirtschafts- theorie, Universität Augsburg, 2002 , Internet: http://opus.zbw-kiel.de/volltexte/2005/2710/ pdf/Heft183.pdf - Abruf: 26.02.2006.
74 Häufig erwähnt im Zusammenhang mit dem Bereich der Business Intelligence (BI).
75 Vgl. Hilbert: (FN 73), S. 12. Erfolgsfaktoren des Data Mining 24
76 Vgl. Hilbert: (FN 73), S. 25ff.. 77 Technisch, organisatorisch etc.
78 Vgl. Alpar/Niedereichholz: (FN 17), S. 6f.. Erfolgsfaktoren des Data Mining 25
79 Vgl. Hilbert: (FN 73), S. 25f..
80 Engl.: Verpflichtung Erfolgsfaktoren des Data Mining 26
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!
Kommentare