Diplomarbeit, 1999
152 Seiten, Note: Sehr Gut
1 Einleitung
2 Aspekte des Information Retrieval
2.1 Definition und Abgrenzung
2.2 Datenstrukturen in Informationssystemen
2.2.1 Hashbasierte und Intervallbasierte Datenstrukturen
2.2.2 Signature Files und Inverted Files
2.3 Verfahren zur Indexierung von Dokumenten
2.4 Suchtechniken im Information Retrieval
2.4.1 Boolesches Retrieval
2.4.2 Fuzzy Retrieval
2.4.3 Vektorraum-Modell
2.4.4 Probabilistisches Retrieval
2.5 Typologie von Informationssystemen
2.5.1 Information Retrieval Systeme
2.5.2 Datenbankmanagementsysteme
2.5.3 Expertensysteme
2.5.3.1 Werkzeuge für Expertensysteme
2.5.4 Weitere Informationssysteme
3 Der Einsatz von Information
3.1 Internet - Entwicklung und Wachstum
3.2 Information Overload
3.2.1 Information Overload im Unternehmen
3.2.2 Vom Information Retrieval zum Information Overload
3.2.3 Information Overload im Internet
4 Die Data Warehouse-Technologie
4.1 Einführung
4.2 Definition
4.3 Entwicklung der Data Warehouse-Technologie
4.4 Data Warehouse Konzepte
4.4.1 Data Warehouse Modell der META Group
4.4.2 Data Warehouse Funktionen nach SINGH
4.5 Datenverarbeitung im Data Warehouse
4.5.1 Transaction Processing und OLTP
4.5.2 Decision Support Processing
4.5.3 Online Analytical Processing (OLAP)
4.6 Data Warehouse und Data Marts
4.7 Data Warehouse Reifemodell
4.8 Data Warehousing in der Praxis
5 Verfahren des Data Mining
5.1 Einleitung
5.2 Definition
5.3 Knowledge Discovery in Databases (KDD)
5.4 Prozeßmodelle
5.5 Methoden und Muster
5.5.1 Muster
5.5.2 Methoden
5.5.2.1 Klassifikation
5.5.2.2 Schätzung
5.5.2.3 Vorhersage
5.5.2.4 Ähnlichkeitsgruppierung
5.5.2.5 Clustering
5.5.2.6 Deskription
5.6 Techniken
5.6.1 Entscheidungsbaumverfahren
5.6.2 Analyse von Beziehungen zwischen Datensätzen
5.6.3 Fallbasiertes Schließen
5.6.4 Automatische Clusteranalyse
5.6.5 Genetische Algorithmen
5.6.6 Neuronale Netze
5.6.7 Visualisierung
5.7 Data Mining-spezifische Problematiken
5.7.1 Datenprobleme
5.7.2 Prozeßprobleme
5.8 Data Mining im Unternehmen
5.8.1 Corporate Intranets
5.9 Anwendungen in der Praxis
6 Ein Fuzzy Approach im Information Retrieval
6.1 Verarbeitung unscharfer Daten
6.1.1 Rough Sets
6.1.1.1 Allgemein
6.1.1.2 Rough Set-Theorie
6.1.2 Fuzzy Logic
6.1.2.1 Allgemein
6.1.2.2 Entwicklungsüberblick
6.1.2.3 Fuzzy Sets
6.1.2.4 Possibilität versus Probabilität
6.1.2.5 Approximatives Schließen
6.1.2.6 Fuzzy Systeme
6.2 Entwicklung eines Fuzzy Approachs
6.2.1 Allgemein
6.2.2 Konzept
6.2.3 Realisierung
7 Die Implementierung eines Prototypen in C++
7.1 Allgemeine Programmbeschreibung
7.2 Klassen und Methoden
7.3 Input/Output Schnittstelle
7.4 Ein Musterbeispiel
7.5 Berechnung multipler Kategorie-Dependenzen
8 Zusammenfassung und Schlußbetrachtung
Das Hauptziel dieser Diplomarbeit ist die Vorstellung eines innovativen "Fuzzy Approach" im Bereich Information Retrieval, um vage oder ungenaue Daten zur Wissensextraktion nutzbar zu machen. Hierbei wird untersucht, wie durch die Kombination von "Rough Sets" und "Fuzzy Sets" entscheidungsunterstützende Regeln generiert werden können, um den Herausforderungen des wachsenden Datenvolumens in Unternehmen zu begegnen.
Die Data Warehouse-Technologie
„Als kürzlich auf einer Konferenz ein Vorstandsmitglied einen Management-Propheten danach fragte, wie sein Unternehmen den größtmöglichen Erfolg erreichen könnte, antwortete dieser: „Information“. Auf die Frage, wovor er sich denn in Zukunft am meisten in Acht nehmen sollte, erwiderte der Prophet: „Daten“.“ (zitiert nach [SINGH, 1998])
In den beiden letzten Jahrzehnten ist der Informationsfluß im Unternehmen und in dessen Umfeld stark angestiegen. Mit jedem neuen Produkt bzw. jeder technologischen Weiterentwicklung ist auch die damit verbundene Informationsmenge angestiegen und hat Jahr für Jahr noch nie erreichte Rekorddimensionen erlangt. Damit ein Unternehmen langfristig erfolgreich ist, muß es den dynamischen Prozeß des Informationsmanagements aktiv steuern und sich täglich mit neuen Herausforderungen beschäftigen. In den 90er-Jahren erkannte man, daß die Möglichkeiten, Daten zu sammeln, viel ausgereifter waren, als die Möglichkeiten, diese Daten auch auszuwerten. Man konnte in den Unternehmen eine regelrechte Datenüberschwemmung beobachten, die große Auswirkungen auf die Bereiche der Wissenschaft, Wirtschaft und Politik darstellte [SINGH, 1998]. Dieser Umstand erforderte die Entwicklung leistungsfähiger Systeme, die nicht alle in der Informationsgewinnung oder Datenspeicherung genügen mußten. Vielmehr wurde es wichtig, viele relevante Informationen in möglichst kurzer Zeit für den Endanwender verfügbar zu machen, daraus individuelles Wissen zu extrahieren und das gesamte System in einer flexiblen und transparenten Architektur unterzubringen.
1 Einleitung: Beschreibt die Bedeutung von Information für Unternehmensentscheidungen und führt in die Problematik des "Data Overload" ein.
2 Aspekte des Information Retrieval: Erfasst den Begriff des Information Retrieval, klassifiziert Suchtechniken und untersucht verschiedene Informationssysteme.
3 Der Einsatz von Information: Analysiert die Entwicklung des Internets und die daraus resultierende Problematik des Information Overload.
4 Die Data Warehouse-Technologie: Erläutert das Konzept und die Möglichkeiten einer erfolgreichen Umsetzung von Data Warehouses für ein unternehmensweites Informationsmanagement.
5 Verfahren des Data Mining: Klassifiziert den Begriff des Data Mining im Zusammenhang mit KDD und stellt grundlegende Prozeßmodelle und Methoden vor.
6 Ein Fuzzy Approach im Information Retrieval: Erläutert den theoretischen Hintergrund von Rough Sets und Fuzzy Sets sowie das Konzept des entwickelten Fuzzy Approachs.
7 Die Implementierung eines Prototypen in C++: Dokumentiert den praktischen Teil der Arbeit, inklusive der Implementierung der C++ Klassen und der Beschreibung des Prototypen.
8 Zusammenfassung und Schlußbetrachtung: Fasst die Ergebnisse der Arbeit zusammen und bewertet den entwickelten Fuzzy Approach.
Information Retrieval, Data Warehouse, Data Mining, Fuzzy Logic, Rough Sets, Knowledge Discovery in Databases, Wissensextraktion, Information Overload, OLAP, Expertensysteme, Unternehmensmanagement, Entscheidungsunterstützung, Informationstechnik, Intervallbasierte Datenstrukturen, C++ Implementierung
Die Arbeit behandelt die Entwicklung eines innovativen Fuzzy-Ansatzes innerhalb des Information Retrieval, um unsichere oder vage Datenbestände in Unternehmen für die Wissensextraktion nutzbar zu machen.
Zentrale Themen sind Information Retrieval, Data Warehouse-Technologien, Data Mining-Methoden sowie die theoretischen Grundlagen der Fuzzy Logic und Rough Set-Theorie.
Das primäre Ziel ist die Entwicklung eines Verfahrens, das aus vagen Daten, die als Präferenz-Intervalle vorliegen, entscheidungsunterstützende Regeln für wissensbasierte Systeme extrahiert.
Es wird ein hybrider Ansatz verfolgt, der Theorien zu unscharfen Daten (Rough Sets und Fuzzy Sets) kombiniert und diese praktisch in Form eines C++ Prototypen implementiert.
Der Hauptteil befasst sich mit der Definition von Information Retrieval und Data Warehousing, der Klassifizierung von Data Mining-Techniken sowie der detaillierten Beschreibung des entwickelten Fuzzy-Algorithmus.
Wichtige Schlagworte sind Information Retrieval, Data Mining, Fuzzy Logic, Rough Sets und Data Warehouse.
Der Prototyp liest tabulator-getrennte Textdateien mit Präferenz-Intervallen ein, führt Berechnungen zur Intervallverknüpfung durch und generiert eine übersichtliche Regelbasis in CASE-Struktur.
Im Gegensatz zur bivalenten Logik, die nur "wahr" oder "falsch" kennt, erlaubt der Fuzzy-Ansatz die Modellierung menschlicher Unschärfe und führt somit zu einer realitätsnäheren Approximation bei der Datenanalyse.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

