Ein Fuzzy Approach im Information Retrieval

Diplomarbeit, 1999
152 Seiten, Note: Sehr Gut

Informatik - Wirtschaftsinformatik

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Aspekte des Information Retrieval

2.1 Definition und Abgrenzung

2.2 Datenstrukturen in Informationssystemen

2.2.1 Hashbasierte und Intervallbasierte Datenstrukturen

2.2.2 Signature Files und Inverted Files

2.3 Verfahren zur Indexierung von Dokumenten

2.4 Suchtechniken im Information Retrieval

2.4.1 Boolesches Retrieval

2.4.2 Fuzzy Retrieval

2.4.3 Vektorraum-Modell

2.4.4 Probabilistisches Retrieval

2.5 Typologie von Informationssystemen

2.5.1 Information Retrieval Systeme

2.5.2 Datenbankmanagementsysteme

2.5.3 Expertensysteme

2.5.3.1 Werkzeuge für Expertensysteme

2.5.4 Weitere Informationssysteme

3 Der Einsatz von Information

3.1 Internet - Entwicklung und Wachstum

3.2 Information Overload

3.2.1 Information Overload im Unternehmen

3.2.2 Vom Information Retrieval zum Information Overload

3.2.3 Information Overload im Internet

4 Die Data Warehouse-Technologie

4.1 Einführung

4.2 Definition

4.3 Entwicklung der Data Warehouse-Technologie

4.4 Data Warehouse Konzepte

4.4.1 Data Warehouse Modell der META Group

4.4.2 Data Warehouse Funktionen nach SINGH

4.5 Datenverarbeitung im Data Warehouse

4.5.1 Transaction Processing und OLTP

4.5.2 Decision Support Processing

4.5.3 Online Analytical Processing (OLAP)

4.6 Data Warehouse und Data Marts

4.7 Data Warehouse Reifemodell

4.8 Data Warehousing in der Praxis

5 Verfahren des Data Mining

5.1 Einleitung

5.2 Definition

5.3 Knowledge Discovery in Databases (KDD)

5.4 Prozeßmodelle

5.5 Methoden und Muster

5.5.1 Muster

5.5.2 Methoden

5.5.2.1 Klassifikation

5.5.2.2 Schätzung

5.5.2.3 Vorhersage

5.5.2.4 Ähnlichkeitsgruppierung

5.5.2.5 Clustering

5.5.2.6 Deskription

5.6 Techniken

5.6.1 Entscheidungsbaumverfahren

5.6.2 Analyse von Beziehungen zwischen Datensätzen

5.6.3 Fallbasiertes Schließen

5.6.4 Automatische Clusteranalyse

5.6.5 Genetische Algorithmen

5.6.6 Neuronale Netze

5.6.7 Visualisierung

5.7 Data Mining-spezifische Problematiken

5.7.1 Datenprobleme

5.7.2 Prozeßprobleme

5.8 Data Mining im Unternehmen

5.8.1 Corporate Intranets

5.9 Anwendungen in der Praxis

6 Ein Fuzzy Approach im Information Retrieval

6.1 Verarbeitung unscharfer Daten

6.1.1 Rough Sets

6.1.1.1 Allgemein

6.1.1.2 Rough Set-Theorie

6.1.2 Fuzzy Logic

6.1.2.1 Allgemein

6.1.2.2 Entwicklungsüberblick

6.1.2.3 Fuzzy Sets

6.1.2.4 Possibilität versus Probabilität

6.1.2.5 Approximatives Schließen

6.1.2.6 Fuzzy Systeme

6.2 Entwicklung eines Fuzzy Approachs

6.2.1 Allgemein

6.2.2 Konzept

6.2.3 Realisierung

7 Die Implementierung eines Prototypen in C++

7.1 Allgemeine Programmbeschreibung

7.2 Klassen und Methoden

7.3 Input/Output Schnittstelle

7.4 Ein Musterbeispiel

7.5 Berechnung multipler Kategorie-Dependenzen

8 Zusammenfassung und Schlußbetrachtung

Zielsetzung & Themen

Das Hauptziel dieser Diplomarbeit ist die Vorstellung eines innovativen "Fuzzy Approach" im Bereich Information Retrieval, um vage oder ungenaue Daten zur Wissensextraktion nutzbar zu machen. Hierbei wird untersucht, wie durch die Kombination von "Rough Sets" und "Fuzzy Sets" entscheidungsunterstützende Regeln generiert werden können, um den Herausforderungen des wachsenden Datenvolumens in Unternehmen zu begegnen.

Grundlagen des Information Retrieval und Datenstrukturen
Konzept und Herausforderungen von Data Warehousing
Methoden und Techniken des Data Mining (KDD)
Theoretische Fundierung von Rough Sets und Fuzzy Logic
Praktische Implementierung eines C++ Prototypen zur Regelextraktion

Auszug aus dem Buch

Die Data Warehouse-Technologie

„Als kürzlich auf einer Konferenz ein Vorstandsmitglied einen Management-Propheten danach fragte, wie sein Unternehmen den größtmöglichen Erfolg erreichen könnte, antwortete dieser: „Information“. Auf die Frage, wovor er sich denn in Zukunft am meisten in Acht nehmen sollte, erwiderte der Prophet: „Daten“.“ (zitiert nach [SINGH, 1998])

In den beiden letzten Jahrzehnten ist der Informationsfluß im Unternehmen und in dessen Umfeld stark angestiegen. Mit jedem neuen Produkt bzw. jeder technologischen Weiterentwicklung ist auch die damit verbundene Informationsmenge angestiegen und hat Jahr für Jahr noch nie erreichte Rekorddimensionen erlangt. Damit ein Unternehmen langfristig erfolgreich ist, muß es den dynamischen Prozeß des Informationsmanagements aktiv steuern und sich täglich mit neuen Herausforderungen beschäftigen. In den 90er-Jahren erkannte man, daß die Möglichkeiten, Daten zu sammeln, viel ausgereifter waren, als die Möglichkeiten, diese Daten auch auszuwerten. Man konnte in den Unternehmen eine regelrechte Datenüberschwemmung beobachten, die große Auswirkungen auf die Bereiche der Wissenschaft, Wirtschaft und Politik darstellte [SINGH, 1998]. Dieser Umstand erforderte die Entwicklung leistungsfähiger Systeme, die nicht alle in der Informationsgewinnung oder Datenspeicherung genügen mußten. Vielmehr wurde es wichtig, viele relevante Informationen in möglichst kurzer Zeit für den Endanwender verfügbar zu machen, daraus individuelles Wissen zu extrahieren und das gesamte System in einer flexiblen und transparenten Architektur unterzubringen.

Zusammenfassung der Kapitel

1 Einleitung: Beschreibt die Bedeutung von Information für Unternehmensentscheidungen und führt in die Problematik des "Data Overload" ein.

2 Aspekte des Information Retrieval: Erfasst den Begriff des Information Retrieval, klassifiziert Suchtechniken und untersucht verschiedene Informationssysteme.

3 Der Einsatz von Information: Analysiert die Entwicklung des Internets und die daraus resultierende Problematik des Information Overload.

4 Die Data Warehouse-Technologie: Erläutert das Konzept und die Möglichkeiten einer erfolgreichen Umsetzung von Data Warehouses für ein unternehmensweites Informationsmanagement.

5 Verfahren des Data Mining: Klassifiziert den Begriff des Data Mining im Zusammenhang mit KDD und stellt grundlegende Prozeßmodelle und Methoden vor.

6 Ein Fuzzy Approach im Information Retrieval: Erläutert den theoretischen Hintergrund von Rough Sets und Fuzzy Sets sowie das Konzept des entwickelten Fuzzy Approachs.

7 Die Implementierung eines Prototypen in C++: Dokumentiert den praktischen Teil der Arbeit, inklusive der Implementierung der C++ Klassen und der Beschreibung des Prototypen.

8 Zusammenfassung und Schlußbetrachtung: Fasst die Ergebnisse der Arbeit zusammen und bewertet den entwickelten Fuzzy Approach.

Schlüsselwörter

Information Retrieval, Data Warehouse, Data Mining, Fuzzy Logic, Rough Sets, Knowledge Discovery in Databases, Wissensextraktion, Information Overload, OLAP, Expertensysteme, Unternehmensmanagement, Entscheidungsunterstützung, Informationstechnik, Intervallbasierte Datenstrukturen, C++ Implementierung

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit behandelt die Entwicklung eines innovativen Fuzzy-Ansatzes innerhalb des Information Retrieval, um unsichere oder vage Datenbestände in Unternehmen für die Wissensextraktion nutzbar zu machen.

Was sind die zentralen Themenfelder?

Zentrale Themen sind Information Retrieval, Data Warehouse-Technologien, Data Mining-Methoden sowie die theoretischen Grundlagen der Fuzzy Logic und Rough Set-Theorie.

Was ist das primäre Ziel oder die Forschungsfrage?

Das primäre Ziel ist die Entwicklung eines Verfahrens, das aus vagen Daten, die als Präferenz-Intervalle vorliegen, entscheidungsunterstützende Regeln für wissensbasierte Systeme extrahiert.

Welche wissenschaftliche Methode wird verwendet?

Es wird ein hybrider Ansatz verfolgt, der Theorien zu unscharfen Daten (Rough Sets und Fuzzy Sets) kombiniert und diese praktisch in Form eines C++ Prototypen implementiert.

Was wird im Hauptteil behandelt?

Der Hauptteil befasst sich mit der Definition von Information Retrieval und Data Warehousing, der Klassifizierung von Data Mining-Techniken sowie der detaillierten Beschreibung des entwickelten Fuzzy-Algorithmus.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wichtige Schlagworte sind Information Retrieval, Data Mining, Fuzzy Logic, Rough Sets und Data Warehouse.

Wie funktioniert der implementierte Prototyp "RoughProject.exe"?

Der Prototyp liest tabulator-getrennte Textdateien mit Präferenz-Intervallen ein, führt Berechnungen zur Intervallverknüpfung durch und generiert eine übersichtliche Regelbasis in CASE-Struktur.

Welche Vorteile bietet der Fuzzy-Ansatz gegenüber herkömmlicher Logik?

Im Gegensatz zur bivalenten Logik, die nur "wahr" oder "falsch" kennt, erlaubt der Fuzzy-Ansatz die Modellierung menschlicher Unschärfe und führt somit zu einer realitätsnäheren Approximation bei der Datenanalyse.

Ende der Leseprobe aus 152 Seiten - nach oben

Details

Titel: Ein Fuzzy Approach im Information Retrieval
Hochschule: Technische Universität Wien (Angewandte Informatik)
Note: Sehr Gut
Autor: Lucian Rehm (Autor:in)
Erscheinungsjahr: 1999
Seiten: 152
Katalognummer: V1066
ISBN (eBook): 9783638106580
Dateigröße: 3771 KB
Sprache: Deutsch
Schlagworte: Data Mining Data Warehouse Fuzzy Logic Information Retrieval Rough Sets
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 45,99

Arbeit zitieren: Lucian Rehm (Autor:in), 1999, Ein Fuzzy Approach im Information Retrieval, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/1066