Diplomarbeit, 2007
142 Seiten, Note: 1,0
1 Einleitung
I Theoretische Grundlagen
2 Web Log Mining
2.1 Data Mining
2.1.1 Klassifikation
2.1.2 Clustering
2.1.3 Assoziationsregeln
2.1.4 Sequentielle Muster
2.1.5 Anwendungsgebiete
2.2 Inhalt von Logfiles
2.3 Preprocessing von Web Logs
2.3.1 Säubern der Logdatei
2.3.2 Identifikation von Usern
2.3.3 Identifikation von Sessions
2.3.4 Alternative: Sammeln von Logdaten auf Clientseite
2.4 Repräsentation von Web Logs
2.4.1 n-dimensionaler binärer Attributvektor
2.4.2 n-dimensionaler Pageview-Referenz Vektor
2.4.3 Sequenz von Seitenaufrufen
2.4.4 Dateiformat “One Session Per Line”
2.4.5 Datenbankrepräsentation
2.5 Web Log Analyse
2.5.1 Assoziationsregeln und Frequent Itemsets
2.5.2 Clustering und Klassifikation
2.5.3 Sequentielle Muster
2.5.4 Identifikation interessierter Benutzer
2.6 Web Log Mining Software
3 Personalisierung und Benutzermodellierung
3.1 Ursprung
3.2 Personalisierung im Internet
3.3 User Modelling für Personalisierung
3.3.1 Abgrenzung Benutzermodell - Benutzerprofil
3.3.2 Customer Profile Life Cycle
3.3.3 Daten und Datenquellen
3.3.4 Repräsentation von User Modellen
3.4 Klassifikation von Personalisierungsansätzen
3.4.1 Verwendete Profile
3.4.2 Art der Wissensakquisition
3.4.3 Art der verwendeten Informationen
3.4.4 Memory Based oder Model Based
3.4.5 Ort der Personalisierung
3.4.6 Gültigkeitsdauer eines Modells
3.4.7 Transparenz
3.5 Personalisierungstechniken
3.5.1 Content Based Filtering
3.5.2 Traditionelles Collaborative Filtering
3.5.3 Modellbasierte Techniken
3.5.4 Regelbasierte Personalisierung
3.5.5 Navigationsbasierte Techniken
3.5.6 Zielorientierte Benutzermodellierung
3.5.7 Hybride Ansätze
3.5.8 Personalisierte Websuche
3.6 Personalisierung für anonyme Besucher
4 Kategorisierung von Webseiten
4.1 Manuelle vs. Automatische Klassifikation
4.2 Regelbasierte Klassifikation
4.2.1 Vorgehensweise
4.2.2 Automatisches Lernen von Klassifikationsregeln
4.3 Collaborative Tagging
4.4 Resümee: Welcher Ansatz?
II Praktischer Teil
5 Konzept
5.1 Motivation
5.2 Datenquellen
5.3 Festlegen und Zuweisen von Dimensionen
5.4 Ermitteln von Interesse
5.5 Aufbau des Benutzerprofils
5.6 Vorhersage von Seiten und Interessen
5.7 Einordnung des Ansatzes
6 Personalisierungssoftware w.w.w. Profiler
6.1 Systemarchitektur - Übersicht
6.2 Import von Logfiles
6.2.1 Unterstützte Formate
6.2.2 Filterungsmechanismus
6.2.3 Identifikation von Usern und Sessions
6.2.4 Datenbank-Repräsentation des Web Logs
6.3 Die Classifier-Komponente
6.3.1 Definition von Interessens-Dimensionen
6.3.2 Identifikation relevanter Navigationspfade und Seiten
6.3.3 Taggen von Seiten / Pfaden
6.4 Analysekomponente
6.4.1 Seiten-Statistiken
6.4.2 Pfad-Statistiken und Assoziationsregeln
6.5 Export von Sessiondaten
6.5.1 Navigationsebene
6.5.2 Taskebene
6.6 Definition personalisierter Hinweise
6.7 Konfigurationsdatei
6.8 Online-Personalisierungskomponente
6.9 Erweiterungsmöglichkeiten
6.9.1 Schnittstelle zur CW Advisor Suite
6.9.2 Clustering
6.9.3 Automatische Kategorisierung von Webseiten
7 Anwendungsszenarien und Beispiele
7.1 Analyse von Benutzerverhalten
7.2 Empfehlung interessanter Seiten
7.3 Personalisierte Hinweise
7.4 Vorhersage von Interessen
7.5 Parametrisierung eines virtuellen Beraters
8 Zusammenfassung und Ausblick
A Datenbankmodell
Diese Arbeit zielt darauf ab, ein neues Konzept zur Personalisierung von Webseiten für anonyme, nicht registrierte Benutzer zu entwickeln. Die zentrale Forschungsfrage untersucht, wie Navigationsverhalten und Metainformationen genutzt werden können, um implizite Benutzermodelle in Echtzeit zu erstellen und so die Benutzerfreundlichkeit zu erhöhen.
2.1.1 Klassifikation
Unter Klassifikation versteht man jenen Prozess, der anhand bestimmter Kriterien (Klassifikationsmodell, [13]) einzelne Instanzen einer Datenmenge zuvor definierten Gruppen zuweist. Grundsätzlich unterscheidet man zwischen deduktiven und induktiven Ansätzen. Deduktive Ansätze haben ein vorgegebenes, in der Regel manuell erstelltes Klassifikationsmodell - z.B. Klassifikationsregeln oder Entscheidungsbäume [18] - und führen die Klassifikation anhand dieses Modells durch. Abbildung 2.1 zeigt einen beispielhaften Entscheidungsbaum, der aus vorhandenen Wetterdaten ableitet, ob eine bestimmte Aktivität durchgeführt werden kann (positiv, Klasse P) oder nicht (negativ, Klasse N) [59]. Ein Entscheidungsbaum ist eine spezielle Repräsentationsform von Klassifikationsregeln und kann deshalb immer auch als Menge von Klassifikationsregeln dargestellt werden und umgekehrt.
1 Einleitung: Diese Einleitung führt in die Problematik ein, dass Webseiten heute dynamische Inhalte erfordern und dass für anonyme Nutzer bisher kaum Personalisierungsmöglichkeiten bestehen.
2 Web Log Mining: In diesem Kapitel werden Data Mining Techniken, die Struktur von Web Logs und verschiedene Verfahren zum Preprocessing sowie zur Analyse von Navigationsdaten vorgestellt.
3 Personalisierung und Benutzermodellierung: Hier werden die theoretischen Grundlagen der User-Modellierung, verschiedene Ansätze zur Personalisierung und gängige Techniken der Empfehlungssysteme diskutiert.
4 Kategorisierung von Webseiten: Dieses Kapitel vergleicht manuelle und automatische Verfahren zur Webseiten-Klassifikation, einschließlich Metadaten- und URL-Analysen.
5 Konzept: Hier wird der neue Personalisierungsansatz für anonyme Nutzer präsentiert, der auf implizit aus Navigationsdaten gewonnenen Interessen basiert.
6 Personalisierungssoftware w.w.w. Profiler: Dieses Kapitel erläutert die Implementierung der Software, ihre Architektur, die Logfile-Analyse und die verschiedenen Module für den Datenimport und Export.
7 Anwendungsszenarien und Beispiele: Hier werden praktische Einsatzmöglichkeiten der Software demonstriert, wie die Analyse von Nutzerverhalten und die Bereitstellung personalisierter Empfehlungen.
8 Zusammenfassung und Ausblick: Das Fazit fasst die Ergebnisse zusammen und diskutiert zukünftige Verbesserungsmöglichkeiten für das entwickelte System.
Web Log Mining, Personalisierung, Benutzermodellierung, Web Usage Mining, Anonyme Besucher, Benutzerprofil, Entscheidungsbaum, Klassifikation, Clustering, Assoziationsregeln, Navigationspfade, w.w.w. Profiler, Empfehlungssysteme, Klicksequenzen, Datenanalyse
Die Arbeit befasst sich mit der Entwicklung eines Konzepts und einer Software zur Personalisierung von Webseiten für Benutzer, die dem System nicht namentlich bekannt sind.
Die zentralen Felder sind Web Log Mining, die Erstellung von Benutzermodellen durch implizite Beobachtung sowie Verfahren zur Kategorisierung von Webseiten.
Das Hauptziel ist es, ein System zu schaffen, das anonymen Besuchern personalisierte Inhalte auf Basis ihres aktuellen Navigationsverhaltens anbietet, ohne eine Registrierung vorauszusetzen.
Verwendet werden Data-Mining-Techniken wie Clustering und Assoziationsregeln sowie statistische Verfahren zur Analyse von Web-Server-Logfiles.
Im praktischen Teil wird die Software "w.w.w. Profiler" entworfen und implementiert, die automatisiert Nutzerprofile auf Basis von Server-Logdaten erstellt und personalisierte Hinweise einblendet.
Die Arbeit wird durch Begriffe wie Web Log Mining, Personalisierung, anonyme Besucher, Navigationsanalyse und Benutzermodellierung charakterisiert.
Klassische Systeme basieren meist auf registrierten Benutzern und langfristigen Profilen, während dieser Ansatz in Echtzeit kurzfristige Profile für anonyme Besucher erstellt.
Diese Komponente ermöglicht es Experten, Webseiten oder Navigationspfade manuell in bestimmte Kategorien oder Interessens-Dimensionen einzuordnen.
Durch Preprocessing-Schritte werden irrelevante Anfragen (z.B. von Bots oder Bilddateien) gefiltert und Navigationssequenzen in sinnvolle Sessions zusammengefasst.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

