Diplomarbeit, 2008
100 Seiten, Note: 1,0
1 Einleitung
1.1 Motivation
1.2 Erläuterung des Problemfeldes
1.3 Ziel und Aufbau der Arbeit
2 Grundlagen und Stand der Forschung
2.1 Bestandteile der Blogosphäre
2.2 Analyse sozialer Netzwerke
2.3 Verwandte Arbeiten
3 Vorüberlegung
3.1 Möglichkeiten der Auswertung von Blogs
3.1.1 Zeitliche Aspekte
3.1.2 Räumliche Aspekte
3.1.3 Community-Extraktion
3.2 Einbindung zusätzlicher Informationsquellen
3.3 Zusammenfassung
4 Umsetzung
4.1 Übersicht
4.2 Web-Crawler
4.3 Datenhaltung
4.4 Auswertungskomponente
4.5 Präsentationskomponente
4.6 Vorstellung des implementierten Systems
4.7 Funktionsweise zentraler Algorithmen
4.8 Zusammenfassung
5 Validierung und Verbesserungsansätze
6 Auswertung gewonnener Informationen
6.1 Einleitung
6.2 Zeitliche Aspekte
6.3 Räumliche Aspekte
6.4 Allgemeine Aspekte
6.5 Zusammenfassung
7 Zusammenfassung und Ausblick
7.1 Zusammenfassung
7.2 Ausblick
Die Arbeit verfolgt das Ziel, Möglichkeiten zur automatisierten Auswertung zeitlicher und räumlicher Aspekte der Informationsausbreitung in der Blogosphäre zu untersuchen, um tiefergehende Analysen als bei aktuellen Suchmaschinen zu ermöglichen und die Qualität von Weblogs sowie deren Communities zu bewerten.
1.1 Motivation
Durch Werbebanner auf seinem Blog http://www.basicthinking.de erwirtschaftet Robert Basic, als einer der bekanntesten deutschen Blogger, mit circa 3.500€ pro Monat mittlerweile seinen Lebensunterhalt. Unlängst wurde ihm jedoch ein weiterer Vorteil durch die Einladung eines Automobilherstellers bewusst, die er umgehend auf seinem Blog veröffentlichte:
“Dear Robert, To present Alfa Romeo’s new small sports car, the MiTo we’ve decided to invite a team of international bloggers who are outstanding figures for their intelligent and innovative use of social media. We’re particularly impressed with the excellent work you’re doing, and the success of Basic Thinking. So we’d be extremely pleased if you would like to take part in the presentation of the MiTo. It will take place in Varano, Italy on July 9th and 10th, 2008; your visit would of course be at our expense, including your travel arrangements.[...]”
Anhand dieses Beispiels werden verschiedene Aspekte deutlich: Für viele Blogger strahlt es eine hohe Attraktivität aus, als Journalisten wahrgenommen zu werden und entsprechende Privilegien, wie die exklusive Einladung zu Produktpräsentationen auf fremde Kosten zu erfahren. Auf der anderen Seite werden sie dafür zugleich von anderen Bloggern kritisiert, dadurch ihre Unabhängigkeit zu verlieren und käuflich zu werden. Diese Unabhängigkeit wurde lange Zeit als zentrales Charakteristikum der Blogosphäre gesehen. Aber auch die Werbewirtschaft erkennt die Blogosphäre mittlerweile als Plattform für virales Marketing und spricht gezielt die Autoren von populären Blogs an, um diese von ihren Produkten zu überzeugen und somit die als überwiegend glaubwürdig eingestufte Berichterstattung auf Blogs anzustoßen.
1 Einleitung: Beschreibt die Motivation hinter der Analyse der Blogosphäre, beleuchtet das Problemfeld unzureichender Suchmöglichkeiten und definiert das Ziel sowie den Aufbau der Arbeit.
2 Grundlagen und Stand der Forschung: Definiert zentrale Begriffe wie Blog und Blogosphäre, erläutert Konzepte der sozialen Netzwerkanalyse und diskutiert verwandte Arbeiten.
3 Vorüberlegung: Analysiert verschiedene Schichten der Datenhaltung in Blogs und evaluiert Methoden zur Gewinnung von zeitlichen und räumlichen Informationen sowie zur Community-Extraktion.
4 Umsetzung: Stellt das modulare Konzept der entwickelten Anwendung vor, einschließlich der Module für Web-Crawling, Datenhaltung, Auswertung und Präsentation, sowie deren technische Implementierung in C#.
5 Validierung und Verbesserungsansätze: Reflektiert kritisch über die Leistungsfähigkeit des Systems, beleuchtet Problemfelder bei der Datenextraktion und schlägt Optimierungen vor.
6 Auswertung gewonnener Informationen: Präsentiert die empirischen Ergebnisse der Analyse bezüglich zeitlicher Aktivitätsmuster, räumlicher Verteilung und der Struktur von Communities.
7 Zusammenfassung und Ausblick: Fasst die erbrachten Ergebnisse der Arbeit zusammen und gibt einen Ausblick auf mögliche weiterführende Forschungsarbeiten und kommerzielle Anwendungen.
Blogosphäre, Web-Crawler, soziale Netzwerkanalyse, Community-Extraktion, Informationsextraktion, RSS-Feeds, Atom-Feeds, zeitliche Aspekte, räumliche Aspekte, n-Clans, Topic-Comment-Ratio, Web 2.0, Datenbankschema, Blog-Analyse, Netzwerkgraph.
Die Diplomarbeit befasst sich mit der automatisierten Auswertung der Blogosphäre, insbesondere unter Berücksichtigung von zeitlichen und räumlichen Aspekten sowie der Identifikation von sozialen Strukturen.
Zentrale Themen sind das Web-Crawling zur Datengewinnung, die Analyse sozialer Netzwerke innerhalb der Blogosphäre, die Verarbeitung von semi-strukturierten Daten (Feeds) und die räumlich-zeitliche Verortung von Bloggern.
Das primäre Ziel ist es, Grundlagen zu schaffen, um durch ein besseres Verständnis des Zusammenwirkens in der Blogosphäre tiefgreifende Analysen zu ermöglichen und Möglichkeiten zur automatisierten Auswertung zu implementieren.
Es werden Methoden aus der sozialen Netzwerkanalyse (z.B. Graphentheorie, n-Clans, Dyaden) mit Information-Retrieval-Verfahren und statistischen Analysen von XML-basierten Feeds kombiniert.
Der Hauptteil umfasst die theoretische Fundierung, die Vorüberlegungen zur Datenextraktion, die detaillierte Beschreibung der Software-Implementierung (Crawler, Datenbank, Auswertung) sowie die Präsentation und Validierung der gewonnenen Daten.
Schlüsselwörter sind Blogosphäre, Web-Crawler, soziale Netzwerkanalyse, Community-Extraktion, n-Clans und räumlich-zeitliche Analyse.
Communities werden durch die Analyse struktureller Informationen und die gegenseitige Kenntnis der Akteure (Dyaden) identifiziert, wobei n-Clans genutzt werden, um stark zusammenhängende Untergruppen zu detektieren.
Das Hosting-System beeinflusst die Wahl der Methode (z.B. Nutzung der Google Data API bei Blogspot vs. Feed-Analyse bei anderen Systemen), da die technische Struktur der Blogs und deren Feed-Publikation variieren.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

