Bachelorarbeit, 2011
41 Seiten, Note: 1,1
1. Einführung
2. Grundlagen
2.1. Graphen
2.2. Autor-Zitate Netzwerke
2.3. h-Index
2.4. Zentralität
3. Data Mining
3.1. Konferenzen
3.2. Datenquellen
3.3. Implementierung
3.4. Eindeutigkeit von Namen
4. Anwendung
4.1. Bewertung von Knoten
4.2. Bewertung von Autoren
5. Fazit
5.1. Probleme
5.2. Ansätze für Distanzsumme & Exzentrizität
6. Literaturverzeichnis
6.1. Referenzliste
A. Anhang
A.1. CD-Inhalt
A.2. Tabellen und Diagramme
Die Arbeit untersucht, ob und wie Graphzentralitäten in Autor-Zitate-Netzwerken zur Bewertung der wissenschaftlichen Relevanz von Publikationen und Autoren herangezogen werden können, um bestehende Defizite gängiger Metriken wie dem h-Index auszugleichen.
2.4.1. Betweenness
Die Betweenness, auch Shortest Path Betweenness Centrality, ist ein Maß, welches diejenigen Knoten als wichtig ansieht, über die, unter der Annahme, dass Informationen im Graphen gleichmäßig von und zu allen Knoten fließen, viele Informationen fließen. Konkret betrachtet man dazu die Anzahl der kürzesten Pfade, in denen ein Knoten v vorkommt. Dieses Verfahren wurde in den 1970er Jahren von Anthonisse und Freeman eingeführt [4, 5]. Heute ist Betweenness in der Analyse sozialer Netzwerke weit verbreitet.
Die Betweenness CB(v) eines Knoten v ∈ V ist definiert durch die Abbildung CB : V → R≥0 mit CB(v) = Σ (s≠v≠t∈V) σs,t(v) / σs,t, wobei gilt: σs,t(v): Die Anzahl der kürzesten Pfade von s nach t, die durch v verlaufen. σs,t = max{Die Anzahl der kürzesten Pfade von s nach t, 1}.
Häufig werden diese Werte noch normalisiert. Dazu dividiert man sie durch die Anzahl der möglichen Paare aller Knoten aus V \ {v}. Also konkret (n − 1)(n − 2) für gerichtete und (n−1)(n−2)/2 für ungerichtete Graphen. Auf Grund des geringen Vernetzungsgrades in den von dieser Arbeit untersuchten Graphen (siehe Kapitel 4.1) haben wir die Betweenness-Werte nicht normalisiert.
1. Einführung: Die Einleitung motiviert die Problematik bestehender Bewertungssysteme wie des h-Index und skizziert die Zielsetzung, Graphzentralitäten als alternative Bewertungsmetriken für Publikationen und Autoren zu untersuchen.
2. Grundlagen: Dieses Kapitel führt die theoretischen Basisbegriffe der Graphentheorie, Autor-Zitate-Netzwerke sowie die untersuchten Zentralitätsmaße (Betweenness, Distanzsumme, Eigenvektor-Zentralität, etc.) ein.
3. Data Mining: Es wird der Prozess der Datengewinnung von Plattformen wie Springerlink und ACM sowie die Herausforderungen bei der Bereinigung der Daten und der Eindeutigkeit von Autorennamen beschrieben.
4. Anwendung: Die praktische Anwendung der Zentralitätsmaße auf die Datensätze der untersuchten Konferenzen (GD, STOC, SODA) wird dokumentiert und die Ergebnisse werden mit etablierten Metriken verglichen.
5. Fazit: Das Fazit fasst die Ergebnisse zusammen, diskutiert generelle Probleme der Zitatanalyse wie den Matthäus-Effekt und formuliert Ansätze für zukünftige Forschungsarbeiten.
6. Literaturverzeichnis: Hier werden alle in der Arbeit verwendeten Quellen sowie die gesondert betrachteten Referenzpublikationen aufgelistet.
A. Anhang: Der Anhang enthält technische Details zum Programm, Anleitungen zur Konfiguration sowie detaillierte statistische Tabellen und Korrelationsmatrizen.
Graphzentralität, Autor-Zitate-Netzwerke, Betweenness, h-Index, Bibliometrie, Data Mining, Zitationsanalyse, PageRank, wissenschaftliche Bewertung, Netzwerkanalyse, Informatik, Springerlink, ACM, Publikationsmetriken, Konferenzpublikationen.
Die Arbeit untersucht die Eignung von verschiedenen Graphzentralitätsmaßen, um die wissenschaftliche Bedeutung von Publikationen und Autoren in Zitationsnetzwerken besser abzubilden als bisherige Indizes.
Die Arbeit kombiniert graphentheoretische Grundlagen mit Data-Mining-Prozessen, um Zitationsgraphen zu erstellen und diese mittels mathematischer Zentralitätsmaße hinsichtlich ihrer Relevanz zu evaluieren.
Das Ziel ist die Identifikation von Alternativen zum weit verbreiteten h-Index, um die Schwächen bei der Bewertung von Autoren oder Publikationen, die durch die reine Zitationshäufigkeit entstehen, auszugleichen.
Es werden verschiedene Methoden der Graphenzentralität angewendet, darunter Betweenness, Closeness (Distanzsumme), Eigenvektor-Zentralität, PageRank sowie die HITs-Algorithmen.
Der Hauptteil umfasst die Datenerhebung von Konferenzpublikationen, die technische Implementierung der Analyse, die Anwendung der Zentralitätsmaße auf die Graphen und einen detaillierten Vergleich mit dem h-Index und dem PageRank.
Zu den wichtigsten Begriffen gehören Graphzentralität, Autor-Zitate-Netzwerke, Betweenness, h-Index, Zitationsanalyse und Publikationsmetriken.
Der h-Index wird durch die Anzahl der veröffentlichten Arbeiten begrenzt und benachteiligt insbesondere Wissenschaftler, die sich noch am Anfang ihrer Karriere befinden.
Die Betweenness kann wichtige Arbeiten identifizieren, die als Brücke zwischen verschiedenen Forschungsgebieten fungieren, auch wenn diese selbst keine hohe Zitationszahl im Sinne des h-Index vorweisen.
Das Problem sind inkonsistente Schreibweisen (z.B. Abkürzungen oder Sonderzeichen) in den Quelldaten von Portalen wie Springerlink, welche ohne E-Mail-Adressen nur schwer automatisch korrigiert werden können.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

