Diplomarbeit, 2011
64 Seiten, Note: 1,3
1 Einführung
2 Jobsektoren
2.1 Begriffsdefinition
2.2 Klassifikation der Jobsektoren
3 Theoretische Grundlage
3.1 Verfahren zur Textkategorisierung
3.2 Lokale Grammatiken
4 Algorithmus zur Stellenanzeigeklassifikation
5 Preprozessing von Stellenanzeigen
5.1 Korpora
5.2 Normalisierung
5.3 Graphenbeschreibung
6 Deskriptorenlisten
7 Präzision- Recall Werte
8 Fazit
9 Literaturverzeichnis
9.1 Fachliteratur und Artikel
9.2 Internetlinks
10 Anhang
10.1 Zuordnung der Berufsfelder zu der Jobsektoren
10.2 Extrahierte Deskriptoren nach den Jobsektoren
Das Hauptziel dieser Arbeit besteht in der Entwicklung eines semiautomatischen Algorithmus zur automatischen Klassifikation von Stellenanzeigen nach vorgegebenen Jobsektoren. Die Forschungsfrage fokussiert sich darauf, wie durch semantisch-syntaktische Analyse mittels Informationsextraktion relevante Jobdeskriptoren identifiziert werden können, um eine präzise Zuordnung zu Branchen oder Berufsfeldern zu ermöglichen.
3.2 Lokale Grammatiken
Lokale Grammatiken sind die empirische Herangehensweise an die Sprache, wobei man alle sprachlichen Phänomene mithilfe von endlichen Automaten beschreibt. Der Termin lokale Grammatiken wurde von Maurice Gross eingeführt. Unter lokalen Grammatiken versteht man die bestimmten „lokalen“ Phänomene, die nicht mithilfe von globalen syntaktischen Regeln beschrieben werden können.
Maurice Gross arbeitete 1975 an der Erstellung einer Lexikongrammatik. Das Ziel seines Vorhabens zielte darauf ab, syntaktische Eigenschaften aller französischen Verben zu erarbeiten sowie für jedes Verb ein exaktes Satzschema aufzustellen. Auf der Grundlage einer Forschung, in der eine Gruppe von Linguisten mehr als 400 Eigenschaften von 12.000 Verben analysiert hat, kam Gross zu einem bahnbrechenden Ergebnis, dass das syntaktische Paradigma von jedem einzelnen Verb einzelartig ist. Daher plädierte er für einen neuen Grammatikformalismus, für die Theorie der lokalen Grammatiken, die mit endlichen Automaten darstellbar sind.
Nach Maurice Gross sind sie einerseits die Wiedererweckung von endlichen Markov Automaten für die Beschreibung von der Sprache, aber diese Automaten beabsichtigen keine globale Beschreibung von der Sprache sondern strikt die lokalen Phänomena. „In this perspective, the global nature of language results from the interaction of a multiplicity of local finite-state schemes which we call finite-state local automata“. In seiner Arbeit “The Construction of Local Grammars” versucht Maurice Gross eine Grammatik von der Börse-Domäne zu erstellen, weil der Domänenwortschatz und die benutzten Konstruktionen von limitierter Natur zu sein scheinen. Laut Harris charakterisieren sich die Sprachdomänen (z.B. Sprache der Stellenanzeigen, Finanznachrichten oder Arztdiagnosen) durch eine limitierte Anzahl von Ambiguitäten sowie durch gewisse Regularitäten und Strukturen, die für Computerbearbeitung von Vorteil sind.
1 Einführung: Diese Einleitung stellt die Problematik der automatischen Stellenanzeigenklassifikation dar und definiert die Zielsetzung der Arbeit, ein semiautomatisches System basierend auf Informationsextraktion zu entwickeln.
2 Jobsektoren: Das Kapitel definiert den Begriff Jobsektoren im Kontext der Arbeit und legt die detaillierte Klassifikation der in der Analyse verwendeten Sektoren fest.
3 Theoretische Grundlage: Hier werden die theoretischen Ansätze der Textkategorisierung diskutiert sowie die Methode der lokalen Grammatiken nach Maurice Gross als zentrales Werkzeug eingeführt.
4 Algorithmus zur Stellenanzeigeklassifikation: Dieses Kapitel erläutert den implementierten Algorithmus, der auf Trainingskorpora basiert und die Extraktion relevanter Deskriptoren durchläuft.
5 Preprozessing von Stellenanzeigen: Hier wird die Vorverarbeitung der Daten, die Normalisierung sowie die Modellierung der sprachlichen Daten mittels Graphen für UNITEX beschrieben.
6 Deskriptorenlisten: Das Kapitel präsentiert und analysiert ausgewählte Deskriptorenlisten für spezifische Branchen wie Banken, Baugewerbe und IT.
7 Präzision- Recall Werte: Hier erfolgt die quantitative Evaluation des Systems anhand der klassischen Gütemaße Recall, Präzision und F-Mittel basierend auf den Testergebnissen.
8 Fazit: Das Fazit fasst die Ergebnisse zusammen, bewertet die Leistungsfähigkeit des Algorithmus und zeigt mögliche Ansätze für zukünftige Verbesserungen auf.
9 Literaturverzeichnis: Umfassende Auflistung der verwendeten Fachliteratur, Artikel und Internetressourcen.
10 Anhang: Enthält die vollständige Zuordnung der Berufsfelder zu den Jobsektoren sowie die detaillierten Deskriptorenlisten.
Stellenanzeigenklassifikation, Jobsektoren, Informationsextraktion, Lokale Grammatiken, UNITEX, Supervised Learning, Bootstrapping, Textkategorisierung, Jobdeskriptoren, Sprachdomänen, Wissensbasierte Verfahren, Informatik, Automatisierung, Präzision, Recall.
Die Diplomarbeit befasst sich mit der Entwicklung eines semiautomatischen Algorithmus zur automatischen Klassifikation von Stellenanzeigen in verschiedene Jobsektoren mittels computerlinguistischer Verfahren.
Die zentralen Themen sind die Informationsextraktion aus Texten, die Nutzung von lokalen Grammatiken zur Kategorisierung und die praktische Anwendung dieser Verfahren zur Strukturierung von Jobdatenbanken.
Das Ziel ist die Erstellung eines Algorithmus, der durch semantisch-syntaktische Analyse und das Extrahieren von Jobdeskriptoren Stellenanzeigen präzise ihren jeweiligen Branchen zuordnet.
Die Arbeit nutzt Methoden des Supervised Learning, die Implementierung lokaler Grammatiken über das Tool UNITEX sowie Bootstrapping-Verfahren zur automatischen Erweiterung von Wörterbüchern.
Der Hauptteil behandelt die theoretischen Grundlagen, die Beschreibung der Vorverarbeitungsschritte (Preprocessing), die graphbasierte Modellierung der Kontexte sowie die Analyse der extrahierten Deskriptoren für verschiedene Sektoren.
Charakteristische Begriffe sind Stellenanzeigenklassifikation, Lokale Grammatiken, Informationsextraktion, Jobsektoren und Supervised Learning.
Im Gegensatz zu Suchdiensten der ersten Generation, die nur Volltextsuche nutzen, verwendet dieser Ansatz eine semantisch-syntaktische Analyse, um die spezifischen Strukturen und Regularitäten der Domäne "Stellenanzeigen" zu berücksichtigen.
Der Administrator ist notwendig, um die automatische Extraktion von Deskriptoren in der Trainingsphase zu validieren (akzeptieren oder ablehnen), was die Qualität der Klassifizierung maßgeblich steigert.
Die Bewertung erfolgt durch die klassischen Metriken Präzision (Genauigkeit der Klassifizierung), Recall (Vollständigkeit) und das daraus berechnete F-Mittel zur Messung der Gesamteffektivität.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

