Magisterarbeit, 2005
66 Seiten, Note: 1,3
Diese Arbeit befasst sich mit der Anwendung der „Extensible Markup Language“ (XML) zur effizienten und standardisierten Verarbeitung von linguistischen Daten. Die zentrale Zielsetzung ist es, aufzuzeigen, wie XML einen einheitlichen Workflow für die unterschiedlichsten Text-Corpora ermöglichen kann und damit die Herausforderungen unterschiedlicher Datenformate und Strukturen in der quantitativen Linguistik zu überwinden.
Die Einleitung führt in die Problematik der Datenformate und die Herausforderungen bei der Verarbeitung von Text-Corpora ein und stellt XML als Lösung vor. Kapitel 2 befasst sich mit den Grundlagen von XML, der Syntax, der Erstellung wohlgeformter und gültiger XML-Dokumente, sowie mit dem Einsatz von DTD und XML-Schema. Kapitel 3 behandelt verschiedene Aspekte der Verarbeitung von XML-Daten, einschließlich Parsen, XPath, XQuery, XUpdate, Integration externer Datenquellen und Transformationen.
XML, Text-Corpora, Quantitative Linguistik, Datenformate, Standardisierung, Workflow, DTD, XML-Schema, Parsen, XPath, XQuery, XUpdate, Webservices, Transformationen, Datenverarbeitung, Sprachtechnologie.
XML bietet einen offenen Standard, der es ermöglicht, unterschiedliche Datenformate zu vereinheitlichen und linguistische Informationen strukturiert und plattformunabhängig zu speichern.
Ein wohlgeformtes Dokument folgt den grundlegenden XML-Syntaxregeln. Ein gültiges Dokument entspricht zusätzlich einer spezifischen Strukturvorgabe wie einer DTD oder einem XML-Schema.
Die Arbeit stellt Parser für Perl (z.B. XML::Parser) und Java (SAX/DOM) sowie Technologien wie XPath, XQuery und XSLT zur Transformation von Daten vor.
XML-Datenbanken ermöglichen einen effizienten Workflow für große Datenmengen, wie das TAZ-Corpus, und unterstützen komplexe Abfragen direkt auf der XML-Struktur.
XInclude erlaubt es, Meta-Daten oder andere externe XML-Fragmente modular in ein Hauptdokument einzubinden, was die Wartbarkeit großer Textcorpora erhöht.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

