Masterarbeit, 2007
67 Seiten, Note: 1.0
The objective is to develop a system that automatically extracts document names from technical documents to create a "knowledge net" linking related information within a document management system.
The system is based on Conditional Random Fields (CRFs), a machine learning technique introduced by Lafferty et al. in 2001, used for sequence labelling.
The system achieved a high precision score of 88% and an acceptable recall score of 65% on a test dataset of unseen documents.
A knowledge net provides information about document relations, showing which documents are cited by or refer to the current document, similar to the CiteSeer digital library.
The implementation is based on a Java package provided by Sarawagi & Cohen (2005), which was adapted and extended for the specific extraction task.
The model uses lexical, linguistic, orthographical, formatting, and context features to identify document references.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

