Bachelorarbeit, 2018
24 Seiten, Note: 1.0
1. Die Welt der Preisvergleichsportale
1.1 Der Onlinehandel von heute
1.2 Das Preisvergleichsportal idealo
1.3 Das Ziel des Bachelorprojektes
1.4 Die Microservice-Architektur des Scout-Softwaresystems
2. Die Extraktion produktspezifischer Daten
2.1 Die technischen Anforderungen an den Parser
2.2 Die Positionsbestimmung der Produktattribute
2.3 Die Architektur des Parsers
2.4 Die Erstellung der Selektoren
3. Die Genauigkeitsmessung des Extraktionsalgorithmus
3.1 Die Testdaten der Evaluierung
3.2 Die Messergebnisse
3.3 Mögliche Fehlerquellen der Messungen
4. Der Ausblick und das Fazit
Diese Arbeit zielt auf die Konzeption und Entwicklung eines Software-Systems zur automatisierten Bestandsanalyse für Partner des Preisvergleichsportals idealo ab, um fehlende Angebote im Produktkatalog systematisch zu identifizieren.
2.4 Die Erstellung der Selektoren
Um einen Selektor zu erstellen muss zunächst ein konkretes Element der DOM-Hierarchie bestimmt werden. Dieses Element wird von dem Shop Rules Generator (SRG) in einem vorherigen Schritt ermittelt und stellt den Fundort für ein gewünschtes Produktattribut dar. Es wird zwischen den folgenden drei Knotentypen unterschieden: Textknoten, Beschreibungsknoten und Datenknoten. QUELLTEXT 2.4 enthält jeweils ein Beispiel für alle Knotentypen. Der gesuchte Wert ist in diesem Fall die Produkteigenschaft EAN mit dem Produktattribut 9332721000108.
Textknoten sind Elemente, bei denen das gewünschte Produktattribut innerhalb eines Tag-Paars steht. Das Attribut ist somit ein sichtbarer Bestandteil der Browservisualisierung. Zu den Beschreibungsknoten gehören die Elemente, bei denen das gesuchte Produktattribut innerhalb der Attributliste des Elementes vorkommt. Dieses Attribut ist im Gegensatz zum Textknoten kein sichtbarer Bestandteil der Visualisierung.
1. Die Welt der Preisvergleichsportale: Einführung in die Relevanz des Onlinehandels und die Rolle von idealo bei der Herstellung von Markttransparenz durch automatisierte Analysen.
2. Die Extraktion produktspezifischer Daten: Detaillierte Erläuterung der technischen Anforderungen, der Architektur des Parser-Moduls und der Strategien zur datengetriebenen Regelerstellung für verschiedene Onlineshops.
3. Die Genauigkeitsmessung des Extraktionsalgorithmus: Präsentation der Evaluierungsergebnisse unter verschiedenen Konfigurationen und Diskussion der erreichten Genauigkeit im Hinblick auf Precision und Accuracy.
4. Der Ausblick und das Fazit: Zusammenfassende Bewertung der Projektergebnisse sowie Darlegung von Potenzialen für zukünftige Optimierungen der Parser-Logik und der Regelgenerierung.
Preisvergleich, Datenextraktion, Onlinehandel, Parser, Maschinelles Lernen, DOM-Hierarchie, Markttransparenz, E-Commerce, Microservice-Architektur, Selektor, Precision, Accuracy, Bestandsanalyse, Web-Scraping, Qualitätssicherung.
Die Arbeit befasst sich mit der Entwicklung einer Software, die in der Lage ist, automatisch Produktinformationen aus verschiedenen Onlineshops zu extrahieren, um den Bestand von idealo auf Vollständigkeit zu prüfen.
Die Schwerpunkte liegen auf der Web-Datenextraktion, der Architektur von Parser-Systemen, der Anwendung von maschinellem Lernen zur Regelerstellung und der statistischen Evaluierung von Extraktionsgenauigkeit.
Das Ziel ist die automatisierte Bestandsanalyse für Vertragspartner von idealo, um fehlende Angebote im Katalog zu identifizieren und die Markttransparenz zu erhöhen.
Es wurde ein shop-spezifischer Ansatz verfolgt, der mittels maschineller Lernverfahren und definierter Extraktionsregeln (Selektoren) Daten aus HTML-Strukturen und JSON-Objekten extrahiert.
Der Hauptteil gliedert sich in die technische Konzeption des Parsers, die Definition von Selektortypen (Text-, Beschreibungs- und Datenknoten) sowie die quantitative Messung der Extraktionsgüte.
Kernbegriffe sind Preisvergleich, Datenextraktion, Parser, Precision, Accuracy und maschinelles Lernen.
Die Unterscheidung in Text-, Beschreibungs- und Datenknoten ist essenziell, da die Daten je nach Shop-Implementierung an unterschiedlichen Stellen im DOM-Baum oder in JSON-Skripten hinterlegt sind.
Ein höherer Filterschwellwert reduziert die Anzahl der extrahierten Daten (Accuracy sinkt), steigert jedoch die Zuverlässigkeit der gefundenen Werte (Precision steigt), was eine wichtige Balance für das nachfolgende Matching darstellt.
Diese Architektur erlaubt die Entwicklung logisch gekapselter Komponenten (Crawler, Parser, Matcher), die sich unabhängig voneinander skalieren und einfach erweitern lassen.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

