Fachbuch, 2019
54 Seiten
Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
2 Begriffliche und konzeptionelle Grundlagen von Empfehlungssystemen
2.1 Definition E-Commerce
2.2 Definition Bewertung
2.3 Definition Empfehlungssystem
2.4 Definition Collaborative Filtering
2.5 Hauptkategorien des Collaborative Filtering
2.6 Evaluationsmetriken
2.7 Probleme des Collaborative Filtering
3 Beschreibung der Literatur
3.1 Literaturüberblick zu speicherbasierten Collaborative Filtering Algorithmen
3.2 Literaturüberblick zu modellbasiertem Collaborative Filtering Algorithmen
4 Analyse der Literatur
4.1 Gemeinsamkeiten und Abweichungen: speicherbasierte CF Algorithmen
4.2 Gemeinsamkeiten und Abweichungen: modellbasierte CF Algorithmen
5 Fazit
Literaturverzeichnis
Abbildung 1: Beispiele für unäre (a), binäre (b) und Integer-likert (c) Bewertungsskalen
Abbildung 2: Überblick der Verfahren von Empfehlungssystemen
Abbildung 3: Die drei Teilaufgaben von CF Systemen
Abbildung 4: Isolierung aller Nutzer, die sowohl Objekt i als auch j bewertet haben
Abbildung 5: Beispiel für die Darstellung einer ROC Kurve
Abbildung 6: Relative Performance der herangezogenen Ähnlichkeitsmaße
Abbildung 7: (a) ursprüngliche Bewertungsdaten, (b) zugerechnete Bewertungsdaten
Abbildung 8: Amazon.com Empfehlung basierend auf den Einkaufswagen des Nutzers
Tabelle 1: Beispiel der am häufigsten verwendeten expliziten Bewertungsskalen
Tabelle 3: Beispiele aus der Praxis für implizite Bewertungen
Tabelle 4: Beispiel einer Klassifikationsmatrix für Empfehlungssysteme
Tabelle 5: Beispiel für eine unvollständige Nutzer-Objekt-Matrix anhand einer Bewertungsskala von 1 - 5 17
Tabelle 6: Literaturüberblick zum Thema "Speicherbasierte CF Algorithmen"
Tabelle 7: Literaturüberblick zum Thema "Modellbasierte CF Algorithmen"
Abbildung in dieser Leseprobe nicht enthalten
In einer sich heutzutage rasant wandelnden und entwickelnden Gesellschaft nimmt auch die Zahl an Informationen stetig zu. Aufgrund unzähliger E-Commerce-Seiten und einer daraus resultierenden Informationsüberflutung für den Nutzer, ist es für diesen sehr aufwändig bzw. fast unmöglich aus einer unübersichtlichen Menge an Angeboten, die interessantesten Inhalte gezielt herauszusuchen. Vor allem Nutzer großer E-Commerce-Seiten werden mit diesem Problem konfrontiert, sei es beim Aussuchen von Büchern, Filmen, Urlaubszielen, Lesen von Online-Zeitungen etc. Um diesem Problem Abhilfe zu schaffen, müssten E-Commerce-Seiten jedem einzelnen Nutzer personalisierte Objektempfehlungen basierend auf Erfahrungen anderer Nutzer hervorbringen, da im alltäglichen Leben gerade Hinweise aus dem Bekanntenkreis ein verstärktes Vertrauen entgegenbringt. Denn Freunde und Bekannte kennen die eigenen Vorlieben und Interessen. Dementsprechend beschreiben Konstan et al. (1998, S. 61) den Menschen als förmlich „hungrig“ nach Empfehlungen, unabhängig davon ob mittels Mundpropaganda, Empfehlungsschreiben, Erfahrungsberichte, Umfragen etc. (vgl. Resnick und Varian 1997, S. 56). Denn wie Jeff Bezos, CEO von Amazon.com, bereits predigte:
“If I have 3 million customers on the Web, I should have 3 million stores on the Web.“ (Schafer et al. 2007, S. 115)
Die Anwendung sogenannter Empfehlungssysteme (ES) ist die am meisten verbreitete und erfolgreichste Technik, um das Problem der Informationsüberflutung zu bedienen (vgl. Goldberg et al. 1992, S. 133 f.; Konstan et al. 1997, S. 77; Schafer et al. 2007, S. 115). Inzwischen sind ES aus der heutigen Welt nicht mehr wegzudenken. Vor allem die Ausprägung „Collaborative Filtering (CF)“ ist eines der erfolgreichsten Verfahren. Der Begriff „Collaborative Filtering“ wurde geprägt von der Entwicklung eines der ersten ES, dem Tapestry-System, einem E-Mail-Filtersystem (vgl. Goldberg et al. 1992, S. 61–63). CF verfolgt im Allgemeinen die grundlegende Idee Objektempfehlungen oder –vorhersagen basierend auf abgegebene Bewertungen gleich gesinnter Nutzer, die sowohl explizit als auch implizit sein können, zu generieren (vgl. Sarwar et al. 2001, S. 286 f.).
Jedoch stehen der Anwendung von CF auch viele Probleme gegenüber, die deren Performance und Qualität beeinträchtigen. Vor allem große E-Commerce-Seiten wie beispielsweise Amazon oder Ebay haben Probleme mit der Skalierbarkeit sowie der Empfehlungsqualität aufgrund einer stetig wachsenden Zahl an Nutzern.
Empfehlungssysteme wie das Collaborative Filtering spielen eine Schlüsselrolle im E-Commerce und sind heutzutage aus der Praxis nicht mehr wegzudenken. Die vorliegende Arbeit verfolgt das Ziel, einen umfangreichen Literaturüberblick zum Thema Collaborative Filtering, speziell zu den speicherbasierten und modellbasierten Algorithmen, wiederzugeben.
Die Arbeit gliedert sich in vier Teile. Der erste Teil widmet sich den terminologischen und konzeptionellen Grundlagen von Empfehlungssystemen im E-Commerce. In diesem Zusammenhang werden die grundlegenden Begriffe „E-Commerce“ und „Bewertung“ erklärt, das allgemeine Konzept von Empfehlungssystemen erläutert sowie deren verschiedenen Ausprägungen dargestellt. Aufbauend darauf werden anschließend der Begriff des Collaborative Filtering näher erläutert sowie die aus der Praxis bekanntesten Collaborative Filtering Kategorien vorgestellt: die speicherbasierten CF Algorithmen sowie die modellbasierten CF Algorithmen. Hierzu werden zu beiden Kategorien die verschiedenen Ähnlichkeitsmaße vorgestellt und mit Hilfe von statistischen Grundlagen näher erläutert, die die Basis für die Berechnung von Vorhersagen bilden. Ebenfalls werden im zweiten Teil die verschiedenen Möglichkeiten an Qualitätsmessungen vorgestellt. Zum Abschluss werden die allgemeinen Probleme des Collaborative Filtering genauer beschrieben und erläutert.
Der dritte Teil gibt einen Literaturüberblick zu speicherbasierten und modellbasierten CF Algorithmen und beschreibt die unterschiedlichen Theorien und Entwicklungen.
Im vierten Teil wird zu beiden Themen jeweils die Literatur verglichen sowie die Besonderheiten und Abweichungen hervorgehoben.
Schlussendlich wird im fünften Teil, dem Fazit, eine kurze Zusammenfassung und Reflexion der vorliegenden Ausarbeitung aufgeführt als auch ein Ausblick auf den weiteren zukünftigen Forschungsbedarf gegeben.
In den aufbauenden Kapiteln gibt diese Arbeit eine Einführung in die Grundlagen von Empfehlungssystemen und definiert die für das Verständnis wichtige Begriffe. Anschließend werden die beiden Hauptkategorien des Collaborative Filtering, die speicherbasierten und modellbasierten CF Algorithmen vorgestellt. Darauf aufbauend werden die geläufigsten Evaluationsmetriken zur Performancemessung von CF Algorithmen vorgestellt. Zum Abschluss wird auf die allgemeinen Probleme, mit denen sich das Collaborative Filtering auseinandersetzen muss.
Der Begriff E-Commerce (electronic Commerce) bezeichnet die reibungslose elektronische Anwendung von Informations- sowie Kommunikationstechnologien vom Ausgangspunkt bis zum Endpunkt entlang der Wertschöpfungskette eines Geschäftsprozesses (vgl. Wigand 1997, S. 5 f.). Diese Technologien können beispielsweise die Internetkommunikation über Websites, E-Mail, kabellose Datenübertragungsverfahren etc. beinhalten (vgl. Chaffey 2009, S. 11). Die Geschäftsprozesse können sowohl partiell, als auch einheitlich betrachtet werden. Hinzukommend beinhalten sie Handels- und Kommunikationsbeziehungen aller Art zwischen Unternehmen und Kunden (auch business-to-consumer, kurz „B2C“ genannt), sowie Unternehmen und Unternehmen, (auch business-to-business, kurz „B2B“ genannt). Beispiele für E-Commerce aus der Praxis sind z. B. Dienstleistungen wie Online-Banking, Teleshopping, Kundenservice oder Management von geschäftlichen Kontakten. Den meisten Verbrauchern ist jedoch E-Commerce in Form des Online-Shoppings wie beispielsweise bei Amazon, Ebay etc. vertraut.
Unter dem Begriff „Bewertung“ wird im Allgemeinen das Verfahren verstanden, in dem Überlegungen und Feststellungen eines Individuums repräsentiert werden. In diesem Zusammenhang ist es von zentraler Bedeutung, inwieweit ein Vorgang, ein Sachverhalt, eine Eigenschaft von Objekten bzw. Personen oder eine Idee mit dessen Wertvorstellungen übereinstimmt. Bewertungen können je nach Situation, gesellschaftlichem Umfeld und beteiligten Personen stark voneinander abweichen. (vgl. Melville et al. 2002, S. 187; Adomavicius und Tuzhilin 2005, S. 734)
Im Kontext von Empfehlungssystemen nehmen Bewertungen eine bedeutende Rolle ein, da sie für viele Algorithmen die Grundlage bilden, um die Präferenzen einzelner Nutzer einschätzen zu können. Voraussetzung für eine automatische Verarbeitung ist eine numerische Repräsentation der Bewertungen der einzelnen Nutzer. Das Konzept beinhaltet zwei Dimensionen (Nutzer und Objekte), die durch die Bewertungen miteinander verknüpft werden. In der Praxis wird dabei zwischen expliziten Bewertungen und impliziten Bewertungen unterschieden.
Explizite Bewertungen geben zweifellos die präzisesten Informationen über die Präferenzen eines Nutzers an. Diesbezüglich handelt es sich um aktiv vorgenommene numerische Bewertungen der Nutzer eines Systems. Es können, je nach Anforderungen, verschiedene Arten von Bewertungsskalen zur Hilfe genommen werden (vgl. Schafer et al. 2007, S. 311). Tabelle 1 verschafft einen Überblick zu den am meisten verwendeten Bewertungsskalen, welche unär, binär oder Integer-likert sein können (vgl. Schafer et al. 2007, S. 311). Letztere können beispielsweise eine Skala von 1 bis 5 Sternen/Punkten oder Schulnoten sein.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 1: Beispiel der am häufigsten verwendeten expliziten Bewertungsskalen
Quelle: Eigene Darstellung in Anlehnung an Schafer et al. (2009, S. 311)
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Beispiele für unäre (a), binäre (b) und Integer-likert (c) Bewertungsskalen
Quelle: Eigene Darstellung in Anlehnung an Facebook.com (2017), Youtube.com (2017), Amazon.com (2017)
Darauf aufbauend stellt Abbildung 1 bekannte Beispiele aus der Praxis dar. Dem Nutzer wird somit ermöglicht, seine Präferenzen sehr genau abzubilden, jedoch wird dies oft als zusätzlicher Aufwand empfunden. Aufgrund dieser Tatsache reicht nicht jeder Nutzer eine Bewertung ein, was zu dem Problem einer spärlichen Datenverfügbarkeit führen kann (vgl. Konstan et al. 1997, S. 84). Dementsprechend kommt es zu einer abnehmenden Qualität der Objektempfehlungen, auf welche im Rahmen dieser Arbeit in Kapitel 2.7 genauer eingegangen wird.
Bewertungen können jedoch nicht nur in expliziter Form, sondern auch in impliziter Form dargestellt werden. Das Hauptargument für die Anwendung impliziter Bewertungen ist laut Nichols (1997, S. 32) aufgrund des geringen Arbeitsaufwandes die Kosteneinsparung im Vergleich zu den expliziten Bewertungen, da hierfür die Prüfung numerischer Bewertungen von Nutzern entfällt. Dabei handelt es sich um Bewertungen, die für den Nutzer nicht als Aufwand wahrgenommen werden und z. B. durch eine Analyse des Nutzerverhaltens bzw. deren Interaktionen mit einem System hergeleitet werden können (vgl. Konstan et al. 1997, S. 84).
Konstan et al. (1997, S. 84) weisen in ihrer Arbeit darauf hin, dass sich deutlich mehr implizite als explizite Bewertungen gewinnen lassen und diese, wie beispielsweise die Lesezeit für einen Artikel, näherungsweise genauso präzise sind wie explizite Bewertungen. Implizite Bewertungen sind zudem einfacher zu generieren, da in der Regel jede Interaktion mit einem System Daten generiert (vgl. Nichols 1997, S. 32). Beispiele dafür sind die Browser- und die Kauf-Historie, Click-Through-Rate (Klickrate) oder auch komplexere Vorgänge etc. In Tabelle 2 sind weitere Beispiele aus der Praxis angeführt.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 2: Beispiele aus der Praxis für implizite Bewertungen
Quelle: Eigene Darstellung in Anlehnung an Nichols (1997, S. 32) i. V. m. Nichols et al. (1997, S. 8)
Ein Empfehlungssystem verfolgt die Hauptaufgabe, für einen bestimmten Nutzer (auch aktiver Nutzer) aus einer Menge von Alternativen, die auszuwählen, die mit den individuellen Präferenzen des Nutzers am deutlichsten übereinstimmen. Im Kontext von ES repräsentieren diese Alternativen die Objekte. Hierbei bedient sich das ES laut Sarwar et al. (2001, S. 286) einer Datenbank, die Informationen über die Nutzer angibt, wie z. B. Kaufhistorie, Demographie, Objektbewertungen etc. Basierend darauf lassen sich somit verschiedene Verfahren für Objektempfehlungen ableiten. Einen Überblick über die verschiedenen Verfahren verschafft hierbei die Abbildung 2.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Überblick der Verfahren von Empfehlungssystemen
Quelle: Eigene Darstellung in Anlehnung an Runte (2000, S. 10) i. V. m. Burke (2002, S. 333)
Im Allgemeinen lassen sich ES nach „nicht individualisiert“ und „individualisiert“ unterscheiden. Die nächste Ebene besteht bei Ihrer Unterteilung aus den grundlegenden Arten der Empfehlungsberechnung, die sich innerhalb dieser in unterschiedliche Verfahren unterteilen können, jedoch in dieser Arbeit nicht von Relevanz sind. In der vorliegenden Arbeit liegt der Fokus lediglich auf individualisierten Empfehlungssystemen, speziell dem Collaborative Filtering, das nach einem speicherbasierten (siehe Kapitel 2.5.1) oder modellbasierten (siehe Kapitel 2.5.2) Verfahren angewendet werden kann.
Burke (2002, S. 331 f.) vertritt in seiner Arbeit die Position, dass es vor allem Kriterien wie „individualisiert“ und „interessant“ bzw. „nützlich“ sind, die Empfehlungssysteme von Suchmaschinen oder Information-Retrieval-Systemen (IRS) unterscheiden. Im Gegensatz zu ES arbeiten Suchmaschinen / IRS nach einem Anfrage- bzw. „Matching“-Ansatz, welcher folgendermaßen funktioniert: Ein Nutzer stellt eine Informationsanfrage an ein IRS, welches daraufhin alle auf das Suchwort bzw. die Anfrage passenden Objekte, sortiert nach dem Grad der Übereinstimmung, auflistet (vgl. Burke 2002, S. 331 f.).
Der Begriff „Collaborative Filtering“ fand zum ersten Mal im Zusammenhang mit dem „Tapestry“-System Gebrauch, welches eines der ersten entwickelten Empfehlungssysteme ist (vgl. Goldberg et al. 1992, S. 61). CF ist eine der erfolgreichsten und in der Praxis am meisten angewendeten Empfehlungstechnologien (vgl. Konstan et al. 1997, S. 77 f.; Herlocker et al. 1999, S. 230; B. Sarwar et al. 2000, S. 160; Goldberg et al. 2001, S. 133 f.). Im Allgemeinen stützen sich Goldberg et al. (2001, S. 133) auf die fundamentale Annahme wenn beispielsweise zwei Nutzer ähnliche Bewertungen für Objekte abgeben, so bedeutet das, dass diese ähnliche Präferenzen teilen und dementsprechend andere Objekte ebenfalls ähnlich bewerten.
CF Systeme helfen dabei, anhand abgegebener Objektbewertungen, zu jedem aktiven Nutzer, eine Menge von sogenannten Nachbarn zu finden, die ähnliche Präferenzen vorweisen. Sobald ähnliche Nachbarn durch das CF System ermittelt wurden, formen diese eine sogenannte Nachbarschaft, mit der anhand verschiedener Algorithmen Objektempfehlungen generiert werden. Die eingehenden Daten, die hierbei gesammelt werden, repräsentieren vergangene Kauftransaktionen von aktiven Nutzern für Objekte, die in einer Nutzer-Objekt-Matrix dargestellt werden. Im Großen und Ganzen beinhaltet Collaborative Filtering die Akkumulierung der von Nutzern abgegebenen Bewertungen. Anhand diesen werden auf die Präferenzen des Nutzers zugeschnittene Objektvorhersagen. (vgl. Herlocker et al. 1999, S. 230 f.; B. Sarwar et al. 2000, S. 160 f.) Nach Herlocker et al. (1999, S. 230) kann das CF System in drei verschiedene Aufgaben unterteilt werden: die Darstellung eingehender Daten, die Formation der Nachbarschaft und die Empfehlungsgenerierung. Abbildung 3 gibt hierbei einen Überblick über diese.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: Die drei Teilaufgaben von CF Systemen
Quelle: Eigene Darstellung in Anlehnung an B. Sarwar et al. (2000, S. 161)
Gemäß B. Sarwar et al. (2000, S. 160) beschäftigt sich die „Darstellung eingehender Daten“ mit der Aufgabe, die bereits vom Nutzer gekauften Objekte nach einem bestimmten Schema darzustellen. Die „Formation der Nachbarschaft“ beschäftigt sich hauptsächlich mit dem Problem, für den aktiven Nutzer geeignete Nachbarn zu finden. Zu guter Letzt ist die „Empfehlungsgenerierung“ dafür verantwortlich, die Top-N Objektempfehlungen, basierend auf der ausgewählten Nachbarschaft des aktiven Nutzers, zu ermitteln.
In den folgenden Abschnitten beschäftigt sich diese Arbeit mit den in der Praxis am häufigsten angewendeten Hauptkategorien der Collaborative Filtering Techniken, den speicherbasierten und modellbasierten CF Algorithmen. Anschließend werden dazugehörige Evaluationsmetriken bzgl. der Performance genauer betrachtet und erläutert. Die Anwendung von Collaborative Filtering Techniken geht in der Praxis jedoch auch mit vielen Einschränkungen bzw. Herausforderungen einher, die im Kapitel 2.7 eindeutiger beschrieben werden.
Speicherbasierte (oder auch nutzerbasierte) CF Algorithmen nutzen die gesamte Datenbank eines Systems – im Kontext von Empfehlungssystemen bestehend aus Nutzerdaten und Objektdaten – um Vorhersagen für einen aktiven Nutzer zu treffen. Im Hinblick darauf werden vor allem der aus der Praxis bekannte „Nächster-Nachbar“-Algorithmus verwendet (vgl. Sarwar et al. 2001, S. 287). Das Ziel bei diesem Verfahren ist es, Objektempfehlungen für einen aktiven Nutzer anhand einer Ähnlichkeitsanalyse basierend auf Präferenzen von Nachbarn zu generieren (vgl. Breese et al. 1998, S. 44). Herlocker et al. (1999, S. 231-235) unterteilen das Verfahren des „Nächster-Nachbar“ CF Algorithmus in 3 Schritte:
1. Gewichtung aller Nachbarn in Abhängigkeit vom Maß der Ähnlichkeit zum aktiven Nutzer
2. Auswahl einer Untermenge von Nachbarn (Nachbarschaft), in der Regel die k ähnlichsten Nachbarn zum aktiven Nutzer , die für die Vorhersage relevant sind
3. Normalisierung der Bewertungen und Berechnung einer Vorhersage auf Basis einer Kombination aus Gewichtung und Bewertungen ausgewählter Nachbarn
Sind diese 3 Schritte erfüllt, so können anschließend auf Basis der dem aktiven Nutzer am nächsten stehenden Nachbarn die Top-N Objektempfehlungen für den aktiven Nutzer produziert werden (vgl. Su und Khoshgoftaar 2009, S. 5).
Ähnlichkeitsmaße
Im Folgenden werden einige Ähnlichkeitsmaße vorgestellt, die im Rahmen dieser Arbeit relevant sind und im Bereich der Empfehlungssysteme zum „State of the Art“ zählen. Die Vorstellung erfolgt an dieser Stelle, da Ähnlichkeitsmaße Teil verschiedener Algorithmen sind, die in den folgenden Abschnitten näher erläutert werden.
Kosinus-Ähnlichkeit. Bei der Kosinus-Ähnlichkeit werden Nutzer als Vektoren, bestehend aus Bewertungen, betrachtet. Hierbei wird die Ähnlichkeit zwischen zwei Nutzern und anhand der Berechnung des Kosinuswinkels bestimmt. Die Kosinus-Ähnlichkeit für die Vektoren und lässt sich folgendermaßen bestimmen (vgl. Sarwar et al. 2001, S. 288; Ahn 2008, S. 39):
Abbildung in dieser Leseprobe nicht enthalten
und stellen hierbei jeweils die Bewertung von Nutzer A und B für das Objekt dar. bezeichnet hierbei die Objekte , die sowohl vom aktiven Nutzer als auch vom Nutzer bewertet wurden. (vgl. Resnick et al. 1994, S. 181; Schafer et al. 2007, S. 302)
Pearson-Korrelationskoeffizient . Für die Berechnung des Ähnlichkeitsmaß wird nach dem nutzerbasierten „Nächster-Nachbar“-Algorithmus in der Regel der Pearson-Korrelationskoeffizient zur Hilfe genommen, wie Gleichung (2) zeigt. An dieser Stelle werden bei der Berechnung der Korrelation die abgegebenen Bewertungen der Nutzer für das Objekt miteinander verglichen.
Abbildung in dieser Leseprobe nicht enthalten
mit
Abbildung in dieser Leseprobe nicht enthalten
bezeichnet hier die Bewertung von Nachbar für das Objekt .
Um eine mögliche Streuung der Bewertungen zu kompensieren, die durch explizite Bewertungen von Angebotsobjekten erfolgt, fließen ebenfalls die arithmetischen Mittel und in die Prognose mit ein. Diese lassen sich allgemein als Quotient aus der Summe der berücksichtigten Bewertungen der Nutzer für das Objekt und der Menge aller Objekte, die vom Nutzer bewertet wurden – hier jeweils gekennzeichnet als und – berechnen. Beispielsweise kann es vorkommen, dass Nutzer, die derselben Meinung sind, ein bestimmtes Objekt auf einer Skala von 1-5 unterschiedlich bewerten. Nutzer A empfindet Objekt als „gut“ und bewertet dieses mit einer 4 von 5. Nutzer B hingegen definiert „gut“ als eine 5 von 5. (vgl. Breese et al. 1998, S. 44; Schafer et al. 2007, S. 302)
Ergibt die Berechnung der Korrelation einen Wert von 1, so besteht eine ideale Übereinstimmung beider Nutzer, hingegen deutet ein Korrelationswert von -1 auf eine Unstimmigkeit zwischen beiden Nutzern hin (vgl. Resnick et al. 1994, S. 181). Weitere korrelationsbasierte Ähnlichkeitsmaße sind laut Su und Khoshgoftaar (2009, S. 6) beispielsweise der eingeschränkte Pearson-Korrelationskoeffizient und die Rangkorrelationskoeffizienten von Spearman oder Kendall, die jedoch im Rahmen dieser Arbeit nicht von Relevanz sind.
Berechnung der Vorhersage
Gemäß Schafer et al. (2007, S. 301 f.) werden anhand nutzerbasierter Algorithmen die Vorhersagen bzgl. eines Angebotsobjekts für einen aktiven Nutzer getroffen, basierend auf den abgegebenen Bewertungen der Nachbarn, wie Gleichung (3) zeigt. (vgl. Schafer et al. 2007, S. 302; Su und Khoshgoftaar 2009, S. 6).
Abbildung in dieser Leseprobe nicht enthalten
Modellbasierte CF Algorithmen beziehen sich im Gegensatz zu nutzerbasierten CF Algorithmen nicht auf die Korrelation zwischen Nutzern, sondern auf die Korrelation zwischen Objekten. In diesem Kapitel wird außerdem der „Nächster-Nachbar“-Algorithmus näher erläutert. Um generell eine Vorhersage für einen aktiven Nutzer berechnen zu können, werden laut Sarwr et al. (2001, S. 288) zuerst alle Nutzer ausgewählt die sowohl die Objekte als auch bewertet haben, wie in Abbildung 4 verdeutlicht wird.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4: Isolierung aller Nutzer, die sowohl Objekt i als auch j bewertet haben
Quelle: eigene Darstellung in Anlehnung an Sarwar et al. (2001, S. 289)
Wie bei nutzerbasierten CF Algorithmen können hier verschiedene Ähnlichkeitsmaße verwendet werden. Im Rahmen dieser Arbeit werden die Kosinus-Ähnlichkeit, der Pearson-Korrelationskoeffizient und die angepasste Kosinus-Ähnlichkeit vorgestellt.
Ähnlichkeitsmaße
Kosinus-Ähnlichkeit. Die Kosinus-Ähnlichkeit lässt sich hier analog zu der Kosinus-Ähnlichkeit der nutzerbasierten CF Algorithmen folgendermaßen berechnen (vgl. Sarwar et al. 2001, S. 288; Ahn, 2008, S. 39):
Abbildung in dieser Leseprobe nicht enthalten
Pearson-Korrelationskoeffizient. Der Pearson-Korrelationskoeffizient lässt sich hier analog zu dem der nutzerbasierten CF Algorithmen übernehmen. Im Gegensatz zu den nutzerbasierten CF Algorithmen werden an dieser Stelle die Objekte und , die vom aktiven Nutzer bewertet wurden, miteinander verglichen. Infolgedessen lässt sich die Korrelation folgendermaßen berechnen (vgl. Sarwar et al. 2001, S. 288; Schafer et al. 2007, S. 304 f.):
Abbildung in dieser Leseprobe nicht enthalten
[Abbildung in dieser Leseprobe nicht enthalten]und [Abbildung in dieser Leseprobe nicht enthalten] bezeichnen hierbei die jeweils Bewertung des aktiven Nutzers für Objekt und , während und das arithmetische Mittel darstellen. Zudem definiert [Abbildung in dieser Leseprobe nicht enthalten] die Anzahl an Nutzern, die sowohl Objekt als auch bewertet haben.
Angepasste Kosinus-Ähnlichkeit. Der Hauptunterschied zwischen dem Pearson- Korrelationskoeffizienten und der angepassten Kosinus-Ähnlichkeit ist, dass sich die angepasste Kosinus-Ähnlichkeit auf den Nutzer bezieht und nicht auf das Objekt, wie anhand Gleichung (6) zu entnehmen ist.
Abbildung in dieser Leseprobe nicht enthalten
Zudem hat sie gegenüber der Kosinus-Ähnlichkeit den Vorteil, dass durch Subtraktion der durchschnittlichen Nutzerbewertung [Abbildung in dieser Leseprobe nicht enthalten] die Abweichung in der Beurteilungsskala zwischen verschiedenen Benutzern berücksichtigt wird. Der Wertebereich liegt hier ebenfalls wie beim Pearson-Korrelationskoeffizienten zwischen und . (vgl. Sarwar et al. 2001, S. 288; Schafer et al. 2007, S. 304 f.)
[...]
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!
Kommentare