Szenario Im E-Commerce finden Empfehlungsmaschinen (Recommendation Engines - REs) für Produktempfehlungen zunehmend Anwendung. Empfehlungsalgorithmen berechnen und empfehlen automatisiert Produkte auf den von Besuchern aufgerufenen Produktansichtsseiten eines Webshops. Die Aktivität der Nutzer (Anzahl der aufgerufenen Seiten) sowie der Erfolg (Absatz, Umsatz) werden dabei maximiert. Die Entwicklung leistungsfähiger Algorithmen für REs stellt derzeit einen der populärsten Forschungsschwerpunkte im Data Mining dar.
Im betrachteten Szenario möchte der Betreiber eines Webshops eine Empfehlungsmaschine nutzen, welche sowohl die Aktivität als auch den Erfolg maximiert, wobei der Erfolg höher gewichtet wird. Dazu soll der beste Algorithmus ausgewählt werden.
Es werden für jede Websession drei Typen von Transaktionen betrachtet: der Aufruf einer Produktansichtsseite, das Hinzufügen eines Produktes zum Warenkorb und der Kauf eines Produktes. Der typische Ablauf einer Session erfolgt so: Der Nutzer stöbert im Webshop, wobei er Produktansichtsseiten aufruft. Sofern dem Nutzer ein Produkt gefällt, legt er es direkt in den Warenkorb. Am Ende der Session kann der Nutzer dann auf seinen Warenkorb klicken und die für ihn interessanten Produkte bestellen.
Aufgaben Der DMC Wettbewerb 2011 besteht aus zwei Aufgaben. Diese werden unabhängig voneinander bewertet. In der ersten Aufgabe wird ein Algorithmus statisch evaluiert. Das bedeutet, der Algorithmus wird auf historischen Transaktionsdaten, den Trainingsdaten, angelernt. Um nun die Prognosegüte der Empfehlungen bewerten zu können, werden auf einer Testmenge für jede Session die ersten Transaktionen vorgegeben. Diese entsprechen den Testdaten. Ziel des Algorithmus ist es, die restlichen Transaktionsdaten der Session vorherzusagen. Die generierte Prognosedatei wird an das prudsys DMC-Team gesendet. Die prognostizierten Produkte werden dann mit den tatsächlichen verbleibenden Transaktionsdaten der Sessions, den Evaluierungsdaten, verglichen. Es gewinnt das Team, welches den höchsten Score auf den Evaluierungsdaten erreicht.
In der zweiten Aufgabe wird ein Algorithmus, dessen Implementierung an das prudsys DMC-Team gesendet wird, dynamisch evaluiert. Ziel ist es, den Algorithmus schrittweise auf historische Transaktionsdaten anzuwenden und laufend die nächsten Produkte einer Session vorherzusagen. Da er nacheinander alle abfolgenden Transaktionen jeder Session erhält, lernt und prognostiziert er zugleich. Es gewinnt das Team, welches den höchsten Score über alle Prognoseschritte hinweg erreicht.
Gewinnerteam Task1 von der Technischen Universität Dortmund
Bester Data Mining Nachwuchs 2011
Aufgabe 1:
1. Platz: Team 1 Technische Universität Dortmund 2. Platz: Team 1 Universität San Diago 3. Platz: Team 1 Universität Potsdam
Gewinnerteam Task 2 vom Karlsruher Institut für Technologie
Aufgabe 2:
Bestes Team: Team 1 Karlsruher Institut für Technologie