Was man in großen Mengen von Produktbewertungen „zwischen den Zeilen“" lesen kann
Wenn Menschen im digitalen Raum konsumieren, klicken und kaufen sie nicht nur, sondern schreiben auch oft über Produkte, Marken und Dienstleistungen in Social Media, auf Plattformen oder auf den Seiten von Online-Shops. Die enormen Mengen an textbasierten und von Konsumenten online produzierten Daten stellen einen Schatz dar, der noch nicht vollständig gehoben ist. Glücklicherweise nehmen nicht nur die Datenvolumen laufend zu, sondern es werden auch neue Algorithmen zur Verarbeitung und Analyse solcher unstrukturierten Daten entwickelt. Vor allem Fortschritte im Bereich der künstlichen Intelligenz (KI) können das Heben dieses Datenschatzes erleichtern und dazu beitragen, die Entscheidungsfindung der Konsumenten besser zu verstehen.
In einem GfK-Forschungsprojekt haben wir getestet, wie wir aus öffentlich zugänglichen Social Media Daten, die wir mit Verkaufsdaten verknüpft haben, Konsumentenpräferenzen herauslesen und Kaufentscheidungen prognostizieren können. Das dabei eingesetzte, gängige KI-Tool “Word Embeddings“ hat sich als ein leistungsfähiges Werkzeug zur Analyse der verwendeten Begriffe erwiesen. Wir konnten damit die bevorzugten Marken, die wichtigsten Eigenschaften und primären Produktvorteile aus Konsumentensicht darstellen. Bei der Analyse werden sprachliche Tendenzen aufgedeckt, die auf bestimmte Präferenzen hinweisen und sich ziemlich gut mit den tatsächlichen Verkaufszahlen der Marken in verschiedenen Kategorien decken. Dieses gänzlich passive Verfahren lieferte insbesondere bei großen Datenmengen sehr genaue Ergebnisse (siehe Box 1). Passiv heißt, dass wir kostenlose, weit verbreitete Online-Daten nutzten, ohne die Befragten zu beeinträchtigen oder direkt zu Aspekten zu befragen, die sie sich sonst gar nicht überlegt hätten. Die angewendete Analyse ist schnell und ohne aufwändige Rechnerkapazitäten durchführbar.
Erkennen der beliebtesten Marken einer Kategorie
Um zu testen, ob sich Markenpräferenzen aus Online-Reviews ableiten lassen, haben wir zunächst eine KI-basierte Textanalyse für eine einzige Kategorie (TV-Geräte) mit unterschiedlich großen Datenmengen durchgeführt und das Ergebnis mit den tatsächlichen Verkaufsdaten verglichen. Konkret haben wir 3 Experimente durchgeführt: Mit Daten eines einzigen Online-Händlers im Umfang von insgesamt 3.000 Produktbewertungen, mit Daten mehrerer Einzelhändler im Umfang von 4.500 Produktbewertungen (einer Zufallsstichprobe der gesamten verfügbaren Daten) und unter Verwendung des gesamten Datensatzes im Umfang von 53.000 Produktbewertungen.
Die Ergebnisse sind in Abbildung 1 dargestellt. Die erste Spalte zeigt die tatsächlichen Verkaufsränge von fünf Marken der Kategorie. Es ist wichtig zu beachten, dass der Umsatzunterschied zwischen den Marken C, D und E recht gering war und wir daher eine gewisse Unschärfe erwartet hatten. Die zweite Spalte zeigt die Ergebnisse aus 3.000 Bewertungen bei einem einzigen Online-Händler. Bei dieser begrenzten Datenmenge ist der berechnete Rang eindeutig falsch. Die meistverkauften Marken A und B landen auf den Rängen 3 und 4 statt auf 1 und 2. Die dritte Spalte stellt die berechneten Ränge aus einer zufälligen Teilstichprobe von 4.500 Bewertungen bei mehreren Händlern dar. Hier ist Marke A in der richtigen Position 1, aber wir sehen Verschiebungen bei Marke B und den weiteren Marken. Die vierte Spalte mit dem kompletten Datensatz von 53.000 Bewertungen zeigt das richtige Ranking für die Marken A und B - die wichtigsten Volumentreiber in der Kategorie - und nur mehr Verschiebungen der Marken C, D, E.