Login

Marketing und Data Science

Big Data in der Marktforschung: Warum mehr Daten nicht automatisch bessere Informationen bedeuten

Volker Bosch

Big Data ermöglicht neue Erkenntnisse, erfordert aber oft neue methodische Zugänge und gezielte Lösungen.

Big Data in aller Munde
„Big Data“ ist ein Megatrend, wenn auch nicht alle das Gleiche meinen, wenn sie darüber sprechen. Grob umrissen geht es jedenfalls um die riesigen Datenmengen, die mit Hilfe neuester technologischer Entwicklungen quasi automatisch entstehen und darum, wie man diese in nützliche Informationen umwandeln kann. An Big Data hängen große Erwartungen, aber die gewinnbringende Verwertung der Daten stellt sich meist viel komplexer dar als erhofft. Dass neue technologische Entwicklungen keinen Start-Ziel-Sieg hinlegen, ist allerdings nichts Neues. Viele folgen im Laufe der Zeit einem typischen Muster, das vom Beratungsunternehmen Gartner erstmals 1995 beschrieben wurde und seither als Hype-Zyklus in zahlreiche Publikationen Eingang gefunden hat (Abb. 1).

Derzeit hat Big Data wohl den „Gipfel der überzogenen Erwartungen“ überschritten und muss das „Tal der Enttäuschungen“ noch durchqueren, bevor das „Plateau der Produktivität“ erreicht wird. Doch was sind realistische Erwartungen an Big Data? Und was bedeutet Big Data für die Marktforschungsindustrie?

Big Data erobert die Marktforschung
Big Data wird die Marktforschung nachhaltig und grundlegend verändern. Während andere Trends, wie etwa das Neuromarketing, nicht auf breiter Basis Fuß fassen konnten, werden sich Geschäftsmodelle etablieren, bei denen Big Data die zentrale Rolle in der Wertschöpfungskette zukommen wird. Denn immer mehr Transaktionen beim Konsum von Produkten und Medien sind elektronisch erfassbar und damit im großen Stil messbar. In einigen Bereichen der Marktforschung ist Big Data bereits heute etabliert: Social Media Analytics und die Messung der Internetreichweiten anhand von Cookie-Daten sind zwei prominente Beispiele. Auch die passive Messung des Medienkonsums in Internet, Fernsehen und Radio im Rahmen eines Panels fällt in die Kategorie Big Data. Was aber liefert Big Data an Mehrwert im Vergleich zu klassischen Marktforschungsdaten?

Big Data = Passive Messung
Die 4V-Definition beschreibt die zentralen Eigenschaften von Big Data: Menge (Volume), Geschwindigkeit (Velocity), Vielfältigkeit der Datenstruktur (Variability) und fragwürdige Verlässlichkeit (Veracity). 4V greift jedoch etwas zu kurz, denn vor allem ist die Herkunft der Daten entscheidend. Die in den letzten Jahren entstandenen Sensortechnologien und Verarbeitungsarchitekturen erlauben völlig neue Möglichkeiten der Informationsgewinnung und -verarbeitung. Wir haben es hier mit einem grundlegenden Paradigmenwechsel zu tun, denn in der traditionellen Marktforschung werden Daten aktiv, d. h. durch menschliche Interaktion bzw. Interviews, erhoben. Bei Big Data hingegen muss die Information nicht mehr langsame, kapazitätsbegrenzte, fehleranfällige und emotionale menschliche Gehirne durchlaufen, bevor ein Datensatz erzeugt wird. Passive Messung ist somit der eigentliche Treiber der Effizienz von Big Data in der Marktforschung. Sie erzeugt Skaleneffekte, von denen man bisher nur träumen konnte. Die Definition von Big Data durch passive Messung bedeutet nicht zwangsläufig Massendaten. Die Ausstattung relativ weniger gemessener Einheiten mit Sensoren erzeugt auch schon recht große, schwer handhabbare Datensätze. Die software-basierte Messung des Internetverhaltens in einem Panel oder die Ausstattung von Einkaufswagen mit RFID-Technologie, die in einem Supermarkt den genauen Standort und Einkaufsverlauf eines Kunden übermittelt, sind Beispiele dafür. Vielleicht sollte man daher treffender von „New Data“ als von „Big Data“ sprechen.

Box 1: Datenmasse ≠ Datenklasse: Das Literary Digest Desaster
Das in den 1930er Jahren in den USA führende Nachrichtenmagazin „Literary Digest“ lieferte 1936 eine sehr eindeutige Prognose für den Ausgang der Präsidentschaftswahlen. Deren Grundlage war eine umfangreiche postalische und telefonische Befragung auf Basis der damals verfügbaren Quellen, dem Telefonbuch und dem Verzeichnis der Automobilbesitzer. 2,4 Millionen Bürger nahmen teil und ein klarer Sieg des Herausforderers Alf Landon über den Amtsinhaber F. D. Roosevelt wurde vorhergesagt. Für damalige Verhältnisse war das sicherlich Big Data, auch wenn es 1936 noch keine Möglichkeit der passiven Messung gab. George Gallup hingegen sagte aufgrund einer deutlich kleineren Stichprobe von ca. 50.000 Personen das genaue Gegenteil vorher. Nach der Analyse der nicht-repräsentativen Sub-Stichprobe der Telefon- und Autobesitzer prognostizierte er, dass die Literary-Digest-Vorhersage falsch sein würde. Er sollte Recht behalten und der Literary Digest musste bald nach dieser krassen Fehlprognose im Jahr 1938 sein Erscheinen einstellen.

Sind doppelt so viele Daten doppelt so viel wert?
Die Größe eines typischen Big-Data-Datensatzes verführt zu der Annahme, dass damit auch entsprechend viel Information geliefert wird. Aus einer bibliothekarischen Sicht ist das auch völlig richtig. Aus einer statistischen Sicht hingegen stimmt das nicht. Denn in der Statistik wird Information als die Reduktion von Unsicherheit definiert. Die Verdopplung der Datenmenge führt jedoch nicht zu einer Verdopplung der Genauigkeit, sondern nur zu einer Verbesserung um den Faktor 1,4 - gemessen am Konfidenzintervall einer Stichprobe. Der Grenznutzen immer größer werdender Datenmengen nimmt deutlich ab. Wenn man den abnehmenden Grenznutzen ignoriert, überschätzt man also fast zwangsläufig den Wert von Big Data für die Marktforschung und übersieht den eigentlichen Nutzen.

Denn durch die größere Datenmenge wird bildlich gesprochen die statistische Auflösung größer, es können nun auch feinere Strukturen statistisch valide beschrieben werden. Das sind zum Beispiel kleine Zielgruppen, Webseiten aus dem sogenannten Longtail des Internets oder seltene Ereignisse. Big Data kann wie ein Mikroskop eingesetzt werden, um Strukturen zu sehen, die mit herkömmlicher Marktforschung nur verschwommen oder gar nicht erkennbar wären. Mit anderen Worten: Der abnehmende Grenznutzen wird abgemildert durch die Tatsache, dass bei Big Data feinste statistische Strukturen dem Rauschen entkommen können.

Big Data muss in der Marktforschung wissenschaftlich ausgewertet werden
Im Direktmarketing, bei CRM-Systemen oder in den Geheimdiensten geht es hauptsächlich um die Beschreibung der Eigenschaften einzelner Personen. In der Marktforschung hingegen sucht man valide, generalisierbare Aussagen, die wissenschaftlich fundiert sein müssen. Bei der Analyse von Produkt- und Mediennutzung von Populationen und deren Segmenten müssen auch statistische Fehler beschreibbar sein. Das hat einen entscheidenden Einfluss auf die Art der verwendeten Algorithmen und Verfahren. Statistische Analyseverfahren, Datenintegration, Gewichtung, Variablentransformationen und Fragen des Datenschutzes stellen eine deutlich größere Herausforderung dar, als das bisher bei herkömmlichen Datensätzen der Fall war. Insbesondere die drei folgenden Herausforderungen sind zu meistern.

Herausforderung 1: Big Data ist (nahezu immer) nicht repräsentativ

Aus vielen Daten werden nicht notwendigerweise gute Daten und aus Masse wird nicht automatisch Klasse. Big Data kann aber leicht dazu verführen, in dieselbe Masse=Klasse-Falle zu tappen, in die 1936 schon der „Literary Digest“ getappt ist (siehe Box 1).

Es ist eine marktforscherische Binsenweisheit, dass die Verzerrung von Stichproben durch mehr desselben nicht reduziert wird und dass das Repräsentativitätsproblem bestehen bleibt. Somit sind klassische Themen der Stichprobentheorie wie Schichtung und Gewichtung gerade im Zeitalter von Big Data hochaktuell und müssen neu interpretiert werden. Selten können alle interessierenden Einheiten gemessen und ein selektiver Bias vermieden werden. Das schränkt beispielsweise auch den Interpretationsspielraum bei Social-Media-Analysen ein, wo die schweigende Mehrheit in der Regel nicht beobachtet werden kann. Das mag erklären, warum sich Social-Media-Daten in Vorhersagemodellen oft unerwartet verhalten. Durch kluge Algorithmen kann man allerdings auch mit „nicht-repräsentativen“ digitalen Ansätzen erstaunliche Präzision erreichen, wie etwa bei den US-Wahlen 2012 und in Großbritannien 2015.

Big Data kann wie ein Mikroskop eingesetzt werden, um Strukturen zu sehen, die mit herkömmlicher Marktforschung nur verschwommen oder gar nicht erkennbar wären.

Herausforderung 2: Big Data ist (nahezu immer) fehlerhaft
Die passive Messung von Verhalten sowie deren Proxies und das hohe Niveau der verwendeten Technologie verführen zu der Annahme, dass praktisch kein Messfehler besteht und Daten unbesehen weiterverarbeitet werden können. Das ist jedoch äußerst selten der Fall. Denn die Technologien sind hochkomplex und oft nicht für marktforscherische Zwecke konzipiert worden.

Da Big Data mit komplexer und deshalb fehleranfälliger Software verarbeitet werden muss, entstehen immer wieder Messfehler. Dazu kommt, dass das Ökosystem Internet ständigen Updates (im besten Fall) oder Technologiewechseln (im schlechtesten Fall) ausgesetzt ist: Der Internet Explorer wird zu Edge, HTML5 löst das alte HTML4 ab, http-Seiten werden zu https oder Flash wird nicht mehr unterstützt. Bei der Messung des Internetverhaltens im GfK Cross Media Link Panel konnten wir beobachten, wie Browser-Updates, technologische Upgrades, Änderungen des Website-Verhaltens und nicht mehr unterstützte Systeme zu einem Messausfall führen können. Geschehen Updates unangekündigt und unerwartet, kann es sogar sein, dass entstandene Messlücken erst (zu) spät bemerkt werden.

Noch schwieriger wird es, wenn ein System verwendet wird, das ursprünglich für einen anderen Zweck gebaut wurde. Das ist etwa der Fall, wenn die mobile Internetnutzung bei einem Mobilfunkbetreiber gemessen wird und nicht beim Nutzer direkt. Man spricht hier von Network-Centric Measurement im Gegensatz zum User-Centric Measurement im Panel oder dem Site-Centric Measurement beim Einsatz von Cookies. Die Datenverarbeitung in solchen Systemen dient primär der Aufrechterhaltung des Telefonie- und Internet-Dienstes sowie der Kostenabrechnung. Marktforscherische Anforderungen wurden ursprünglich überhaupt nicht berücksichtigt. Daher müssen umständlich sogenannte „Probes“ eingebaut werden, die im System die relevanten Informationen abgreifen. Die Kontrolle über die Datenqualität ist dabei begrenzt. Oft kommt es unbemerkt zu Daten-Blackouts, da die primären Aufgaben des Systems Vorrang haben und für andere Anforderungen keine Fehlerroutinen eingebaut wurden. Das musste auch die GfK in ihrem Mobile-Insights-Projekt lernen.

Herausforderung 3: Big Data fehlen (nahezu immer) wichtige Variablen
Die aus methodischer Sicht größte marktforscherische Herausforderung stellt die eingeschränkte Datentiefe von Big Data dar. Trotz der teilweise überwältigenden Datenmenge im Sinne der beobachteten Einheiten ist die Anzahl der gemessenen Variablen gering oder es fehlen entscheidende Variablen. In der traditionellen Umfrageforschung hingegen werden die zu messenden Variablen auf den Untersuchungsgegenstand hin optimiert und können sehr umfangreich sein. Die Internet-Reichweitenforschung auf Basis von Cookies oder Network-Centric Daten veranschaulicht das. Hier liegen nahezu Zensusdaten vor, eine Messung der gesamten Population. Dennoch fehlen entscheidende Informationen wie die Soziodemografie. Das stellt eine entscheidende Begrenzung im Wert der gewonnenen Daten dar, da wichtige Auswertungen, wie zielgruppen- bzw. segmentspezifische Analysen nicht durchgeführt werden können. Die fehlende Information kann nur mit statistischer Datenimputation ergänzt werden. Das erfordert eine zusätzliche Datenquelle mit den erforderlichen Variablen, beispielsweise ein Panel. In dieser Quelle müssen auch die Variablen des Big-Data-Datensatzes enthalten sein. Imputation ist alles andere als ein triviales statistisches Verfahren. Box 2 beschreibt die zugrundeliegende Logik anhand eines Bilddatensatzes, der wie ein Marktforschungsdatensatz behandelt wird.

Box 2: Datenimputation

In einer klassischen Datenmatrix stehen die Spalten für die Variablen und die Zeilen für Beobachtungseinheiten (z. B. Personen oder Haushalte). Variablen, die in der Zensusmessung beobachtet werden, sind für alle Einheiten verfügbar, während andere Variablen, wie zum Beispiel soziodemographische Merkmale, nur in einer Untermenge - z. B. dem Panel - erhoben werden können.

In Bilddaten stehen Grauwerte für den gemessenen Wert einer Variablen (Abbildung 2). In dem Beispiel wurden 75 % der Daten- bzw. Bildpunkte als unbeobachtet gekennzeichnet. Nur wenige zufällig ausgewählte Zeilen (Panelmitglieder = Donoren) und Spalten (Zensusdaten = gemeinsame Variablen) sind vollständig beobachtet. Um sicherzustellen, dass ein Algorithmus nicht reine Bildinformation (die räumliche Nähe der Bildpunkte) verwenden kann, sind Zeilen und Spalten zufällig sortiert. Somit verhält sich das Bild wie ein Marktforschungsdatensatz und die Daten können entsprechend verarbeitet werden.

Das Auffüllen der fehlenden Werte erfolgt durch Imputation. Viele Algorithmen sind verfügbar und alle arbeiten mit unterschiedlichen Annahmen über die statistischen Eigenschaften der Daten. Allen Algorithmen ist gemein, dass sie von den Donoren lernen, wie die gemeinsamen Variablen mit den zu übertragenden spezifischen Variablen zusammenhängen und mit diesem Wissen füllen sie die Datenlücke bei den Rezipienten. Im Big-Data-Kontext gestaltet sich Imputation besonders schwierig, da große Datenmengen verarbeitet werden müssen und man es sich in der Regel nicht leisten kann, das optimale Modell zu finden. Selten folgen die Daten einer multivariaten Normalverteilung oder anderen gut beschriebenen Verteilungen.

Daher entwickelte die Marketing & Data Sciences der GfK das Verfahren „Lineare Imputation“. Es benötigt ein Minimum an theoretischen Vorannahmen und liefert auch bei hochgradig nicht-linearen Datenstrukturen (wie in dem Bild) durch die Verwendung lokaler Regressionsmodelle brauchbare Ergebnisse.

Im Bildbeispiel lässt sich die Qualität der Imputation unmittelbar beurteilen, wenn die Matrix in ihre ursprüngliche Ordnung zurücksortiert wird (Abbildung 3 Mitte).

Allerdings ist Imputation kein magisches Mittel der Informationsgewinnung. Information kann nicht durch Statistik erzeugt werden, sondern nur durch Beobachtung. Statistik macht Strukturen sichtbar. Imputation ist ein Instrument des „Informationstransports“ und funktioniert umso besser, je enger die beobachteten mit den zu imputierenden Daten zusammenhängen.

Mehr Wert durch mehr Daten: Auch in der Marktforschung
Die Marktforschung steht bei Big Data aber vor ganz eigenen Herausforderungen. Es genügt bei weitem nicht, die Technologien zur Verarbeitung großer Datenmengen zu beherrschen, also reine „Data Sciences“ zu betreiben. Es ist zusätzlich notwendig, eigene Marktforschungsalgorithmen zu entwickeln, die auf den neuen Daten einsetzbar sind und die drei Herausforderungen Repräsentativität, Messfehler und statistische Datenintegration erfolgreich angehen. Es muss also eine Synthese aus der jungen „Data Science“ mit der klassischen „Marketing Science“ erfolgen, um der Marktforschung eine erfolgreiche Erweiterung des Kerngeschäfts zu ermöglichen.

Und zumindest was Anwendungen in der Marktforschung betrifft, ist Big Data im Hype-Zyklus neuer Technologien auf einem guten Weg zum Plateau der Produktivität.

Autor/en

Volker Bosch, Head of Marketing & Data Sciences – GfK SE, Nürnberg, Deutschland. volker.bosch@gfk.com

Literaturhinweise

Fenn, Jackie (1995): The Microsoft System Software Hype Cycle Strikes Again

Gaffert P., Bosch V., Meinfelder, F. (2016): “Interactions and Squares. Don't Transform, Just Impute!“, Conference Paper, JSM, Chicago http://www.ibmbigdatahub.com/infographic/four-vs-big-data

http://fivethirtyeight.blogs.nytimes.com/2012/11/10/which-polls-fared-be...