Login

Marketing und Data Science

Von Störchen und Babys: Korrelationen, Kausalitäten und Feldexperimente

Anja Lambrecht und Catherine E. Tucker

Angenommene Kausalzusammenhänge halten einer genaueren Überprüfung oft nicht stand.

Korrelation ist nicht gleich Kausalität
Die Explosion an verfügbaren Daten hat bei Marketingpraktikern große Begeisterung ausgelöst, da sie sich bessere Einblicke in die Wirkungsweise ihrer Marketinginvestitionen erhoffen. Tatsächlich kann man mit Hilfe von Big Data Muster aufdecken, die immer wieder wie plausible, kausale Zusammenhänge aussehen. Während es ziemlich offensichtlich ist, dass nicht der Storch die Babys bringt, sind die Zusammenhänge im Marketing aber zumeist weniger eindeutig. Marketingmanager, die nicht in eine Kausalitätsfalle tappen wollen, sollten auf Feldexperimente zurückgreifen, um so echte Zusammenhänge aufzudecken. Im digitalen Umfeld der heutigen Zeit ist die Umsetzung von Experimenten leichter denn je. Sie müssen allerdings sorgfältig geplant und interpretiert werden, um nachvollziehbare und tatsächlich kausale Ergebnisse zu liefern und so bessere Marketingentscheidungen zu ermöglichen.

Oft halten „scheinbare” Kausalitäten einer Überprüfung nicht stand
In der Onlinewelt findet man zahlreiche Fälle, bei denen Unternehmen oder Journalisten der Versuchung erliegen, reine Korrelationen kausal zu interpretieren. Auf der Twitter-Homepage findet man zum Beispiel die Information, die in Abbildung 1 dargestellt ist. In der Originalüberschrift auf der Seite heißt es, dass die Auseinandersetzung mit gesponserten Tweets zu einer besseren Markenbeurteilung und gesteigertem Kaufinteresse führt. Twitter schließt daraus, dass Twitter-Werbung wirkt. Tatsächlich ist es aber äußerst schwierig, diese Daten kausal zu interpretieren. Eigentlich zeigen sie nur, dass Konsumenten, die eine Marke mögen, sich mit Tweets dieser Marke stärker auseinandersetzen. Oder, dass sich ein Kaufinteressent für eine Marke mit der jeweiligen Werbebotschaft näher beschäftigt. Der kausale Zusammenhang könnte also auch umgekehrt sein.

Box 1: Onlinewerbung wirkt – oder nicht?

Konsumenten, die mehr Werbung sehen, kaufen häufiger
Stellen Sie sich einen Spielwarenhändler vor, der eine spezielle Form der Onlinewerbung einsetzt: Retargeting. Seine Systeme identifizieren Nutzer, die die eigene Website besuchen, aber nichts kaufen. Wenn diese Nutzer danach wieder im Internet aktiv sind, bekommen sie Werbeinserate für den Online-Shop eingeblendet. Der Spielwarenhändler sammelt detaillierte Daten zu Werbekontakten, weiteren Besuchen des Online-Shops und darüber, ob gekauft wurde oder nicht. Das Marketing-Team wertet die Daten aus und erkennt, dass Nutzer, die mehr Inserate sahen, mit einer höheren Wahrscheinlichkeit im Online-Shop einkauften.

Heißt das, dass die Werbung wirksam ist?
Nein. Die Daten zeigen nur, dass Konsumenten, die häufiger im Internet herumsurften und deshalb mit mehr Onlinewerbung konfrontiert waren, öfter gekauft haben. Der Zusammenhang ist nur eine Korrelation. Um besser zu verstehen, warum dieses Ergebnis nicht kausal interpretiert werden kann, stellen wir uns zwei unterschiedliche Nutzerinnen vor: Emma und Anna. Beide haben den Online-Shop des Spielwarenhändlers besucht. In den folgenden Wochen ist Emma aber beruflich total eingespannt und kann sich nicht weiter ihren Weihnachsteinkäufen widmen. Sie hat auch keine Zeit mehr, im Internet herumzustöbern. Anna hingegen hat bereits Urlaub, verbringt viel Zeit online und widmet sich intensiv unterschiedlichen Geschenkoptionen. Deshalb sieht sie mehr Inserate und kauft im Endeffekt auch im Online-Shop des Spielwarenhändlers ein. Emma kauft nur deshalb nicht, weil sie keine Zeit dafür hat, und sieht aus dem gleichen Grund auch keine Onlinewerbung. Ob Annas Kontakt mit den Inseraten ihre Kaufentscheidung in irgendeiner Art und Weise beeinflusst haben, können die verfügbaren Daten nicht erklären.

Wie könnte man die tatsächliche Effektivität der Werbung feststellen?
Beantworten könnte die Frage ein Feldexperiment, wie es in Abbildung 2 beschrieben ist: Man weist alle Besucher der Webseite nach dem Zufallsprinzip einer Test- und einer Kontrollgruppe zu. In der Testgruppe spielt man die Inserate des Spielwarenhändlers ein, in der Kontrollgruppe stattdessen andere Inserate, z. B. für eine Non-Profit-Organisation. Da die Konsumenten in beiden Gruppen im Durchschnitt gleich sind, können nun Unterschiede im Kaufverhalten tatsächlich auf die Werbekontakte zurückgeführt werden. Umgelegt auf unser Beispiel fänden sich in beiden Gruppen jeweils gleich viele Emmas und Annas und die Effekte aus ihren unterschiedlichen Verhaltensweisen würden sich gegenseitig aufheben.

Feldexperimente erlauben kausale Schlussfolgerungen
In den Sozialwissenschaften gelten Feldexperimente oder sogenannte A/B-Tests als Goldstandard für das Aufzeigen kausaler Beziehungen. Dabei weist man Konsumenten ohne deren Wissen unterschiedlichen Gruppen zu. Eine Gruppe wird marketingtechnisch bearbeitet, z. B. indem Onlinewerbung eingespielt wird, die andere Gruppe erhält keine Einspielungen (siehe Abb. 2). Wenn die Zahl der Konsumenten pro Gruppe ausreichend groß ist und deren Auswahl nach dem Zufallsprinzip erfolgt, können Unterschiede beim Ergebnis auf die Marketingmaßnahme zurückgeführt werden. Forscher, die sich für Techniken der Feldforschung interessieren, sollten allerdings wissen, dass die Stichprobe ziemlich groß sein sollte. Das gilt vor allem für Situationen, in denen der erwartete Effekt schwer vorhersehbar ist oder vermutlich schwach ausfällt. Bezüglich der Stichprobengrößen ist es schwer, allgemeingültige Empfehlungen abzugeben. Man sollte aber die größtmögliche Variante bezüglich Teilnehmern und verfügbaren Daten anstreben. Box 2 beschreibt die wichtigsten Schritte bei der Planung und Interpretation von Feldexperimenten.

Box 2: Die wichtigsten Schritte für erfolgreiche Feldexperimente

Schritt 1: Wähle die Stichprobeneinheit
Die Zufallsauswahl kann auf der Basis von Individuen, Haushalten, Städten, Läden, Webseiten oder Firmen erfolgen. Kleine Einheiten wie einzelne Personen bieten mehr statistische Möglichkeiten, sind aber teurer und schwieriger zu implementieren. Außerdem ist die Gefahr größer, dass Störfaktoren auftreten oder Maßnahmen für die Testgruppe in die Kontrollgruppe überschwappen.

Schritt 2: Vermeide Störfaktoren und Ausstrahlungseffekte
Nehmen wir einmal an, ein Unternehmen übergibt zufällig ausgewählten Personen ein Gratis-Mobiltelefon. Die Übernahme des neuen Gerätes könnte auch Auswirkungen auf Übernahmeentscheidungen von Verwandten und Freunden haben, auch wenn diese Personen nicht direkt bearbeitet wurden. Wenn Bedenken bezüglich solcher störender Ausstrahlungseffekte bestehen, könnte man diesen begegnen, indem man als Stichprobenbasis voneinander unabhängige soziale Netzwerke wählt. Man hätte dann zum Beispiel Communities als Stichprobeneinheit anstatt Einzelpersonen.
Zu einem Überschwappen kommt es, wenn Personen, die einer bestimmten Gruppe zugeordnet sind, zufällig mit den Marketingaktivitäten für die andere Gruppe konfrontiert werden. Wenn ein Suppenhersteller zum Beispiel zwei unterschiedliche Werbebotschaften in zwei unterschiedlichen Regionen im Fernsehen sendet, können Reisende in die jeweils andere Region auch mit der Alternativbotschaft in Kontakt kommen. Das kann dann zu Messfehlern führen, vor allem wenn einer solchen Reisetätigkeit systematische Muster zu Grunde liegen und die Effekte nicht rein zufallsbedingte Störfaktoren sind.

Schritt 3: Reine Zufallsstichprobe oder geschichtete Zufallsstichprobe?
Der Untersuchungsleiter muss darüber hinaus abwägen, welche Form der Stichprobenbildung die geeignetste ist. Bei einer reinen Zufallsstichprobe werden die Personen (oder sonstigen Einheiten) den Gruppen nach dem Zufallsprinzip zugeteilt. Bei einer geschichteten Stichprobe bildet man zunächst in sich homogene Untergruppen und erst innerhalb dieser Gruppen erfolgt dann eine zufällige Zuteilung. Die geschichtete Vorgehensweise ist vor allem dann zielführend, wenn ein starker Zusammenhang zwischen einzelnen Variablen und den Ergebnisgrößen vermutet wird. So könnte zum Beispiel das Haushaltseinkommen stark mit dem Kaufverhalten von Eigenmarken korrelieren. Es kann deshalb sinnvoll sein, vor der Zufallsauswahl Einkommensgruppen zu bilden und sicherzustellen, dass zum Beispiel innerhalb der Gruppe mit den höchsten Einkommen eine ausreichend große Zufallsstichprobe erreicht wird. Dazu müssen allerdings auch entsprechende Daten auf Haushaltsebene vorliegen.

Schritt 4: Erhebe die richtigen Daten
Forscher sollten sich genau überlegen, welche Art von Daten sie für ihre weiteren Analysen benötigen. Die Durchführung des Experiments muss so ausgelegt werden, dass man diese Daten auch tatsächlich erheben kann. Vor allem im digitalen Umfeld haben typischerweise unterschiedliche Gruppen Zugang zu ganz unterschiedlichen Daten. Es muss geklärt werden, wie man diese gemeinsam erheben oder verbinden kann. Werbeverbünde haben zum Beispiel meist Daten zu Werbekontaktdaten. Um sicherzustellen, dass auch Kaufdaten vorliegen und mit Kontaktdaten kombiniert werden können, sind möglicherweise zusätzliche Vorkehrungen nötig.

Schritt 5: Interpretiere die Ergebnisse von Feldexperimenten vorsichtig
In der Theorie liegt es auf der Hand, wie experimentelle Daten zu interpretieren sind. In der Praxis gibt es aber meist unzählige Besonderheiten, auf die man bei der Interpretation der statistischen Daten achten muss. Im Kern geht es darum, den genauen Unterschied zwischen den Gruppenergebnissen zu erkennen und deren Generalisierbarkeit abzuschätzen. Die Dauer des Experiments ist besonders wichtig für die Ergebnisinterpretation. Um festzustellen, ob ein gemessener Effekt stabil ist oder mit der Zeit größer oder kleiner wird, muss die Testperiode ausreichend lang sein. Meistens sind die Experimente aber zeitlich limitiert, sodass Langzeiteffekte nur schwer abschätzbar sind. Bei den meisten Szenarien sollte man deshalb genau überlegen, ob die kausalen Effekte auch für längere Perioden Gültigkeit haben.

 

Feldexperimente ermöglichen in vielen Fällen bessere Entscheidungen

Wenn man die in Box 2 beschriebenen Schritte sorgfältig durchläuft, gibt es zahlreiche weitere Anwendungsbereiche für Feldexperimente. Ein paar davon wollen wir hier noch erläutern:

  • Wie wirksam ist generische im Vergleich zu personalisierter Werbung?
    Diese Fragestellung haben wir für ein Reiseportal untersucht und personalisierte Inserate mit standardisierten Einspielungen verglichen. Beide experimentellen Gruppen bekamen Inserate eingeblendet: die einen allgemeine Werbung für das Portal, die anderen Inserate für eines der spezifischen Hotels, das sie sich auf dem Portal angesehen hatten. Beim Wirkungsvergleich zeigte sich, dass die allgemeine Werbung im Durchschnitt zu mehr Buchungen führte. Erst in einer späteren Phase, als das Suchverhalten zeigte, dass der Konsument aktiv die Eigenschaften der einzelnen Hotels verglich, waren die personalisierten Inserate ähnlich wirksam wie die allgemeinen.
     
  • Welches Web-Design ist besser?
    Unternehmen könnten sich auch die Frage stellen, welche von zwei Gestaltungsvarianten der eigenen Homepage-Einstiegsseite zu mehr Besuchen auf den Produktseiten führt. Um das zu erfahren, dirigiert man die Besucher nach dem Zufallsprinzip zu einer der beiden Varianten. So kann man vergleichen, bei welchem Design mehr Produktdetails abgefragt und Abschlüsse getätigt werden. Wenn die Zuweisung nach dem Zufallsprinzip erfolgt, kann man unterschiedliche Wahrscheinlichkeiten für die Detailsuche oder für Käufe auf das unterschiedliche Seitendesign zurückführen.
  • Optimierung der Preispolitik
    Die bisher dargestellten Beispiele waren Anwendungen aus der Marketingkommunikation, aber auch weitere Marketingbereiche können ihre Entscheidungen durch die Erkenntnisse aus Feldexperimenten verbessern. Stellen wir uns zum Beispiel ein Unternehmen vor, das wissen will, wie sich unterschiedliche Versandkosten auf die Verkaufsabschlüsse in einem Internetshop auswirken. Dazu könnten zwei unterschiedliche Check-Out-Seiten entwickelt werden. Bei einer werden die üblichen Versandkosten verrechnet, bei der zweiten Variante ermäßigte oder gar keine. Marketing könnte dann vergleichen, wie viele Kunden die Kaufprozesse bei welchen Konditionen weiter fortsetzen und tatsächlich kaufen. Die Preisgestaltung könnte dann je nach Ergebnis optimal angepasst werden.

Feldexperimente sind also ein praktikabler Weg für Unternehmen, die nicht in Störche investieren möchten, um mehr Babys zu bekommen. Wenn die Experimente sorgfältig geplant und interpretiert werden, liegen echte Kausaldaten vor und die Ergebnisse können bei einer breiten Palette an Marketingentscheidungen fundiert weiterhelfen.

Autor/en

Anja Lambrecht, Assistant Professor of Marketing, London Business School, United Kingdom. alambrecht@london.edu

Catherine Tucker, Professor of Management Science, MIT Sloan School of Management, Cambridge, USA. cetucker@mit.edu

Literaturhinweise

Lambrecht, A.; Tucker C. (2013): “When Does Retargeting Work? Information Specificity in Online Advertising”, Journal of Marketing Research, Vol. 50 (5), pp. 561 – 576.
Lambrecht, A. und C. Tucker (2013): "When Personalized Ads Really Work.",https://hbr.org/2013/06/marketers-serve-no-ad-before-i
Lambrecht, A. und C. Tucker (2015): “Field Experiments in Marketing”, working paper. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2630209
Lewis, R. A.; Rao, J. M. (2015): “The Unfavorable Economics of Measuring the Returns to Advertising”, Quarterly Journal of Economics, Vol. 130 (4), pp. 1941 – 1973.