Читать книгу Marktforschung - Heymo Böhler - Страница 42
2.2.3.4 Quasi-experimentelle Versuchspläne
ОглавлениеDie bisherigen Versuchspläne waren dadurch gekennzeichnet, dass der Experimentator die Experimentfaktoren variierte, Kontrollgruppen einsetzte und die Gruppen nach dem Zufallsprinzip bildete. Häufig sind derartige weitreichende Kontrollen in der Marktforschung jedoch nicht möglich. Nach Campbell/Stanley (1966, S. 210 ff.) werden Versuchsanordnungen, für die eine oder mehrere der nachfolgend genannten Bedingungen zutreffen, als Quasi-Experimente bezeichnet (vgl. auch Kerlinger 1973, S. 314 f., Zimmermann 1972, S. 120, Iacobucci und Churchill 2018, S. 104 ff.):
• Es besteht keine Kontrolle über den Experimentfaktor;
• die Testeinheiten können nicht nach dem Zufallsprinzip ausgewählt bzw. auf die Gruppen verteilt werden;
• die experimentelle Behandlung kann nicht per Zufallsprinzip den Gruppen zugewiesen werden;
• es gibt keine Kontrollgruppe.
Quasi-Experimente weichen demnach nur graduell von echten Experimenten im Hinblick auf das Ausmaß der Kontrolle ab. Dabei ist es eine Frage der Konvention, wie weitreichend derartige Kompromisse sein dürfen, um noch von einem Quasi-Experiment sprechen zu können. Auf keinen Fall zählen Versuchsanordnungen dazu, in denen praktisch keinerlei Kontrolle ausgeübt wurde. Insbesondere wird nicht der von Behrens (1966, S. 71 ff.) eingeführten Terminologie gefolgt, wonach auch für die Kontrolle von Störfaktoren völlig ungeeignete Versuchsanordnungen, wie etwa die einmalige Messung bei einer Experimentgruppe als »Experimente« bezeichnet werden.
Im Folgenden werden nur einige typische quasi-experimentelle Designs skizziert (zur Weiterführung vgl. Campbell und Stanley 1966, Zimmermann 1972, S. 119 ff. und S. 130 ff.).
Zunächst sind die quasi-experimentellen Varianten »echter« Experimente zu erwähnen. Hierunter fallen die »Vorher-Nachher-Messung mit Kontrollgruppe«, die »Nachher-Messung mit Kontrollgruppe«, das »Solomon-Vier-Gruppen-Design« und die »faktoriellen Designs«, wenn im Unterschied zu den »echten« Experimentanordnungen auf die Randomisierung verzichtet werden musste. Insbesondere bei Marktexperimenten tritt dieser Fall häufig auf, wenn z. B. die Wirkung einer Preisänderung oder einer Verkaufsförderungsmaßnahme in einem Absatzgebiet getestet wird und ein anderes Absatzgebiet als Kontrollgruppe fungiert. Die Vergleichbarkeit der Gruppen kann dann dadurch angestrebt werden, dass man Gebiete auswählt, die im Hinblick auf die Bevölkerungsmerkmale, die Handelsstruktur, das Konkurrenzangebot etc. weitgehend identisch sind (Matching). Ein weiteres Beispiel stellen Laborexperimente mit sehr kleinen Personenzahlen dar. Da Zufallsauswahlen hier nicht mehr die Vergleichbarkeit der Gruppen gewährleisten können, ist ebenfalls das Matching anzuwenden.
Allerdings kann man dennoch nicht sicher sein, dass alle Störgrößen ausgeschlossen wurden. Beispiele bei Marktexperimenten sind regional unterschiedliche Reaktionen auf den Experimentstimulus, unterschiedliche Konkurrenz- und Handelsaktivitäten usw. (zu den Möglichkeiten des Gruppenvergleichs bei fehlender Randomisierung vgl. Anderson et al. 1980, S. 69 ff. und S. 261 ff., zu Labor- und Marktexperimenten vgl. den folgenden Abschnitt).
Bei der Vorher-Nachher-Messung mit unterschiedlichen Gruppen findet zwar eine Randomisierung der Gruppen statt, doch erfolgen die Messungen bei zwei verschiedenen Gruppen.
Die Experimentwirkung wird als Differenz der Vorher-Nachher-Messung der zwei verschiedenen Gruppen berechnet:
Diese Versuchsanordnung bietet sich bei Marktexperimenten an, in denen keine vergleichbare Region als Kontrollgruppe herangezogen werden kann. Bevor der Experimentfaktor eingesetzt wird (z. B. eine Werbekampagne), wird eine repräsentative Stichprobe gezogen und das abhängige Merkmal (z. B. Bekanntheitsgrad einer Marke) gemessen (M1). Nach dem Einsatz des Experimentfaktors erfolgt bei einer erneuten Stichprobe eine zweite Messung (M2).
Der Vorteil besteht bei dieser Anordnung in der Vermeidung des Testeffekts. Die Zuverlässigkeit dieses Designs hängt einerseits von der Vergleichbarkeit der Gruppen ab. Zudem können zwischenzeitlich mehrere Störfaktoren wirksam gewesen sein, die nicht kontrolliert wurden, da vorher und nachher keine parallelen Kontrollmessungen erfolgten.
Die quasi-experimentelle Anordnung des Zeitreihendesigns entspricht im Prinzip der Zeitreihenanalyse, wobei im Unterschied zu dieser zusätzlich ein experimenteller Stimulus eingeführt wird:
Die Messungen M1 bis M8 sind Beobachtungswerte der interessierenden abhängigen Merkmale (z. B. Absatzmengen), die in gleichbleibenden Abständen erhoben werden (z. B. durch Panels). Ausgangspunkt dieses Designs ist die Überlegung, dass sich alle Einflüsse auf die Abhängige in einem charakteristischen Muster der Zeitreihe niederschlagen. Die Wirkung der experimentellen Behandlung kann dann gewissermaßen als »Strukturbruch« der Zeitreihe erkannt werden. Bleibt er aus, so hat der Experimentfaktor keine Wirkung gehabt.
Eine typische Anwendung des Zeitreihendesigns liegt vor, wenn Marketing-Maßnahmen auf einem regionalen Testmarkt überprüft werden und die erforderlichen Daten aus Panelunterlagen entnommen werden.
Der quasi-experimentelle Charakter des Designs ergibt sich daraus, dass es normalerweise an der Zufallszuweisung der Testeinheiten zur experimentellen Behandlung und an der Kontrolle der im Zeitablauf wirkenden Störeinflüsse anhand einer Kontrollgruppe fehlt (soll ein vergleichbares Testgebiet als Kontrollgruppe herangezogen werden, so kann die Gruppenvergleichbarkeit durch das Matching einiger wichtiger Merkmale überprüft werden).
Störeinflüsse und Experimentwirkung versucht man nun durch das Instrumentarium der Zeitreihenanalyse zu separieren (z. B. durch Trendextrapolation, Regressionsanalyse oder Spektralanalyse). Hierzu ist in Abbildung 12 (nach Campbell und Stanley 1966, S. 38) ein einfaches Beispiel dargestellt.
Der Verlauf bei Fall l zeigt eindeutig eine längerfristige Wirkung des Experimentierfaktors an, während bei Fall 2 nur eine kurzfristige Wirkung vorliegt. Da bei Fall 3 die Erhöhung des Marktanteils mit einer Verzögerung auftritt, ist man nicht sicher, ob dies auf eine zeitverzögerte Wirkung des Experimentfaktors oder auf einen anderen Faktor zurückzuführen ist. Die Fälle 4, 5 und 6 zeigen nach dem Einsatz des Experimentfaktors die gleichen Verlaufsmuster wie zuvor. Es muss daher angenommen werden, dass keine Experimentwirkung gegeben ist.
Die größte Schwäche des Designs besteht in der mangelhaften Kontrolle von Störungen, die im Zeitablauf eintreten können (gesamtwirtschaftliche Einflüsse,
Abb. 12: Panelergebnisse in sechs Fällen im Rahmen eines Zeitreihendesigns
Konkurrenzmaßnahmen usw.). Allerdings kann der Experimentator die Situation auf dem Testmarkt verfolgen und eventuell auftretende Störungen registrieren. Es ist jedoch recht schwierig, ihren Einfluss auf das Experimentergebnis zu quantifizieren.
Die wiederholte Datenerhebung im Rahmen von Panels veranlasste einige Fachvertreter, das Panel als eigenständige Experimentanordnung zu betrachten. Dieser Auffassung wird hier nicht gefolgt. Zwar handelt es sich beim Panel ebenfalls um ein Forschungsdesign (vgl. Mayntz et al. 1978, S. 148), doch erfüllt die wiederholte Messung von Tatbeständen nicht per se die Anforderungen an ein (Quasi-)Experiment. Vielmehr muss der Experimentator, der ein Experiment beabsichtigt, in dessen Rahmen er sich des Panels bedienen möchte, erst selbst durch ein entsprechendes Experimentdesign sicherstellen, dass er zu möglichst unverzerrten Schätzwerten der Experimentwirkung gelangt. Dies wäre z. B. ganz sicher nicht der Fall, wenn er im vorherigen Beispiel nur die Panelmesswerte
EG: M4 X M5
verwenden würde. Es käme dann in den Fällen 2, 3, 4, 5 und 6 zu völlig falschen Schlussfolgerungen hinsichtlich der Experimentwirkung. Panelmesswerte können allerdings in quasi-experimentellen Designs Verwendung finden, nämlich in Zeitreihendesigns mit und ohne Kontrollgruppe. Bei Heranziehung einer Kontrollgruppe ist wegen der fehlenden Randomisierung außerdem auf eine weitgehende Übereinstimmung der Gruppen in wichtigen Merkmalen zu achten (Betriebsformen des Handels, Größe der Handelsbetriebe etc.). Alles in allem hängt es somit von den Kontrollvorkehrungen des Experimentators ab, inwieweit die Forschungsanordnung des Panels auf »experimentelles Niveau« gehoben wird. So entspricht z. B. der Minimarkttest GfK- BehaviorScan diesen Anforderungen.
In der Mehrzahl der Fälle werden Panels jedoch nur für deskriptive Forschungszwecke genutzt, sei es zur Beschreibung des Marktes, für deskriptive Analysen von Zusammenhängen oder für deskriptive Prognosen, zumal im entsprechenden Zeitabschnitt überhaupt keine »Experimentfaktoren« variiert wurden.
Abschließend werden aus der Vielzahl weiterer quasiexperimenteller Designs, die die Praxis für ihre Bedürfnisse entwickelt hat, lediglich einige skizziert (zur Einführung vgl. Zimmermann 1972, S. 158 ff., Cook und Campbell 1979, S. 210 ff.).
Das Block- Design ist ein quasi-experimentelles Design, das rein äußerlich dem zweifaktoriellen Design gleicht. Allerdings wird neben dem Experimentierfaktor als zweiter Faktor ein externes Kriterium herangezogen, um die Experimenteinheiten in homogene Gruppen (»Blöcke«) einzuteilen. Möchte man z. B. die Wirkung von drei Preisalternativen überprüfen, so bietet es sich an, Einzelhandelsgeschäfte nach dem Umsatz in verschiedene Klassen einzuteilen, um innerhalb eines jeden der so gebildeten Blöcke die drei Preisalternativen zu testen. Gegenüber der Zufallsanordnung mit Experiment- und Kontrollgruppe bzw. mit mehreren Experimentgruppen bei einfaktoriellem Design hat diese Vorgehensweise den Vorteil, dass die vom »Blockfaktor« ausgehende starke Streuung aus den Experimentergebnissen herausgehalten wird.
Die bisherigen Versuchsanordnungen bei zwei- und mehrfaktoriellen Designs gingen davon aus, dass jeder Faktorstufenkombination jeweils eine Zufallsstichprobe zugewiesen wurde. Dies führt sehr rasch zu einer erheblichen Anzahl von Experimentgruppen. Zudem interessieren nicht alle Kombinationen. Aus diesem Grunde bieten sich unvollständige mehrfaktorielle Designs an, bei denen nur jene Kombinationen untersucht werden, die für den Experimentator von Belang sind. In Frage kommen hierfür hierarchische Versuchspläne. wobei jede Stufe eines Experimentfaktors nur mit ganz bestimmten Stufen eines zweiten Experimentfaktors kombiniert wird (z. B. Packungsalternative A mit den Preishöhen l und 2, Packungsalternative B mit den Preishöhen 3 und 4). Darüber hinaus ist auf Varianten unvollständiger Designs wie das Lateinische Quadrat und das Griechisch-Lateinische Quadrat zu verweisen. Sie ermöglichen die gleichzeitige Überprüfung von drei bzw. vier Experimentfaktoren bei erheblicher Reduktion der Versuchsgruppen gegenüber vollständigen faktoriellen Designs, wenn keine Interaktionseffekte gegeben sind.