Der direkte Vergleich zweier Marketing-Maßnahmen bringt meistens sehr deutliche Erkenntnisse über deren Wirkung. Vielleicht lenkt das Ergebnis aber vom wirklichen Problem ab.
A/B-Tests sind groß in Mode. Wenn es darum geht, zwischen zwei möglichen Bannern, Ad-Word-Kampagnen oder Landeseiten die wirkungsvollere zu ermitteln, liefert der Paralleltest meistens sehr schnell eindeutige Ergebnisse. Entweder der Traffic ist höher, die Klickraten sind besser oder es werden sogar mehr direkte Verkäufe generiert. Hat man die bessere Alternative ermittelt, ertönt bereits der Gong zur nächsten Runde und man begibt sich auf die Suche nach einer noch besseren Lösung.
Die Macher des amerikanischen Online-Playboy fanden im Vergleichstest heraus, dass die Zahl der Neuabonnenten gleich bleibt, egal ob der Preis bei 29,95 oder 24,95 Dollar im Monat liegt
Der Charme des Paralleltests entfaltet sich vor allem deshalb, weil der Nutzer mit den Füßen, respektive mit den Mausklicks, abstimmt, welche Lösung ihm besser gefällt. Und zwar der echte Nutzer, nicht eine hoffentlich repräsentativ ausgewählte Zielgruppe im Usability-Labor. Und auch unter realen Bedingungen zuhause oder im Büro und nicht in angemieteten Testräumen unter Beobachtung von ungeduldigen Testleitern.
Die Grenzen des A/B-Tests
Genau das, was die Stärken der vergleichenden Testmethode ausmacht, zeichnet auch für deren Schwächen verantwortlich. Wer dem Nutzer beim Probieren nicht über die Schulter schaut, erfährt zwar, dass ihn eine bestimmte Landeseite eher zum Klick gereizt hat, er erfährt jedoch nicht, warum. Und was der Tester schon gar nicht weiß: Hätte es eine Alternative gegeben, die noch mehr Nutzer noch schneller zum Klick bringt?
Die wichtigste Einschränkung beim A/B-Test ist der Testgegenstand selbst. Letztlich entscheidet der Gestalter, Webmaster oder Sitebetreiber, worin sich die beiden angebotenen Alternativen unterscheiden sollen. Bei einem validen Testaufbau unterscheiden sich die Alternativen nur in einem einzigen Punkt, etwa ein roter Bestellbutton auf der einen, ein grüner auf der anderen Seite. Die Veränderung des Buttons kann eine Veränderung der Conversionrate von zum Beispiel 2 auf 2,5 Prozent erbringen. Doch vielleicht hätte eine ganz andere Veränderung in der Seite, etwa das Ergänzen eines Vertrauenselements, eine weitaus größere Steigerung der Conversion auf 4 Prozent mit sich gebracht.
Die kleine Anzeige funktionierte deutlich schlechter als die große – doch liegt das nur an der Länge des Texts?
Auch kann der A/B-Tests nichts über die Persönlichkeit hinter dem Klick verraten. Werden zwei völlig unterschiedliche Kampagnen gegeneinander getestet, so ist es möglich, dass beide unterschiedliche Zielgruppen erreichen. Wird eine Kampagne dann beendet, weil sie eine schlechtere Conversionrate erzielt, fehlt eventuell ein Teil der Gesamtzielgruppe.
Drittens liefert der A/B-Test eine singuläre Betrachtung einer Einzelseite oder eines einzelnen Banners. Eine Klickentscheidung des Nutzers fällt jedoch in der Regel vor dem Hintergrund eines spezifischen Kontexts. Wie spielen Werbemittel und Kontext zusammen? Beim Vergleich zweier Landeseiten etwa kann der Tester so viele Änderungen ausprobieren, wie er möchte, ohne signifikanten Erfolg zu haben. Dagegen hätte eine kleinere Veränderung bei der bewerbenden Kampagne möglicherweise einen großen Ausschlag. Der Usability-Testleiter würde dies in der Befragung herausfinden. Der A/B-Tester nicht.
Und viertens ist der A/B-Test eine kurzfristige Gewinn- Umsatz- oder Lead-Betrachtung. Es stellt sich einerseits die Frage, welche Auswirkung eine kurzfristige Steigerung auf die langfristigen Unternehmensziele hat und andererseits gilt es zu ermitteln, ob die Verbesserung der Conversion an dieser Stelle nicht negative Auswirkungen an einer anderen Stelle hat, wie die Site mit dem gleichen Nutzer in Kontakt tritt.
Aus diesen vier Einschränkungen wird deutlich, dass gutes A/B-Testing keineswegs so schnell und einfachen von statten geht, wie häufig behauptet wird. Ändert man nur eine Variable zur Zeit, so bedarf es einer großen Menge an Testläufen, um sich dem optimalen Ergebnis zu nähern. Geht es hierbei um Grundsatzentscheidungen in einem frühen Stadium der Site-Entwicklung, so sind qualitative Nutzertests weit überlegen, etwa bei der Auswahl und Bewertung von fünf unterschiedlichen Design-Alternativen.
Der richtige A/B-Test
Aus dem Gesagten wird klar, dass der A/B-Test ein Detail-Test ist. Und je fokussierter der Test, umso wichtiger die Vorbereitung. Der A/B-Test kann nur Interaktionen der Nutzer mit dem Server messen. Insofern gilt es, das exakte Ziel einer Kampagne und die damit korrespondierende Maßzahl vorher festzulegen. Geht es um Branding oder darum, den Nutzer so zu informieren, dass er zu einem späteren Zeitpunkt eine gewünschte Handlung vornimmt, schlägt der A/B-Test fehl.
Usability-Guru Jakob Nielsen und die Forscher von Marketing Experiments fanden raus, dass Anzeigen, die wie Seiteninhalt getarnt sind, (links) häufiger geklickt werden
Beachten Sie bei der Ermittlung der Maßzahl auch deren Einfluss auf langfristige Faktoren und Gesamtergebnisse. So sollten Sie die direkten Mehrkäufe eines Einzelprodukts unbedingt auch in Beziehung zu den gesamten Verkaufszahlen sehen, um eventuell herauszufinden, dass die Nutzer das eine oder das andere Produkt erwerben. Es gibt dann also einen Trade-Off.
Geht es um zwei signifikant unterschiedliche Gestaltungsansätze, ist ein einzelner A/B-Test nicht die richtige Wahl. Dieser wäre als zwei verschiedene Tests zu sehen, da die Gestaltungen eventuell unterschiedliche Teilzielgruppen ansprechen oder einen anderen Kontext schaffen (seriös versus innovativ).
Ist der gestalterische Rahmen festgelegt und die relevante Maßzahl identifiziert, dann verändern Sie in jedem Testlauf nur ein Element. Als erfahrener Site-Betreiber werden Sie mit den größeren Variationen beginnen, also zum Beispiel der Frage, ob ein Registrierungsformular direkt auf der Landeseite stehen soll oder dort eher abschreckend wirkt. Dann werden Sie sich Stück für Stück zu kleineren Änderungen vorarbeiten, etwa die Variation von einzelnen Design-Elementen oder ein unterschiedliches Wording auf dem Bestellknopf.
Behalten Sie im Hinterkopf, dass jede Veränderung auch eine Wirkung auf den Gesamtkontext hat. Wenn Ihre Email-Kampagne den Nutzer mit dem Hinweis auf einen kostenlosen Download ködert, dann muss der Download-Button auch in der Landeseite ein prominentes Element sein, um eine Integration zwischen Kampagne und Landeseite zu gewährleisten. Machen Sie statt dessen den kostenpflichtigen Bestellbutton in der gleichen Seite optisch prominenter, so kann das kurzfristig mehr Verkäufe generieren, unterm Strich langfristig aber sogar negativ wirken, weil der geschenkte Download als Marketing-Instrument nicht mehr wahrgenommen wird. Schuld daran ist freilich nicht die einzelne Landeseite sondern die gesamte Kampagne.
Und zu guter Letzt müssen natürlich die Rahmenbedingungen der beiden Testhälften absolut identisch sein. Idealerweise leitet der Webserver zur gleichen Zeit gleichviel Traffic auf beide Varianten. Schon die Variation des zeitlichen Kontextes kann die Ergebnisse signifikant verfälschen. Und das gilt nicht nur, wenn eine von zwei Testwochen in der Ferienzeit liegt. Bedenken Sie die Vielzahl möglicher zeitlicher Einflussfaktoren für ihre Zielgruppe, etwa regionale Feiertage und Festwochen (das Oktoberfest wird das Online-Verhalten des Hamburgers wenig beeinflussen, das des Münchners durchaus), besondere Ereignisse, welche die Zielgruppe betreffen und natürlich das Verhalten der direkten Konkurrenz. Auch deren Schaltung wird an Ihrer Kampagne nicht spurlos vorüber gehen. ™
Material zum Thema:
Erstveröffentlichung 18.09.2007
Wie hilfreich war dieser Beitrag?
Klicke auf die Sterne um zu bewerten!
Durchschnittliche Bewertung 0 / 5. Anzahl Bewertungen: 0