Unter A/B-Tests oder Split-Tests versteht man den experimentellen Vergleich zweier Varianten A und B an potenziellen Kunden oder Benutzern. Im einfachsten Fall wird beispielsweise eine neu gestaltete Startseite zufallsbasiert an 50% der Besucher ausgegeben, während die andere Hälfte der Besucher weiterhin die existierende Startseite sieht. Durch den Vergleich von Erfolgsmetriken wie Klickraten, Konversion oder Verweildauer lässt sich dann ermitteln, ob die neue Variante besser abschneidet oder ob die existierende beibehalten werden sollte.
Trotz der Einfachheit und grossen Verbreitung des Verfahrens werden A/B-Tests oftmals aus praktischen Beweggründen nicht oder falsch durchgeführt. Dieser Artikel soll einige Anhaltspunkte zum besseren Einsatz dieses effektiven Mittels zur Performance-Steigerung liefern.
Wo kommen A/B-Tests zum Einsatz?
A/B-Tests lassen sich grundsätzlich in fast allen Szenarien durchführen, wo der Erfolg einer Massnahme messbar ist. Beispielsweise kann ein Restaurant Rezeptvarianten für dasselbe Gericht testen, indem zufallsbasiert 50% der Besteller Variante A und 50% Variante B serviert wird. Als Erfolgsmetrik bietet sich hierbei z.B. die Quote an leer gegessenen Tellern an. Oftmals wird in derartigen Offline-Szenarien der Aufwand für die Erfassung der Zahlen und die notwendige Anzahl an Test-Durchgängen gescheut, weshalb A/B-Testing weiterhin vor allem in der Web- und Software-Welt vorherrscht, wo entsprechende Metriken ohnehin erfasst werden.
Statistische Signifikanz bei A/B-Tests
Bei der Auswertung von A/B-Tests genügt es nicht, sich für die Variante mit der besten Performance zu entscheiden. Gerade bei relativ kleinen Abweichungen zwischen Variante A und B kann dies oft schlicht dem Zufall geschuldet sein, dass z.B. Gruppe A einen höheren Anteil an Kunden mit klarer Kaufabsicht besass, was einen stärkeren Effekt hatte als die getestete Variation (z.B. eine unterschiedlich gestaltete Webseite).
Die einzige Möglichkeit, in einem A/B-Test den Einfluss des Zufalls zu minimieren ist es, den Test an einer möglichst grossen Anzahl von Benutzern durchzuführen. Wie gross diese Anzahl mindestens sein sollte, richtet sich nach den gemessenen Ergebnissen und dem angepeilten Signifikanzniveau. Üblich ist, ein Signifikanzniveau von 95% anzusetzen, d.h. die Wahrscheinlichkeit, dass ein Testergebnis nur durch Zufall zustande kam, darf maximal 5% sein. Um auszurechnen, wie viele Wiederholungen bzw. Benutzer notwendig sind, um ein signifikantes Ergebnis zu erzielen, gibt es zahlreiche frei verfügbare Tools.
Auf welche Metrik sollte ich bei A/B-Tests schauen?
Die Auswahl der richtigen Erfolgsmetrik kann in manchen Fällen eine Wissenschaft für sich sein. Selbst in einfachen Szenarien, bei denen z.B. eine Landing Page den primären Zweck hat, Newsletter-Abonnenten zu generieren, liegt es zwar intuitiv nahe, als Konversion die Anzahl an Klicks auf den „Jetzt abonnieren“-Button geteilt durch die Page Views zu zählen. Hier kommt aber die Tatsache hinzu, dass in vielen Ländern unter bestimmten Umständen eine „Double Opt-In“-Pflicht herrscht, d.h. dass ein Abonnent nur dann werbliche Emails erhalten darf, wenn dieser sein Abonnement durch Klick auf eine Bestätigungsemail verifiziert hat. Bei einem A/B-Test in diesen Märkten sollte also besser die Konversion auf der Basis der bestätigten Abonnenten betrachtet werden, die möglicherweise zu einem anderen Ergebnis führt als die Betrachtung von reinen Klicks.
Oft können zwei Metriken auch gegenläufige Resultate liefern. In vergangenen Tests mit verschiedenen Farbvarianten für Startseitenbanner, die auf die Kaufseite für denselben Artikel führten, zeigte sich häufig, dass eine helle und kontrastreichere Farbgestaltung eine signifikant höhere Klickrate hatte als eine dunklere Variante. Letztere zeigte allerdings eine signifikant höhere Konversion bzw. Kaufrate. Im Zweifel sollten Entscheidungen auf der Konversion basieren, der Metrik also, die einen tatsächlichen positiven Einfluss auf das Geschäft hat.
Dennoch möchte man in manchen Fällen der Klickrate eine höhere Priorität gewähren, besonders wenn es um neue Produkte geht oder solche, bei denen eine Kaufentscheidung typischerweise über einen längeren Zeitraum reifen muss. Dann kann es sinnvoll sein, sich darauf zu fokussieren, dass so viele Nutzer wie möglich das eigene Produkt überhaupt schon mal gesehen haben, ob sie es nun gekauft haben oder nicht.
Varianten von A/B-Tests
Auch wenn im klassischen Fall des A/B-Testings mit zwei Gruppen nach dem 50/50-Prinzip gearbeitet wird, wird in der Praxis oft anders verfahren. Die Zeit spielt dabei meist eine wichtige Rolle: Durch die Funktionsweise vieler Content Management Systeme (CMS) und Content Distribution Networks (CDN) ist es oft nur mit Verzögerungen im Minuten- bis Stunden-Bereich möglich, Varianten ein- und auszuschalten. Häufig ist es auch gewünscht, einen Test 24 Stunden lang oder eine komplette Woche lang laufen zu lassen, damit Tages- und Wochenabweichungen im Benutzerverhalten einbezogen werden.
Eine schlecht performende Variante, die dadurch über mehrere Tage läuft, kann dann einen grossen finanziellen Schaden verursachen. Daher ist es gängige Praxis, neue Varianten zunächst an einer deutlich kleineren, aber dennoch zufällig ausgewählten Gruppe von Benutzern zu testen. Anstatt einem 50/50-Vergleich wird dann z.B. die neue Variante an 5% der Benutzer getestet und mit der Originalvariante an 95% der Benutzer verglichen. Ebenso ist es möglich, nicht nur zwei, sondern mehrere Varianten gleichzeitig zu testen. Solange statistische Signifikanz beachtet wird und die zufällige Zuordnung von Varianten weiterhin gewährleistet ist, ist die Vorgehensweise ebenfalls sinnvoll und kann Entscheidungsprozesse beschleunigen.