Du startest am Montag neunzehn Creatives. Am Freitag steht eines bei 4,2 ROAS, der Rest kriecht unter 1,5 herum. Also machst du, was jeder vernünftige Mensch macht: Verlierer raus, Budget auf den Star.

Eine Woche später liegt dein Star bei 1,1. Du sitzt vor dem Spend-Report und versuchst herauszufinden, was schiefgelaufen ist.

Die unbequeme Antwort: wahrscheinlich gar nichts. Das Creative war von Anfang an keine 4,2. Es war eine Münze, die ein paar Mal hintereinander auf Kopf gefallen ist, und du hast echtes Geld auf den nächsten Wurf gesetzt.

Ich habe das selbst gemacht. Die meisten Buyer, die ich kenne, auch. Es ist die teuerste Gewohnheit im Performance-Marketing, und wir reden kaum darüber. Es fühlt sich an, als würde man zugeben, vom eigenen Dashboard veräppelt worden zu sein. Also zeige ich dir, wie ich das inzwischen angehe. Ganz ohne das Statistik-Vokabular, das die Sache sonst nur zudeckt.

Kurz gesagt: Ob ein Creative gewonnen hat oder nur Glück hatte, erkennst du, indem du vor dem Test eine feste Conversion-Zahl festlegst und erst dann dem Score glaubst. Kleine Stichproben pendeln zur Mitte zurück. Urteile über eine Mischung aus Metriken, misstraue extremen Zahlen neuer Creatives, leg die Latte nach Anzahl höher und halt Daten zurück.

Warum sind frühe Testzahlen meistens Rauschen?

In den ersten ein, zwei Tagen ist fast alles, was du siehst, Glück in Verkleidung. Verteil vierzig Conversions auf neunzehn Ads, und der Abstand zwischen deinem besten und deinem schlechtesten Creative hängt vor allem daran, welche Ad zufällig ein paar kaufbereite Leute zuerst erwischt hat.

Für das, was dann passiert, gibt es einen Namen. In der Statistik heißt es Regression zur Mitte. Das ist nur eine vornehme Art zu sagen: Wilde Frühergebnisse pendeln sich wieder Richtung Durchschnitt ein, sobald mehr Daten da sind. Für einen Media Buyer klingt die Alltagsversion fast unverschämt. Die Ad, die an Tag drei wie ein Überflieger aussieht, ist oft genau die, die dich an Tag zehn hängenlässt. Sie sah so gut aus, weil sie Glück hatte, und Glück verlängert seinen Vertrag nicht.

Mein erster Schritt ist deshalb langweilig. Ich lege vor dem Test fest, wie viele Conversions ein Creative braucht, bevor ich seinem Score glauben darf. Und dann halte ich still, bis es so weit ist.

Mit mehr Tests wird die Falle größer

Das ist der Teil, der auch clevere Leute erwischt, weil er sich verkehrt anfühlt.

Ein einzelner A/B-Test bei den üblichen 95 Prozent Konfidenz akzeptiert eine Chance von 1 zu 20, einen Flop zum Sieger zu küren. Geschenkt. Aber schick zwanzig Creatives gleichzeitig in den Ring, und du würfelst denselben 1-zu-20-Würfel zwanzigmal. Die Wahrscheinlichkeit, dass mindestens ein Verlierer wie ein Champion aussieht, liegt dann nicht mehr bei 5 Prozent. Sie liegt bei rund 64 Prozent.

Das ist das Problem der multiplen Vergleiche, und deshalb beschert dir ein großer Creative-Batch öfter einen falschen Sieger als nicht. Mehr Schüsse aufs Tor, mehr Gelegenheiten für einen, ohne jeden Grund heiß auszusehen.

Die Lösung heißt nicht, weniger zu testen. Sie heißt, die Latte höher zu legen, je mehr Gegner ein Creative hat, bevor du ihm glaubst. Die formale Version dieser Latte, samt der Korrektur, die sie über einen ganzen Batch durchsetzt, steht in statistische Signifikanz bei Facebook-Ad-Tests.

Wie liest du Testergebnisse ohne Statistik-Studium?

Du brauchst kein Statistik-Studium. Du brauchst vier Gewohnheiten, und die kannst du alle an einem Freitagnachmittag anwenden.

Urteile über eine Mischung, nicht über eine Zahl. ROAS allein ist zappelig. Betrachte mehrere Signale zusammen (Hold Rate, Kostenstabilität, Conversion Rate und den Rest), und ein einzelner Glückstag hat es viel schwerer, das ganze Bild zu fälschen.
Misstraue extremen Zahlen von neuen Creatives. Eine brandneue Ad mit einer wilden Zahl verdient mehr Skepsis als ein vertrautes Format mit einer stabilen. Frische Ergebnisse Richtung Format-Normalwert zu ziehen, räumt die meisten Fehlalarme leise weg.
Achte darauf, wie viele du vergleichst. Wenn du zwanzig Creatives rankst, rechne ein, dass es zwanzig waren. Das ist der Unterschied zwischen "heute top" und "auch nächste Woche eine sichere Wette".
Halt etwas zurück. Der sauberste Beweis, dass ein Sieger echt ist: Er gewinnt weiter auf Daten, auf denen er nie ausgewählt wurde.

Ein Zwei-Minuten-Check, bevor du skalierst

Hat dieses Creative die Conversion-Zahl erreicht, die ich festgelegt habe, oder ist der Score noch Rauschen?
Gewinnt es über eine Mischung aus Metriken, oder reitet es auf einer zappeligen Zahl?
Wie viele Creatives vergleiche ich, und habe ich die Latte entsprechend angehoben?
Sähe es immer noch wie ein Sieger aus, beurteilt auf den unberührten Daten von gestern?

Wackelt eine dieser Antworten, hast du noch keinen Sieger. Du hast eine Münze, die noch in der Luft ist.

Warum genau das der Grund ist, warum es Adscalr gibt

Ich bin ehrlich mit dem Pitch, weil Drumherumreden schlimmer wäre. Genau dieses Problem soll der Ad-Intelligence-Teil von Adscalr lösen. Er bewertet Creatives über eine Mischung aus sechs Metriken, er zieht frische Ergebnisse Richtung Format-Normalwert, damit kein Glückstag eine Krone bekommt, er rechnet ein, wie viele Creatives du gleichzeitig rankst, und er zeigt dir den nächsten Test, der sich lohnt.

Nichts daran ist clever. Es ist die unglamouröse statistische Hygiene, die über ein Jahr leise die Buyer, die ihr Budget vermehren, von denen trennt, die immer wieder Lehrgeld an die Regression zur Mitte zahlen.

Wenn du sehen willst, wie dieser Read auf deinen eigenen Creatives läuft, genau das macht das Produkt.

Ad-Test: echter Gewinner oder nur Glück?

Warum sind frühe Testzahlen meistens Rauschen?

Mit mehr Tests wird die Falle größer

Wie liest du Testergebnisse ohne Statistik-Studium?

Ein Zwei-Minuten-Check, bevor du skalierst

Warum genau das der Grund ist, warum es Adscalr gibt