Du lässt zwölf Creatives fünf Tage gegen eine kalte Audience laufen. Eines zieht davon. Also tippst du seine Klicks und Conversions zusammen mit dem Zweitplatzierten in einen kostenlosen Signifikanzrechner. Die Seite sagt: 96 Prozent signifikant. Du killst die anderen elf und verdreifachst das Budget. Zehn Tage später performt dein Sieger wie der Account-Durchschnitt, und du fragst dich, ob der Rechner gelogen hat.

Hat er nicht. Du hast ihm die falsche Frage gestellt. Der Rechner hat zwei Ads isoliert getestet. Du hast zwölf getestet. Das sind zwei verschiedene statistische Situationen, und für die zweite braucht es Werkzeug, das kaum jemand im Facebook-Alltag benutzt.

Ich habe dieses Werkzeug in Adscalrs Scoring eingebaut. Deshalb kann ich dir genau zeigen, wo es bricht und wie die Korrektur aussieht.

Kurz gesagt: Ein normaler Signifikanztest scheitert an einem Facebook-Batch, weil er zwei Ads isoliert prüft, du aber zwölf getestet hast. Jeder einzelne Paarvergleich bleibt ehrlich. Über den ganzen Batch summiert sich die Fehlerquote von 1 zu 20 zum wahrscheinlichen Fake-Sieger. Die Korrektur: Benjamini-Hochberg-FDR plus Shrinkage Richtung Format-Normalwert.

Das Wichtigste vorab

Konfidenz pro Test bricht im Batch zusammen. Bei 95 Prozent Konfidenz pro Vergleich liefert ein Test mit 20 Creatives mit rund 64 Prozent Wahrscheinlichkeit mindestens einen falschen Sieger, allein durch Zufall.
Falsche Sieger sind keine Theorie. Ron Bermans Auswertung tausender kommerzieller A/B-Tests fand: Etwa 1 von 5 Ergebnissen, die auf dem 5-Prozent-Niveau signifikant waren, war in Wahrheit null.
Die Korrekturen sind Handwerk. Benjamini-Hochberg-FDR-Kontrolle (bei mir q = 0,10) plus Shrinkage Richtung Format-Normalwert fangen die meisten Fake-Sieger ab, bevor du Budget auf sie setzt.

Was sagt dir statistische Signifikanz bei einem Facebook-Ad-Test überhaupt?

Ein Signifikanztest beantwortet eine einzige enge Frage: Wenn diese zwei Ads identisch performen würden, wie wahrscheinlich wäre ein so großer Abstand rein zufällig? Bei 95 Prozent Konfidenz akzeptierst du eine Fehlalarmquote von 1 zu 20, pro Vergleich. Mehr verspricht der Test nicht. Er sagt nichts darüber, wie groß der Unterschied ist. Und nichts darüber, ob er nächste Woche noch da ist.

Bevor du einem Pokal-Symbol in der Plattform vertraust, lohnt ein Blick in Metas eigene Dokumentation. Metas A/B-Tests küren einen Sieger schon bei 65 Prozent Konfidenz. Lift- und Holdout-Studien verlangen 90 Prozent. Wenn der Ads Manager einen Sieger anzeigt, ist das also eine deutlich schwächere Aussage als die 95 Prozent aus dem Lehrbuch. Und es bleibt eine Aussage über jeweils zwei Varianten.

Warum bricht der Signifikanztest, sobald du viele Creatives gleichzeitig testest?

Weil die Fehlalarmquote von 1 zu 20 pro Vergleich gilt, ein Creative-Batch aber viele Vergleiche auf einmal macht. Teste 20 Creatives bei 95 Prozent Konfidenz, und die Wahrscheinlichkeit, dass mindestens ein Flop die Latte reißt, liegt bei 1 minus 0,95 hoch 20, also rund 64 Prozent. Je mehr Creatives du startest, desto sicherer krönst du irgendwann einen Blender.

Das ist in Felddaten belegt. Ron Berman und Kollegen haben tausende kommerzielle A/B-Experimente ausgewertet. Von allen Effekten, die auf dem 5-Prozent-Niveau signifikant waren, war etwa 1 von 5 in Wahrheit null. Jeder fünfte gekürte Sieger existierte nicht.

Jeder einzelne Paarvergleich war ehrlich. Der Batch als Ganzes war es nicht. Die Bauchgefühl-Version dieser Falle habe ich in Gewonnen oder nur Glück? beschrieben. Hier geht es um die Korrektur selbst.

Wie korrigierst du multiple Vergleiche beim Creative-Testing?

Das Standardwerkzeug ist die Benjamini-Hochberg-Prozedur. Sie kontrolliert die False Discovery Rate (FDR) über den ganzen Batch statt die Fehlerquote jedes einzelnen Tests. Mechanisch: Sortiere alle p-Werte vom kleinsten zum größten. Dann vergleiche jeden mit einer gleitenden Schwelle, die nach hinten strenger wird (der i-te p-Wert muss i geteilt durch m mal q schlagen; m ist die Zahl der Vergleiche, q dein akzeptierter Anteil falscher Entdeckungen).

Der ehrliche Teil ist die Wahl von q. In Adscalrs Pattern Mining steht q = 0,10. Das heißt: Von allem, was das System über viele Creatives hinweg als echtes Muster meldet, akzeptiere ich, dass rund 1 von 10 trotzdem Rauschen ist. Das klingt nach Kapitulation, bis du die Alternative durchrechnest. Die ältere Bonferroni-Korrektur teilt die Schwelle durch die Zahl der Tests. Bei 20 Creatives bräuchte jedes p < 0,0025, und mit Stichproben in Ad-Größe schafft das fast nie eines. Du würdest ewig stillsitzen. FDR-Kontrolle kauft dir die Handlungsfähigkeit zurück, zu einer bekannten, budgetierten Fehlalarmquote.

Was machst du, wenn eine Ad für jeden Test zu wenige Conversions hat?

Die meisten Creative-Tests sterben, bevor Signifikanz überhaupt zur Debatte steht. Neun Conversions auf einem neuen Static sind keine Stichprobe. Meta selbst behandelt frühe Daten als instabil: Die Dokumentation setzt die Lernphase bei rund 50 Conversion-Events an, bevor sich die Auslieferung einpendelt.

Für diese Phase gibt es Shrinkage. Der Score einer neuen Ad wird mit einem Prior gemischt: dem, was Ads dieses Formats historisch liefern. Ein Static mit 3,8 ROAS auf neun Conversions, in einem Account, in dem Statics im Schnitt 1,6 machen, wird ein gutes Stück zurück Richtung 1,6 gezogen. Konvertiert es weiter und liegt bei 400 Events immer noch vorn, verblasst der Prior, und die eigenen Daten übernehmen. Glückssträhnen werden früh gedämpft. Echte Performance kommt durch.

Das ist bayesianisches Shrinkage mit formatspezifischen Priors. In meinem eigenen Scoring hat keine andere einzelne Änderung so viele Fake-Sieger entfernt.

Wo Signifikanztests nichts verloren haben: bei Kill-Entscheidungen

Ein Geständnis, das viele überrascht: Ich habe Signifikanztests bewusst aus Adscalrs Kill-Pfad herausgelassen. Wenn ein Creative Budget verbrennt, kostet das Warten auf p < 0,05 bares Geld. Du kannst hunderte Euro dafür ausgeben, statistische Gewissheit über einen Flop zu kaufen. Der Kill-Pfad läuft deshalb über harte Schutzregeln: eine Lernphasen-Sperre (keine Kills unter 5 Tagen oder 200 Euro Spend) und ein ROAS-Boden, der alles ab 1,5x pausiert statt killt. Die FDR-Korrektur sitzt dort, wo eine falsche Entdeckung billig zu melden und teuer zu skalieren wäre: im Ranking und im Pattern Mining.

Signifikanz beantwortet die Frage "Ist dieser Unterschied real?". Eine Kill-Entscheidung beantwortet die Frage "Wie begrenze ich den Schaden, während ich darauf warte?". Zwei verschiedene Jobs, zwei verschiedene Rechnungen.

Der ganze Stapel in einem Atemzug

Bewerte jedes Creative über einen Composite aus sechs Metriken, damit keine einzelne zappelige Zahl das Urteil trägt. Zieh frühe Scores Richtung Format-Normalwert. Korrigiere das Ranking dafür, wie viele Creatives du verglichen hast. Und lass Thompson Sampling den nächsten lohnenden Test vorschlagen. Das ist die Statistik-Schicht in Adscalrs Ad Intelligence, und nichts daran ist exotisch. Es ist Statistik aus den Neunzigern, mit Disziplin angewendet. Exotisch ist nur, dass die meisten Dashboards sie weglassen.

Statistische Signifikanz bei Facebook Ads