Statistische Signifikanz bei Facebook Ads: warum der Rechner Verlierer krönt
Warum der klassische Signifikanztest bei Facebook-Creative-Tests versagt und wie FDR-Korrektur und Shrinkage Richtung Format-Normalwert das Problem lösen.
Warum der klassische Signifikanztest bei Facebook-Creative-Tests versagt und wie FDR-Korrektur und Shrinkage Richtung Format-Normalwert das Problem lösen.
Du lässt zwölf Creatives fünf Tage gegen eine kalte Audience laufen. Eines zieht davon. Also tippst du seine Klicks und Conversions zusammen mit dem Zweitplatzierten in einen kostenlosen Signifikanzrechner. Die Seite sagt: 96 Prozent signifikant. Du killst die anderen elf und verdreifachst das Budget. Zehn Tage später performt dein Sieger wie der Account-Durchschnitt, und du fragst dich, ob der Rechner gelogen hat.
Hat er nicht. Du hast ihm die falsche Frage gestellt. Der Rechner hat zwei Ads isoliert getestet. Du hast zwölf getestet. Das sind zwei verschiedene statistische Situationen, und für die zweite braucht es Werkzeug, das kaum jemand im Facebook-Alltag benutzt.
Ich habe dieses Werkzeug in Adscalrs Scoring eingebaut. Deshalb kann ich dir genau zeigen, wo es bricht und wie die Korrektur aussieht.
Das Wichtigste vorab
Ein Signifikanztest beantwortet eine einzige enge Frage: Wenn diese zwei Ads identisch performen würden, wie wahrscheinlich wäre ein so großer Abstand rein zufällig? Bei 95 Prozent Konfidenz akzeptierst du eine Fehlalarmquote von 1 zu 20, pro Vergleich. Mehr verspricht der Test nicht. Er sagt nichts darüber, wie groß der Unterschied ist. Und nichts darüber, ob er nächste Woche noch da ist.
Bevor du einem Pokal-Symbol in der Plattform vertraust, lohnt ein Blick in Metas eigene Dokumentation. Metas A/B-Tests küren einen Sieger schon bei 65 Prozent Konfidenz. Lift- und Holdout-Studien verlangen 90 Prozent. Wenn der Ads Manager einen Sieger anzeigt, ist das also eine deutlich schwächere Aussage als die 95 Prozent aus dem Lehrbuch. Und es bleibt eine Aussage über jeweils zwei Varianten.
Weil die Fehlalarmquote von 1 zu 20 pro Vergleich gilt, ein Creative-Batch aber viele Vergleiche auf einmal macht. Teste 20 Creatives bei 95 Prozent Konfidenz, und die Wahrscheinlichkeit, dass mindestens ein Flop die Latte reißt, liegt bei 1 minus 0,95 hoch 20, also rund 64 Prozent. Je mehr Creatives du startest, desto sicherer krönst du irgendwann einen Blender.
Das ist in Felddaten belegt. Ron Berman und Kollegen haben tausende kommerzielle A/B-Experimente ausgewertet. Von allen Effekten, die auf dem 5-Prozent-Niveau signifikant waren, war etwa 1 von 5 in Wahrheit null. Jeder fünfte gekürte Sieger existierte nicht.
Jeder einzelne Paarvergleich war ehrlich. Der Batch als Ganzes war es nicht. Die Bauchgefühl-Version dieser Falle habe ich in Gewonnen oder nur Glück? beschrieben. Hier geht es um die Korrektur selbst.
Das Standardwerkzeug ist die Benjamini-Hochberg-Prozedur. Sie kontrolliert die False Discovery Rate (FDR) über den ganzen Batch statt die Fehlerquote jedes einzelnen Tests. Mechanisch: Sortiere alle p-Werte vom kleinsten zum größten. Dann vergleiche jeden mit einer gleitenden Schwelle, die nach hinten strenger wird (der i-te p-Wert muss i geteilt durch m mal q schlagen; m ist die Zahl der Vergleiche, q dein akzeptierter Anteil falscher Entdeckungen).
Der ehrliche Teil ist die Wahl von q. In Adscalrs Pattern Mining steht q = 0,10. Das heißt: Von allem, was das System über viele Creatives hinweg als echtes Muster meldet, akzeptiere ich, dass rund 1 von 10 trotzdem Rauschen ist. Das klingt nach Kapitulation, bis du die Alternative durchrechnest. Die ältere Bonferroni-Korrektur teilt die Schwelle durch die Zahl der Tests. Bei 20 Creatives bräuchte jedes p < 0,0025, und mit Stichproben in Ad-Größe schafft das fast nie eines. Du würdest ewig stillsitzen. FDR-Kontrolle kauft dir die Handlungsfähigkeit zurück, zu einer bekannten, budgetierten Fehlalarmquote.
Die meisten Creative-Tests sterben, bevor Signifikanz überhaupt zur Debatte steht. Neun Conversions auf einem neuen Static sind keine Stichprobe. Meta selbst behandelt frühe Daten als instabil: Die Dokumentation setzt die Lernphase bei rund 50 Conversion-Events an, bevor sich die Auslieferung einpendelt.
Für diese Phase gibt es Shrinkage. Der Score einer neuen Ad wird mit einem Prior gemischt: dem, was Ads dieses Formats historisch liefern. Ein Static mit 3,8 ROAS auf neun Conversions, in einem Account, in dem Statics im Schnitt 1,6 machen, wird ein gutes Stück zurück Richtung 1,6 gezogen. Konvertiert es weiter und liegt bei 400 Events immer noch vorn, verblasst der Prior, und die eigenen Daten übernehmen. Glückssträhnen werden früh gedämpft. Echte Performance kommt durch.
Das ist bayesianisches Shrinkage mit formatspezifischen Priors. In meinem eigenen Scoring hat keine andere einzelne Änderung so viele Fake-Sieger entfernt.
Ein Geständnis, das viele überrascht: Ich habe Signifikanztests bewusst aus Adscalrs Kill-Pfad herausgelassen. Wenn ein Creative Budget verbrennt, kostet das Warten auf p < 0,05 bares Geld. Du kannst hunderte Euro dafür ausgeben, statistische Gewissheit über einen Flop zu kaufen. Der Kill-Pfad läuft deshalb über harte Schutzregeln: eine Lernphasen-Sperre (keine Kills unter 5 Tagen oder 200 Euro Spend) und ein ROAS-Boden, der alles ab 1,5x pausiert statt killt. Die FDR-Korrektur sitzt dort, wo eine falsche Entdeckung billig zu melden und teuer zu skalieren wäre: im Ranking und im Pattern Mining.
Signifikanz beantwortet die Frage "Ist dieser Unterschied real?". Eine Kill-Entscheidung beantwortet die Frage "Wie begrenze ich den Schaden, während ich darauf warte?". Zwei verschiedene Jobs, zwei verschiedene Rechnungen.
Bewerte jedes Creative über einen Composite aus sechs Metriken, damit keine einzelne zappelige Zahl das Urteil trägt. Zieh frühe Scores Richtung Format-Normalwert. Korrigiere das Ranking dafür, wie viele Creatives du verglichen hast. Und lass Thompson Sampling den nächsten lohnenden Test vorschlagen. Das ist die Statistik-Schicht in Adscalrs Ad Intelligence, und nichts daran ist exotisch. Es ist Statistik aus den Neunzigern, mit Disziplin angewendet. Exotisch ist nur, dass die meisten Dashboards sie weglassen.
Genau dieses Denken steckt in Adscalr.
Produkt ansehen →