Bruk gjerne A/B-tester i annonseplattformene for det de er gode til: å optimalisere kampanjer innenfor plattformen.
Stadig flere benytter A/B-tester for å optimalisere annonser på plattformer som Meta og Google. Prinsippet er enkelt: Man tester to ulike annonsevarianter, for eksempel forskjellig tekst, bilde eller budskap, og velger den som gir høyest konvertering.
De mest avanserte går et skritt videre. De forsøker å hente ut generell innsikt om hvilke virkemidler som fungerer best, og analyserer til og med samspillseffekter mellom ulike elementer. Ofte kan slike analyser gi overraskende og verdifulle funn, som at et virkemiddel kun har effekt i kombinasjon med et annet.
Men hvor mye kan vi egentlig stole på resultatene fra en A/B-test?
Eksperimentets logikk – og forutsetningen som må være på plass
A/B-testing er i bunn og grunn et eksperiment. Og eksperimenter er den mest presise metoden vi har for å avdekke årsak-virkning, altså om en endring faktisk forårsaker en effekt. Dette er grunnen til at vi bruker eksperimenter i medisinsk forskning.
For at A/B-testen skal gi pålitelig innsikt, må én forutsetning være oppfylt: tilfeldig fordeling. De som eksponeres for testene, må fordeles helt tilfeldig mellom alternativ A og B. I metodefaget kalles dette randomisering.
Grunnen er enkel: Folk er forskjellige, og vil respondere ulikt på ulike annonser. Men hvis fordelingen er tilfeldig, vil forskjellene i målgruppen også fordeles jevnt mellom testvariantene. Da kan vi tilskrive forskjellen i effekt til selve annonsene, ikke til ulikheter i hvem som så dem.
Dessverre: Når du kjører A/B-tester via Meta eller Google, får du ikke slik tilfeldig fordeling.
Selv om du definerer én felles målgruppe, vil algoritmen styre hvem som eksponeres for hvilken annonse. Dette skjer blant annet basert på hvor relevant algoritmen tror en annonse er for den enkelte. Det betyr at A/B-testene i realiteten tester effekten innenfor ulike undergrupper, ikke i målgruppen som helhet.
Det kan virke uskyldig, og er kanskje greit hvis målet bare er å optimalisere én enkelt kampanje der og da. Men dersom vi ønsker å lære noe mer generelt om hvilke budskap eller virkemidler som fungerer best, kan det føre oss på ville veier.
Et tenkt eksempel: Du tester to budskapsstrategier i Meta, én som fokuserer på effektivitet, og én som fokuserer på bærekraft. Resultatet viser at bærekraftsannonsen konverterer best. Konklusjonen virker klar: Folk responderer bedre på bærekraft.
Men vent litt: Hva om algoritmen har valgt å vise bærekraftsannonsen til en liten del av målgruppen, de 10 prosentene som algoritmen vet er mest opptatt av miljø? Da kan det være at disse få konverterer veldig godt, mens de resterende 90 prosent ville foretrukket effektivitet.
Med andre ord: Bærekraft vinner i testen fordi den presterer godt i én undergruppe. Men i målgruppen som helhet er det kanskje effektivitet som hadde gitt best totalresultat. Det vet vi bare ikke, fordi vi ikke fikk en tilfeldig fordeling.
Og problemet er at vi ikke får vite det. Algoritmene er proprietære og utransparente, de er såkkalte black boxes. Vi får ikke vite hvilke undergrupper som så hva, eller hvordan fordelingen ble gjort.