Statistiek & AdWords

Uit De Vliegende Brigade
Ga naar: navigatie, zoeken

Veel aspecten aan Google AdWords hebben te maken met statistiek. In het bijzonder: Wat is statistisch significant?

Basisconcepten: Gooien met een dobbelsteen

Beschouw het gooien met een zuivere dobbelsteen. Hierbij is x een discrete stochastische variabele met populatie of waardebereik {1,2,3,4,5,6} en kansfunctie px of px(x), gegeven door:

px(1) = P(X=1) = 1/6
px(2) = P(X=2) = 1/6
px(3) = P(X=3) = 1/6
px(4) = P(X=4) = 1/6
px(5) = P(X=5) = 1/6
px(6) = P(X=6) = 1/6.

Merk op dat een kansfunctie zoals px anders is dan een gewone wiskundige functie, omdat bij kansfuncties niet sprake is van een bepaalde input. Daarnaast is de 'output' een kans dat de input had kunnen optreden, en niet een bewerking op de input.

De verwachtingswaarde is hier gedefineerd als

E(X) = sigma_overx x * px(x)
= 1*P(X=1) + 2*P(X=2) + ... + 6*P(X=6) = 3,5


Een gooi met de dobbelsteen vormt een steekproef, monster, observatie, staal, sample of trial.

Voorbeeld: 100 steekproeven zonder success. Wat nu?

De verwachtingswaarde gaat uit van een oneindig aantal steekproeven, trials, observaties, experimenten of samples. Maar in de praktijk is het aantal trials beperkt. Wellicht is dit de fantastische wereld van utiliteitswaarde, expected value of sample information, etc.

Simpel AdWords-voorbeeld

  • Een conversie is € 20 waard
  • Een klik kost € 1
  • 100 Klikken op rij hebben geen conversie opgeleverd
  • Kosten van de trials: € 100. Opbrengst: € 0. Resultaat: € -100
  • P(X=0) = 100%
  • P(X=1) = 0%
  • De verwachtingswaarde van deze kansfunctie is 0.
  • Als er geen rekening wordt gehouden met het eindige aantal trials, is de conclusie simpel: Stoppen.

Conversie op de 101e trial

Maar nu vindt er een conversie plaats op de 101e trial. Nieuwe gegevens:

  • 101 Klikken op rij
  • Kosten: € 101
  • Verwachtingswaarde: 1/101 * € 20 = 0,01 * € 20 = € 0,20
  • P(X=0) = 99%
  • P(X=1) = 1%
  • Kosten: € 101. Opbrengst: € 20. Resultaat: € -81

Voorlopige conclusies

Deze ene conversie heeft niet de campagne gered. Het was waarschijnlijk niet de moeite waard om deze additionele trial te doen.

In de praktijk is het wijsheid om (bij afwezigheid van additionele gegevens) een campagne te pauzeren als er 100 trials zijn geweest zonder ook maar één conversie, en waarbij een komende conversie niet in één keer de campagne redt.

Voor een degelijker antwoord moet je met zekerheidsintervallen aan de slag.

Zekerheidsintervallen

In verschillende contexten worden verschillende maten van zekerheid gehanteerd om iets als significant aan te duiden. AdAlysis heeft een lijstje van zekerheid die ze vereisen, voordat ze wijzigingen aanbrengen aan zoektermen in bepaalde categorieën:

Soort zoekterm                      Minimaal vereiste zekerheid
--------------               ---------------------------------------------
Long Tail Keywords	                        90%
Mid data terms	                             90% – 95%
3rd Party Brands you Sell     90% (small brands) - 95% (large brands)
Top Keywords                                 95% – 99%
Your Brand Terms	     95% (unknown brand) – 99% (well-known brand)

Ik ga standaard uit van 95%.

Minimum hoeveelheid data: Vuistregels

Een Google Campagnespecialist vond dat er genoeg statistieken waren om te concluderen dat de derde advertentie met een gerust hart gepauzeerd kan worden. Zijn vuistregels: (1) Alles onder 1% (ook in andere situaties) is een slecht teken (2) 150 tot 200 advertentievertoningen zonder klik? Pauzeren! (3) Het gaat om focus. Daarom heb je amper universele regels

1. Minimale hoeveelheden steekproeven per soort zoekterm

AdAlysis geeft dit staatje van het aantal benodigde steekproeven voor statistische significantie:

Verkeer               Impressies   Klikken   Conversies
-------               ----------   -------   ----------
Weinig verkeer            350         300           7
Middelmatig verkeer       750         500          13
Veel verkeer            1.000       1.000          20
Bekende merknamen     100.000      10.000    100-1000

Een paar jaar geleden zei iemand me dat 11 het minimale aantal bemonsteringen was om significant te kunnen zijn. Uiteraard gold dat voor conversies. Dat past aardig in het schema hierboven. Als ik dit schema zou terugbrengen tot één regel, zou het wellicht worden:

Impressies   Klikken   Conversies
----------   -------   ----------
   750          500       11

Het is hierbij het zekerste om te kijken naar Conversies, en bij afwezigheid daarvan naar Klikken en Impressies.

2. Minimaal een week of een maand meten

De factor tijd doet ook mee: Verkeer rondom een bepaalde zoekterm, kan op maandag anders zijn dan op zaterdag. Je moet dus minimaal een week meten. Beter is wellicht om minimaal een maand te meten.

3. Minimaal evenveel steekproeven als zoekopdrachten per week of maand

Niet alleen moet je miminaal een week of een maand meten, maar daarnaast moet je ook minimaal het aantal steekproeven verzamelen, dat overeenkomt met het aantal keer dat de betreffende zoekterm in een week of maand gebruikt wordt:

If you have a brand term that is searched 1 million times a week, you should be using at least a million impressions 
as your minimum. 

For many brands, they aren’t searched 1 million times in a year, and should be happy with 10,000 – 
100,000 impressions before they examine their confidence levels.

Maximale hoeveelheid data: Vuistregels

En nu komt de truuk: Het is verstandig om ook een maximum hoeveelheid data vast te stellen, om tot actie over te gaan. Voorbeeld:

Je hebt een nieuwe AdGroup gemaakt, en wacht tot je minimaal 750 impressies, 500 kliks, en 11 conversies hebt.
Impressies en klikken gaan prima, maar zelfs na een jaar vinden er geen conversies plaats

Dit zijn de vuistregels - Wat het eerste komt:

  • Een testperiode van 3 maanden. [1]
  • 10x de minimale hoeveelheid data [2]

3 maanden de tijd

Vooral deze laatste vuistregel is verfrissend: De wereld verandert flink in drie maanden, en de meetgegevens aan het begin van die drie maanden, zijn al flink belegen aan het eind van die drie maanden. Dus als je na drie maanden nog niet weet wat de uitkomst is, laat het dan maar zitten.

10x het verwachte volume

Stel dat je een zoekterm aan het evalueren bent, en vergelijkbare zoektermen hebben een conversie van 10%. Dat betekent dat je na 10 clicks een conversie verwacht. 10x het verwachte volume wil zeggen, dat als je na 100 clicks nog steeds geen conversie hebt, het welletjes is.

Het kan zijn dat dit niet hetzelfde is als wat het AdAnalysis-artikel bedoelt, maar ik vind het prima.

Hypothese

Na de practische hoofdstukken hiervoor, nu weer terug naar de theorie, te beginnen met de begrippen toetsingstheorie en hypothese.

De reden om statistiek te bedrijven binnen AdWords, is vanwege statistische toetsingstheorie: We hebben een bepaalde theorie, en die willen we statistisch toetsen. Hierbij wordt uitgegaan van één of meer hypothesen of veronderstellingen ten aanzien van een onderliggende kansverdeling. Qua hypothesen maken we daarbij onderscheid tussen de nulhypothese H0 en de alternatieve hypothese H1 of HA. De nulhypothese gaat ervan uit dat het vermoede verband of effect niet bestaat. HA gaat er van uit dat het gezochte effect wél bestaat. Met behulp van statistische toetsing proberen we theorie HA te bewijzen.

Voorbeeld: Verkoudheid bij mannen en vrouwen

  • Theorie: Vrouwen zijn vaker verkouden dan mannen
  • H0: Vrouwen zijn niet vaker verkouden dan mannen
  • HA: Vrouwen zijn vaker verkouden dan mannen

Toetsing:

  • Een steekproef wordt genomen van 1.000 willekeurige mannen en 1.000 willekeurige vrouwen. Hen wordt gevraagd hoe vaak zij het afgelopen jaar verkouden waren.
  • Naarmate het aantal vrouwen dat vaker verkouden was dan mannen stijgt, wordt de nulhypothese minder aannemelijk. Uiteindelijk wordt de nulhypothese verworpen
  • De kans dat de nulhypothese ten onrechte wordt verworden, is de onbetrouwbaarheid \alpha van de toets
  • Het kan gebeuren dat de nulhypothese niet wordt verworpen, terwijl er wel degelijk een effectie is. De kans hierop wordt het onderscheidend vermogen \gamma genoemd
  • Om iets zinnigs te zeggen over \alpha en \gamma, is het oa. nodig iets te weten over de onderliggende kansverdeling.

Statistische toets - Voorbeeld

Een dobbelaar vermoedt dat de '6' minder vaak valt dan te verwachten:

  • De kans dat de '6' valt, wordt aangeduid met p
  • H0: p=1/6 - Dobbelsteen is eerlijk
  • H1: p<1/6 - Kans dat de '6' valt, is minder dan 1/6

Toetsing middels 600 steekproeven en verschillende scenario's:

  • Als de '6' 100 keer valt → H0 bevestigd
  • Als de '6' 98 of 99 keer valt → H0 bevestigd
  • Als de '6' slechts 0 of 1 keer valt → H0 verworpen

'6' Valt 80 keer

Nu wordt het interessanter: De '6' valt 80 keer. Wat nu?

  • Bij een eerlijke dobbelsteen, is de kans hierop slechts 1% (kun je zelf uitrekenen, schijnt)
  • Hypothese H0 kan met 99% zekerheid verworpen worden
  • Er is echter een kans van 1% dat H0 ten onrechte verworpen wordt: Fout van de eerste soort
  • Dus de onbetrouwbaarheid van de toetsing is hier 1%

Als max. 0,1% onbetrouwbaarheid wordt vereist?

  • Dan wordt H0 pas verworpen als de '6' 72 keer of minder valt

Als max. 0,5% onbetrouwbaarheid wordt vereist?

  • Dat komt overeen met een zekerheidsinterval van 99,5%
  • Dan wordt H0 verworpen als de '6' 84 keer of minder valt.

Als de '6' in werkelijkheid 1/8 keer valt?

  • Dan zou bij 600 steekproeven, de '6' naar verwachting 88 keer vallen ipv. 100 keer
  • Naarmate de betrouwbaarheid minder belangrijk is, zal dit sneller gedetecteerd worden, maar wél met een grotere onzekerheid
  • Bij een 99% zekerheidsinterval, is 80 al significant → Afwijking wordt gedetecteerd
  • Bij een 99,9% zekerheidsinterval, is 72 pas een significant aantal → Afwijking wordt niet gedetecteerd
  • Bij een 99,5% zekerheidsinterval, is 84 pas een significant getal → Afwijking wordt niet gedetecteerd
  • Dit getal van 88%, heet het onderscheidend vermogen voor deze situatie.

Dit voorbeeld geformaliseerd

Probleemstelling

De probleemstelling behelst de verdeling en de steekproef:

  • 600 Worpen met een dobbelsteen
  • Aantal keer dat '6' wordt gegooid, noemen we X
  • Stochastische variabele X is B(600,p)-verdeeld, met onbekende parameter p

Hypothesen

H0: p = 1/6
H1: p < 1/6

Toetsingsgrootheid

Als toetsingsgrootheid nemen we:

T = X

Verdeling onder de nulhypothese

  • Onder H0 is T binomiaal verdeeld met parameters n=600 en succeskans 1/6
  • Omdat n zo groot is, kan deze verdeling beschouwd worden als een normale, met verwachting np=100 en variantie np(1-p)=83,33 en standaardafwijking = sqrt(83,33) = 9,13.

Steekproefuitkomst

Waarde t die de toetsingsgrootheid aanneemt bij de steekproefuitkomst:

  • Er wordt 80 keer 6 gegooid. Dus voor X wordt de waarde x=80 gevonden
  • Waargenomen waarde t is dus: T=t=80.

Kritieke gebied

We verwerpen de nulhypothese voor kleine waarden van T, zeg voor T ≤ c. De kritieke waarde c volgt uit:

P(fout type I)=supH0P(verwerp H0) = supH0 P(T =< c) =< alpha0,

waarin \alpha0 de vooraf gekozen onbetrouwbaarheidsdrempel is. Voor bijvoorbeeld \alpha_0=5% wordt dit:

0,05 >= supH0 P(T =< c) = P(Z=<(c-100)/9,13)

Waarin Z de zogenaamde Z-score is, de onder de nulhypothese gestandaardiseerde toetsingsgrootheid. Omdat voor grote steekproefomvang T ,en dus ook Z, bij benadering normaal verdeeld is, en \phi(1{,}65) = 0{,}95, volgt

c=100 - 9,13 x 1,65 = 85,0

Zie ook Overschrijdingskans.

Conclusie

De gevonden waarde t=80 ligt in het kritieke gebied, dus we verwerpen de nulhypothese. Of, alternatief: de overschrijdingskans is 0,014, dus veel kleiner dan de onbetrouwbaarheidsdrempel 0,05; we verwerpen de nulhypothese.

Centrale Limietstelling

Bronnen

Statistiek

Statistiek & AdWords