Casussen (statistiek)

Uit De Vliegende Brigade
Ga naar: navigatie, zoeken
Zo doe je binomialen in Libreoffice Calc

Slecht presterende advertentie & Google-man (okt. 2016)

Een Google Campagnespecialist vond dat er genoeg gegevens waren verzameld om te concluderen dat de derde advertentie met een gerust hart gepauzeerd kan worden

Probleem

  • Advertenties worden getoond via Google AdWords
  • Stochastische grootheid X: Wordt er doorgeklikt op een advertentie?
  • Drie van de vier advertenties hebben een CTR van zo'n 1,5%
  • De derde advertentie heeft echter een CTR van maar 0,5%
  • Hoe groot is de kans dat die achterblijvende CTR van voorbijgaande aard is?

Vuistregels

De vuistregels die de Google Campagnespecialist toepaste:

  • Alles onder 1% (ook in andere situaties) is een slecht teken
  • 150 tot 200 advertentievertoningen zonder klik? Pauzeren!

Eigen toevoeging: Deze ene advertentie doet het ook nog eens beduidend slechter dan de andere advertenties. Het was veel lastiger geweest, als ze het allemaal beroerd deden

Uitwerking

  • Elke keer dat een advertentie wordt getoond, betreft dat een bernoulli-experiment. De kansrekening van de reeks aan experimenten, kent een binomiale verdeling
  • Het blijkt vanzelfsprekend te zijn om met een nulhypothese H_0 te werken. In dit geval houdt deze in, dat de derde advertentie zich gedraagt zoals de overige advertenties
  • Het blijkt ook vanzelfsprekend te zijn, dat er een bepaalde aanname is tav. de succeskans. In dit geval is die gemakkelijk afgeleid van de overige advertenties. Of om het nog 'neutraler' te nemen: Gewoon de CTR van alle vier de campagnes. Dus 1,61%
  • Deze kans van 1,61% is gebaseerd op 5.793 experimenten. Uiteraard zit daar een bepaalde onzekerheid in, maar ik denk dat ik dat kan verwaarlozen
  • De derde campagne kent 399 experimenten en 2 successen.

Het probleem opnieuw geformuleerd:

  • Stochastische grootheid X: Doorklikken op een advertentie
  • n = 399
  • k = 2
  • p = 0,0161.
  • Wat is de kans op maar 2 successen? Ligt die kans in een bepaald interval, bv. dat van 95% zekerheid?

De bijbehorende kansfunctie:

f(k,n,p) = f(2; 399; 0,0161) = 3,27%

Calc kan daarnaast de cummulatieve kans berekenen. Dus in dit geval: De kans op 2 successen of minder:

f(k, n, p, 1) = 4,43%

Conclusies

  • Er is 95,57% zekerheid, dat deze advertentie onderpresteert - Er is 4,43% kans dat dit een toevallige uitschieter is
  • Er is geen onzekerheid geïncorporeerd tav. de kans in de nulhypothese. Misschien daar nog eens naar kijken
  • LibreOffice Calc is super: Ook complexe gevallen zonder wachttijd. Ik hoef dus geen benadering te doen middels normale verdelingen.

Kritieke Amazon-advertentie (okt. 2017)

200 steekproeven & parameter sensitivity: Dit betreft Amazon, maar de principes zijn hetzelfde. Er is 39 keer geklikt, maar nog niets verkocht. Stoppen of doorgaan? Dit betreft een situatie waarin hoge significantie vereist is: Dit is niet een snelle check van nieuwe zoektermen, maar een kritieke factor om omzet te bereiken.

Vuistregels - Parameter sensitivity

  • Als de 40e klik een conversie oplevert, wordt de CVR rond de 3%, en dat is best hoog
  • Als er 200 keer geklikt is zonder conversie en de 201e klik levert een conversie, wordt de CVR slechts 0,5% en zijn de acquisitiekosten maar liefst € 70. → Stoppen.

Vuistregels - 10x-marge

  • De verwachtingswaarde van de conversie is 4%. Voor de Amazon-campagnes van een andere klant, is het conversiepercentage overigens 4,44% (333 conversies op 7.506 klikken & 10.940.000 impressies)
  • Met '10x-marge' wordt dat 0,4%. Dus een conversie per 250 klikken. Da's aardig in de buurt van de vuistregel hiervoor.

Statistiek

Het probleem

  • 39 Bernoulli-experimenten
  • Er is geen aanname tav. de verwachte slagingskans → Voor webwinkels houd ik 4% aan. Dat getal gebruik ik hier ook.
  • Bij 4% conversie is 39 experimenten waarschijnlijk te weinig

Uitwerking

f(0; 39; 0,04) = 20,35%

Conclusies

  • Bij een conversiepercentage van 4%, is er een kans van 20,35% dat er nog niets verkocht is
  • Er is dus nog niets aan de hand. Zeker niet als hoge significantie is vereist (dat zal wel meer dan 95% zekerheid zijn).

Niet-converterende zoekterm stoppen? (nov. 2017)

De derde zoekterm: Pauzeren of niet?

Context

  • Dit zijn de statistieken van twee jaar looptijd
  • De maximale conversiekosten per zoekterm zijn € 20. De eerste twee zoektermen zitten daar flink onder. De derde zoekterm heeft nog nooit geconverteerd
  • Onderzoek heeft uitgewezen dat de derde zoekterm niet toevallig ook iets anders betekent. Hij is wat dat betreft dus relevant

Vuistregels

  • Maximaal drie maanden wachten: Na twee jaar is er nog geen conversie geweest → Pauzeren.
  • Het magische getal 11: Er zijn ruim meer dan 11 klikken geweest, dus het absolute minimum qua hoeveelheid data, is bereikt. Helaas valt er verder weinig over te zeggen, omdat de tweede regel een conversie op 38 klikken heeft. Dus minimaal 11 steekproeven, zegt niet zoveel.

Statistiek

Probleem

  • Zoals steeds: Een reeks bernoulli-experimenten, dus binomiale verdeling
  • Het experiment betreft conversie. Dus de kans dat een bezoeker een klant wordt
  • Nulhypothese conversiekans: Gebaseerd op de twee advertenties (die het wel goed doen): 0,04776 (4,8%)

Uitwerking

  • k = 0
  • n = 25
  • p = 0,04776
f(k, n, p) = 29,42%

Conclusies - Statistiek

Nogal onthutsend: Er is maar liefst een kans van 29% dat deze zoekterm nog niet heeft geconverteert, als-ie 't net zo goed doet als de andere twee advertenties. Bij nader inzien is dat ook zo gek niet: Er zijn pas 25 klikken geweest en de verwachtingswaarde is dan 1,19 klikken. Dan is 0 niet zo'n extreme afwijking

Conclusies - Algemeen

Een zoekterm die na twee jaar nog niet voldoende meetgegevens heeft verzameld? → Pauzeren.

Sitelink-evaluatie (nov. 2017)

Casus

Een AdWords-campagne loopt al een tijdje, en er zijn aardig wat gegevens verzameld omtrent de prestaties van de sitelinks. De vraag: Slechtpresteren sitelinks wel of niet pauzeren?

Vuistregels

Uitgangspunt 7 Sitelinks met hun KPI's
Insignificante regel verwijderd: Er is voldoende clicks om 'iets' te zeggen over deze regels, muv. de laatste regel. Die laten we daarom helemaal buiten beschouwing
Winst: Dezelfde 6 regels, maar nu in een rekenblad met een extra kolom, met formule winst=kosten-20*conversie. Beetje sneu dat het allemaal negatieve getallen zijn, maar het is wél duidelijk welke regels het meeste hebben opgebracht. Het enige probleem: Is het aantal conversies voldoende significant?
Parameter sensitivity: Conversies: Alle regels krijgen nu 6 conversies. De volgorde verandert weinig: Alleen regel 1 & 4 wisselen stuivertje → #conversies is niet te gevoelig voor verstoringen. Overigens: Ik denk dat de kosten per regel voldoende significant zijn: Het zijn vrij grote getallen met flinke verschillen. Die parameters lijken me ok

Vuistregels - Conclusies

  • Ondanks het beperkt aantal conversies, is dit voldoende om voorzichtige conclusies te trekken
  • Kijk naar winst, niet naar tussenliggende zaken (helaas kun je hier geen eigen kolommen definieren in AdWords)
  • Regels 5, 6 & 2 behouden. De overige pauzeren
  • Nieuwe varianten schrijven van 5, 6 & 2.

Statistiek

Deze gegevens zijn het uitgangspunt
  • Bij voorbaat heb ik al de indruk dat er te weinig conversies zijn om iets zinnigs te zeggen
  • A-priori conversiekans: Alle conversies/alle clicks = 1,25%

Waarschijnlijkheid van de uitkomsten van de verschillende campagnes:

Geen enkele campagne doet het extreem slecht. Zelfs de meest slechtslopende campagnes heeft nog 43,33% waarschijnlijkheid

Statistiek - Conclusies

  • Niet gekeken naar winst oid. Alleen naar de zekerheid dat de slechtlopende campagnes het daadwerkelijk slecht doen
  • Vallen geen conclusies te trekken.

Wij hebben ongelofelijke haast! (mrt. 2018)

AdWords-campagnes in actie. Valt hier al iets te concluderen?

Context

Dit betreft vijf AdWords-campagnes, waarbij er haast is om winstgevendheid te bereiken. Vandaar dat ik graag zo snel mogelijk conclusies wil trekken omtrent potentie van de campagnes:

  • De campagnes lopen 43 dagen (en da's best kort)
  • Deze campagnes zijn actief in een nogal cyclische markt: Goede kans dat drie maanden de maximale aangesloten periode is, waarover representatieve getallen te verzamelen zijn. Maw. statistieken zouden gebaseerd moeten zijn op moving averages van max. 90 dagen. Dat vereist veel volume om voldoende signigicantie te kunnen behalen
  • Het korte-termijnkarakter van deze campagne impliceert dat er besluiten genomen moeten worden met een relatief lage zekerheid - Dat is niet anders.

Te verwachten conversiepercentage?

  • Ik heb een a-priori schatting nodig van het te verwachten conversiepercentage
  • Het beste externe getal dat ik momenteel heb, is 4% - Da's het getal dat ik gebruik voor webwinkels
  • Ander extern getal: 1% - Da's de ondergrens. Als het daaronder zit, is er iets fundamenteels mis
  • Als ik het baseer op al deze vijf campagnes: 16/605 = 2,64% - Probleem: Het is een kruislingse referentie.

Ik kies 2,64%. Dan zijn de conversies tenminste genormaliseerd. Da's een conversie op elke 37,88 klikken.

Verwachte conversies

Wat zijn verwachte conversies, uitgaande van bovengenoemde 2,64% conversie?

Cmp.  Clk   Cv.   Cv_E   C%      Eval
----  ---   ---   ----   ---     ---
100   194    7    5,13   3,61%   Bovengem.   
110    44    0    1,16   0%      Ondergem.
120    93    2    2,46   2,15%   Ondergem.
140    22    0    0,58   0%      Ondergem.
200   252    7    6,66   2,78%   Bovengem.

Som   605   16   16      2,64%   Gemiddeld

Zeg iets!

De laatste kolom '%' geeft de waarschijnlijkheid aan van deze score:

Cmp.  Clk   Cv.   %
----  ---   ---   ---
110    44    0    30,75%
120    93    2    55,27%
140    22    0    55,45%

helaas: De drie campagnes die het slechter doen dan verwacht, voldoende aan de verwachtingen van de campagnes als geheel. Er zijn simpelweg te weinig conversies om iets zinnigs te zeggen. Specifieker:

  • Campagne 110: Er is 30% kans dat dit 'normaal' is - Dit komt in 30% van de gevallen voor. Da's minder dan bv. 50%, maar nog steeds niet erg bijzonder.
  • Campagne 120: Er is 55% kans dat dit 'normaal' is - Dit komt in 55% van de gevallen voor
  • Campagne 140: Er is 55% kans dat dit 'normaal' is - Dit komt in 55% van de gevallen voor.

Zie ook