Casussen (statistiek): verschil tussen versies

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen
Regel 119: Regel 119:
 
Een zoekterm die na twee jaar nog niet voldoende meetgegevens heeft verzameld? → Pauzeren.
 
Een zoekterm die na twee jaar nog niet voldoende meetgegevens heeft verzameld? → Pauzeren.
  
== We hebben haast! (mrt. 2018) ==
+
== Wij hebben ongelofelijke haast! (mrt. 2018) ==
  
 
{|
 
{|

Versie van 4 apr 2018 10:20

Zo doe je binomialen in Libreoffice Calc

Slecht presterende advertentie & Google-man (okt. 2016)

Een Google Campagnespecialist vond dat er genoeg gegevens waren verzameld om te concluderen dat de derde advertentie met een gerust hart gepauzeerd kan worden

Probleem

  • Advertenties worden getoond via Google AdWords
  • Stochastische grootheid X: Wordt er doorgeklikt op een advertentie?
  • Drie van de vier advertenties hebben een CTR van zo'n 1,5%
  • De derde advertentie heeft echter een CTR van maar 0,5%
  • Hoe groot is de kans dat die achterblijvende CTR van voorbijgaande aard is?

Vuistregels

De vuistregels die de Google Campagnespecialist toepaste:

  • Alles onder 1% (ook in andere situaties) is een slecht teken
  • 150 tot 200 advertentievertoningen zonder klik? Pauzeren!

Eigen toevoeging: Deze ene advertentie doet het ook nog eens beduidend slechter dan de andere advertenties. Het was veel lastiger geweest, als ze het allemaal beroerd deden

Uitwerking

  • Elke keer dat een advertentie wordt getoond, betreft dat een bernoulli-experiment. De kansrekening van de reeks aan experimenten, kent een binomiale verdeling
  • Het blijkt vanzelfsprekend te zijn om met een nulhypothese H_0 te werken. In dit geval houdt deze in, dat de derde advertentie zich gedraagt zoals de overige advertenties
  • Het blijkt ook vanzelfsprekend te zijn, dat er een bepaalde aanname is tav. de succeskans. In dit geval is die gemakkelijk afgeleid van de overige advertenties. Of om het nog 'neutraler' te nemen: Gewoon de CTR van alle vier de campagnes. Dus 1,61%
  • Deze kans van 1,61% is gebaseerd op 5.793 experimenten. Uiteraard zit daar een bepaalde onzekerheid in, maar ik denk dat ik dat kan verwaarlozen
  • De derde campagne kent 399 experimenten en 2 successen.

Het probleem opnieuw geformuleerd:

  • Stochastische grootheid X: Doorklikken op een advertentie
  • n = 399
  • k = 2
  • p = 0,0161.
  • Wat is de kans op maar 2 successen? Ligt die kans in een bepaald interval, bv. dat van 95% zekerheid?

De bijbehorende kansfunctie:

f(k,n,p) = f(2; 399; 0,0161) = 3,27%

Calc kan daarnaast de cummulatieve kans berekenen. Dus in dit geval: De kans op 2 successen of minder:

f(k, n, p, 1) = 4,43%

Conclusies

  • Er is 95,57% zekerheid, dat deze advertentie onderpresteert - Er is 4,43% kans dat dit een toevallige uitschieter is
  • Er is geen onzekerheid geïncorporeerd tav. de kans in de nulhypothese. Misschien daar nog eens naar kijken
  • LibreOffice Calc is super: Ook complexe gevallen zonder wachttijd. Ik hoef dus geen benadering te doen middels normale verdelingen.

Kritieke Amazon-advertentie (okt. 2017)

200 steekproeven & parameter sensitivity: Dit betreft Amazon, maar de principes zijn hetzelfde. Er is 39 keer geklikt, maar nog niets verkocht. Stoppen of doorgaan? Dit betreft een situatie waarin hoge significantie vereist is: Dit is niet een snelle check van nieuwe zoektermen, maar een kritieke factor om omzet te bereiken.

Vuistregels - Parameter sensitivity

  • Als de 40e klik een conversie oplevert, wordt de CVR rond de 3%, en dat is best hoog
  • Als er 200 keer geklikt is zonder conversie en de 201e klik levert een conversie, wordt de CVR slechts 0,5% en zijn de acquisitiekosten maar liefst € 70. → Stoppen.

Statistiek

Het probleem

  • 39 Bernoulli-experimenten
  • Er is geen aanname tav. de verwachte slagingskans → Voor webwinkels houd ik 4% aan. Dat getal gebruik ik hier ook.
  • Bij 4% conversie is 39 experimenten waarschijnlijk te weinig

Uitwerking

f(0; 39; 0,04) = 20,35%

Conclusies

  • Bij een conversiepercentage van 4%, is er een kans van 20,35% dat er nog niets verkocht is
  • Er is dus nog niets aan de hand. Zeker niet als hoge significantie is vereist (dat zal wel meer dan 95% zekerheid zijn).

Niet-converterende zoekterm stoppen? (nov. 2017)

De derde zoekterm: Pauzeren of niet?

Context

  • Dit zijn de statistieken van twee jaar looptijd
  • De maximale conversiekosten per zoekterm zijn € 20. De eerste twee zoektermen zitten daar flink onder. De derde zoekterm heeft nog nooit geconverteerd
  • Onderzoek heeft uitgewezen dat de derde zoekterm niet toevallig ook iets anders betekent. Hij is wat dat betreft dus relevant

Vuistregels

  • Maximaal drie maanden wachten: Na twee jaar is er nog geen conversie geweest → Pauzeren.
  • Het magische getal 11: Er zijn ruim meer dan 11 klikken geweest, dus het absolute minimum qua hoeveelheid data, is bereikt. Helaas valt er verder weinig over te zeggen, omdat de tweede regel een conversie op 38 klikken heeft. Dus minimaal 11 steekproeven, zegt niet zoveel.

Statistiek

Probleem

  • Zoals steeds: Een reeks bernoulli-experimenten, dus binomiale verdeling
  • Het experiment betreft conversie. Dus de kans dat een bezoeker een klant wordt
  • Nulhypothese conversiekans: Gebaseerd op de twee advertenties (die het wel goed doen): 0,04776 (4,8%)

Uitwerking

  • k = 0
  • n = 25
  • p = 0,04776
f(k, n, p) = 29,42%

Conclusies - Statistiek

Nogal onthutsend: Er is maar liefst een kans van 29% dat deze zoekterm nog niet heeft geconverteert, als-ie 't net zo goed doet als de andere twee advertenties. Bij nader inzien is dat ook zo gek niet: Er zijn pas 25 klikken geweest en de verwachtingswaarde is dan 1,19 klikken. Dan is 0 niet zo'n extreme afwijking

Conclusies - Algemeen

Een zoekterm die na twee jaar nog niet voldoende meetgegevens heeft verzameld? → Pauzeren.

Wij hebben ongelofelijke haast! (mrt. 2018)

AdWords-campagnes in actie. Valt hier al iets te concluderen?

Context

Dit betreft vijf AdWords-campagnes, waarbij er haast is om winstgevendheid te bereiken. Vandaar dat ik graag zo snel mogelijk conclusies wil trekken omtrent potentie van de campagnes:

  • De campagnes lopen 43 dagen (en da's best kort)
  • Deze campagnes zijn actief in een nogal cyclische markt: Goede kans dat drie maanden de maximale aangesloten periode is, waarover representatieve getallen te verzamelen zijn. Maw. statistieken zouden gebaseerd moeten zijn op moving averages van max. 90 dagen. Dat vereist veel volume om voldoende signigicantie te kunnen behalen
  • Het korte-termijnkarakter van deze campagne impliceert dat er besluiten genomen moeten worden met een relatief lage zekerheid - Dat is niet anders.

Te verwachten conversiepercentage?

  • Ik heb een a-priori schatting nodig van het te verwachten conversiepercentage
  • Het beste externe getal dat ik momenteel heb, is 4% - Da's het getal dat ik gebruik voor webwinkels
  • Ander extern getal: 1% - Da's de ondergrens. Als het daaronder zit, is er iets fundamenteels mis
  • Als ik het baseer op al deze vijf campagnes: 16/605 = 2,64% - Probleem: Het is een kruislingse referentie.

Ik kies 2,64%. Dan zijn de conversies tenminste genormaliseerd. Da's een conversie op elke 37,88 klikken.

Verwachte conversies

Wat zijn verwachte conversies, uitgaande van bovengenoemde 2,64% conversie?

Cmp.  Clk   Cv.   Cv_E   C%      Eval
----  ---   ---   ----   ---     ---
100   194    7    5,13   3,61%   Bovengem.   
110    44    0    1,16   0%      Ondergem.
120    93    2    2,46   2,15%   Ondergem.
140    22    0    0,58   0%      Ondergem.
200   252    7    6,66   2,78%   Bovengem.

Som   605   16   16      2,64%   Gemiddeld

Zeg iets!

De laatste kolom '%' geeft de waarschijnlijkheid aan van deze score:

Cmp.  Clk   Cv.   %
----  ---   ---   ---
110    44    0    30,75%
120    93    2    55,27%
140    22    0    55,45%

helaas: De drie campagnes die het slechter doen dan verwacht, voldoende aan de verwachtingen van de campagnes als geheel. Er zijn simpelweg te weinig conversies om iets zinnigs te zeggen. Specifieker:

  • Campagne 110: Er is 30% kans dat dit 'normaal' is - Dit komt in 30% van de gevallen voor. Da's minder dan bv. 50%, maar nog steeds niet erg bijzonder.
  • Campagne 120: Er is 55% kans dat dit 'normaal' is - Dit komt in 55% van de gevallen voor
  • Campagne 140: Er is 55% kans dat dit 'normaal' is - Dit komt in 55% van de gevallen voor.