Binomiale verdeling (statistiek)

Uit De Vliegende Brigade
(wijz) ← Oudere versie | Huidige versie (wijz) | Nieuwere versie → (wijz)
Naar navigatie springen Naar zoeken springen

De binomiale verdeling is een kansfunctie, net zoals bv. de Poissonverdeling. Deze heeft betrekking op het herhaaldelijk uitvoeren van een bernoulli-experiment.

  • Rondom een binomiale verdeling moet je denken aan uitspraken zoals wat is de kans op een x-aantal successen?
  • Als je van één bernoulli-experiment naar een reeks bernoulli-experimenten gaat, komt daar enige wiskunde bij kijken. Daar gaat dit artikel over.

Definitie

  • Een binomiale verdeling is een verdeling van het aantal successen X in een reeks van n onafhankelijke experimenten alle met identieke succeskans p
  • X is het aantal successen, en is een stochastische variabele

Formulering:

X  o-o  B(n,p)

Kansfunctie

De kansfunctie f(k,n,p) met

  • k - Aantal successen
  • n - Aantal experimenten
  • p - Succeskans

wordt gegeven door

                    (n)
f(k,n,p) = P(X=k) = (k) * p^k * (1-p)^(n-k)

                  = n!/(k!(n-k)!) * p^k * (1-p)^(n-k)

                  = n! * 1/k! * 1/(n-k)! * p^k * (1-p)^(n-k)

Voorbeeld: 4 keer dobbelen. Kans op 1 keer een zes?

  • We gooien 4 keer met een zuivere dobbelsteen en we willen weten hoe groot de kans is dat we 1 keer een zes gooien
  • Het aantal keer dat we een zes gooien, is stochastische grootheid X

Uitputtend opsommen

  • Een zes tijdens de eerste worp: p_eerste_worp=(1/6)*(5/6)*(5/6)*(5/6)*(5/6)
  • Een zes tijdens de tweede worp: p_tweede_worp=(1/6)*(5/6)*(5/6)*(5/6)*(5/6)
  • Een zes tijdens de derde worp: p_derde_worp=(1/6)*(5/6)*(5/6)*(5/6)*(5/6)
  • Een zes tijdens de vierde worp: p_vierder_worp=(1/6)*(5/6)*(5/6)*(5/6)*(5/6)
  • ----
  • P(X=1) = 0,386.

Binomiaalcoëfficiënten

De aanpak hierboven met uitschrijven van alle mogelijkheden is echter problematisch als het om iets ingewikkeldere gevallen gaat. Daarvoor heb je Binomiaalcoëfficiënten:

  • Stochastische experiment, gooien van een zes: X
  • Aantal experimenten: n=4
  • Kans op succes in een bernoulli-experiment: p=1/6
  • Aantal successen: k=1.

Uitwerking:

  • Dit herhaaldelijke experiment kent een binomiale verdeling, met functie B(4, 1/6)
  • De kansfunctie is
             (n)
f(k, n, p) = (k) * p^k * (1-p)^(n-k)

Invullen geeft

             (4)
f(1,4,1/6) = (1) * (1/6)^1 * (1-1/6)^(4-1) = 
           = (4) * (1/6)   * (0,5787) =
           = 0,3858

Voorbeeld: 180 keer tossen

En zo gemakkelijk gaat dit in Libreoffice Calc

Het schijnt lastig te zijn om aan binomiale verdelingen te rekenen als het om grote getallen gaat. Hierbij een test:

  • Experiment X: Tossen met een zuivere munt, waarbij het aantal keer kop geteld wordt
  • Aantal experimenten n: 180
  • Kans p: 1/2 - Dit is dus de kans op kop in één experiment
  • Aantal successen: k
  • Wat is de kans die hoort bij verschillende waardes van k? Bv. k=10, k=50 of k=90?

Uitwerking (k=90)

           (n)
f(k,n,p) = (k) * p^k * (1-p)^(n-k) <=>

                  (180)
f(90, 180, 1/2) = ( 90) * (1/2)^90 * (1/2)^(180-90)
                = 9,10122486728323E+052 * 8,07793566946316E-28 * 8,07793566946316E-28
                = 0,0594
                = 5,94%

Conclusies

  • De kans dat je in 180 keer tossen precies 90 keer kop gooit, is nog geen 6%
  • De getallen worden heel snel heel groot of heel klein - Zonder computer al snel niet meer te doen
  • Gaat perfect in LibreOffice Calc.

Voorbeeld: Onderpresterende AdWords-advertentie

De derde advertentie doet het beduidend slechter dan de andere. Stoppen of doorgaan?

Probleem

  • Advertenties worden getoond via Google AdWords
  • Stochastische grootheid X: Wordt er doorgeklikt op een advertentie?
  • Drie van de vier advertenties hebben een CTR van zo'n 1,5%
  • De derde advertentie heeft echter een CTR van maar 0,5%
  • Hoe groot is de kans dat die achterblijvende CTR van voorbijgaande aard is?

Uitwerking

  • Elke keer dat een advertentie wordt getoond, betreft dat een bernoulli-experiment. De kansrekening van de reeks aan experimenten, kent een binomiale verdeling
  • Het blijkt vanzelfsprekend te zijn om met een nulhypothese H_0 te werken. In dit geval houdt deze in, dat de derde advertentie zich gedraagt zoals de overige advertenties
  • Het blijt ook vanzelfsprekend te zijn, dat er een bepaalde aanname is tav. de succeskans. In dit geval is die gemakkelijk afgeleid van de overige advertenties. Of om het nog 'neutraler' te nemen: Gewoon de CTR van alle vier de campagnes. Dus 1,61%
  • Deze kans van 1,61% is gebaseerd op 5.793 experimenten. Uiteraard zit daar een bepaalde onzekerheid in, maar ik denk dat ik dat kan verwaarlozen
  • De derde advertentie kent 399 experimenten en 2 successen.

Het probleem opnieuw geformuleerd:

  • Stochastische grootheid X: Doorklikken op een advertentie
  • Aantal experimenten: n = 399
  • Aantal successen: k = 2
  • Verwachte succeskans: p = 0,0161
  • Wat is de kans op maar 2 successen? Ligt die kans in een bepaald interval, bv. dat van 95% zekerheid?

De bijbehorende kansfunctie:

f(k,n,p) = f(2; 399; 0,0161) = 3,27%

Calc kan daarnaast de cummulatieve kans berekenen. Dus in dit geval: De kans op 2 successen of minder:

f(k, n, p, 1) = 4,43%

Conclusies

  • Er is 95,57% zekerheid, dat deze advertentie onderpresteert - Er is 4,43% kans dat dit een toevallige uitschieter is
  • Er is geen onzekerheid geïncorporeerd tav. de kans in de nulhypothese. Misschien daar nog eens naar kijken
  • LibreOffice Calc is super: Ook complexe gevallen zonder wachttijd. Ik hoef dus geen benadering te doen middels normale verdelingen.

Voorbeeld: Allee campagnes in een account

Berekening voor alle campagnes in een account

Merk op:

  • Er zijn twee campagnes die met 95% zekerheid het verwachte conversiepercentage niet halen: 90 - CE_en en 30 - DE_de
  • Van deze twee is 90 - CE_en wél één van de weinige campagnes die winstgevend is
  • Er is maar één campagne die echt hopeloos is: 30 - DE_de
  • Wel of niet beehalen van het verwachte conversiepercentage zegt dus niet alles. Ook als een campagne het niet haalt, kan-ie nog steeds lucratief zijn
  • Eigenlijk zou ik deze berekeningen een stap verder willen nemen, door de utiliteitswaarde (?) te berekenen. Oftewel: De verwachte opbrengst + zekerheidsmarge.

Voorbeeld: Onderpresterende AdGroups?

Probleem

Ik heb een bepaalde campagne uitgesplitst in een groot aantal SKAG-AdGroups. De prestaties van die AdGroups lopen nogal uiteen. Wanneer kan ik met enige zekerheid concluderen dat een bepaalde AdGroup beter uit z'n leiden kan worden verlost?

  • Stochastische grootheid X: Conversie-kans van een AdGroup
  • Nulhypothese: AdGroups hebben een conversie van 4%. Da's gebaseerd op zo'n 200.000 clicks en zo'n 8.000 conversies. 3% Is trouwens ook reëel

Uitwerking

  • p = 0,04
  • n = 789
  • k = 2
f(k,n,p,1) = 

Zie ook

Bronnen