Statistiek - Inleiding

Veel operationele beslissingen rondom online marketing, zoals bij advertentiecampagnes met Google AdWords of op Amazon, hebben te maken met statistiek. In het bijzonder: Wat is statistisch significant?. Zie artikel Statistiek & online marketing - Vuistregels voor practische hulp. Dit artikel is een achtergrondartikel.

Introductie

Kop of munt

Beschouw het opgooien van een munt:

Dit betreft een experiment met twee mogelijke uitkomsten
Uitkomst kop beschouwen we als een sucess (1). Uitkomst munt (0) beschouwen we als een mislukking
Twee uitkomsten + success/mislukking? ⇒ Dit is een Bernoulli trial, binomial trial, Bernoulli-verdeling of binomiaal-verdeling [1]

De bijbehorende kansfunctie:

p_x(1) = P(X=1) = p

p_x(2) = P(X=0) = 1-p

Hierbij is p de kans op succes. Alternatieve notering:

f(k;p)=

p als k=1

1-p als k=0

Verwachtingswaarde:

E(X)=p*(1) + (1-p)*(0)

Voor een zuivere munt is deze:

E(X) = (1/2)*1 + (1/2)*=0 = 1/2

Variantie:

var(X) = p(1-p) = (1/2)(1-(1/2) = 1/4

Het gemiddelde van een reeks steekproeven, wordt aangeduid met x̄ of μ [2][3]

Gooien met een dobbelsteen

Beschouw het gooien met een zuivere dobbelsteen. Hierbij geldt:

x - Discrete stochastische variabele
Populatie of waardebereik van x is gegen door {1,2,3,4,5,6}
p(x) - Kansfunctie
P(X) - Gerealiseerde kans op een gegeven uitkomst.

De kansfunctie p_x of p_x(x) is hierbij gegeven door:

p_x(1) = P(X=1) = 1/6

p_x(2) = P(X=2) = 1/6

p_x(3) = P(X=3) = 1/6

p_x(4) = P(X=4) = 1/6

p_x(5) = P(X=5) = 1/6

p_x(6) = P(X=6) = 1/6.

Merk op dat een kansfunctie zoals p_x anders is dan een gewone wiskundige functie, omdat bij kansfuncties niet sprake is van een bepaalde input. Daarnaast is de 'output' een kans dat de input had kunnen optreden, en niet een bewerking op de input.

De verwachtingswaarde is in dit geval de sommatie van alle uitkomsten * kan, en is hier:

E(X) = sigma_over_x x * p_x(x)

= 1*P(X=1) + 2*P(X=2) + ... + 6*P(X=6) = 3,5

Een gooi met de dobbelsteen vormt een steekproef, monster, observatie, staal, sample of trial.

Het probleem: 100 steekproeven zonder success. Wat nu?

De verwachtingswaarde gaat uit van een oneindig aantal steekproeven, maar in de praktijk is het aantal trials beperkt. Wellicht is dit de fantastische wereld van utiliteitswaarde, expected value of sample information, etc.

Simpel AdWords-voorbeeld

Een conversie is € 20 waard
Een klik kost € 1
100 Klikken op rij hebben geen conversie opgeleverd
Kosten van de trials: € 100. Opbrengst: € 0. Resultaat: € -100
P(X=0) = 100%
P(X=1) = 0%
De verwachtingswaarde van deze kansfunctie is 0.
Als er geen rekening wordt gehouden met het eindige aantal trials, is de conclusie simpel: Stoppen.

Conversie op de 101e trial

Maar nu vindt er een conversie plaats op de 101e trial. Nieuwe gegevens:

101 Klikken op rij
Kosten: € 101
Verwachtingswaarde: 1/101 * € 20 = 0,01 * € 20 = € 0,20
P(X=0) = 99%
P(X=1) = 1%
Kosten: € 101. Opbrengst: € 20. Resultaat: € -81

Conclusies tav. dit voorbeeld

Deze ene conversie heeft niet de campagne gered. Het was waarschijnlijk niet de moeite waard om deze additionele trial te doen
In de praktijk is het wijsheid om (bij afwezigheid van additionele gegevens) een campagne te pauzeren als er 100 trials zijn geweest zonder ook maar één conversie, en waarbij een komende conversie niet in één keer de campagne redt
Voor een degelijker antwoord moet je met zekerheidsintervallen aan de slag.

Zekerheidsintervallen

In verschillende contexten worden verschillende maten van zekerheid gehanteerd om iets als significant aan te duiden. AdAlysis heeft een lijstje van zekerheid die ze vereisen, voordat ze wijzigingen aanbrengen aan zoektermen in bepaalde categorieën:

Soort zoekterm                      Minimaal vereiste zekerheid
--------------               ---------------------------------------------
Long Tail Keywords	                        90%
Mid data terms	                             90% – 95%
3rd Party Brands you Sell     90% (small brands) - 95% (large brands)
Top Keywords                                 95% – 99%
Your Brand Terms	     95% (unknown brand) – 99% (well-known brand)

Ik ga standaard uit van 95%.

In de natuurkunde wordt een zekerheidsinterval van 5 sigma's aangehouden om een hypothese te accepteren. Dat is zoiets als 99,9995% ofzo.

Variantie

Variantie is een maat van de spreiding van de uitkomsten van een experiment
Het is een maat van de onderlinge afwijking tussen uitkomsten of waarden
Het is een maat voor de afwijkingen tav. de gemiddelde uitkomst
Min-of-meer: Gemiddelde van het kwadraat van de afwijkingen
Tav. waarden van een populatie, spreekt men van populatievariantie, σ²
Tav. uitkomsten van een steekproef, spreekt met van steekproefvariantie, s²
Tav. waarden van een verdeling, spreekt met gewoon van variantie
De wortel van de steekproefvariantie, is de standaardafwijking σ (sigma).

De formule ziet er vaak heftiger uit dan-ie is:

σ^2 = (1/N) sommatie (i=1 → N) (x_i-μ)²

Voorbeeld: Kop of munt (1)

Observaties: {1,0,0,1,1}
N=5
μ = 3/5 = 0,6

Variantie:

σ² = (1/5) * {(1-0,6)² + (0-0,6)² + (0-0,6)² + (1-0,6)² + (1-0,6)²} <=>

σ² = (1/5) * {0,16 + 0,36 + 0,36 + 0,16 + 0,16)} <=>

σ² = (1/5) * {1,2} <=>

σ² = 0,24.

Voorbeeld: Kop of munt (2)

Voor een oneindige reeks (N → ∞) met een zuivere munt krijg je:

σ² = (1/2) * {(1-1/2)² + (0-1/2)²} <=>

σ² = (1/2) * {(1/2)² + (1/2)²} <=>

σ² = 1/4

Intuïtief: Er zijn twee mogelijke uitkomsten. Die wijken allebei een 1/2 af van het gemiddelde. Het kwadraat hiervan is 1/4.

Voorbeeld: Zuivere dobbelsteen

Som van de kwadraten is 17,5. De variantie is 17,5/6 = 2,9167

Standaarddeviatie

Van variantie naar standaarddeviatie

Standaarddeviatie of standaardafwijking is de wortel van de variantie, aangeduid met :σ
Vaak is het handig om de standaarddeviatie te gebruiken ipv. de variantie, omdat deze van dezelfde ordergrootte is, als die van de uitkomsten van het betreffende experiment
Let op: Je kunt de standaardeviatie niet berekenen door in de formule voor de variantie links en rechts machtsverheffen weg te laten (omdat er tussentijds wordt opgeteld).

Spreiding

Met spreiding wordt losjes bedoeld, de verschillen tussen de waarden die een stochastische variabele vertoont
Op het moment dat met een spreiding een kwantitatieve grootheid wordt bedoeld, gaat het meestal om de standaardafwijking of standaarddeviatie.

Maat voor de spreiding

Hoe meer spreiding, hoe hoger de standaarddeviatie. Voor dobbelstenen met verschillende aantal zijdes: 6 zijden: σ=1,71. 4 Zijden: σ=1,12. 3 Zijden: σ=0,81. 2 Zijden (=dobbelsteen): σ=0,5

Hypothese

Na de practische hoofdstukken hiervoor, nu weer terug naar de theorie, te beginnen met de begrippen toetsingstheorie en hypothese.

De reden om statistiek te bedrijven binnen online adverteren, is vanwege statistische toetsingstheorie: We hebben een bepaalde theorie, en die willen we statistisch toetsen. Hierbij wordt uitgegaan van één of meer hypothesen of veronderstellingen ten aanzien van een onderliggende kansverdeling. Qua hypothesen maken we daarbij onderscheid tussen de nulhypothese H₀ en de alternatieve hypothese H₁ of H_A. De nulhypothese gaat ervan uit dat het vermoede verband of effect niet bestaat. H_A gaat er van uit dat het gezochte effect wél bestaat. Met behulp van statistische toetsing proberen we theorie H_A te bewijzen.

Voorbeeld: Verkoudheid bij mannen en vrouwen

Theorie: Vrouwen zijn vaker verkouden dan mannen
H₀: Vrouwen zijn niet vaker verkouden dan mannen
H_A: Vrouwen zijn vaker verkouden dan mannen

Toetsing:

Een steekproef wordt genomen van 1.000 willekeurige mannen en 1.000 willekeurige vrouwen. Hen wordt gevraagd hoe vaak zij het afgelopen jaar verkouden waren.
Naarmate het aantal vrouwen dat vaker verkouden was dan mannen stijgt, wordt de nulhypothese minder aannemelijk. Uiteindelijk wordt de nulhypothese verworpen
De kans dat de nulhypothese ten onrechte wordt verworden, is de onbetrouwbaarheid \alpha van de toets
Het kan gebeuren dat de nulhypothese niet wordt verworpen, terwijl er wel degelijk een effectie is. De kans hierop wordt het onderscheidend vermogen \gamma genoemd
Om iets zinnigs te zeggen over \alpha en \gamma, is het oa. nodig iets te weten over de onderliggende kansverdeling.

Statistische toets - Voorbeeld gewogen dobbelsteen

Een dobbelaar vermoedt dat de '6' minder vaak valt dan te verwachten:

De kans dat de '6' valt, wordt aangeduid met p
H₀: p=1/6 - Dobbelsteen is eerlijk
H₁: p<1/6 - Kans dat de '6' valt, is minder dan 1/6

Toetsing middels 600 steekproeven en verschillende scenario's:

Als de '6' 100 keer valt → H₀ bevestigd
Als de '6' 98 of 99 keer valt → H₀ bevestigd
Als de '6' slechts 0 of 1 keer valt → H₀ verworpen

'6' Valt 80 keer

Nu wordt het interessanter: De '6' valt 80 keer. Wat nu?

Bij een eerlijke dobbelsteen, is de kans hierop slechts 1% (kun je zelf uitrekenen, schijnt)
Hypothese H₀ kan met 99% zekerheid verworpen worden
Er is echter een kans van 1% dat H₀ ten onrechte verworpen wordt: Fout van de eerste soort
Dus de onbetrouwbaarheid van de toetsing is hier 1%

Als max. 0,1% onbetrouwbaarheid wordt vereist?

Dan wordt H₀ pas verworpen als de '6' 72 keer of minder valt

Als max. 0,5% onbetrouwbaarheid wordt vereist?

Dat komt overeen met een zekerheidsinterval van 99,5%
Dan wordt H₀ verworpen als de '6' 84 keer of minder valt.

Als de '6' in werkelijkheid 1/8 keer valt?

Dan zou bij 600 steekproeven, de '6' naar verwachting 88 keer vallen ipv. 100 keer
Naarmate de betrouwbaarheid minder belangrijk is, zal dit sneller gedetecteerd worden, maar wél met een grotere onzekerheid
Bij een 99% zekerheidsinterval, is 80 al significant → Afwijking wordt gedetecteerd
Bij een 99,9% zekerheidsinterval, is 72 pas een significant aantal → Afwijking wordt niet gedetecteerd
Bij een 99,5% zekerheidsinterval, is 84 pas een significant getal → Afwijking wordt niet gedetecteerd
Dit getal van 88%, heet het onderscheidend vermogen voor deze situatie.

Dit voorbeeld geformaliseerd

Probleemstelling

De probleemstelling behelst de verdeling en de steekproef:

600 Worpen met een dobbelsteen
Aantal keer dat '6' wordt gegooid, noemen we X
Stochastische variabele X is B(600,p)-verdeeld, met onbekende parameter p

Hypothesen

H₀: p = 1/6

H₁: p < 1/6

Toetsingsgrootheid

Als toetsingsgrootheid nemen we:

T = X

Verdeling onder de nulhypothese

Onder H₀ is T binomiaal verdeeld met parameters n=600 en succeskans 1/6
Omdat n zo groot is, kan deze verdeling beschouwd worden als een normale, met verwachting np=100 en variantie np(1-p)=83,33 en standaardafwijking = sqrt(83,33) = 9,13.

Steekproefuitkomst

Waarde t die de toetsingsgrootheid aanneemt bij de steekproefuitkomst:

Er wordt 80 keer 6 gegooid. Dus voor X wordt de waarde x=80 gevonden
Waargenomen waarde t is dus: T=t=80.

Kritieke gebied

We verwerpen de nulhypothese voor kleine waarden van T, zeg voor T ≤ c. De kritieke waarde c volgt uit:

P(fout type I)=sup_H₀P(verwerp H₀) = sup_H₀ P(T =< c) =< alpha₀,

waarin \alpha₀ de vooraf gekozen onbetrouwbaarheidsdrempel is. Voor bijvoorbeeld \alpha_0=5% wordt dit:

0,05 >= sup_H₀ P(T =< c) = P(Z=<(c-100)/9,13)

Waarin Z de zogenaamde Z-score is, de onder de nulhypothese gestandaardiseerde toetsingsgrootheid. Omdat voor grote steekproefomvang T ,en dus ook Z, bij benadering normaal verdeeld is, en \phi(1{,}65) = 0{,}95, volgt

c=100 - 9,13 x 1,65 = 85,0

Zie ook Overschrijdingskans.

Conclusie

De gevonden waarde t=80 ligt in het kritieke gebied, dus we verwerpen de nulhypothese. Of, alternatief: de overschrijdingskans is 0,014, dus veel kleiner dan de onbetrouwbaarheidsdrempel 0,05; we verwerpen de nulhypothese.

Sample size determination

Wat ik in dit artikel naar op zoek ben, is waarschijnlijk

Sample size determination, of
Sampling.

Oftewel: Hoeveel trials heb je nodig om significante conclusies te kunnen trekken. Aanwijzingen:

Dit hangt van het soort experiment af, en ook van de spreiding. Voorbeeld tav. spreiding: Als 4 advertenties consistent meer dan 10% CTR behalen, en 1 advertentie consistent een CTR van 0,01% behaalt, heb je waarschijnlijk niet zo veel samples nodig
Vaak worden aannames gedaan, of een test, om de sampling size vast te stellen, voorafgaand aan het 'echte' experiment
Het WikhHow-artikel How to Assess Statistical Significance, zegt Determine sample size with a power analysis en the common threshold for power (β) is 80%.

Statistiek - Inleiding

Inhoud

Introductie

Kop of munt

Gooien met een dobbelsteen

Het probleem: 100 steekproeven zonder success. Wat nu?

Zekerheidsintervallen

Variantie

Voorbeeld: Kop of munt (1)

Voorbeeld: Kop of munt (2)

Voorbeeld: Zuivere dobbelsteen

Standaarddeviatie

Van variantie naar standaarddeviatie

Spreiding

Maat voor de spreiding

Hypothese

Voorbeeld: Verkoudheid bij mannen en vrouwen

Statistische toets - Voorbeeld gewogen dobbelsteen

'6' Valt 80 keer

Als max. 0,1% onbetrouwbaarheid wordt vereist?

Als max. 0,5% onbetrouwbaarheid wordt vereist?

Als de '6' in werkelijkheid 1/8 keer valt?

Dit voorbeeld geformaliseerd

Probleemstelling

Hypothesen

Toetsingsgrootheid

Verdeling onder de nulhypothese

Steekproefuitkomst

Kritieke gebied

Conclusie

Sample size determination

Correlatie

Leuk voor later

Bronnen

Algemeen

Statistiek & AdWords

Sample size determination

Navigatiemenu

Zoeken