Statistische toets
Voorbeeld gewogen dobbelsteen:
Een dobbelaar vermoedt dat de '6' minder vaak valt dan te verwachten:
- De kans dat de '6' valt, wordt aangeduid met p
- H0: p=1/6 - Dobbelsteen is eerlijk
- H1: p<1/6 - Kans dat de '6' valt, is minder dan 1/6
Toetsing middels 600 steekproeven en verschillende scenario's:
- Als de '6' 100 keer valt → H0 bevestigd
- Als de '6' 98 of 99 keer valt → H0 bevestigd
- Als de '6' slechts 0 of 1 keer valt → H0 verworpen
'6' Valt 80 keer
Nu wordt het interessanter: De '6' valt 80 keer. Wat nu?
- Bij een eerlijke dobbelsteen, is de kans hierop slechts 1% (kun je zelf uitrekenen, schijnt)
- Hypothese H0 kan met 99% zekerheid verworpen worden
- Er is echter een kans van 1% dat H0 ten onrechte verworpen wordt: Fout van de eerste soort
- Dus de onbetrouwbaarheid van de toetsing is hier 1%
Als max. 0,1% onbetrouwbaarheid wordt vereist?
- Dan wordt H0 pas verworpen als de '6' 72 keer of minder valt
Als max. 0,5% onbetrouwbaarheid wordt vereist?
- Dat komt overeen met een zekerheidsinterval van 99,5%
- Dan wordt H0 verworpen als de '6' 84 keer of minder valt.
Als de '6' in werkelijkheid 1/8 keer valt?
- Dan zou bij 600 steekproeven, de '6' naar verwachting 88 keer vallen ipv. 100 keer
- Naarmate de betrouwbaarheid minder belangrijk is, zal dit sneller gedetecteerd worden, maar wél met een grotere onzekerheid
- Bij een 99% zekerheidsinterval, is 80 al significant → Afwijking wordt gedetecteerd
- Bij een 99,9% zekerheidsinterval, is 72 pas een significant aantal → Afwijking wordt niet gedetecteerd
- Bij een 99,5% zekerheidsinterval, is 84 pas een significant getal → Afwijking wordt niet gedetecteerd
- Dit getal van 88%, heet het onderscheidend vermogen voor deze situatie.
Dit voorbeeld geformaliseerd
Probleemstelling
De probleemstelling behelst de verdeling en de steekproef:
- 600 Worpen met een dobbelsteen
- Aantal keer dat '6' wordt gegooid, noemen we X
- Stochastische variabele X is B(600,p)-verdeeld, met onbekende parameter p
Hypothesen
- H0: p = 1/6
- H1: p < 1/6
Toetsingsgrootheid
Als toetsingsgrootheid nemen we:
- T = X
Verdeling onder de nulhypothese
- Onder H0 is T binomiaal verdeeld met parameters n=600 en succeskans 1/6
- Omdat n zo groot is, kan deze verdeling beschouwd worden als een normale, met verwachting np=100 en variantie np(1-p)=83,33 en standaardafwijking = sqrt(83,33) = 9,13.
Steekproefuitkomst
Waarde t die de toetsingsgrootheid aanneemt bij de steekproefuitkomst:
- Er wordt 80 keer 6 gegooid. Dus voor X wordt de waarde x=80 gevonden
- Waargenomen waarde t is dus: T=t=80.
Kritieke gebied
We verwerpen de nulhypothese voor kleine waarden van T, zeg voor T ≤ c. De kritieke waarde c volgt uit:
- P(fout type I)=supH0P(verwerp H0) = supH0 P(T =< c) =< alpha0,
waarin \alpha0 de vooraf gekozen onbetrouwbaarheidsdrempel is. Voor bijvoorbeeld \alpha_0=5% wordt dit:
- 0,05 >= supH0 P(T =< c) = P(Z=<(c-100)/9,13)
Waarin Z de zogenaamde Z-score is, de onder de nulhypothese gestandaardiseerde toetsingsgrootheid. Omdat voor grote steekproefomvang T ,en dus ook Z, bij benadering normaal verdeeld is, en \phi(1{,}65) = 0{,}95, volgt
- c=100 - 9,13 x 1,65 = 85,0
Zie ook Overschrijdingskans.
Conclusie
De gevonden waarde t=80 ligt in het kritieke gebied, dus we verwerpen de nulhypothese. Of, alternatief: de overschrijdingskans is 0,014, dus veel kleiner dan de onbetrouwbaarheidsdrempel 0,05; we verwerpen de nulhypothese.