Statistische toets

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

Voorbeeld gewogen dobbelsteen:

Een dobbelaar vermoedt dat de '6' minder vaak valt dan te verwachten:

  • De kans dat de '6' valt, wordt aangeduid met p
  • H0: p=1/6 - Dobbelsteen is eerlijk
  • H1: p<1/6 - Kans dat de '6' valt, is minder dan 1/6

Toetsing middels 600 steekproeven en verschillende scenario's:

  • Als de '6' 100 keer valt → H0 bevestigd
  • Als de '6' 98 of 99 keer valt → H0 bevestigd
  • Als de '6' slechts 0 of 1 keer valt → H0 verworpen

'6' Valt 80 keer

Nu wordt het interessanter: De '6' valt 80 keer. Wat nu?

  • Bij een eerlijke dobbelsteen, is de kans hierop slechts 1% (kun je zelf uitrekenen, schijnt)
  • Hypothese H0 kan met 99% zekerheid verworpen worden
  • Er is echter een kans van 1% dat H0 ten onrechte verworpen wordt: Fout van de eerste soort
  • Dus de onbetrouwbaarheid van de toetsing is hier 1%

Als max. 0,1% onbetrouwbaarheid wordt vereist?

  • Dan wordt H0 pas verworpen als de '6' 72 keer of minder valt

Als max. 0,5% onbetrouwbaarheid wordt vereist?

  • Dat komt overeen met een zekerheidsinterval van 99,5%
  • Dan wordt H0 verworpen als de '6' 84 keer of minder valt.

Als de '6' in werkelijkheid 1/8 keer valt?

  • Dan zou bij 600 steekproeven, de '6' naar verwachting 88 keer vallen ipv. 100 keer
  • Naarmate de betrouwbaarheid minder belangrijk is, zal dit sneller gedetecteerd worden, maar wél met een grotere onzekerheid
  • Bij een 99% zekerheidsinterval, is 80 al significant → Afwijking wordt gedetecteerd
  • Bij een 99,9% zekerheidsinterval, is 72 pas een significant aantal → Afwijking wordt niet gedetecteerd
  • Bij een 99,5% zekerheidsinterval, is 84 pas een significant getal → Afwijking wordt niet gedetecteerd
  • Dit getal van 88%, heet het onderscheidend vermogen voor deze situatie.

Dit voorbeeld geformaliseerd

Probleemstelling

De probleemstelling behelst de verdeling en de steekproef:

  • 600 Worpen met een dobbelsteen
  • Aantal keer dat '6' wordt gegooid, noemen we X
  • Stochastische variabele X is B(600,p)-verdeeld, met onbekende parameter p

Hypothesen

H0: p = 1/6
H1: p < 1/6

Toetsingsgrootheid

Als toetsingsgrootheid nemen we:

T = X

Verdeling onder de nulhypothese

  • Onder H0 is T binomiaal verdeeld met parameters n=600 en succeskans 1/6
  • Omdat n zo groot is, kan deze verdeling beschouwd worden als een normale, met verwachting np=100 en variantie np(1-p)=83,33 en standaardafwijking = sqrt(83,33) = 9,13.

Steekproefuitkomst

Waarde t die de toetsingsgrootheid aanneemt bij de steekproefuitkomst:

  • Er wordt 80 keer 6 gegooid. Dus voor X wordt de waarde x=80 gevonden
  • Waargenomen waarde t is dus: T=t=80.

Kritieke gebied

We verwerpen de nulhypothese voor kleine waarden van T, zeg voor T ≤ c. De kritieke waarde c volgt uit:

P(fout type I)=supH0P(verwerp H0) = supH0 P(T =< c) =< alpha0,

waarin \alpha0 de vooraf gekozen onbetrouwbaarheidsdrempel is. Voor bijvoorbeeld \alpha_0=5% wordt dit:

0,05 >= supH0 P(T =< c) = P(Z=<(c-100)/9,13)

Waarin Z de zogenaamde Z-score is, de onder de nulhypothese gestandaardiseerde toetsingsgrootheid. Omdat voor grote steekproefomvang T ,en dus ook Z, bij benadering normaal verdeeld is, en \phi(1{,}65) = 0{,}95, volgt

c=100 - 9,13 x 1,65 = 85,0

Zie ook Overschrijdingskans.

Conclusie

De gevonden waarde t=80 ligt in het kritieke gebied, dus we verwerpen de nulhypothese. Of, alternatief: de overschrijdingskans is 0,014, dus veel kleiner dan de onbetrouwbaarheidsdrempel 0,05; we verwerpen de nulhypothese.