Statistische toets

Uit De Vliegende Brigade
(wijz) ← Oudere versie | Huidige versie (wijz) | Nieuwere versie → (wijz)
Naar navigatie springen Naar zoeken springen

Voorbeeld gewogen dobbelsteen:

Een dobbelaar vermoedt dat de '6' minder vaak valt dan te verwachten:

  • De kans dat de '6' valt, wordt aangeduid met p
  • H0: p=1/6 - Dobbelsteen is eerlijk
  • H1: p<1/6 - Kans dat de '6' valt, is minder dan 1/6

Toetsing middels 600 steekproeven en verschillende scenario's:

  • Als de '6' 100 keer valt → H0 bevestigd
  • Als de '6' 98 of 99 keer valt → H0 bevestigd
  • Als de '6' slechts 0 of 1 keer valt → H0 verworpen

'6' Valt 80 keer

Nu wordt het interessanter: De '6' valt 80 keer. Wat nu?

  • Bij een eerlijke dobbelsteen, is de kans hierop slechts 1% (kun je zelf uitrekenen, schijnt)
  • Hypothese H0 kan met 99% zekerheid verworpen worden
  • Er is echter een kans van 1% dat H0 ten onrechte verworpen wordt: Fout van de eerste soort
  • Dus de onbetrouwbaarheid van de toetsing is hier 1%

Als max. 0,1% onbetrouwbaarheid wordt vereist?

  • Dan wordt H0 pas verworpen als de '6' 72 keer of minder valt

Als max. 0,5% onbetrouwbaarheid wordt vereist?

  • Dat komt overeen met een zekerheidsinterval van 99,5%
  • Dan wordt H0 verworpen als de '6' 84 keer of minder valt.

Als de '6' in werkelijkheid 1/8 keer valt?

  • Dan zou bij 600 steekproeven, de '6' naar verwachting 88 keer vallen ipv. 100 keer
  • Naarmate de betrouwbaarheid minder belangrijk is, zal dit sneller gedetecteerd worden, maar wél met een grotere onzekerheid
  • Bij een 99% zekerheidsinterval, is 80 al significant → Afwijking wordt gedetecteerd
  • Bij een 99,9% zekerheidsinterval, is 72 pas een significant aantal → Afwijking wordt niet gedetecteerd
  • Bij een 99,5% zekerheidsinterval, is 84 pas een significant getal → Afwijking wordt niet gedetecteerd
  • Dit getal van 88%, heet het onderscheidend vermogen voor deze situatie.

Dit voorbeeld geformaliseerd

Probleemstelling

De probleemstelling behelst de verdeling en de steekproef:

  • 600 Worpen met een dobbelsteen
  • Aantal keer dat '6' wordt gegooid, noemen we X
  • Stochastische variabele X is B(600,p)-verdeeld, met onbekende parameter p

Hypothesen

H0: p = 1/6
H1: p < 1/6

Toetsingsgrootheid

Als toetsingsgrootheid nemen we:

T = X

Verdeling onder de nulhypothese

  • Onder H0 is T binomiaal verdeeld met parameters n=600 en succeskans 1/6
  • Omdat n zo groot is, kan deze verdeling beschouwd worden als een normale, met verwachting np=100 en variantie np(1-p)=83,33 en standaardafwijking = sqrt(83,33) = 9,13.

Steekproefuitkomst

Waarde t die de toetsingsgrootheid aanneemt bij de steekproefuitkomst:

  • Er wordt 80 keer 6 gegooid. Dus voor X wordt de waarde x=80 gevonden
  • Waargenomen waarde t is dus: T=t=80.

Kritieke gebied

We verwerpen de nulhypothese voor kleine waarden van T, zeg voor T ≤ c. De kritieke waarde c volgt uit:

P(fout type I)=supH0P(verwerp H0) = supH0 P(T =< c) =< alpha0,

waarin \alpha0 de vooraf gekozen onbetrouwbaarheidsdrempel is. Voor bijvoorbeeld \alpha_0=5% wordt dit:

0,05 >= supH0 P(T =< c) = P(Z=<(c-100)/9,13)

Waarin Z de zogenaamde Z-score is, de onder de nulhypothese gestandaardiseerde toetsingsgrootheid. Omdat voor grote steekproefomvang T ,en dus ook Z, bij benadering normaal verdeeld is, en \phi(1{,}65) = 0{,}95, volgt

c=100 - 9,13 x 1,65 = 85,0

Zie ook Overschrijdingskans.

Conclusie

De gevonden waarde t=80 ligt in het kritieke gebied, dus we verwerpen de nulhypothese. Of, alternatief: de overschrijdingskans is 0,014, dus veel kleiner dan de onbetrouwbaarheidsdrempel 0,05; we verwerpen de nulhypothese.