Onzekerheid en precisie
Statistiek is de kunst van het hanteren van on
zekerheden. Wie beweert dat je met statistiek
iets kunt bewijzen, weet niet waar hij het
over heeft. Hoogstens kun je iets aannemelijk
maken.
Onderzoekers en statistici zijn zich er zeer
van bewust dat een steekproef niet voor niets
zo heet. Het is maar een klein beetje van dat
gene waarover je wat zinnigs wilt kunnen
melden. Er is altijd de kans datje misgrijpt met
een steekproef. Om dit duidelijk te maken,
volgt eerst een kleine excursie naar de begrip
pen nulhypothese en alternatieve hypothese.
Plattegrond van Zutphen in 1901.
(scan: Regionaal Archief Zutphen)
woont, er toch mensen zijn die ergens vier
jaar wonen en ook mensen die 25 jaar in het
zelfde huis blijven zitten. Bij een ongelukkig
uitgevallen steekproef is er de kans dat je ten
onrechte besluit dat de nulhypothese onjuist
is. Dat heet een fout van de eerste soort. Die
wil men klein hebben, maar uit te sluiten is
hij nooit. Het is gebruikelijk die op 5% te
stellen; de term significant hoort hierbij. Als
iets nauw luistert, bijvoorbeeld bij toelaten
van medicijnen, accepteert men 1%; dat heet
zeer significant. Maar er bestaat ook de kans
dat de nulhypothese ten onrechte wordt ge
accepteerd. Dat heet een fout van de tweede
soort. Er is een verband tussen steekproef-
grootte, kans op een fout van de eerste soort
en kans op een fout van de tweede soort. Als
twee van deze vast staan, staat daarmee de
derde vast. Meestal stelt men alleen de steek-
proefgrootte en de kans op een fout van de
eerste soort vast!
Het onderhavige onderzoek is een geval van
sequentiële analyse. Hier zijn de kansen van
beide soorten fouten gesteld op 5%; zo ont
zettend belangrijk is dit onderzoek niet.
Nulhypothese
Een nulhypothese is een zo precies mogelijk
geformuleerde veronderstelling, liefst in de
gedaante van een getal. Bijvoorbeeld: woon-
duur 13. Of wat omslachtiger: de Zutphe-
naar woonde gemiddeld 13 jaar op één
adres. Het gaat er dan om die nulhypothese
te accepteren of te verwerpen. Voor het ver
werpen is die alternatieve hypothese nodig.
Die dwingt de onderzoeker precies onder
woorden te brengen wat hij weten wil. Dat
was ook hier het geval. In de inleiding staat
de vraag: hoe lang blijft iemand op één adres
wonen? Dat is een open vraag; die leent zich
niet voor een nulhypothese. Dan is ook niet
vast te stellen wanneer, bij hoeveel waarne
mingen, je tevreden kunt zijn.
Eigenlijk was de vraag: woonde men wel lan
ger dan tien jaar op één adres? Zo nee, dan
moest het interval van tien jaar tussen twee
adresboeken verkleind worden. Nu gaat het
erom redelijke cijfers te postuleren, laten we
zeggen drie jaar boven en onder de tien jaar.
Dus werd de nulhypothese: men woont der
tien jaar op één adres. En de alternatieve hy
pothese: zeven jaar. Nu heb je tenminste ge
tallen. Maar dit is nog niet alles.
Sequentiële analyse
Er bestaat een statistische test voor gemiddel
den uit een normale verdeling (Dixon Mas-
sey, 1957, p. 310). Onder die aanname is het
mogelijk getallenreeksen te produceren waar
een ander getal boven of onder moet komen.
Fouten
Op de klompen is aan te voelen dat zelfs als
men gemiddeld 13.0 iaar od één adres