Listwise deletion ofwel: niets doen
Doen alsof er geen missende data zijn. Dat is de meest eenvoudige oplossing. Als je in Excel de formule =GEMIDDELDE(A1:A100000) toepast om het gemiddelde van de variable inkomen te berekenen, is het antwoord -0.1091. Het blijkt dat Excel de missende waarden negeert en het gemiddelde berekent over alle records met een ingevulde waarde. De methode die Excel hier toepast heet listwise deletion. Andere toepassingen zoals SPSS gebruiken deze missing data-methode eveneens als default-instelling.
Listwise deletion heeft drie grote nadelen. Als de missende waarden verschillen van de geobserveerde waarden, zal de uitkomst van een analyse niet juist zijn. Zo zie je dat Excel hier niet het ware gemiddelde van -0.0 als antwoord geeft. Bovendien neemt met gebruik van meerdere variabelen de hoeveelheid gebruikte data snel af. Als ik bijvoorbeeld de correlatie van de variabelen inkomen en leeftijd wil berekenen, dan heb ik slechts 19.969 van de 100.000 records tot mijn beschikking. Dit leidt tot het derde nadeel: er wordt veel geobserveerde data weggegooid die wellicht nog nuttig is.
Single imputation: eenmalige schatting
In plaats van geobserveerde data weg te gooien, kunnen we deze data gebruiken om een schatting van de missende waarden te maken. Deze techniek noemen we imputeren. Single imputation is de methode waarin iedere missende waarde één keer geschat en ingevuld wordt. Hiervoor kunnen verschillende modellen toegepast worden. Ik zal hier ingaan op mean imputation en regression imputation: de meest intuïtieve modellen.
Bij mean imputation worden de lege cellen gevuld met het gemiddelde van de kolom. Alle missende waarden van inkomen worden dus gevuld met het gemiddelde van deze variabele. Bij regression imputation maken we gebruik van de geobserveerde waarden om een goede schatting te maken. We voorspellen de missende waarden voor inkomen aan de hand van bijvoorbeeld de waarden van leeftijd. Het resultaat van de twee methoden is te zien in de plot hieronder.