feilene kan gjøres under datainnsamlingen og integrering , og analytikere trenger å vite hvordan å identifisere og rette opp disse feilene. Dette kalles data rengjøring , eller data skrubbing. Dette er ikke en eksakt vitenskap , og noen ganger avgjørelsen av hva som skal gjøres er basert på analytikerens dom , men hun vet at ikke bare er det viktig å ha en tilstrekkelig mengde data - det må være av en anerkjent kvalitet , også . Semantikk og formatering
En felles data rengjøring oppgave innebærer å fjerne feil i formateringen . Dette kan være noe så enkelt som feilstavinger gjort under datainnsamlingen eller oppføring , opp til problemer med symbolet som brukes for å skille oppføringene . Tenk deg for eksempel følgende stykke data er inne i et datasett der en apostrof brukes for å skille oppføringene :
Bird Watchers ' Club'42 Beacon Street'Boston
p Dette ville leses som :
Bird WatchersClub42 Beacon StreetBoston
Automatiske søk og programmer blir ofte brukt til å rense data av denne feilen.
Integrasjon
Noen datasett er fine alene, men blir problematisk når de er integrert i et større depot eller et datavarehus . For eksempel kan alder lagres som fødselsdato : en
dd /mm /yymm /dd /åååå
Eller etter rekkevidde : en
20-30, 30-40 , 40-5015-25 , 25-35 , 35-45
i noen tilfeller, som fødselsdato formatering, er det ganske enkelt å identifisere semantiske strukturer og standardisere oppføringer. I tilfeller som de aldersgrupper må imidlertid antakelser . For eksempel, er antall personer i alderen 25-35 gjennomsnittet av personer i alderen 20-30 og 30-40
-rammer
Outliers er ? datapunkter som ligger langt fra resten av dataene . For eksempel en alder på 600 , eller et testresultat flere ganger høyere enn gjennomsnittet . I det første tilfellet , kan du trygt anta at det var en skrivefeil , men i det siste er det ikke så opplagt . Når du ikke vet om en avvikende er en feil eller en legitim datapunkt , er det din dom om å fjerne det eller ikke , tar hensyn til formålet med data .
Manglende data
Du må også bestemme hva du skal gjøre hvis noen data mangler. Først bør mønstre identifiseres ved hjelp av spørringer og statistiske analyser - fordelingen av manglende data avgjør hva du bør gjøre . For eksempel, hvis en spørreundersøkelse har to sider , men bare spørsmålene på første side ble besvart , kan denne informasjonen brukes til å avgrense skjemaene . Hvis manglende data er tilfeldig fordelt og er på samme variabel, er det noen ganger mulig å gjøre estimater basert på det som allerede er kjent .