Data Rengjøring Teorier

feilene kan gjøres under datainnsamlingen og integrering , og analytikere trenger å vite hvordan å identifisere og rette opp disse feilene. Dette kalles data rengjøring , eller data skrubbing. Dette er ikke en eksakt vitenskap , og noen ganger avgjørelsen av hva som skal gjøres er basert på analytikerens dom , men hun vet at ikke bare er det viktig å ha en tilstrekkelig mengde data - det må være av en anerkjent kvalitet , også . Semantikk og formatering

En felles data rengjøring oppgave innebærer å fjerne feil i formateringen . Dette kan være noe så enkelt som feilstavinger gjort under datainnsamlingen eller oppføring , opp til problemer med symbolet som brukes for å skille oppføringene . Tenk deg for eksempel følgende stykke data er inne i et datasett der en apostrof brukes for å skille oppføringene :

Bird Watchers ' Club'42 Beacon Street'Boston
p Dette ville leses som :

Bird WatchersClub42 Beacon StreetBoston

Automatiske søk og programmer blir ofte brukt til å rense data av denne feilen.
Integrasjon

Noen datasett er fine alene, men blir problematisk når de er integrert i et større depot eller et datavarehus . For eksempel kan alder lagres som fødselsdato : en

dd /mm /yymm /dd /åååå

Eller etter rekkevidde : en

20-30, 30-40 , 40-5015-25 , 25-35 , 35-45

i noen tilfeller, som fødselsdato formatering, er det ganske enkelt å identifisere semantiske strukturer og standardisere oppføringer. I tilfeller som de aldersgrupper må imidlertid antakelser . For eksempel, er antall personer i alderen 25-35 gjennomsnittet av personer i alderen 20-30 og 30-40

-rammer

Outliers er ? datapunkter som ligger langt fra resten av dataene . For eksempel en alder på 600 , eller et testresultat flere ganger høyere enn gjennomsnittet . I det første tilfellet , kan du trygt anta at det var en skrivefeil , men i det siste er det ikke så opplagt . Når du ikke vet om en avvikende er en feil eller en legitim datapunkt , er det din dom om å fjerne det eller ikke , tar hensyn til formålet med data .
Manglende data

Du må også bestemme hva du skal gjøre hvis noen data mangler. Først bør mønstre identifiseres ved hjelp av spørringer og statistiske analyser - fordelingen av manglende data avgjør hva du bør gjøre . For eksempel, hvis en spørreundersøkelse har to sider , men bare spørsmålene på første side ble besvart , kan denne informasjonen brukes til å avgrense skjemaene . Hvis manglende data er tilfeldig fordelt og er på samme variabel, er det noen ganger mulig å gjøre estimater basert på det som allerede er kjent .

früher ： Legge Evernote til iCal

Weiter： Analytiske funksjoner av SQLite

Relatert Artike

·	Hvordan legge til NOT NULL verdier til Microsoft SQL Ta…
·	SQL Dato Conflict Sjekk
·	Wdb Protokoller
·	Hvordan bruke Avansert filter /sortering i Access 2007
·	Hvordan lage en utskriftsfletting i MS Access 2007
·	Definer Data Management & Statistical Analysis
·	Hvordan beregne resultatene av en undersøkelse
·	Hvordan oppretter jeg et diagram Rapport om Access 2007…
·	Rapportering for en Open Source Enterprise
·	Hvordan utvikle et B2B Database er å bestille via nett…

Anbefalte artikler

·	Hvordan å plassere en link i en Thesis bunntekst
·	Historien om Microsoft Dynamics
·	Slik konverterer Excel formler til harde tall
·	Hvordan fjerne skadelig programvare med en Scanner
·	Slik fjerner et virus fra datamaskinen i 7 trinn
·	Hvordan lage en ny datamaskin Backup Disk
·	Innstillinger for å eksportere en 7D til DVD Studio Pr…
·	The PUB File Extension og Linux
·	Hvordan opprette en ny presentasjon med Microsoft Power…
·	Slik konfigurerer QoS i Skype