Čišćenje podataka za analizu podataka u sociologiji

Čišćenje podataka važan je dio analize podataka, posebno kada se prikupljaju vlastiti kvantitativni podaci. Nakon što prikupite podatke, morate ih unijeti u računalni program poput SAS, SPSS ili Excel. Tijekom ovog postupka, bilo da se radi ručno ili računalni skener, to će se dogoditi pogreške. Bez obzira na to koliko su pažljivo uneseni podaci, pogreške su neizbježne. To može značiti pogrešno kodiranje, pogrešno čitanje napisanih kodova, pogrešno prepoznavanje pocrnjelih tragova, nedostajuće podatke i tako dalje. Čišćenje podataka je postupak otkrivanja i ispravljanja ovih pogrešaka kodiranja.

Postoje dvije vrste čišćenja podataka koje je potrebno obaviti na skupovima podataka. Moguće je čišćenje kodom i slučajno čišćenje. Oboje je ključno za proces analize podataka, jer ako ih zanemarite, gotovo uvijek ćete proizvesti pogrešne nalaze istraživanja.

Čišćenje kodova

Bilo koja varijabla imat će određeni skup izbora i koda odgovora koji će odgovarati svakom izboru odgovora. Na primjer, varijabla

instagram viewer

rod imat će tri izbora i koda odgovora za svakog: 1 za muškog, 2 za ženskog i 0 bez odgovora. Ako je za ovu varijablu anketirani kod naveden kao 6, jasno je da je napravljena pogreška jer to nije mogući kôd odgovora. Čišćenje mogućeg koda postupak je provjere da se u datoteci podataka pojavljuju samo kodovi dodijeljeni izborima odgovora za svako pitanje (mogući kodovi).

Neki računalni programi i statistički softverski paketi dostupni za unos podataka provjeravaju ove vrste pogrešaka tijekom unošenja podataka. Ovdje korisnik definira moguće kodove za svako pitanje prije unosa podataka. Zatim, ako se unese broj izvan unaprijed definiranih mogućnosti, pojavljuje se poruka o pogrešci. Na primjer, ako je korisnik pokušao unijeti 6 za spol, računalo može pisati i odbiti kod. Ostali računalni programi osmišljeni su za testiranje nelegitimnih kodova u dovršenim datotekama podataka. To jest, ako nisu provjerene tijekom postupka unosa podataka kao što je upravo opisano, postoje načini za provjeru datoteka za pogreške u kodiranju nakon što je unos podataka dovršen.

Ako ne upotrebljavate računalni program koji provjerava postoje li pogreške kodiranja tijekom postupka unosa podataka, možete pronaći neke pogreške jednostavnim ispitivanjem raspodjele odgovora na svaku stavku u podacima set. Na primjer, možete generirati tablicu frekvencije za varijablu rod i ovdje biste vidjeli broj 6 koji je pogrešno upisan. Tada možete potražiti taj unos u datoteci s podacima i ispraviti ga.

Čišćenje od nepredviđenih stanja

Druga vrsta podaci čišćenje se zove čišćenje u nepredviđenim situacijama i malo je složenije od čišćenja kodova mogućeg koda. Logička struktura podataka može postaviti ograničenja u odgovorima određenih ispitanika ili na određene varijable. Čišćenje u nepredviđenim situacijama postupak je provjere da takvi podaci zapravo imaju samo oni slučajevi koji bi trebali imati podatke o određenoj varijabli. Na primjer, recimo da imate upitnik u kojem pitate ispitanike koliko su puta bili trudni. Sve bi ispitanice trebale imati odgovor kodiran u podacima. Međutim, mužjaci bi trebali biti prazni ili trebaju imati poseban kôd koji im ne odgovara. Na primjer, ako je neki muškarac u podacima šifriran kao da ima 3 trudnoće, znate da postoji greška i to treba ispraviti.

_Reference

_{Babbie, E. (2001). Praksa društvenih istraživanja: 9. izdanje. Belmont, Kalifornija: Wadsworth Thomson.}