Klase histograma: informacije i primjeri

Zapravo ne postoji pravilo koliko bi sati trebalo biti. O broju časova treba uzeti u obzir nekoliko stvari. Ako je postojao samo jedan razred, svi bi podaci pali u ovu klasu. Naš bi histogram jednostavno bio jedan pravokutnik čija je visina dana brojem elemenata u našem skupu podataka. Ovo ne bi bilo od velike pomoći ili koristan histogram.

S druge krajnosti, mogli bismo imati mnoštvo predavanja. To bi rezultiralo mnoštvom barova, od kojih niti jedan vjerojatno ne bi bio visok. Bilo bi vrlo teško odrediti bilo kakve karakteristike razlikovanja od podataka koristeći ovu vrstu histograma.

Da bismo se zaštitili od ove dvije krajnosti, moramo imati pravilo za određivanje broja klasa histograma. Kad imamo relativno mali skup podataka, obično koristimo samo oko pet klasa. Ako je skup podataka relativno velik, tada koristimo oko 20 klasa.

Opet, treba naglasiti da je ovo pravilo, a ne apsolutno statističko načelo. Može postojati dobar razlog za različit broj klasa za podatke. Primjer toga ćemo vidjeti u nastavku.

instagram viewer

Prije nego što razmotrimo nekoliko primjera, vidjet ćemo kako odrediti što su klase zapravo. Ovaj postupak započinjemo pronalaženjem opseg naših podataka. Drugim riječima, od najviše vrijednosti podataka oduzimamo najnižu vrijednost podataka.

Kad je skup podataka relativno mali, raspon dijelimo sa pet. Kvocijent je širina klasa za naš histogram. Vjerojatno ćemo u ovom procesu morati zaokružiti, što znači da ukupan broj predavanja ne može završiti na pet.

Kad je skup podataka relativno velik, raspon dijelimo s 20. Baš kao i prije, ovaj problem dijeljenja daje nam širinu klasa za naš histogram. Kao što smo prethodno vidjeli, naše zaokruživanje može rezultirati s nešto više ili nešto manje od 20 klasa.

U bilo kojem od velikih ili malih slučajeva skupa podataka, napravimo prvu klasu u točki nešto manjoj od najmanje vrijednosti podataka. To moramo učiniti na takav način da prva vrijednost podataka padne u prvu klasu. Ostale klase određuju se širinom koja je postavljena kada smo podijelili raspon. Znamo da smo kod posljednje klase kada ta klasa sadrži našu najvišu vrijednost podataka.

Za primjer ćemo odrediti odgovarajuću širinu klase i klase za skup podataka: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Vidimo da u našem skupu postoji 27 podataka. Ovo je relativno mali skup pa ćemo raspon podijeliti s pet. Raspon je 19,2 - 1,1 = 18,1. Podijelimo 18,1 / 5 = 3,62. To znači da bi bila odgovarajuća širina klase od 4. Naša najmanja vrijednost podataka je 1,1, tako da započinjemo prvu klasu u točki manjoj od ove. Budući da se naši podaci sastoje od pozitivnih brojeva, imalo bi smisla prvo klase ići od 0 do 4.

Pretpostavimo da postoji test višestrukog izbora s 35 pitanja o njemu, a 1000 učenika u srednjoj školi polaže test. Želimo formirati histogram koji pokazuje broj učenika koji su postigli određene rezultate na testu. Vidimo da je 35/5 = 7 i da je 35/20 = 1,75. Unatoč našem ponašanju koje daje izbor klase širine 2 ili 7 koji ćemo koristiti za svoj histogram, možda je bolje imati klase širine 1. Ova nastava bi odgovarala svakom pitanju na koje je student pravilno odgovorio na testu. Prvi od njih bio bi u sredini, a posljednji u 35.