hi-kvadrat test dobrote fit korisno je usporediti a teorijski model prema promatranim podacima. Ovaj test je vrsta općenitijeg testa hihi kvadrat. Kao i kod bilo koje teme iz matematike ili statistike, može biti korisno raditi na primjeru kako bi se razumjelo što se događa, na primjeru testa za primjerenost hi-kvadrat-a.
Razmislite o standardnom paketu mliječne čokolade M & Ms. Postoji šest različitih boja: crvena, narančasta, žuta, zelena, plava i smeđa. Pretpostavimo da smo znatiželjni o distribuciji tih boja i pitamo, da li se svih šest boja pojavljuju u jednakom omjeru? Ovo je vrsta pitanja na koju se može odgovoriti testom dobrog fitanja.
postavljanje
Započinjemo s primjećivanjem postavke i zašto je test dobroće fitnesa prikladan. Naša varijabla boja je kategorična. Postoji šest razina ove varijable, što odgovara šest boja koje su moguće. Pretpostavit ćemo da će M&M koje računamo biti jednostavan slučajni uzorak iz populacije svih M&S.
Nulta i alternativna hipoteza
nulta i alternativna hipoteza
za našu dobrobit test kondicije odražava pretpostavku koju dajemo o populaciji. Budući da testiramo da li se boje javljaju u jednakim omjerima, naša će nulta hipoteza biti da se sve boje pojavljuju u istom omjeru. Formalnije, ako p1 je udio stanovništva u crvenim bombonama, p2 je udio populacije narančastih bombona i slično, tada je nulta hipoteza p1 = p2 =... = p6 = 1/6.Alternativna hipoteza je da barem jedan udio populacije nije jednak 1/6.
Stvarni i očekivani brojevi
Stvarni brojevi su broj bombona za svaku od šest boja. Očekivani broj odnosi se na ono što bismo očekivali da je nulta hipoteza bila istinita. Mi ćemo dopustiti n biti veličina našeg uzorka. Očekivani broj crvenih bombona je p1 n ili n/6. Zapravo je za ovaj primjer očekivani broj bombona za svaku od šest boja jednostavno n puta pja, ili n/6.
Chi-kvadrat statistika za dobrobit fit
Sada ćemo izračunati hi-kvadratnu statistiku za konkretan primjer. Pretpostavimo da imamo jednostavan slučajni uzorak od 600 M&M bombona sa sljedećom raspodjelom:
- 212 bombona je plave boje.
- 147 bombona je narančasto.
- 103 od bombona su zelene boje.
- 50 bombona je crvenih.
- 46 od bombona je žuto.
- 42 od bombona su smeđe boje.
Ako je nulta hipoteza bila istinita, tada bi očekivani broj za svaku od tih boja bio (1/6) x 600 = 100. Sada to koristimo u našem izračunu statistike hi-kvadrat.
Doprinos našoj statistici izračunavamo iz svake boje. Svaki je od oblika (Stvarno - očekivano)2/Expected.:
- Za plavu imamo (212 - 100)2/100 = 125.44
- Za narančastu imamo (147 - 100)2/100 = 22.09
- Za zeleno imamo (103 - 100)2/100 = 0.09
- Za crvenu imamo (50 - 100)2/100 = 25
- Za žuto imamo (46 - 100)2/100 = 29.16
- Za smeđu imamo (42 - 100)2/100 = 33.64
Zatim zbrojimo sve ove priloge i utvrdimo da je naša statistika hi-kvadrata 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.
Stupnjevi slobode
Broj stupnjevi slobode za dobar test kondicije jednostavno je jedan manji od broja razina naše varijable. Budući da je bilo šest boja, imamo 6 - 1 = 5 stupnjeva slobode.
Chi-kvadratna tablica i P-vrijednost
Statistika hi-kvadrata od 235,42 koju smo izračunali odgovara određenoj lokaciji u hi-kvadrat distribuciji s pet stupnjeva slobode. Sad nam treba p-vrijednost, za utvrđivanje vjerojatnosti dobivanja testne statistike barem toliko ekstremno kao 235.42, uz pretpostavku da je nulta hipoteza istinita.
Microsoftov Excel može se koristiti za izračun. Otkrivamo kako naša testna statistika s pet stupnjeva slobode ima p-vrijednost 7,29 x 10-49. Ovo je izuzetno mala p-vrijednost.
Pravilo odluke
Mi odlučujemo hoćemo li odbaciti nultu hipotezu na temelju veličine p-vrijednosti. Budući da imamo vrlo sitnu p-vrijednost, odbacujemo nultu hipotezu. Zaključujemo da M&M nisu ravnomjerno raspoređeni među šest različitih boja. Daljnja analiza može se upotrijebiti za utvrđivanje intervala pouzdanosti za udio stanovništva u jednoj boji.