Kako izračunati koeficijent korelacije

Treba gledati mnogo pitanja kada gledate rasipanje. Jedno od najčešćih je pitanje koliko dobro ravna linija približava podatke. Da biste odgovorili na to, postoji opisna statistika koja se naziva koeficijent korelacije. Vidjet ćemo kako izračunati ovu statistiku.

Koeficijent korelacije

koeficijent korelacije, označeno sa r, govori nam kako su podaci usko povezani sa scatterplot padati duž ravne linije. Što je bliže apsolutna vrijednost od r je jednaka, bolje je da su podaci opisani linearnom jednadžbom. Ako r = 1 ili r = -1 tada je skup podataka savršeno usklađen. Skupovi podataka s vrijednostima od r blizu nule pokazuju malo prema ravnopravnom odnosu.

Zbog dugotrajnih izračuna, najbolje je izračunati r uz upotrebu kalkulatora ili statističkog softvera. Međutim, uvijek je vrijedno nastojati znati što vaš kalkulator radi prilikom izračuna. Slijedi postupak izračuna koeficijenta korelacije uglavnom ručno, s kalkulatorom koji se koristi za rutinske aritmetičke korake.

Koraci za izračunavanje r

instagram viewer

Započet ćemo popisom koraka za izračun koeficijenta korelacije. Podaci s kojima radimo jesu upareni podaci, čiji će svaki par biti označen sa (xja, yja).

  1. Započinjemo s nekoliko preliminarnih izračuna. Količine iz ovih izračuna koristit će se u narednim koracima našeg izračuna r:
    1. Izračunajte x̄, srednja svih prvih koordinata podataka xja.
    2. Izračunajte ȳ, srednju vrijednost svih drugih koordinata podataka
    3. yja.
    4. Izračunati a x uzorak standardno odstupanje svih prvih koordinata podataka xja.
    5. Izračunati a y standardno odstupanje uzorka svih drugih koordinata podataka yja.
  2. Koristite formulu (zx)ja = (xja - x) / a x i izračunati standardiziranu vrijednost za svakog xja.
  3. Koristite formulu (zy)ja = (yja – ȳ) / a y i izračunati standardiziranu vrijednost za svakog yja.
  4. Pomnožite odgovarajuće standardizirane vrijednosti: (zx)ja(zy)ja
  5. Dodajte proizvode iz posljednjeg koraka.
  6. Podijelite zbroj iz prethodnog koraka sa n - 1, gdje n je ukupni broj bodova u našem skupu uparenih podataka. Rezultat svega toga je koeficijent korelacije r.

Ovaj postupak nije težak i svaki je korak prilično rutinski, ali prikupljanje svih ovih koraka prilično je uključeno. Izračun standardnog odstupanja dovoljno je dosadan sam po sebi. No, izračun koeficijenta korelacije uključuje ne samo dva standardna odstupanja, već i mnoštvo drugih operacija.

Primjer

Da biste vidjeli kako točno vrijednost r dobijemo pogledamo primjer. Opet, važno je napomenuti da bismo za praktične aplikacije htjeli koristiti naš kalkulator ili statistički softver za izračun r za nas.

Započinjemo s popisom uparenih podataka: (1, 1), (2, 3), (4, 5), (5,7). Srednja vrijednost x vrijednosti, srednja vrijednost 1, 2, 4 i 5 je x̄ = 3. Imamo i to da je ȳ = 4. Standardno odstupanje od

x vrijednosti je ax = 1,83 i ay = 2.58. Donja tablica sažima ostale proračune potrebne za r. Zbroj proizvoda u desnom desnom stupcu je 2.969848. Budući da postoje ukupno četiri točke i 4 - 1 = 3, zbroj proizvoda dijelimo s 3. To nam daje koeficijent korelacije od r = 2.969848/3 = 0.989949.

Tablica za primjer izračuna koeficijenta korelacije

x y zx zy zxzy
1 1 -1.09544503 -1.161894958 1.272792057
2 3 -0.547722515 -0.387298319 0.212132009
4 5 0.547722515 0.387298319 0.212132009
5 7 1.09544503 1.161894958 1.272792057