Ponekad brojčani podaci dolaze u parovima. Možda a paleontolog mjeri duljinu femura (kosti nogu) i humerusa (kosti ruke) u pet fosila iste vrste dinosaura. Možda bi imalo smisla razmatrati duljine ruku odvojeno od duljina nogu i izračunati stvari poput srednje vrijednosti ili standardnog odstupanja. Ali što ako je istraživaču znatiželjno znati postoji li veza između ta dva mjerenja? Nije dovoljno samo pogledati ruke odvojene od nogu. Umjesto toga, paleontolog bi trebao pariti duljine kostiju za svaki kostur i upotrijebiti područje od statistika poznata kao korelacija.
Što je povezanost? Pretpostavimo u gornjem primjeru da je istraživač proučavao podatke i došao do ne baš iznenađujućeg rezultat je da su fosili dinosaura s dužim rukama također imali duge noge, a fosili s kraćim rukama kraće noge. Rašireni niz podataka pokazao je da su sve podatkovne točke grupirane u blizini ravne linije. Zatim bi istraživač rekao da postoji jaka ravna linija, ili poveznica, između duljine kostiju ruku i kostiju nogu fosila. Potrebno je još malo rada da se kaže koliko je jaka povezanost.
Korelacija i rasipanje metala
Budući da svaka podatkovna točka predstavlja dva broja, dvodimenzionalni rasipnik je od velike pomoći u vizualizaciji podataka. Pretpostavimo da zapravo imamo podatke o podacima dinosaura, a pet fosila ima sljedeća mjerenja:
- Femur 50 cm, humerus 41 cm
- Femur 57 cm, humerus 61 cm
- Femur 61 cm, humerus 71 cm
- Femur 66 cm, humerus 70 cm
- Femur 75 cm, humerus 82 cm
Raspodjela podataka, s mjerenjem femura u vodoravnom smjeru i mjerenja potkoljenice u vertikalnom smjeru, rezultira gornjim grafom. Svaka točka predstavlja mjerenja jednog od kostura. Na primjer, točka u donjem lijevom dijelu odgovara kosturu br. 1. Točka u gornjem desnom uglu je kostur br. 5.
Izgleda da bi mogli povući ravnu crtu koja bi bila vrlo blizu svim točkama. Ali kako možemo sa sigurnošću reći? Bliskost je u oku promatrača. Kako znamo da se naše definicije "bliskosti" podudaraju s nekim drugim? Postoji li neki način da ovu blizinu možemo kvantificirati?
Koeficijent korelacije
Kako bi se objektivno izmjerilo koliko su podaci blizu ravnoj liniji, koeficijent korelacije dolazi u obzir. koeficijent korelacije, uobičajeno označeno r, pravi je broj između -1 i 1. Vrijednost r mjeri snagu korelacije na temelju formule, eliminirajući svaki subjektivitet u procesu. Nekoliko je smjernica koje morate imati na umu pri tumačenju vrijednosti r.
- Ako r = 0, tada su točke potpuni zbroj s apsolutno nikakvim ravnim odnosom podataka.
- Ako r = -1 ili r = 1, tada se sve podatkovne točke savršeno slažu u liniji.
- Ako r je vrijednost drugačija od tih krajnosti, a rezultat je manje nego savršeno postavljanje ravna pravca. U skupinama podataka u stvarnom svijetu to je najčešći rezultat.
- Ako r je pozitivno, tada linija ide uz znak a pozitivni nagib. Ako r je negativan, onda linija ide prema dolje s negativnim nagibom.
Proračun koeficijenta korelacije
Formula za koeficijent korelacije r je komplicirano, kao što se ovdje može vidjeti. Sastojci formule su sredstva i standardna odstupanja oba skupa brojčanih podataka, kao i broj podataka. Za većinu praktičnih primjena r zamorno je računati ručno. Ako su naši podaci uneseni u program za obračun ili proračunsku tablicu statističke naredbe, tada obično postoji ugrađena funkcija za izračunavanje r.
Ograničenja korelacije
Iako je korelacija moćan alat, postoje neka ograničenja u korištenju:
- Korelacija nam ne govori u potpunosti sve o podacima. Sredstva i standardna odstupanja i dalje su važni.
- Podaci se mogu opisati krivuljom složenijom od ravne linije, ali to se neće pokazati pri izračunavanju r.
- Odmornici snažno utječu na koeficijent korelacije. Ako u našim podacima vidimo bilo kakve odmetnike, trebali bismo biti oprezni što zaključke izvlačimo iz vrijednosti r.
- Samo zato što su povezane dvije grupe podataka, to ne znači da je jedan uzrok drugog.