Razbacivanje je vrsta grafikona koja se koristi za predstavljanje upareni podaci. Objašnjavajuća varijabla je prikazana duž vodoravne osi, a varijabla odgovora je gravirana duž vertikalne osi. Jedan od razloga za korištenje ove vrste grafikona je traženje odnosa između varijabli.
Najosnovniji uzorak koji treba tražiti u skupu uparenih podataka jest ravna linija. Kroz bilo koje dvije točke možemo povući ravnu crtu. Ako u našem rasipavanju postoje više od dvije točke, većinu vremena više nećemo moći povući crtu koja prolazi kroz svaku točku. Umjesto toga, nacrtat ćemo liniju koja prolazi usred točaka i prikazati će ukupni linearni trend podataka.
Dok gledamo točke na našem grafikonu i želimo povući crtu kroz te točke, postavlja se pitanje. Koju crtu trebamo nacrtati? Postoji beskonačan broj linija koje bi se mogle nacrtati. Upotrebom samo naših očiju, jasno je da bi svaka osoba koja gleda raketu mogla proizvesti malo drugačiju liniju. Ova nejasnoća je problem. Želimo da svi imaju dobro definiran način da svi dobiju istu liniju. Cilj je matematički precizan opis koje linije treba crtati. Najmanje kvadrata
regresijska linija je jedna takva linija kroz naše podatkovne točke.Najmanje kvadrata
Naziv linije najmanje kvadrata objašnjava što čini. Započinjemo sa zbirkom točaka s koordinatama danima od (xja, yja). Bilo koja ravna linija proći će između ovih točaka i ići će iznad ili ispod svake od njih. Možemo izračunati udaljenosti od tih točaka do crte odabirom vrijednosti x a zatim oduzimanje opaženog y koordinata koja tome odgovara x od y koordinata naše linije.
Različite linije kroz isti skup točaka dale bi različit skup udaljenosti. Želimo da ove udaljenosti budu što manje, kako bismo ih mogli napraviti. Ali postoji problem. Budući da naše udaljenosti mogu biti ili pozitivne ili negativne, zbroj svih tih udaljenosti poništavat će se međusobno. Zbroj udaljenosti uvijek će biti jednak nuli.
Rješenje ovog problema je eliminirati sve negativne brojeve kvadratom udaljenosti između točaka i crte. To daje zbirku nenegativnih brojeva. Cilj koji smo pronašli najprikladniju crtu je isti kao što je zbroj tih kvadratnih udaljenosti što je moguće manji. Calculus ovdje dolazi u pomoć. Proces diferencijacije u računici omogućuje minimiziranje zbroja udaljenosti s kvadratom od određene crte. To objašnjava izraz "najmanje kvadrata" u našem nazivu za ovaj redak.
Linija najboljeg fitna
Budući da linija najmanje kvadrata minimalizira udaljenosti kvadrata između linije i naših točaka, ovu liniju možemo smatrati onom koja najbolje odgovara našim podacima. Zbog toga je linija najmanje kvadrata poznata i kao linija najboljeg podudaranja. Od svih mogućih crta koje se mogu nacrtati, linija najmanjih kvadrata najbliža je skupu podataka u cjelini. To može značiti da će naša linija propustiti pogoditi bilo koju točku u našem skupu podataka.
Značajke linije najmanje kvadrata
Postoji nekoliko značajki koje posjeduje svaki najmanji kvadratni niz. Prva stavka interesa odnosi se na nagib naše linije. Nagib ima vezu s koeficijent korelacije naših podataka. Zapravo je nagib linije jednak r (s)y/ sx). Ovdje a x označava standardno odstupanje od x koordinate i a y standardno odstupanje od y koordinate naših podataka. Znak koeficijenta korelacije izravno je povezan sa znakom nagiba naše najmanje kvadrata.
Još jedna značajka linije najmanje kvadrata odnosi se na točku kroz koju prolazi. Dok y presijecanje linije najmanje kvadrata sa statističkog stajališta možda nije zanimljivo, postoji jedna točka koja je. Svaka najmanja linija kvadrata prolazi kroz srednju točku podataka. Ova srednja točka ima x koordinata koja je srednja od x vrijednosti i a y koordinata koja je srednja vrijednost y vrijednosti.