Utvrđivanje neisplativih statistika

click fraud protection

Trošari su vrijednosti podataka koje se uvelike razlikuju od većine skupa podataka. Te vrijednosti su izvan ukupnog trenda koji je prisutan u podacima. Pažljiv pregled skupa podataka za potragu za odmetnicima uzrokuje poteškoće. Iako je lako vidjeti, moguće upotrebom stapke, da se neke vrijednosti razlikuju od ostalih podataka, koliko se vrijednost mora smatrati vanjskom? Gledat ćemo specifično mjerenje koje će nam dati objektivni standard onoga što predstavlja izvanjsku vrijednost.

Interkvartilni Raspon

interkvartilni Raspon je ono što možemo koristiti da utvrdimo je li ekstremna vrijednost doista izvanjska. Interkvartilni raspon se temelji na dijelu sažetak od pet brojeva skupa podataka, naime prvi kvartil i treći kvartil. Izračun interkvartilnog raspona uključuje jednu aritmetičku operaciju. Sve što moramo učiniti da bismo pronašli interkvartilni raspon jest oduzeti prvi kvartil od trećeg kvartila. Razlika koja je rezultirala govori nam o raširenosti srednje polovice naših podataka.

instagram viewer

Određivanje odmetnika

Pomnožavanje interkvartilnog raspona (IQR) s 1,5 pružit će nam način da utvrdimo je li određena vrijednost izvan vrijednosti. Ako od prvog kvartila oduzmemo 1,5 x IQR, sve vrijednosti podataka manje od ovog broja smatraju se izdatcima. Slično tome, ako u treći kvartil dodamo 1,5 x IQR, sve vrijednosti podataka veće od ovog broja smatraju se izdatcima.

Snažni odmetnici

Neki odlasci pokazuju izrazito odstupanje od ostatka skupa podataka. U tim slučajevima možemo poduzeti korake odozgo, mijenjajući samo broj na koji množimo IQR i definiramo određenu vrstu vanjske vrijednosti. Ako od prvog kvartila oduzmemo 3,0 x IQR, bilo koja točka koja je ispod ovog broja naziva se jakim outlierom. Na isti način, dodavanje 3,0 x IQR u treći kvartil omogućava nam definiranje snažnih odlazaka gledajući točke koje su veće od ovog broja.

Slabi odmetnici

Uz jake odlaske, postoji još jedna kategorija za autonimente. Ako je vrijednost podataka izvan, ali ne i jaka, onda kažemo da je vrijednost slabiji. Mi ćemo pogledati ove koncepte istražit ćemo nekoliko primjera.

Primjer 1

Prvo, pretpostavimo da imamo skup podataka {1, 2, 2, 3, 3, 4, 5, 5, 9}. Broj 9 sigurno izgleda kao da bi mogao biti izvanjski. Ona je mnogo veća od bilo koje druge vrijednosti od ostatka seta. Da bismo objektivno utvrdili je li 9 izvanzemaljac, koristimo se gornjim metodama. Prvi kvartil je 2, a treći kvartil 5, što znači da je interkvartilni raspon 3. Interkvarni raspon množimo s 1,5, dobivajući 4,5, a zatim dodamo ovaj broj u treći kvartil. Rezultat, 9,5, veći je od bilo koje od naših vrijednosti podataka. Stoga nema odmetnika.

Primjer 2

Sada gledamo isti skup podataka kao i prije, s izuzetkom da je najveća vrijednost 10, a ne 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Prva četvrt, treći kvartil i interkvartilni raspon identični su primjeru 1. Kada u treći kvartil dodamo 1,5 x IQR = 4,5, zbroj je 9,5. Budući da je 10 veći od 9,5, smatra se vanjskim.

Je li 10 jak ili slab? Za to trebamo pogledati 3 x IQR = 9. Kada u treći kvartil dodamo 9, završimo s zbrojem 14. Budući da 10 nije veći od 14, nije jak outlier. Dakle, zaključujemo da je 10 slab odmet.

Razlozi za identificiranje odmetnika

Uvijek trebamo biti na oprezu za odmetnike. Ponekad su uzrokovane pogreškom. Ostali slučajevi odmazde ukazuju na prisutnost nepoznatog fenomena. Još jedan razlog zbog kojeg trebamo biti oprezni u provjeri nepristojnih je zbog svega toga opisne statistike koji su osjetljivi na odmetnike. Sredstvo, standardno odstupanje i koeficijent korelacije za upareni podaci samo su neke od ovih vrsta statistika.

instagram story viewer