Neke distribucije podataka, kao što je krivulja zvona ili normalna distribucija, su simetrične. To znači da su desno i lijevo od distribucije savršene zrcalne slike jedna drugoj. Nije svaka distribucija podataka simetrična. Za skupove podataka koji nisu simetrični, kaže se da su asimetrični. Mjera koliko asimetrična raspodjela može biti nazvana skočnost.
Srednja vrijednost, srednja vrijednost i način rada su svi mjere centra skupa podataka. Nakrivljenost podataka može se odrediti kako su te količine povezane jedna s drugom.
Nakrivljeno udesno
Podaci koji su nakrivljeni udesno imaju dugačak rep koji se proteže udesno. Alternativni način govora o skupu podataka koji se naginje na desnu stranu je reći da je on pozitivno iskrivljen. U ovoj situaciji, srednje i najgore srednja obje su veće od načina. Općenito je pravilo da će većina podataka iskrivljenih udesno, srednja vrijednost biti veća od medijane. Ukratko, za skup podataka iskočen udesno:
- Uvijek: znači veće od režima
- Uvijek: medijan veći od režima
- Većinu vremena: znači veće od medijane
Otkotrljana ulijevo
Situacija se obrće kada se bavimo podacima sklonima s lijeve strane. Podaci koji su iskrivljeni s lijeve strane imaju dugačak rep koji se proteže s lijeve strane. Alternativni način govora o skupu podataka nagnutom s lijeve strane je reći da je negativno nakrivljen. U ovoj su situaciji i srednja i srednja vrijednost manje od načina rada. Općenito je pravilo da će većina podataka iskrivljenih lijevo, srednja vrijednost biti manja od medijane. Ukratko, za skup podataka nakrivljen s lijeve strane:
- Uvijek: znači manje od načina
- Uvijek: medijan manji od režima
- Većinu vremena: znači manje od medijane
Mjere škrtosti
Jedno je pogledati dva skupa podataka i utvrditi da je jedan simetričan, a drugi asimetričan. Drugo je pogledati dva skupa asimetričnih podataka i reći kako je jedan iskrivljeniji od drugog. Može se vrlo subjektivno odrediti koji je više nakrivljen jednostavnim gledanjem u grafikon distribucije. Zbog toga postoje načini za numeričko izračunavanje mjere nagiba.
Jedna mjera kososti, nazvana Pearsonovim prvim koeficijentom nakrivljenosti, je oduzimanje srednje vrijednosti od modusa, a zatim dijeljenje te razlike sa standardno odstupanje podataka. Razlog za podjelu razlike je taj što imamo bezdimenzionalnu količinu. Ovo objašnjava zašto podaci nagnuti udesno imaju pozitivnu nakrivljenost. Ako je skup podataka iskrivljen udesno, srednja vrijednost je veća od načina, pa oduzimanje načina rada od prosjeka daje pozitivno broj. Sličan argument objašnjava zašto podaci nagnuti s lijeve strane imaju negativan nagib.
Pearsonov drugi koeficijent nakrivljenosti također se koristi za mjerenje asimetrije skupa podataka. Za ovu količinu oduzmemo modus od medijane, pomnožimo taj broj s tri i zatim podijelimo sa standardnim odstupanjem.
Primjene skritih podataka
Iskrivljeni podaci nastaju sasvim prirodno u raznim situacijama. Prihodi su iskrivljeni udesno jer čak i samo nekoliko pojedinaca koji zarađuju milijune dolara može uvelike utjecati na sredinu, a nema negativnih primanja. Slično tome, podaci koji uključuju vijek trajanja proizvoda, kao što je marka žarulje, nagnuti su s desne strane. Ovdje najmanje što može biti jedan životni vijek je nula, a dugotrajne žarulje daju pozitivnu iskrivljenost podataka.