Jednog dana na ručku mlada je žena pojela veliku zdjelu sladoleda, a član kolege fakulteta prišao je i rekao joj: „Bolje ti je da budeš oprezan, postoji visoki statističkipoveznica između sladoleda i utapanja. " Sigurno mu je dobacila zbunjen pogled, dok je on još malo elaborirao. "Dani s prodajom sladoleda u kojima se prodaje i većina ljudi se utapa."
Kad je dovršila moj sladoled, dvije su kolege razgovarale o činjenici da samo zato što je jedna varijabla statistički povezana s drugom, to ne znači da je jedna uzrok druge. Ponekad se u pozadini krije varijabla. U ovom se slučaju dan podataka krije u podacima. U vrućim se ljetnim danima prodaje više sladoleda od snježnih zimskih. Ljeti pliva više ljudi, a samim tim i više utopi se ljeti nego zimi.
Pazite na vrebajuće varijable
Gornja anegdota sjajan je primjer onoga što je poznato kao varljiva varijabla. Kao što mu ime govori, varljiva varijabla može biti neuhvatljiva i teško je otkriti. Kad otkrijemo da su dva numerička skupa podataka čvrsto povezana, uvijek bismo trebali pitati: "Može li nešto drugo uzrokovati ovaj odnos?"
Slijede primjeri snažne korelacije uzrokovane varljivom varijablom:
- Prosječni broj računala po osobi u zemlji i prosječni životni vijek te zemlje.
- Broj vatrogasaca na požaru i šteta nastala u požaru.
- Visina učenika osnovne škole i njegova razina čitanja.
U svim tim slučajevima odnos varijabli je vrlo jak. To je obično naznačeno sa koeficijent korelacije koja ima vrijednost blizu 1 ili -1. Nije važno koliko je ovaj koeficijent korelacije blizu 1 ili -1, ova statistika ne može pokazati da je jedna varijabla uzrok druge varijable.
Otkrivanje varljivih varijabli
Po svojoj prirodi, varljive varijable je teško otkriti. Jedna je strategija, ako je dostupna, da se ispita što se događa s podacima tijekom vremena. To može otkriti sezonske trendove, poput primjera sladoleda, koji se zatamnjuju kada se podaci sabiraju. Druga metoda je pogledati outlieri i pokušajte utvrditi po čemu se razlikuju od ostalih podataka. Ponekad to daje nagovještaj onoga što se događa iza kulisa. Najbolji način djelovanja je biti proaktivan; pažljivo propitajte pretpostavke i dizajnerske eksperimente.
Zašto je to važno?
Pretpostavimo da je u početnom scenariju dobronamjerni, ali statistički neinformirani kongresmen predložio da se zabrani sav sladoled kako bi se spriječilo utapanje. Takav bi zakon donio neugodnost velikim slojevima stanovništva, natjerao nekoliko tvrtki na bankrot i eliminirao hiljade radnih mjesta nakon što se industrija sladoleda u zemlji zatvorila. Unatoč najboljim namjerama, ovaj prijedlog zakona ne bi smanjio broj smrtnih osoba utopljenika.
Ako vam se primjer čini malo predaleko, uzmite u obzir sljedeće, što se zapravo i dogodilo. U ranim 1900-ima liječnici su primijetili da neka novorođenčad misteriozno umire u snu od uočenih respiratornih problema. To se nazivalo kolijevka smrti i danas je poznata kao SIDS. Jedna stvar koja je stajala od obdukcija izvršenih onima koji su umrli od SIDS-a bio je prošireni timus, žlijezda smještena u prsima. Zbog povezanosti povećanih timusnih žlijezda kod beba SIDS-a, liječnici su pretpostavili da abnormalno velik timus uzrokuje nepravilno disanje i smrt.
Predloženo rješenje bilo je smanjiti timus jakim zračenjem ili potpuno ukloniti žlijezdu. Ti su postupci imali visoku stopu smrtnosti i doveli su do još većeg broja smrtnih slučajeva. Ono što je tužno je da te operacije nisu morale biti izvedene. Naknadna istraživanja pokazala su da su ti liječnici pogriješili u svojim pretpostavkama i da timus nije odgovoran za SIDS.
Povezanost ne uzrokuje uzročno
Navedeno bi nas trebalo zaustaviti kada mislimo da se statistički dokazi koriste kako bi opravdali stvari poput medicinskih režima, zakonodavstva i obrazovnih prijedloga. Važno je da se dobro radi na tumačenju podataka, pogotovo ako će rezultati koji uključuju korelaciju utjecati na život drugih.
Kad netko izjavi, "Studije pokazuju da je A uzrok B, a neke statistike podupiru", budite spremni za to odgovorite, "povezanost ne podrazumijeva uzročno stanje". Uvijek pazite na ono što se skriva ispod podaci.