Što je Simpsonov paradoks u statistici?

paradoks je izjava ili pojava koja na površini djeluje kontradiktorno. Paradoksi pomažu u otkrivanju temeljne istine ispod površine onoga što se čini apsurdnim. Na polju statistike, Simpsonov paradoks pokazuje koje su vrste problema rezultat kombiniranja podataka iz nekoliko skupina.

Uz sve podatke trebamo biti oprezni. Odakle potječe? Kako je dobiven? I što se zapravo kaže? Sve su to dobra pitanja koja bismo trebali postaviti kada im predočimo podatke. Vrlo iznenađujući slučaj Simpsonovog paradoksa pokazuje nam da ponekad ono što podaci izgledaju zapravo nije slučaj.

Pregled paradoksa

Pretpostavimo da promatramo nekoliko skupina i uspostavimo vezu ili poveznica za svaku od ovih skupina. Simpsonov paradoks kaže da kada kombiniramo sve grupe zajedno i pogledamo podatke u zbirnom obliku, korelacija koja smo primijetili prije može se preokrenuti. To se najčešće događa zbog prikrivenih varijabli koje nisu uzete u obzir, ali to je ponekad i zbog brojčanih vrijednosti podataka.

Primjer

Da bismo malo više shvatili Simpsonov paradoks, pogledajmo sljedeći primjer. U određenoj bolnici postoje dva kirurga. Kirurg A operira na 100 pacijenata, a 95 ih preživi. Kirurg B operira 80 pacijenata, a 72 ih preživi. Smatramo da je operacija izvedena u ovoj bolnici i da je život kroz operaciju nešto važno. Želimo odabrati bolje od dva kirurga.

instagram viewer

Promatramo podatke i koristimo ih za izračun postotka pacijenata kirurga A koji su preživjeli svoje operacije i uspoređujemo ih s postotkom preživljavanja pacijenata kirurga B.

  • 95 pacijenata od 100 preživjelo je od kirurga A, pa je 95/100 = 95% preživjelo.
  • 72 pacijenta od 80 preživjelo je od kirurga B, pa je 72/80 = 90% njih preživjelo.

Iz ove analize kojeg bi kirurga trebali izabrati za liječenje? Čini se da je kirurg A sigurnija opklada. Ali je li to zaista istina?

Što ako bismo napravili neka daljnja istraživanja tih podataka i ustanovili da je to bolnica prvotno uzela u obzir dvije različite vrste operativnih zahvata, ali potom su skupljali sve podatke, kako bi izvještavali o svakoj od njih kirurzi. Nisu sve operacije jednake, neke su se smatrale hitnim operacijama visokog rizika, dok su druge bile rutinske prirode koje su bile unaprijed zakazane.

Od 100 pacijenata koje je liječio kirurg A, 50 je bilo rizično, od kojih je troje umrlo. Ostalih 50 smatralo se rutinskim, a od toga su dva umrla. To znači da za rutinsku operaciju pacijent liječen od kirurga A ima stopu preživljavanja 48/50 = 96%.

Sada pažljivije promatramo podatke za kirurga B i otkrivamo da je od 80 pacijenata, 40 osoba visokog rizika, od kojih je sedam umrlo. Ostalih 40 bilo je rutinski, a samo je jedan umro. To znači da pacijent ima stopu preživljavanja od 39/40 = 97,5% za rutinsku operaciju s kirurgom B.

Koji se kirurg čini boljim? Ako će vam operacija biti rutinska, tada je kirurg B zapravo bolji kirurg. Ako pogledamo sve operacije koje su kirurzi izveli, A je bolje. To je prilično kontratužno. U ovom slučaju, varljiva varijabla vrste operacije utječe na kombinirane podatke kirurga.

Povijest Simpsonovog paradoksa

Simpsonov paradoks nazvan je po Edwardu Simpsonu koji je prvi opisao taj paradoks u radu iz 1951. "Tumačenje interakcije u tabelama sa nepredviđenim situacijama" iz Časopis Kraljevskog statističkog društva. Pearson i Yule primijetili su sličan paradoks pola stoljeća ranije od Simpsonove, pa se Simpsonov paradoks ponekad naziva i Simpson-Yule efektom.

Paradoks ima puno opsežnih primjena na područjima raznolikim poput sportske statistike i podaci o nezaposlenosti. Svaki put kada se ti podaci prikupe, pazite da se ovaj paradoks pokaže.