Interval povjerenja za razliku dviju udjela stanovništva

click fraud protection

Intervali povjerenja su jedan dio inferencijalna statistika. Osnovna ideja koja stoji iza ove teme je procijeniti vrijednost nepoznate populacije parametar pomoću statističkog uzorka. Ne možemo samo procijeniti vrijednost parametra, već također možemo prilagoditi svoje metode za procjenu razlike između dva povezana parametra. Na primjer, možda bismo željeli pronaći razliku u postotku muškog stanovništva koji bira SAD koji podržava određeni zakon u odnosu na žensko glasačko stanovništvo.

Vidjet ćemo kako napraviti ovu vrstu izračuna konstrukcijom intervala pouzdanosti za razliku od dva udjela populacije. U procesu ćemo istražiti neke teorije koje stoje iza ovog izračuna. Vidjet ćemo neke sličnosti u načinu na koji konstruiramo a interval pouzdanosti za jedan udio stanovništva kao i a interval pouzdanosti za razliku dva stanovništva znači.

Općenitosti

Prije nego što razmotrimo specifičnu formulu koju ćemo koristiti, razmotrimo cjelokupni okvir u koji se uklapa ovakav interval povjerenja. Oblik vrste intervala pouzdanja koji ćemo gledati dan je sljedećom formulom:

instagram viewer

Procijenite +/- marginu pogreške

Mnogi su intervali pouzdanosti ove vrste. Moramo izračunati dva broja. Prva od tih vrijednosti je procjena parametra. Druga vrijednost je margina pogreške. Ova margina pogreške objašnjava činjenicu da mi imamo procjenu. Interval pouzdanosti pruža nam raspon mogućih vrijednosti za naš nepoznati parametar.

Uvjeti

Trebali bismo biti sigurni da su svi uvjeti ispunjeni prije bilo kojeg izračuna. Da bismo pronašli interval pouzdanosti za razliku od dva udjela populacije, moramo osigurati da sljedeće:

  • Imamo dvije jednostavni slučajni uzorci od velike populacije. Ovdje "velika" znači da je populacija najmanje 20 puta veća od veličine uzorka. Veličine uzorka će biti označene sa n1 i n2.
  • Naši su pojedinci birani neovisno jedan o drugom.
  • U svakom našem uzorku postoji barem deset uspjeha i deset neuspjeha.

Ako zadnja stavka na popisu nije zadovoljena, moguće je da se zaobilazi. Mi možemo izmijeniti plus četiri intervala pouzdanosti građenje i dobivanje robusni rezultati. Kako napredujemo pretpostavljamo da su svi gore navedeni uvjeti ispunjeni.

Uzorci i udio stanovništva

Sada smo spremni konstruirati interval povjerenja. Započinjemo s procjenom razlike između naših udjela u populaciji. Oba ova udjela stanovništva procjenjuju se uzorkom. Te proporcije uzoraka predstavljaju statistiku koja se pronalazi dijeljenjem broja uspjeha u svakom uzorku, a zatim dijeljenjem s odgovarajućom veličinom uzorka.

Prvi udio stanovništva označen je sa p1. Ako je broj uspjeha u našem uzorku iz ove populacije k1, imamo uzorak uzoraka od k1 / n1.

Ovu statistiku označujemo p̂1. Ovaj simbol čitamo kao „str1-što "jer izgleda kao simbol str1 sa šeširom na vrhu.

Na sličan način možemo izračunati uzorak udjela iz naše druge populacije. Parametar iz ove populacije je p2. Ako je broj uspjeha u našem uzorku iz ove populacije k2, a naš uzorak udjela je p̂2 = k2 / n2.

Te dvije statistike postaju prvi dio našeg intervala povjerenja. Procjena za p1 je p̂1. Procjena za p2 je p̂2. Dakle, procjena razlike p1 - p2 je p̂1 - p̂2.

Uzorkovanje raspodjele razlike uzoraka

Dalje moramo dobiti formulu za granicu pogreške. Da bismo to učinili, prvo ćemo razmotriti raspodjela uzorka od p̂1 . Ovo je binomna distribucija s vjerojatnošću uspjeha p1 i n1 ispitivanja. Srednja vrijednost ove distribucije je udio p1. Standardno odstupanje ove vrste slučajnih varijabli ima varijancu od p1 (1 - p1 )/n1.

Distribucija uzorkovanja p̂2 slična je onoj p̂1 . Jednostavno promijenite sve indekse od 1 do 2 i imamo binomnu raspodjelu sa sredinom p2 i varijanca od p2 (1 - p2 )/n2.

Sada nam je potrebno nekoliko rezultata iz matematičke statistike da bismo odredili raspodjelu uzorka p̂1 - p̂2. Sredina ove distribucije je p1 - p2. Zbog činjenice da se varijacije zbrajaju, vidimo da je varijanca distribucije uzorkovanja p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. Standardno odstupanje distribucije kvadratni je korijen ove formule.

Moramo napraviti nekoliko prilagodbi. Prvi je da je formula za standardno odstupanje od p̂1 - p̂2 koristi nepoznate parametre p1 i p2. Naravno, ako bismo zaista znali te vrijednosti, to uopće ne bi bio zanimljiv statistički problem. Ne bismo trebali procjenjivati ​​razliku između p1 i p2.. Umjesto toga, jednostavno bismo mogli izračunati točnu razliku.

Ovaj se problem može riješiti izračunavanjem standardne pogreške, a ne standardnog odstupanja. Sve što trebamo učiniti je zamijeniti udjele populacije proporcijama uzoraka. Standardne pogreške izračunavaju se iz statistike umjesto parametara. Standardna je pogreška korisna jer učinkovito procjenjuje standardno odstupanje. To to znači za nas da više ne trebamo znati vrijednost parametara p1 i p2. .Budući da su poznati udjeli uzoraka, standardni pogrešak dat je kvadratnim korijenom sljedećeg izraza:

p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.

Druga stavka koju trebamo riješiti je određeni oblik naše distribucije uzoraka. Ispada da možemo koristiti normalnu raspodjelu za približavanje uzorkovanja p̂1 - p̂2. Razlog tome je pomalo tehnički, ali prikazan je u sljedećem odlomku.

Oba p̂1 i p̂2 imaju raspodjelu uzorka koja je binomna. Svaka od ovih binomnih raspodjela može se prilično dobro aproksimirati normalnom raspodjelom. Tako je p̂1 - p̂2 je slučajna varijabla. Nastaje kao linearna kombinacija dviju slučajnih varijabli. Svaki se od njih izračunava normalnom raspodjelom. Stoga je raspodjela uzorka p̂1 - p̂2 također se normalno distribuira.

Formula intervala samopouzdanja

Sada imamo sve što je potrebno za sastavljanje intervala pouzdanosti. Procjena je (p̂1 - p̂2) i granica pogreške je z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Vrijednost zbog koje unosimo z * diktira razina samopouzdanja C. Uobičajeno korištene vrijednosti za z * su 1.645 za 90% povjerenja i 1,96 za 95% povjerenja. Ove vrijednosti za z * označava dio standardne normalne distribucije gdje je točno C postotak raspodjele je između -z * i z *.

Sljedeća formula daje nam interval pouzdanosti za razliku dva udjela populacije:

(p1 - p̂2) +/- z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5

instagram story viewer