Interval povjerenja za razliku dviju udjela stanovništva

Intervali povjerenja su jedan dio inferencijalna statistika. Osnovna ideja koja stoji iza ove teme je procijeniti vrijednost nepoznate populacije parametar pomoću statističkog uzorka. Ne možemo samo procijeniti vrijednost parametra, već također možemo prilagoditi svoje metode za procjenu razlike između dva povezana parametra. Na primjer, možda bismo željeli pronaći razliku u postotku muškog stanovništva koji bira SAD koji podržava određeni zakon u odnosu na žensko glasačko stanovništvo.

Vidjet ćemo kako napraviti ovu vrstu izračuna konstrukcijom intervala pouzdanosti za razliku od dva udjela populacije. U procesu ćemo istražiti neke teorije koje stoje iza ovog izračuna. Vidjet ćemo neke sličnosti u načinu na koji konstruiramo a interval pouzdanosti za jedan udio stanovništva kao i a interval pouzdanosti za razliku dva stanovništva znači.

Općenitosti

Prije nego što razmotrimo specifičnu formulu koju ćemo koristiti, razmotrimo cjelokupni okvir u koji se uklapa ovakav interval povjerenja. Oblik vrste intervala pouzdanja koji ćemo gledati dan je sljedećom formulom:

instagram viewer

Procijenite +/- marginu pogreške

Mnogi su intervali pouzdanosti ove vrste. Moramo izračunati dva broja. Prva od tih vrijednosti je procjena parametra. Druga vrijednost je margina pogreške. Ova margina pogreške objašnjava činjenicu da mi imamo procjenu. Interval pouzdanosti pruža nam raspon mogućih vrijednosti za naš nepoznati parametar.

Uvjeti

Trebali bismo biti sigurni da su svi uvjeti ispunjeni prije bilo kojeg izračuna. Da bismo pronašli interval pouzdanosti za razliku od dva udjela populacije, moramo osigurati da sljedeće:

Imamo dvije jednostavni slučajni uzorci od velike populacije. Ovdje "velika" znači da je populacija najmanje 20 puta veća od veličine uzorka. Veličine uzorka će biti označene sa n₁ i n₂.
Naši su pojedinci birani neovisno jedan o drugom.
U svakom našem uzorku postoji barem deset uspjeha i deset neuspjeha.

Ako zadnja stavka na popisu nije zadovoljena, moguće je da se zaobilazi. Mi možemo izmijeniti plus četiri intervala pouzdanosti građenje i dobivanje robusni rezultati. Kako napredujemo pretpostavljamo da su svi gore navedeni uvjeti ispunjeni.

Uzorci i udio stanovništva

Sada smo spremni konstruirati interval povjerenja. Započinjemo s procjenom razlike između naših udjela u populaciji. Oba ova udjela stanovništva procjenjuju se uzorkom. Te proporcije uzoraka predstavljaju statistiku koja se pronalazi dijeljenjem broja uspjeha u svakom uzorku, a zatim dijeljenjem s odgovarajućom veličinom uzorka.

Prvi udio stanovništva označen je sa p₁. Ako je broj uspjeha u našem uzorku iz ove populacije k₁, imamo uzorak uzoraka od k₁ / n_1.

Ovu statistiku označujemo p̂₁. Ovaj simbol čitamo kao „str₁-što "jer izgleda kao simbol str₁ sa šeširom na vrhu.

Na sličan način možemo izračunati uzorak udjela iz naše druge populacije. Parametar iz ove populacije je p₂. Ako je broj uspjeha u našem uzorku iz ove populacije k₂, a naš uzorak udjela je p̂₂= k₂ / n_2.

Te dvije statistike postaju prvi dio našeg intervala povjerenja. Procjena za p₁ je p̂₁. Procjena za p₂ je p̂_2.Dakle, procjena razlike p₁ - p₂ je p̂₁- p̂_2.

Uzorkovanje raspodjele razlike uzoraka

Dalje moramo dobiti formulu za granicu pogreške. Da bismo to učinili, prvo ćemo razmotriti raspodjela uzorka od p̂₁. Ovo je binomna distribucija s vjerojatnošću uspjeha p₁ i n₁ ispitivanja. Srednja vrijednost ove distribucije je udio p₁. Standardno odstupanje ove vrste slučajnih varijabli ima varijancu od p₁(1 - p₁)/n₁.

Distribucija uzorkovanja p̂₂slična je onoj p̂₁. Jednostavno promijenite sve indekse od 1 do 2 i imamo binomnu raspodjelu sa sredinom p₂i varijanca od p₂(1 - p₂)/n₂.

Sada nam je potrebno nekoliko rezultata iz matematičke statistike da bismo odredili raspodjelu uzorka p̂₁- p̂₂. Sredina ove distribucije je p₁ - p₂. Zbog činjenice da se varijacije zbrajaju, vidimo da je varijanca distribucije uzorkovanja p₁(1 - p₁)/n₁ + p₂(1 - p₂)/n_2.Standardno odstupanje distribucije kvadratni je korijen ove formule.

Moramo napraviti nekoliko prilagodbi. Prvi je da je formula za standardno odstupanje od p̂₁- p̂₂ koristi nepoznate parametre p₁i p₂. Naravno, ako bismo zaista znali te vrijednosti, to uopće ne bi bio zanimljiv statistički problem. Ne bismo trebali procjenjivati razliku između p₁i p_2..Umjesto toga, jednostavno bismo mogli izračunati točnu razliku.

Ovaj se problem može riješiti izračunavanjem standardne pogreške, a ne standardnog odstupanja. Sve što trebamo učiniti je zamijeniti udjele populacije proporcijama uzoraka. Standardne pogreške izračunavaju se iz statistike umjesto parametara. Standardna je pogreška korisna jer učinkovito procjenjuje standardno odstupanje. To to znači za nas da više ne trebamo znati vrijednost parametara p₁ i p₂. .Budući da su poznati udjeli uzoraka, standardni pogrešak dat je kvadratnim korijenom sljedećeg izraza:

p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.

Druga stavka koju trebamo riješiti je određeni oblik naše distribucije uzoraka. Ispada da možemo koristiti normalnu raspodjelu za približavanje uzorkovanja p̂₁- p̂₂. Razlog tome je pomalo tehnički, ali prikazan je u sljedećem odlomku.

Oba p̂₁i p̂₂imaju raspodjelu uzorka koja je binomna. Svaka od ovih binomnih raspodjela može se prilično dobro aproksimirati normalnom raspodjelom. Tako je p̂₁- p̂₂je slučajna varijabla. Nastaje kao linearna kombinacija dviju slučajnih varijabli. Svaki se od njih izračunava normalnom raspodjelom. Stoga je raspodjela uzorka p̂₁- p̂₂također se normalno distribuira.

Formula intervala samopouzdanja

Sada imamo sve što je potrebno za sastavljanje intervala pouzdanosti. Procjena je (p̂₁- p̂₂) i granica pogreške je z * [p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5. Vrijednost zbog koje unosimo z * diktira razina samopouzdanja C. Uobičajeno korištene vrijednosti za z * su 1.645 za 90% povjerenja i 1,96 za 95% povjerenja. Ove vrijednosti za z * označava dio standardne normalne distribucije gdje je točno C postotak raspodjele je između -z * i z *.

Sljedeća formula daje nam interval pouzdanosti za razliku dva udjela populacije:

(p₁- p̂₂) +/- z * [p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5