Čo je štatistika Chi-Square?
Štvorcový štvorec ( χ 2) štatistika je test, ktorý meria porovnávanie očakávaní so skutočnými pozorovanými údajmi (alebo výsledkami modelu). Údaje použité pri výpočte chí-kvadrátovej štatistiky musia byť náhodné, nespracované, vzájomne sa vylučujúce, musia byť získané z nezávislých premenných a musia byť získané z dostatočne veľkej vzorky. Napríklad výsledky vyhodenia mincí 100-krát spĺňajú tieto kritériá.
Chi-štvorcové testy sa často používajú pri testovaní hypotéz.
Vzorec pre Chi-Square je
χc2 = ∑ (Oi − Ei) 2Kde: c = stupne voľnostiO = pozorovaná hodnota (y) E = očakávaná hodnota (- y) begin {zarovnané} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {kde:} \ & c = \ text {stupne slobody} \ & O = \ text {pozorované hodnoty)} \ & E = \ text {očakávané hodnoty } \ \ end {zarovnané} χc2 = ∑Ei (Oi −Ei) 2, kde: c = stupne voľnostiO = pozorovaná hodnota (hodnoty) E = očakávaná hodnota (hodnoty)
Čo vám hovorí štatistika Chi-Square?
Existujú dva hlavné druhy testov chí-kvadrát: test nezávislosti, ktorý kladie otázku vzťahu, napríklad: „Existuje vzťah medzi skóre pohlaví a skóre SAT?“; a test dobrej zhody, ktorý sa pýta niečo ako „Ak je minca hodená 100-krát, príde to 50-krát za hlavu a 50-krát za chvosty?“
Pri týchto testoch sa používajú stupne voľnosti na určenie, či určitá nulová hypotéza môže byť odmietnutá na základe celkového počtu premenných a vzoriek v experimente.
Napríklad pri zvažovaní výberu študentov a kurzov nie je veľkosť vzorky 30 alebo 40 študentov dosť veľká na to, aby vygenerovala významné údaje. Získanie rovnakých alebo podobných výsledkov zo štúdie pomocou vzorky s veľkosťou 400 alebo 500 študentov je platnejšie.
V ďalšom príklade zvážte hodenie mince 100-krát. Očakávaný výsledok vyhodenia spravodlivej mince 100-krát je to, že hlavy prídu 50-krát a chvosty 50-krát. Skutočným výsledkom môže byť, že hlavy sa objavia 45-krát a chvosty 55-krát. Štatistika štvorca ukazuje akékoľvek nezrovnalosti medzi očakávanými výsledkami a skutočnými výsledkami.
Príklad testu chí kvadrát
Predstavte si, že náhodný prieskum sa uskutočnil u 2 000 rôznych voličov, mužov aj žien. Ľudia, ktorí odpovedali, boli klasifikovaní podľa pohlavia a podľa toho, či boli republikáni, demokrati alebo nezávislí. Predstavte si mriežku so stĺpcami označenými republikánsky, demokratický a nezávislý a dvoma riadkami označenými muž a žena. Predpokladajme, že údaje od 2 000 respondentov sú tieto:
Prvým krokom na výpočet štatistiky druhej mocniny je nájsť očakávané frekvencie. Vypočítajú sa pre každú „bunku“ v mriežke. Keďže existujú dve kategórie pohlavia a tri kategórie politického pohľadu, očakáva sa celkovo šesť frekvencií. Vzorec pre očakávanú frekvenciu je:
E (r, c) = n (r) × c (r) niekde: r = riadok v otázkec = stĺpec v otázke = zodpovedajúci súčet \ začiatok {zarovnaný} a E (r, c) = \ zlomok {n (r) časy c (r)} {n} \ & \ textbf {kde:} \ & r = \ text {sporný riadok} \ & c = \ text {sporný stĺpec} \ & n = \ text {zodpovedajúci celkom} \ \ end {zarovnané} E (r, c) = nn (r) × c (r) kde: r = riadok v otázkec = stĺpec v otázke = zodpovedajúci súčet
V tomto príklade sú očakávané frekvencie:
- E (1, 1) = (900 x 800) / 2 000 = 360 ° (1, 2) = (900 x 800) / 2 000 = 360 ° (1, 3) = (200 x 800) / 2 000 = 80 ° (2, 1)) = (900 x 1 200) / 2 000 = 540 E (2, 2) = (900 x 1 200) / 2 000 = 540 E (2, 3) = (200 x 1 200) / 2 000 = 120
Ďalej sa použijú tieto hodnoty na výpočet štatistiky chí kvadrát pomocou nasledujúceho vzorca:
Chi-kvadrát = ∑2E (r, c) kde: O (r, c) = pozorované údaje pre daný riadok a stĺpec \ begin {zarovnané} a \ text {Chi-kvadrát} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {kde:} \ & O (r, c) = \ text {pozorované údaje pre daný riadok a stĺpec} \ \ end {zarovnané} Chi-kvadrát = = ∑E (r, c) 2 kde: O (r, c) = pozorované údaje pre daný riadok a stĺpec
V tomto príklade je výraz pre každú pozorovanú hodnotu:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10 (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 (2, 2) = (600 - 540) 2/540 = 6, 67 (2, 3) = (100 - 120) 2/120 = 3, 33
Štatistika chí-kvadrát sa potom rovná súčtu týchto hodnôt alebo 32, 41. Potom sa môžeme pozrieť na štatistickú tabuľku chí-kvadrát, aby sme zistili, či je výsledok štatisticky významný alebo nie, vzhľadom na stupeň slobody v našej zostave.
![Chi Chi](https://img.icotokenfund.com/img/entrepreneurs/386/chi-square-statistic-definition.jpg)