Kontingenční tabulka

Z Wikipedie, otevřené encyklopedie

Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. Kategorie jednoho znaku určují řádky kontingenční tabulky a kategorie druhého znaku pak sloupce. V příslušné buňce kontingenční tabulky je pak zařazen počet výskytů společného působení obou znaků. Jednotlivé řádky a sloupce vytváří mezisoučty nesoucí informaci o počtu výskytu jevu příslušnému ke znaku uvedenému v daném řádku či sloupci.

Aby mělo smysl uspořádat dva znaky do podoby kontingenční tabulky, je vhodné, aby mezi oběma znaky existoval vzájemný vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin – tzv. skupinové třídění).

Obsah

[editovat] Typ kontingenční tabulky

Typ kontingenční tabulky zaznamenáváme v podobě velikosti tabulky v řádkovém a sloupcovém rozměru jako r \times s. Kontingenční tabulka typu 2\times 2 se nazývá čtyřpolní tabulka a slouží ke srovnání dvou dichotomických znaků.

Příkladem kontingenční tabulky typu 2×2 může být následující smyšlený průzkum zastoupení leváků a praváků mezi ženami a muži.

praváci leváci celkem
muži 43 9 52
ženy 44 4 48
celkem 87 13 100

[editovat] Užití kontingenční tabulky

Kontingenční tabulky umožňují testování různých statistických hypotéz, mezi nejobvyklejší testované hypotézy pak patří

  • hypotéza o nezávislosti znaků,
  • hypotéza o shodnosti struktury a
  • hypotéza o symetrii vztahu.


[editovat] Statistické míry a testování

Pro použití testů, založených na chí- kvadrátu ( test nezávislosti, homogenity .) je třeba aby se v tabulce vyskylo méně jak 20% poliček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci- sloučení některých měně obsazených kategorií (např. "ano" a "spíše ano"). Tímto testem posuzujeme celou tabulku. Staistika chí nevypovídá nic o síle vztahu - pouze zamítá/ nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině spolehlivosti alfa. Pro zjištění síly vztahu používáme upravené koeficienty, případně testování založené na podílu šancí, event. u ordinálních veličin na pořadí.
Odlišně testujeme nominální a ordinální veličiny. Míry asociace nominálních veličin

  • Poměr šancí - anglicky odds ratio; OR = \frac {ad}{bc}
výsledek pokusu 1.populace 2.populace celkem
zdar a b a + b
nezdar c d c + d
celkem a + c b + d n

Poměr počtu zdarů k počtu nezdarů je za jedněch podmínek a/c a za druhých b/d. Podíl těchto výrazů je roven OR. Střední chyba výrazu log(OR) se dá vyjádřit jako :S.E.(log(OR))= \sqrt { \frac{1}{a}+ \frac{1}{b}+\frac{1}{c}+\frac{1}{d} }
Při dostatečně velkých četnostech je přibližný interval spolehlivosti (log (OR)- S.E.(log(OR))z(alfa/2); (log (OR)+ S.E.(log(OR))z(alfa/2)
Test hypotézy o rovnosti šancí OR a OR2z = \frac {log (OR) - log (OR2)}{\sqrt{(S.E.(log(OR)))^2+(S.E.(log(OR2)))^2}}
Tuto statistiku můžeme použít např. při fiktivním testování hypotézy souvislosti pohlaví a přijetí k zaměstnavatelům A a B.

zaměstnavatel A muž žena celkem B muž žena celkem
přijat/a 18 12 30 * 19 3 22
nepřijat/a 40 59 99 * 18 19 37
celkem 58 71 129 * 37 22 59

- Spočítáme OR = 18.59/(40.12)= 2,2125 ; zjistíme log(OR) = 0,344; spočítáme střední chybu = cca 0,425; pak (0,344 - 1,96 . 0,425; 0,344 + 1,96 . 0,425) což vychází jako 95% interval spolehlivosti pro populační protějšek log(OR) (-0,489; 1,1177), odlogaritmováním získáme 95% interval spolehlivosti pro podíl šancí. Stejně budeme postupovat pro zaměstnavatele B.

  • \phi = \sqrt{ \frac{X^2}{n}} fí měří na rozdíl od OR také sílu míry asociace, nachází se v intervalu (0;1) pro 4 polní tabulku
  • Cramerovo V =\sqrt{ \frac{X^2}{n(m-1)}} m = min (r - row,c - column) Získáme jej úpravou koeficientu φ.
  • koeficient kontingence podle Pearsona - funguje podobně jako korelační koeficient C(kor)= \frac{C}{C(max)} Je založen na statistice chí.


Míry asociace ordinálních veličin
Je důležité odlišit případy, kdy je ordinálního charakteru pouze jedna proměnná a kdy obě. V případech, kdy jsou obě sledované proměnné ordinálního charkteru, můžeme použít testování, založené na pořadí.

  • Wilcoxonův test
  • Mann- Whitney test
  • Kendallův korelační koeficient τk - tau k, založený na počtu konkordancí a diskordancí
  • Goodman- Kruskalův koeficient γ je variantou kendallova τk

Pokud je ordinální jen jedna, pak:

  • Kruskal-Wallisův test


[editovat] Literatura

  • Přehled statistických metod - zpracování dat : Jan Hendl; Praha 2004 Portál
  • Biostatistika : Karel Zvára; Praha 2003 Karolinum


[editovat] Externí odkazy

Interstat

[editovat] Podívejte se také na