Egymintás u-próba

A Wikipédiából, a szabad lexikonból.

Az egymintás u-próba a statiszitkai hipotézisvizsgálatok közül a paraméteres próbák közé tartozik. A próba azt vizsgálja, hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy adott m értéktől.


Tartalomjegyzék

[szerkesztés] A próba alkalmazásának feltételei

  • a vizsgált valószínűségi változó normális eloszlású
  • a vizsgált valószínűségi változó intervallum vagy arányskálán mért
  • a vizsgált valószínűségi változó populáción belüli szórása ismert (tehát nem a minta alapján kell becsülnünk)

[szerkesztés] A próba nullhipotézise

Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az előre megadott m értékkel.

Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az előre megadott m értékkel.

A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-mel).

Valójában a fenti két hipotézis precíz matematikai megfogalmazása a következő.

  • H0: Az X valószínűségi változó várható értéke megegyezik m-mel.
  • H1: Az X valószínűségi változó várható értéke nem egyezik meg m-mel.

[szerkesztés] A próbastatisztika

Az egymintás u-próba próbastatisztikája

u =  \frac {\bar x-m} {\sigma / \sqrt{n}}

ahol

  • \bar x a vizsgált valószínűségi változó átlaga a mintában,
  • σ a vizsgált valószínűségi változó ismert szórása (ld. feltételek),
  • m az előre adott érték, amihez az átlagot viszonyítjuk (ld. nullhipotézis) és
  • n a minta elemszáma.

[szerkesztés] A próba végrehajtásának lépései

  1. Az u próbastatisztika értékének kiszámítása.
  2. A p szignifikancia szint megválasztása. (Ez a legtöbb vizsgálat esetén 0,05 vagy 0,01.)
  3. A p szignifikancia szinttől függő up/2 érték kiválasztása a próbának megfelelő táblázatból. A táblázat jelen esetben a standard normális eloszlás táblázata, ahol azt az x értéket kell kikeresni melynél nagyobb értéket standard normális eloszlású valószínűségi változó csak p/2 valószínűséggel vesz fel. (Ez az érték p=0,05 esetén up/2 = u0,025 = 1,96, p=0,01 esetén up/2 = u0,05 = 2,576.)
  4. A nullhipotézisre vonatkozó döntés meghozása.
    • Ha |u|≥ up/2, akkor a nullhipotézist elvetjük, az alternatív hipotézist tartjuk meg, és az eredményt úgy interpretáljuk, hogy a mintában a vizsgált valószínűségi változó átlaga szignifikánsan eltér az adott m értéktől (p szignifikancai szint mellett).
    • Ha |u|< up/2, akkor a nullhipotézist megtartjuk, amit úgy interpretálunk, hogy az egymintás u-próba nem mutat ki szignifikáns különbséget a vizsgált valószínűségi változó mintabeli átlaga és az adott m érték között (p szignifikancai szint mellett).

[szerkesztés] Példa

Arra vagyunk kíváncsiak, hogy egy pedagógiai program valóban gyorsítja-e az óvodás gyerekek értelmi képességeinek fejlődését. Azt értelmi képesség mérésére az intelligencia hányados, az un. IQ hivatott. Ez olyan mérőeszköz, ami intervallum skálán mér, tudjuk, hogy a populációban normális eloszlást követ és tudjuk, hogy a 100-as IQ mutatja az átlagos képességet. Egy teljesen átlagos óvodai csoportban tehát nem tér el lényegesen (szignifikánsan) az IQ átlagos értéke a 100-as értéktől. Az IQ mérésére használt tesztek szórását ismerjük, a legtöbb ilyen tesz 15-ös, 16-os vagy 24-es szórású. Mi most egy 16-os szórású teszttel fogunk mérni. Látható, hogy az egymintás u-próba alkalmazásának feltételei adottak.

A vizsgálatunkban összesen 71 óvodás korú gyermek vesz részt, akiken alkalmazták a vizsgált pedagógiai módszert. Egy év alkalmazás után a gyerekek IQ-ját az adott teszttel megmértük és azt kaptuk, hogy a 71 gyermek átlagos IQ-ja 105. Ez egy kicsit magasabb érték, mint az átlag, de nem tudjuk, hogy ez a különbség pusztán csak a véletlennek tulajdonítható (szinte soha nem kapunk pontosan 100-as átlagot egyetlen óvodai mintában sem), vagy tekinthető a 100-as értéktől való szisztematikus eltérésnek.

Ennek a kérdésnek az eldöntésére egymintás u-próbát alkalmazunk. A vizsgált valószínűségi változónk az IQ. Ez normális eloszlású a populációban, intervallumskálán mért és ismerjük a szórását (σ = 16). A mintánkban az átlag \bar x = 105, A minta elemszáma n = 71, az előre megadott m érték az m = 100, hisz ez jelöli az átlagos teljesítményt s mi arra vagyunk kíváncsiak, hogy a mi csoportunk teljesítménye szignifikánsan eltér-e ettől. Ennek megfelelően az u próbastatisztikánk a jelen vizsgálat esetében

u =  \frac {\bar x-m} {\sigma / \sqrt{n}} = \frac {105-100} {16 / \sqrt{71}} \approx 2,633

Ha p = 0,05-nek választjuk a szignifikancia szintet, akkor a táblázat beli érték up/2 = u0,025 = 1,96, vagyis ha 5% kockázatot vállalunk arra nézve, hogy esetleg helytelenül vetjük el a nullhipotézist, akkor csak 1,96-nál nagyobb vagy -1,96-nál kisebb próbastatisztika értékek esetén tudjuk elvetni azt. Jelenlegi a helyzet próbastatisztika és a táblázatbeli érték viszonyában a következő.

u ≈ 2,633 miatt u > 2,632 > 1,96 = u0,025

azaz |u| ≥ up/2 teljesül.

Így a nullhipotézist elvethetjük, az egymintás u-próba szerint szignifikáns különbség van (p = 0,05-ös szignifikancia szint mellett) a pedagógiai programban részt vett óvodások átlagos IQ-ja és a 100-as érték között.

[szerkesztés] A próba matematikai háttere

Mivel a vizsgált X valószínűségi változótól megkövekteltük, hogy normális eloszlást kövessen, így az X1, X2, ... Xn mintáról elmondható, hogy a belőle képzett

\overline X= \frac{1}{n} \sum_{i=1}^{n} X_i

valószínűségi változó is normális eloszlást követ. Mivel σ az X szórását jelöli, így az \overline X szórása \sigma /\sqrt n. Ha most meggondoljuk, hogy a - matematikailag precízebben megfogalmazott - nullhipotézis szerint m az X várható értékével azonos, akkor látható, hogy az

u =  \frac {\overline X-m} {\sigma / \sqrt{n}}

próbastatisztika standard normális eloszlást fog követni. Emiatt bármilyen 1 > p > 0 esetén meg lehet határozni azt az up/2 értéket, melyre

1-p = \bold P \left( -u_{p/2} < \frac {\overline X - m} {\sigma / \sqrt n} < u_{p/2}| H_0 \right) = \Phi (u_{p/2}) - \Phi (-u_{p/2}) = 2\Phi (u_{p/2})-1

ahol Φ(x) a standard normális eloszlásfüggvény. Ez azt jelenti, hogy ha igaz a nullhipotézis, akkor az u próbastatisztika értéke 1-p valószínűséggel a (-up/2, up/2) intervallumba kell essen.

[szerkesztés] Megjegyzések

  • Az egymintás u-próba bizonyos tekintetben az egymintás t-próba párja. Az egymintás t-próba ugyanezt a nullhipotézis vizsgálja, csak nem feltétele az szórás értékének előzetes ismerete, hanem azt a minta adataiból becsli. A próbastatisztika képlete is nagyon hasonló, csak benne az ismert σ szórás helyett a mintából becsült s szórás szerepel. Természetesen a két próba matematikai háttere is nagyon hasonló.
  • A szakirodalom nem teljesen egységes annak tekintetében, hogy a nullhipotézis elvetéséről vagy megtartásáról szóló döntésben az |u| és up közötti két egyenlőtlenség közül melyiknél engedi meg az egyenlőséget. Ennek gyakorlati jelentősége nem igazán van, az alkalmazások során nagyon ritkán adódik, hogy a kiszámított próbastatisztika pontosan egybeesen a táblázat beli értékkel. Ha esetleg mégis így alakul, akkor az eredmény úgy interpretálható, hogy a nullhipotézis elvetése esetén a kockázat pontosan megegyezik a szignifikancia szinttel, s innen a kutató (és a tudós társadalom) szája ízétől függ, hogy ebben inkább a nullhipotézis elvetésének, vagy inkább a nullhipotézis megtartásának zálogát látja.
  • Érdemes megfigyelni az óvatos fogalmazást a nullhipotézis megtartása esetén. Az általunk meghatározott p szignifikancia szint az elsőfajú hiba elkövetésének valószínűségét adja meg. Ha el tudom vetni a nullhipotézist, akkor ekkora kockázatot vállalok arra nézve, hogy esetleg hiba elvetni. Amennyiben viszont nem tudom elvetni a nullhipotézis, akkor elsőfajú hibát biztosan nem fogok elkövetni, ám elkövethetek másodfajú hibát, melynek kockázatáról semmit nem mond a próba. Ez indokolja, hogy ha a nullhipotézist megtartjuk, akkor nem azt mondjuk, hogy nincs szignifikáns különbség a minta átlata és az előre megadott m érték között, hanem hogy az egymintás u-próba nem tudott szignifikáns különbséget kimutatni (ami ettől még lehet, hogy van). A másodfajú hiba elkövetésének valószínűségét az egymintás u-próba erőfüggvényének vizsgálatával tudjuk megállpítani.
  • Az egymintás u-próbára - az angol nyelvű szakirodalom alapján - szoktak z-próbaként, vagy egymintás z-próbaként is hivatkozni. Ez az elnevezés a magyar szakirodalomban ritkán fordul elő, ami azért is szerencsés, mert a magyar szakirodalom egy másik próbát is szokott néha z-próbának nevezni (ami korrelációs együtthatók közötti szignifikáns különbségek kimutatására alkalmas).

[szerkesztés] Források

  • Fazekas I. (szerk.) (2000): Bevezetés a matematikai statisztikába. Kossuth Egyetemi Kiadó, Debrecen.
  • Lukács O. (2002): Matematikai statisztika. Műszaki Könyvkiadó, Budapest.
  • Michaletzky Gy. - Mogyoródi J. (1995): Matematikai statisztika, Nemzeti Tankönyvkiadó, Budapest.
  • Michelberger P. - Szeidl L. - Várlaki P. (2001): Alkalmazott folyamatstatisztika és idősor-analízis. Typotex Kiadó, Budapest.
  • Petres T. - Tóth L. (2001): Statisztika. JATEPress, Szeged.
  • Vargha A. (2000): Matemtatikai statisztika pszchológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, Budapest.