Student-féle t-próba

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2020. november 4-én felülvizsgált verziótól ; az ellenőrzések 3 szerkesztést igényelnek .

A Student-féle t-próba a hipotézisek statisztikai tesztelésére szolgáló módszerek ( statisztikai tesztek ) általános elnevezése a Student-féle eloszláson alapulóan . A t-próba alkalmazásának leggyakoribb esetei két mintában az átlagok egyenlőségének ellenőrzéséhez kapcsolódnak .

A t -statisztikát általában a következő általános elv szerint építjük fel: a számlálóban - egy valószínűségi változó nulla matematikai várakozással (amikor a nullhipotézis teljesül ), a nevezőben pedig - ennek a valószínűségi változónak a minta szórása, amelyet a a variancia torzítatlan becslésének négyzetgyöke .

Történelem

Ezt a kritériumot William Gosset dolgozta ki a Guinness sör minőségének értékelésére . A céggel szembeni, az üzleti titkok felfedésére vonatkozó kötelezettségekkel kapcsolatban (a Guinness vezetése a statisztikai apparátus ilyen jellegű használatát tekintette munkájuk során), Gosset cikke 1908-ban jelent meg a „Biometrics” folyóiratban „Student” álnéven. Diák).

Adatkövetelmények

Ennek a feltételnek az alkalmazásához szükséges, hogy az eredeti adatok normális eloszlásúak legyenek . Független minták kétmintás vizsgálatának alkalmazása esetén is meg kell felelni a varianciaegyenlőség feltételének . Vannak azonban alternatívák a Student-féle t-próbára az egyenlőtlen szórású helyzetekre.

Az a követelmény, hogy az adateloszlás normális legyen, szükséges egy pontos -teszthez. Azonban még más adateloszlásoknál is lehetséges a -statisztika használata. Sok esetben ezeknek a statisztikáknak aszimptotikusan szabványos normál eloszlása van - , így használhatja ennek az eloszlásnak a kvantiliseit . Gyakran azonban még ebben az esetben sem a standard normál eloszlásból, hanem a megfelelő Student-eloszlásból használjuk a kvantiseket, mint az egzakt tesztben. Aszimptotikusan egyenértékűek, azonban kis mintákon a Student-féle eloszlás konfidencia intervallumai szélesebbek és megbízhatóbbak. $t$ $t$ $N(0,1)$ $t$

Ha ezek a feltételek nem teljesülnek, a mintaátlagok összehasonlításakor a nem- paraméteres statisztika hasonló módszereit kell használni , amelyek közül a leghíresebb a Mann-Whitney U-teszt (kétmintás teszt független mintákhoz), valamint a előjel teszt és a Wilcoxon teszt (függő minták esetén használatos) .

Egymintás t-teszt

A matematikai elvárás valamilyen ismert értékkel való egyenlőségére vonatkozó nullhipotézis tesztelésére szolgál . $H_{0}:E(X)=m$ $VOLT)$ $m$

Nyilvánvalóan, ha a nullhipotézis teljesül . Figyelembe véve a megfigyelések feltételezett függetlenségét . Az elfogulatlan varianciabecslés segítségével a következő t-statisztikát kapjuk: $E(\overlineX)=m$ $V(\overline X)=\sigma ^{2}/n$ $s_{X}^{2}=\sum _{{t=1}}^{n}(X_{t}-\overline X)^{2}/(n-1)$

$t={\frac {{\overline {X}}-m}{s_{X}/{\sqrt {n}}}}.$

A nullhipotézis szerint ennek a statisztikának az eloszlása: . Ezért, ha a statisztikai érték meghaladja (abszolút értékben) ennek az eloszlásnak a kritikus értékét (adott szignifikancia szinten), a nullhipotézist elvetjük. $t(n-1)$

Kétmintás t-próba független mintákhoz

Legyen két független minta normális eloszlású valószínűségi változókkal . A valószínűségi változók matematikai elvárásainak egyenlőségére vonatkozó nullhipotézist mintaadatok felhasználásával szükséges tesztelni . $n_{1}~,~n_{2}$ $X_{1},~X_{2}$ $H_{0}:~M_{1}=M_{2}$

Tekintsük a mintaátlagok közötti különbséget . Nyilvánvalóan, ha a nullhipotézis teljesül, . A minták függetlensége alapján ennek a különbségnek a szórása egyenlő: . Ezután a variancia torzítatlan becslését felhasználva torzítatlan becslést kapunk a mintaátlagok közötti különbség szórására: . Ezért a nullhipotézis tesztelésének t-statisztikája az $\Delta =\overline X_{1}-\overline X_{2}$ $E(\Delta )=M_{1}-M_{2}=0$ $V(\Delta )={\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}} }$ $s^{2}={\frac {\sum _{{t=1}}^{n}(X_{t}-\overline X)^{2}}{n-1}}$ $s_{{\Delta }}^{2}={\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2 }}}$

t={\frac {{\overline {X}}_{1}-{\overline {X}}_{2}}{\sqrt {{\frac {s_{1}^{2}} {n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}}.

Ennek a statisztikának a nullhipotézis érvényessége mellett van egy eloszlása , ahol . $t(df)$ $df={\frac {(s_{1}^{2}/n_{1}+s_{2}^{2}/n_{2})^{2}}{(s_{1}^{2} /n_{1})^{2}/(n_{1}-1)+(s_{2}^{2}/n_{2})^{2}/(n_{2}-1)}}$

Egyenlő szórású eset

Ha a minta eltéréseit azonosnak tételezzük fel, akkor

V(\Delta )=\sigma ^{2}\left({\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}\right).

Ekkor a t-statisztika:

t={\frac {{\overline {X}}_{1}-{\overline {X}}_{2}}{s_{X}{\sqrt {{\frac {1}{n_ {1}}}+{\frac {1}{n_{2}}}}}~,~~s_{X}={\sqrt {\frac {(n_{1}-1)s_{1 }^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}.

Ennek a statisztikának van egy eloszlása . $t(n_{1}+n_{2}-2)$

Kétmintás t-próba függő mintákhoz

A -kritérium empirikus értékének kiszámításához két függő minta (például ugyanazon teszt két mintája egy időintervallum) közötti különbségekre vonatkozó hipotézis tesztelése során a következő képletet használjuk: $t$

t={\frac {M_{d}}{s_{d}/{\sqrt {n}}}},

ahol az értékek átlagos eltérése, a különbségek szórása, és n a megfigyelések száma. $M_{d}$ $SD}$

Ennek a statisztikának van egy eloszlása . $t(n-1)$

Lineáris kényszer teszt lineáris regressziós paramétereken

A t-próba segítségével tetszőleges (egyszeri) lineáris kényszert is tesztelhet a közönséges legkisebb négyzetek módszerével becsült lineáris regresszió paramétereire . Legyen szükséges a hipotézis tesztelése . Nyilvánvalóan, ha a nullhipotézis teljesül . Itt a modellparaméterek torzítatlan LSM-becslésének tulajdonságát használjuk . Ezen kívül, . Az ismeretlen variancia helyett elfogulatlan becslését használva a következő t-statisztikát kapjuk: $H_{0}:c^{T}b=a$ $E(c^{T}{\hat b}-a)=c^{T}E({\hat b})-a=0$ $E({\hat b})=b$ $V(c^{T}{\hat b}-a)=c^{T}V({\hat b})c=\sigma ^{2}c^{T}(X^{T}X) ^{{-1}}c$ $s^{2}=ESS/(nk)$

t={\frac {c^{T}{\hat {b}}-a}{s{\sqrt {c^{T}(X^{T}X)^{-1}c} }}}.

Ennek a statisztikának, ha a nullhipotézis teljesül, eloszlása van , tehát ha a statisztika értéke nagyobb, mint a kritikus érték, akkor a lineáris kényszer nullhipotézise elvetődik. $t(nk)$

A lineáris regressziós együttható hipotézisvizsgálata

A lineáris kényszer speciális esete annak a hipotézisnek a tesztelése, hogy a regressziós együttható egy bizonyos értékkel egyenlő . Ebben az esetben a megfelelő t-statisztika: $b_{j}$ $a$

t={\frac {{\hat {b}}_{j}-a}{s_({\hat {b}}_{j}}}},

ahol az együtthatóbecslés standard hibája és az együtthatóbecslések kovarianciamátrixának megfelelő átlós elemének négyzetgyöke. $s_{{{\hat {b}}_{j}}}$

Ha a nullhipotézis igaz, a statisztika eloszlása . Ha a statisztika abszolút értéke nagyobb, mint a kritikus érték, akkor a -tól származó együttható különbsége statisztikailag szignifikáns (nem véletlenszerű), ellenkező esetben jelentéktelen (véletlenszerű, vagyis a valódi együttható valószínűleg egyenlő vagy nagyon közel van a várható értékre ). $t(nk)$ $a$ $a$

Megjegyzés

A matematikai elvárások egymintás tesztje lecsökkenthető a lineáris regressziós paraméterek lineáris kényszerének tesztelésére. Egymintás tesztben ez egy konstans "regressziója". Ezért a regresszió a vizsgált valószínűségi változó varianciájának mintabecslése, a mátrix a , és a modell „együtthatójának” becslése megegyezik a minta átlagával. Ebből kapjuk az általános esetre fent megadott t-statisztika kifejezést. $s^{2}$ $X^{T}X$ $n$

Hasonlóképpen kimutatható, hogy egy kétmintás teszt egyenlő mintavarianciákkal szintén lineáris kényszerek tesztelésére redukálódik. Egy kétmintás tesztben ez egy állandó és egy álváltozó "regressziója", amely a (0 vagy 1) értéktől függően egy részmintát azonosít: . A minták matematikai elvárásainak egyenlőségére vonatkozó hipotézis ennek a modellnek a b együtthatójának nullával való egyenlőségére vonatkozó hipotézisként fogalmazható meg. Kimutatható, hogy ennek a hipotézisnek a teszteléséhez a megfelelő t-statisztika megegyezik a kétmintás teszthez megadott t-statisztikával. $y=a+bD$

Le is redukálható a lineáris kényszer ellenőrzésére különböző varianciák esetén. Ebben az esetben a modellhibák varianciája két értéket vesz fel. Ez alapján a kétmintás teszthez hasonló t-statisztikát is kaphatunk.

Nem paraméteres analógok

A független minták kétmintás tesztjének analógja a Mann-Whitney U-teszt . A függő minták esetében az analógok az előjelteszt és a Wilcoxon T-teszt .

Irodalom

diák. Egy átlag valószínű hibája. // Biometrika. 1908. 6. szám (1). P. 1-25.

Linkek

Az eszközök homogenitására vonatkozó hipotézisek tesztelésének kritériumairól a Novoszibirszki Állami Műszaki Egyetem honlapján