F-teszt

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2017. október 26-án áttekintett verziótól ; az ellenőrzések 8 szerkesztést igényelnek .

Az F-teszt vagy Fisher-teszt (F-teszt, φ*-teszt) egy statisztikai teszt , amelynek tesztstatisztikája a nullhipotézis teljesülésekor Fisher-eloszlással (F-eloszlással) rendelkezik.

Így vagy úgy, a tesztstatisztikák a minta varianciáinak (a négyzetek összege osztva a „szabadságfokokkal”) arányára vezetnek le. Ahhoz, hogy egy statisztika Fisher-eloszlású legyen, a számlálónak és a nevezőnek független valószínűségi változónak kell lennie, a megfelelő négyzetösszegeknek pedig Chi-négyzet eloszlással kell rendelkezniük . Ez megköveteli, hogy az adatok normális eloszlásúak legyenek. Ezenkívül feltételezzük, hogy azoknak a valószínűségi változóknak a varianciája, amelyek négyzetét összegezzük, azonos.

A tesztet úgy hajtják végre, hogy a statisztika értékét összehasonlítják a megfelelő Fisher-eloszlás kritikus értékével egy adott szignifikancia szinten. Ismeretes, hogy ha , akkor . Ezenkívül a Fisher-eloszlás kvantilisei rendelkeznek a tulajdonsággal . Ezért a gyakorlatban általában egy potenciálisan nagy érték szerepel a számlálóban, egy kisebb érték a nevezőben, és az összehasonlítás az eloszlás „helyes” kvantilisével történik. A teszt azonban lehet kétoldalú és egyoldalú is. Az első esetben a kvantilist használjuk a szignifikanciaszinthez , az egyoldali teszthez pedig az [1] -et . $F \sim F(m,n)$ $1/F \sim F(n,m)$ $F_{1-\alpha}=1/F_{\alpha}$ $\alpha$ $F_{\alpha/2}$ $F_{\alpha}$

A hipotézisek tesztelésének kényelmesebb módja a p-érték , annak a valószínűsége, hogy egy adott Fisher-eloszlású valószínűségi változó meghaladja a statisztika adott értékét. Ha (kétirányú teszt esetén - )) kisebb, mint a szignifikancia szint , akkor a nullhipotézist elvetjük, ellenkező esetben elfogadjuk. $p(F)$ $p(F)$ $2p(F$ $\alpha$

F-teszt példák

F-teszt a varianciaegyenlőséghez

Két kijelölés

Legyen két normál eloszlású X és Y valószínűségi változók m, illetve n méretű mintája. Ellenőrizni kell a szórások egyenlőségét. Tesztstatisztika

$F=\frac {\hat{\sigma}^2_X}{\hat{\sigma}^2_Y}~ \sim ~F(m-1,n-1)$

hol van a minta varianciája . ${\hat{\sigma}^2}$

Ha a statisztika nagyobb, mint a választott szignifikanciaszintnek megfelelő kritikus érték , akkor a valószínűségi változók szórása nem azonos.

Több kijelölés

Egy X valószínűségi változó N méretű mintáját osszuk k csoportra az i - edik csoportban lévő megfigyelések számával . $n_{i}$

Csoportközi („magyarázott”) variancia: $\hat{\sigma}^2_{BG}=\sum^k_{i=1} n_i (\overline {x_i}-\overline {x})^2/(k-1)$

Csoporton belüli („megmagyarázhatatlan”) variancia: $\hat{\sigma}^2_{WG}=\sum^k_{i=1}\sum^{n_i}_{j=1} (x_{ij}-\overline {x}_i)^2/( Nk)$

$F=\frac {\hat{\sigma}^2_{BG}}{\hat{\sigma}^2_{WG}}~\sim~F(k-1,Nk)$

Ez a teszt lecsökkenthető az X változó regressziójának szignifikanciájának tesztelésére álváltozókon - a csoportok mutatóin. Ha a statisztika meghaladja a kritikus értéket, akkor a mintákban az átlagok egyenlőségére vonatkozó hipotézist elvetjük, ellenkező esetben az átlagok azonosnak tekinthetők.

A regressziós paraméterekre vonatkozó kényszerek ellenőrzése

A klasszikus normál lineáris regresszió paramétereinek lineáris kényszereinek tesztelésére szolgáló tesztstatisztikát a következő képlet határozza meg:

$F={\frac {(RSS_{S}-RSS_{L})/q}{RSS_{L}/(n-k_{L})))={\frac {(R_{L}^ {2}-R_{S}^{2})/q}{(1-R_{L}^{2})/(n-k_{L})}}~\sim ~F(q,n- k_{L})$

ahol a korlátozások száma, n a minta mérete, k a modell paramétereinek száma, RSS a modell maradékainak négyzetösszege, a determinációs együttható, az S és L indexek a rövid és hosszú modellekre vonatkoznak , illetve (korlátozásos modellek és korlátozás nélküli modellek). $q=k_L-k_S$ $R^2$

Megjegyzés

A fent leírt F-próba véletlenszerű modellhibák normális eloszlása esetén pontos . Az F-próba azonban általánosabb esetben is alkalmazható. Ebben az esetben aszimptotikus. A megfelelő F-statisztika a többi aszimptotikus teszt – a Wald (W) teszt, a Lagrange-szorzó (LM) teszt és a valószínűségi arány (LR) teszt – statisztikáiból számítható ki az alábbiak szerint:

$F=\frac {nk}{q} W/n ~,~ F=\frac {nk}{q} \frac {LM} {n-LM} ~,~F=\frac {nk}{q}( e^{LR/n}-1)$ Mindezek a statisztikák aszimptotikusan F(q, nk) eloszlással rendelkeznek, annak ellenére, hogy kis mintákon értékeik eltérhetnek.

Lineáris regresszió szignifikancia vizsgálata

Ez a teszt nagyon fontos a regressziós elemzésben, és lényegében a kényszervizsgálat speciális esete. Ebben az esetben a nullhipotézis az összes együttható nullával való egyidejű egyenlőségéről szól a regressziós modell faktorai (vagyis a k-1 összes megszorítás) mellett. Ebben az esetben a rövid modell csak egy állandó, mint tényező, vagyis a rövid modell determinációs együtthatója nulla. A teszt statisztika a következő:

$F=\frac {R^2/(k-1)}{(1-R^2)/(nk)}~\sim ~F(k-1,nk)$

Ennek megfelelően, ha ennek a statisztikának az értéke nagyobb, mint a kritikus érték egy adott szignifikancia szinten, akkor a nullhipotézist elvetjük, ami azt jelenti, hogy a regresszió statisztikailag szignifikáns. Ellenkező esetben a modell jelentéktelennek minősül.

Példa

Becsüljük meg az élelmezési kiadások összkiadáson belüli részarányának lineáris regresszióját egy állandóra, az összkiadás logaritmusára, a felnőtt családtagok számára és a 11 év alatti gyermekek számára. Azaz 4 becsült paraméter van a modellben (k=4). Kapjuk meg a determinációs együtthatót a regressziós értékelés eredményei alapján . A fenti képlet segítségével kiszámítjuk az F-statisztika értékét, ha a regressziót 34 megfigyelés adataiból és 64 megfigyelés adataiból becsüljük: $R^{2}=41,2366\%$ $F_1=\frac {0,412366/(4-1)}{(1-0,412366)/(34-4)}=0,70174*10=7,02$

$F_2=\frac {0,412366/(4-1)}{(1-0,412366)/(64-4)}=0,70174*20=14,04$

A statisztika kritikus értéke 1%-os szignifikancia szinten (Excelben az FDISP függvény) az első esetben , a második esetben pedig . A regressziót mindkét esetben szignifikánsnak tekintjük egy adott szignifikanciaszinten. Az első esetben a P-érték 0,1%, a másodikban pedig 0,00005%. Így a második esetben a regresszió szignifikanciájába vetett bizalom szignifikánsan nagyobb (a hiba valószínűsége sokkal kisebb, ha a modellt szignifikánsnak ismerjük fel). $F_{1\%}(3,30)=4,51$ $F_{1\%}(3,60)=4,13$

A heteroszkedaszticitás vizsgálata

Lásd Goldfeld-Quandt teszt

Lásd még

Jegyzetek

↑ Két varianciaegyenlőség F-tesztje . NIST . Hozzáférés dátuma: 2017. március 29. Az eredetiből archiválva : 2017. március 9.