Az F-teszt vagy Fisher-teszt (F-teszt, φ*-teszt) egy statisztikai teszt , amelynek tesztstatisztikája a nullhipotézis teljesülésekor Fisher-eloszlással (F-eloszlással) rendelkezik.
Így vagy úgy, a tesztstatisztikák a minta varianciáinak (a négyzetek összege osztva a „szabadságfokokkal”) arányára vezetnek le. Ahhoz, hogy egy statisztika Fisher-eloszlású legyen, a számlálónak és a nevezőnek független valószínűségi változónak kell lennie, a megfelelő négyzetösszegeknek pedig Chi-négyzet eloszlással kell rendelkezniük . Ez megköveteli, hogy az adatok normális eloszlásúak legyenek. Ezenkívül feltételezzük, hogy azoknak a valószínűségi változóknak a varianciája, amelyek négyzetét összegezzük, azonos.
A tesztet úgy hajtják végre, hogy a statisztika értékét összehasonlítják a megfelelő Fisher-eloszlás kritikus értékével egy adott szignifikancia szinten. Ismeretes, hogy ha , akkor . Ezenkívül a Fisher-eloszlás kvantilisei rendelkeznek a tulajdonsággal . Ezért a gyakorlatban általában egy potenciálisan nagy érték szerepel a számlálóban, egy kisebb érték a nevezőben, és az összehasonlítás az eloszlás „helyes” kvantilisével történik. A teszt azonban lehet kétoldalú és egyoldalú is. Az első esetben a kvantilist használjuk a szignifikanciaszinthez , az egyoldali teszthez pedig az [1] -et .
A hipotézisek tesztelésének kényelmesebb módja a p-érték , annak a valószínűsége, hogy egy adott Fisher-eloszlású valószínűségi változó meghaladja a statisztika adott értékét. Ha (kétirányú teszt esetén - )) kisebb, mint a szignifikancia szint , akkor a nullhipotézist elvetjük, ellenkező esetben elfogadjuk.
Legyen két normál eloszlású X és Y valószínűségi változók m, illetve n méretű mintája. Ellenőrizni kell a szórások egyenlőségét. Tesztstatisztika
hol van a minta varianciája .
Ha a statisztika nagyobb, mint a választott szignifikanciaszintnek megfelelő kritikus érték , akkor a valószínűségi változók szórása nem azonos.
Több kijelölésEgy X valószínűségi változó N méretű mintáját osszuk k csoportra az i - edik csoportban lévő megfigyelések számával .
Csoportközi („magyarázott”) variancia:
Csoporton belüli („megmagyarázhatatlan”) variancia:
Ez a teszt lecsökkenthető az X változó regressziójának szignifikanciájának tesztelésére álváltozókon - a csoportok mutatóin. Ha a statisztika meghaladja a kritikus értéket, akkor a mintákban az átlagok egyenlőségére vonatkozó hipotézist elvetjük, ellenkező esetben az átlagok azonosnak tekinthetők.
A klasszikus normál lineáris regresszió paramétereinek lineáris kényszereinek tesztelésére szolgáló tesztstatisztikát a következő képlet határozza meg:
ahol a korlátozások száma, n a minta mérete, k a modell paramétereinek száma, RSS a modell maradékainak négyzetösszege, a determinációs együttható, az S és L indexek a rövid és hosszú modellekre vonatkoznak , illetve (korlátozásos modellek és korlátozás nélküli modellek).
MegjegyzésA fent leírt F-próba véletlenszerű modellhibák normális eloszlása esetén pontos . Az F-próba azonban általánosabb esetben is alkalmazható. Ebben az esetben aszimptotikus. A megfelelő F-statisztika a többi aszimptotikus teszt – a Wald (W) teszt, a Lagrange-szorzó (LM) teszt és a valószínűségi arány (LR) teszt – statisztikáiból számítható ki az alábbiak szerint:
Mindezek a statisztikák aszimptotikusan F(q, nk) eloszlással rendelkeznek, annak ellenére, hogy kis mintákon értékeik eltérhetnek.
Ez a teszt nagyon fontos a regressziós elemzésben, és lényegében a kényszervizsgálat speciális esete. Ebben az esetben a nullhipotézis az összes együttható nullával való egyidejű egyenlőségéről szól a regressziós modell faktorai (vagyis a k-1 összes megszorítás) mellett. Ebben az esetben a rövid modell csak egy állandó, mint tényező, vagyis a rövid modell determinációs együtthatója nulla. A teszt statisztika a következő:
Ennek megfelelően, ha ennek a statisztikának az értéke nagyobb, mint a kritikus érték egy adott szignifikancia szinten, akkor a nullhipotézist elvetjük, ami azt jelenti, hogy a regresszió statisztikailag szignifikáns. Ellenkező esetben a modell jelentéktelennek minősül.
PéldaBecsüljük meg az élelmezési kiadások összkiadáson belüli részarányának lineáris regresszióját egy állandóra, az összkiadás logaritmusára, a felnőtt családtagok számára és a 11 év alatti gyermekek számára. Azaz 4 becsült paraméter van a modellben (k=4). Kapjuk meg a determinációs együtthatót a regressziós értékelés eredményei alapján . A fenti képlet segítségével kiszámítjuk az F-statisztika értékét, ha a regressziót 34 megfigyelés adataiból és 64 megfigyelés adataiból becsüljük:
A statisztika kritikus értéke 1%-os szignifikancia szinten (Excelben az FDISP függvény) az első esetben , a második esetben pedig . A regressziót mindkét esetben szignifikánsnak tekintjük egy adott szignifikanciaszinten. Az első esetben a P-érték 0,1%, a másodikban pedig 0,00005%. Így a második esetben a regresszió szignifikanciájába vetett bizalom szignifikánsan nagyobb (a hiba valószínűsége sokkal kisebb, ha a modellt szignifikánsnak ismerjük fel).