Varianciaanalízis

A varianciaanalízis egy olyan matematikai statisztika módszer, amely a kísérleti adatokban való függőségek megtalálását célozza az átlagértékek különbségeinek szignifikáns vizsgálatával [1] [2] . A t-teszttel ellentétben lehetővé teszi három vagy több csoport átlagának összehasonlítását. R. Fisher által kifejlesztett kísérleti vizsgálatok eredményeinek elemzésére. Az ANOVA (az angol ANalysis Of Variance szóból ) [3] elnevezés is megtalálható a szakirodalomban .

Az ANOVA típusai

A varianciaanalízis lényege, hogy megvizsgáljuk egy vagy több független változó , általában faktorként emlegetett hatását a függő változóra . A függő változókat az abszolút skála (arányskála) értékei képviselik . A független változók névlegesek (névskála), vagyis a csoporthoz való kötődést tükrözik, és két vagy több értékük is lehet (típus, fokozatosság vagy szint). A két értékű független változó például a nem (nő: , férfi: ) vagy a kezelési csoport típusa (kontroll: , kísérleti: ). Az objektumok független mintáinak megfelelő gradációkat csoportközinek, a függő mintáknak megfelelő gradációkat csoporton belülinek nevezzük. $X_{i}$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$

A változók típusától és számától függően a következők vannak:

egy- és többváltozós varianciaanalízis (egy vagy több független változó);
egy- és többváltozós varianciaanalízis (egy vagy több függő változó);
varianciaanalízis ismételt mérésekkel (függő minták esetén);
varianciaanalízis konstans tényezőkkel, véletlenszerű tényezőkkel és vegyes modellek mindkét típusú tényezővel;

Varianciaanalízis matematikai modellje

A diszperzióanalízis matematikai modellje a lineáris alapmodell speciális esete . Használjuk a módszereket több olyan paraméter mérésére, amelyek pontos értéke . Ebben az esetben a különböző mennyiségek különböző módszerekkel történő mérésének eredményei a következőképpen ábrázolhatók: $A_{j}\ (1\leq j\leq m)$ $x_{i}\ (1\leq i\leq n)$ $\mu _{i}\ (1\leq i\leq n)$

$x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$ ,

ahol:

$x_{{i,j}}$ módszerrel a th paraméter mérésének eredménye ; $én$ $A_{{j}}$
$\mu _{{i}}$ a -edik paraméter pontos értéke; $én$
$a_{i,j}$ a módszer szerinti csoport th paraméterének mérésének szisztematikus hibája ; $én$ $A_{{j}}$
$e_{{i,j}}$ módszerrel a -edik paraméter véletlenszerű mérési hibája . $én$ $A_{{j}}$

Ezután a következő valószínűségi változók varianciái: (ahol:
$x_{{i,j}}$
$x_{{i,j}}-x_{{i,*}}-x_{{*,j}}+x_{{*,*}}$
$x_{{i,*}}$
$x_{{*,j}}$

$x_{{*,j}}={\frac {1}{n}}\sum _{{i}}x_{{i,j}},$

$x_{{i,*}}={\frac {1}{m}}\sum _{{j}}x_{{i,j}},$

$x_{{*,*}}={\frac {1}{nm}}\sum _{{i,j}}x_{{i,j}}$ )

a következőképpen fejeződnek ki:

$s^{{2}}={\frac {1}{nm}}\sum _{{i}}\sum _{{j}}(x_{{i,j}}-x_{{*,* }})^{{2}}$

$s_{{0}}^{2}={\frac {1}{nm}}\sum _{{i}}\sum _{{j}}(x_{{i,j}}-x_{{ i,*}}-x_{{*,j}}+x_{{*,*}})^{{2}}$

$s_{{1}}^{2}={\frac {1}{n}}\sum _{{i}}(x_{{i,*}}-x_{{*,*}})^{ {2}}$

$s_{{2}}^{2}={\frac {1}{m}}\sum _{{j}}(x_{{*,j}}-x_{{*,*}})^{ {2}}$

és megfelel a személyazonosságnak:

$s^{2}=s_{{0}}^{2}+s_{{1}}^{2}+s_{{2}}^{2}$

A varianciaanalízis eljárás a szisztematikus (csoportok közötti) variancia és a véletlen (csoporton belüli) variancia arányának meghatározásából áll a mért adatokban. A változékonyság mutatójaként a paraméterértékek átlagtól való eltérésének négyzetösszegét használják: ( angolul. Sum of Squares ). Megmutatható, hogy a teljes négyzetösszeg felbomlik egy csoportközi négyzetösszegre és egy csoporton belüli négyzetösszegre : $SS$ $SS_{\textrm {összesen))$ $SS_{\textrm {bg))$ $SS_{\textrm {wg))$

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}$

Legyen minden paraméter pontos értéke a sokaság átlagával egyenlő matematikai elvárás . Szisztematikus hibák hiányában a csoportátlag és a sokaság átlaga megegyezik: . Ekkor a véletlenszerű mérési hiba a mérési eredmény és a csoportátlag különbsége : . Ha a módszer szisztematikus hatású, akkor ennek a tényezőnek a hatására a szisztematikus hiba a csoportátlag és a sokaság átlagának különbsége : . $E(X)=M$ $M_{{j}}=M$ $x_{{i,j}}$ $x_{{i,j}}-M_{j}$ $A_{j}$ $M_{j}$ $M_{j}-M$

Ekkor az egyenlet a következőképpen ábrázolható: $x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$

$x_{{i,j}}=M+(M_{j}-M)+(x_{{i,j}}-M_{j})$ , vagy

$x_{{i,j}}-M=(M_{j}-M)+(x_{{i,j}}-M_{j})$ .

Akkor

${\begin{aligned}\sum _{{i=1}}^{{n_{j}}}(x_{{i,j}}-M)^{2}&=\sum _{{i= 1}}^{{n_{j}}}(M_{j}-M)^{2}+\összeg _{{i=1}}^{{n_{j}}}(x_{{i, j}}-M_{j})^{2},\\\end{igazított}}$

ahol

$SS_{\textrm {total}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M)^{2}$

$SS_{\textrm {bg}}=\sum _{i=1}^{n_{j}}(M_{j}-M)^{2}$

$SS_{\textrm {wg}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M_{j})^{2}$

Következésképpen

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}.$

A szabadságfokokat hasonló módon bontják fel:

$df_{\textrm {total}}=df_{\textrm {bg}}+df_{\textrm {wg}},$ ahol

$df_{\textrm {total}}=N-1,$

$df_{\textrm {bg}}=J-1,$

$df_{\textrm {wg}}=NJ,$

és a teljes minta mérete, és a csoportok száma. $N$ $J$

Ekkor az egyes részek szórása, amelyet a varianciaanalízis modellben „átlag négyzetként” emlegetnek, vagy (az angol Mean Square szóból ) a négyzetek összegének és a szabadságfokaik számának aránya: $KISASSZONY$

$MS_{\textrm {total}}={\frac {SS_{\textrm {total}}}{N-1}}$

$MS_{\textrm {bg}}={\frac {SS_{\textrm {bg}}}{J-1}}$

$MS_{\textrm {wg}}={\frac {SS_{\textrm {wg}}}{NJ}}),$

A csoportok közötti és a csoporton belüli varianciák aránya F -eloszlású ( Fischer-eloszlás ), és a ( Fischer-féle F -kritérium ) segítségével határozható meg:

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Alapelvek és alkalmazások

A varianciaanalízis kiindulópontjai az

a vizsgált tulajdonság értékeinek normális eloszlása az általános populációban;
a szórások egyenlősége az összehasonlított populációkban;
a minta véletlenszerű és független jellege.

A varianciaanalízis nullhipotézise az átlagértékek egyenlőségére vonatkozó állítás:

$H_{0}{:}\quad \mu _{1}=\mu _{2}=\dots =\mu _{j}.$

A nullhipotézis elutasítása esetén az alternatív hipotézis elfogadásra kerül, miszerint nem minden átlag egyenlő, vagyis legalább két olyan csoport van, amelyek átlagban különböznek egymástól:

$H_{1}{:}\exists i,j\in \{1,...,j\},i\neq j:\mu _{i}\neq \mu _{j}.$

Ha három vagy több csoport van, akkor post-hoc t - teszteket vagy kontrasztok módszerét alkalmazzák az átlagok közötti különbségek meghatározására .

Egyirányú varianciaanalízis

A varianciaanalízis legegyszerűbb esete egy egydimenziós egyirányú elemzés két vagy több független csoportra, amikor az összes csoportot egy tulajdonság szerint kombináljuk. Az elemzés során az átlagok egyenlőségére vonatkozó nullhipotézist teszteljük. Két csoport elemzésekor a varianciaanalízis megegyezik a kétmintás Student- féle független minták t -próbájával , az F -statisztika értéke pedig megegyezik a megfelelő t -statisztika négyzetével .

A diszperziók egyenlőségére vonatkozó állítás megerősítésére általában a Levene-próbát használják . Ha a varianciaegyenlőség hipotézisét elvetjük, a fő elemzés nem alkalmazható. Ha az eltérések egyenlőek, akkor a Fisher-féle F -kritériumot használjuk a csoportok közötti és a csoporton belüli variabilitás arányának értékelésére :

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Ha az F -statisztika meghaladja a kritikus értéket, akkor a nullhipotézist nem lehet elfogadni (elvetni), és következtetést vonunk le az átlagok egyenlőtlenségére. A két csoport átlagának elemzésekor az eredmények a Fisher-teszt alkalmazása után azonnal értelmezhetők .

Ha három vagy több csoport van, akkor az átlagok páronkénti összehasonlítása szükséges a köztük lévő statisztikailag szignifikáns különbségek azonosításához. Az a priori elemzés magában foglalja a kontrasztok módszerét, amelyben a csoportok közötti négyzetösszeget az egyes kontrasztok négyzetösszegeire osztják:

$SS_{\textrm {bg}}=SS_{\psi _{1}}+SS_{\psi _{2}}+...+SS_{\psi _{n)),$

ahol kontraszt van a két csoport átlaga között, majd Fisher -próbával ellenőrizzük az egyes kontrasztok átlagnégyzetének és a csoporton belüli átlagnégyzet arányát: $\psi$

$F_{1,df_{\textrm {wg}}}={\frac {MS_{\psi _{i}}}{MS_{\textrm {wg}}}}.$

Az utólagos elemzés magában foglalja a Bonferroni vagy Scheffe módszerrel végzett post-hoc t teszteket , valamint az átlagkülönbségek összehasonlítását a Tukey-módszerrel. A post-hoc tesztek egyik jellemzője a csoporton belüli átlagnégyzet használata bármely átlagpár értékelésére. A Bonferroni és Scheffe tesztek a legkonzervatívabbak, mivel adott szignifikanciaszinten a legkisebb kritikus régiót használják . $MS_{\textrm {wg))$ $\alpha$

Az átlagok becslése mellett a varianciaanalízis magában foglalja a determinációs együttható meghatározását is , amely megmutatja, hogy a teljes variabilitás mekkora hányadát magyarázza ez a tényező: $R^2$

$R^{2}={\frac {SS_{\textrm {bg}}}{SS_{\textrm {total}}}}.$

Többváltozós varianciaanalízis

A többváltozós elemzés lehetővé teszi több tényező hatásának tesztelését a függő változóra. A többtényezős modell lineáris modellje a következő:

$x_{{i,j,k}}=\mu _{{i}}+a_{{i,j}}+b_{{i,k}}+...+(ab)_{{i, j,k}}+e_{{i,j,k}}$ , ahol:

- $x_{{i,j,k}}$ a th paraméter mérésének eredménye ; $én$
- $\mu _{{i}}$ a -edik paraméter átlaga ; $én$
- $a_{i,j}$ a módszer szerinti csoport th paraméterének mérésének szisztematikus hibája ; $én$ $j$ $A$
- $b_{{i,k}}$ a módszer szerinti csoport th paraméterének mérésének szisztematikus hibája ; $én$ $k$ $B$
- $(ab)_{{i,j,k}}$ a csoport th paraméterének mérésének szisztematikus hibája a módszerek kombinációja és ; $én$ $j, k$ $A$ $B$
- $e_{{i,j,k}}$ a th paraméter véletlenszerű mérési hibája. $én$

Az egyváltozós modelltől eltérően, ahol egy csoportközi négyzetösszeg van, a többváltozós elemzési modell tartalmazza az egyes tényezők négyzetösszegeit külön-külön, és a köztük lévő összes kölcsönhatás négyzetösszegeit. Így a kéttényezős modellben a csoportközi négyzetösszeg a faktor négyzetösszegére, a tényező négyzetösszegére , valamint a tényezők és a tényezők kölcsönhatásának négyzetösszegére bontható : $A$ $B$ $A$ $B$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{AB}+SS_{\textrm {wg}}.$

Ennek megfelelően a háromtényezős modell tartalmazza a faktor négyzetösszegét, a faktor négyzetösszegét, a faktor négyzetösszegét és a tényezők kölcsönhatásának négyzetösszegét és , és és , valamint mindhárom tényező kölcsönhatása : $A$ $B$ $C$ $A$ $B$ $B$ $C$ $A$ $C$ $ABC$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{C}+SS_{AB}+SS_{BC}+SS_{AC}+SS_{ABC}+SS_{\ textrm{wg}}.$

A szabadsági fokokat hasonló módon bővítjük:

$df_{\textrm {total}}=df_{A}+df_{B}+df_{AB}+df_{\textrm {wg)),$ ahol

$df_{\textrm {total}}=N-1,$

$df_{A}=J-1,$

$df_{B}=K-1,$

$df_{{AB}}=(J-1)(K-1),$

$df_{\textrm {wg}}=N-JK,$

és a teljes minta térfogata, a faktor szintjeinek (csoportjainak) száma , és a faktor szintjeinek (csoportjainak) száma . $N$ $J$ $A$ $K$ $B$

Az elemzés több nullhipotézist tesztel :

hipotézis az átlagok egyenlőségéről a faktor hatására : ; $A$ $H_{0}{:}\ \mu _{1,*}=\mu _{2,*}=\dots =\mu _{j,*}$
hipotézis az átlagok egyenlőségéről a faktor hatására : ; $B$ ${\displaystyle H_{0}{:}\ \mu _{*,1}=\mu _{*,2}=\dots =\mu _{*,k))$
hipotézis a tényezők interakciójának hiányáról és : mindenre és $A$ $B$ $H_{0}{:}\ (ab)_{j,k}=0$ $j$ $k.$

Minden hipotézist a Fisher-kritérium segítségével tesztelünk:

$F_{df_{A},df_{\textrm {wg}}}={\frac {MS_{A}}{MS_{\textrm {wg}}}};$

$F_{df_{B},df_{\textrm {wg}}}={\frac {MS_{B}}{MS_{\textrm {wg}}}};$

$F_{df_{AB},df_{\textrm {wg}}}={\frac {MS_{AB}}{MS_{\textrm {wg}}}}.$

Az egyetlen tényező befolyására vonatkozó nullhipotézis elutasításakor elfogadjuk azt az állítást, hogy a faktornak van fő hatása ( stb.). A faktorok kölcsönhatására vonatkozó nullhipotézis elvetésekor elfogadjuk azt az állítást, hogy a faktor hatása a faktor különböző szintjein eltérően nyilvánul meg . Általában ebben az esetben az általános elemzés eredményeit érvénytelennek ismerik el, és a faktor hatását a faktor minden szintjén külön ellenőrzik egyirányú varianciaanalízissel vagy t -próbával . $A$ $b,$ $A$ $B$ $A$ $B$

Jegyzetek

↑ Varianciaanalízis . Letöltve: 2011. március 15. Az eredetiből archiválva : 2012. május 23.. (határozatlan)
↑ Diszperzióanalízis - cikk a Great Soviet Encyclopedia- ból . Bolsev, L.N..
↑ A. D. Naszledov. A pszichológiai kutatás matematikai módszerei. Szentpétervár, 2008. ISBN 5-9268-0275-X

Irodalom

Scheffe G. Diszperzióanalízis, ford. angolról. - M., 1963.
Smirnov NV, Dunin-Barkovsky IV Valószínűségszámítás és matematikai statisztika tanfolyam műszaki alkalmazásokhoz. - 2. kiadás - M. , 1965.

Szótárak és enciklopédiák	Nagy orosz
Bibliográfiai katalógusokban	NKC : ph118416

Legkisebb négyzetek és regressziós elemzés

Számítási statisztika

Legkisebb négyzet alakú módszer
Lineáris MNC
Nemlineáris legkisebb négyzetek
LSM a súlyok iteratív újraszámításával

Összefüggés
és függőség

Pearson korrelációs együttható
Rangkorreláció ( Spearman
Kendall )
Részleges korreláció
Torzító tényező

Regresszió analízis

Rendszeres MNC
Részleges legkisebb négyzetek módszere
Legkevesebb teljes négyzet
Ridge regresszió

A regresszió mint
statisztikai
modell

Lineáris regresszió	Egyszerű lineáris regresszió Rendszeres MNC Általánosított legkisebb négyzetek Súlyozott legkisebb négyzetek Lineáris alapmodell
prediktív szerkezet	Polinomiális regresszió növekedési görbe Szegmentált regresszió Lokális regresszió
Egyedi regresszió	nem lineáris Nem paraméteres félparaméteres fenntartható kvantilis izotóniás
Nem szabványos hibák	Általánosított lineáris modell Binomiális regresszió Poisson-regresszió Logisztikus regresszió

Variancia dekompozíció

Varianciaanalízis
Kovariancia-elemzés
Többváltozós varianciaanalízis

Modell tanulmány

C p Mályva
Lépésenkénti regresszió
Statisztikai modell kiválasztása
Regressziós modell érvényesítése

Előfeltételek

Átlagos és várt válasz
Gauss-Markov tétel
Hibák és eltérések
Statisztikai teszt
Studentizált egyensúly
Minimális átlagos négyzet hiba

Kísérleti tervezés

Válaszfelszíni módszertan
Optimális kísérlettervezés
Bayesi kísérlettervezés

Numerikus
közelítés

Alkalmazások

Közelítés görbék segítségével
Kalibrációs görbe
Savitsky-Golay szűrő
Rendszer azonosítás
Mozgó legkisebb négyzetek módszere