Multikollinearitás

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2016. szeptember 11-én felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

Multikollinearitás ( multikollinearitás ) - az ökonometriában ( regressziós elemzés ) - a regressziós modell magyarázó változói (tényezői) közötti lineáris kapcsolat jelenléte . Ugyanakkor megkülönböztetik a teljes kollinearitást , amely funkcionális (azonos) lineáris függést és részleges vagy egyszerűen multikollinearitást - a tényezők közötti erős korreláció jelenlétét - jelenti.

A teljes kollinearitás a paraméterek bizonytalanságához vezet a lineáris regressziós modellben, függetlenül a becslési módszerektől. Tekintsük ezt a következő lineáris modell példáján

$y=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}+\varepszilon$

Legyen ennek a modellnek a faktorai azonos összefüggésben a következőképpen: . Ezután tekintsük az eredeti lineáris modellt, amelyben egy tetszőleges a számot adunk az első együtthatóhoz , és kivonjuk ugyanazt a számot a másik két együtthatóból. Akkor van (véletlen hiba nélkül): ${\displaystyle x_{1}=x_{2}+x_{3))$

$y=(b_{1}+a)x_{1}+(b_{2}-a)x_{2}+(b_{3}-a)x_{3}=b_{1}x_{ 1}+b_{2}x_{2}+b_{3}x_{3}+a(x_{1}-x_{2}-x_{3})=b_{1}x_{1}+b_{ 2}x_{2}+b_{3}x_{3}$

Így a modell együtthatóinak viszonylag önkényes változtatása ellenére ugyanazt a modellt kaptuk. Egy ilyen modell alapvetően nem azonosítható. A bizonytalanság már magában a modellben is megvan. Ha az együtthatók 3 dimenziós terét vesszük figyelembe, akkor ebben a térben a valódi együtthatók vektora ebben az esetben nem az egyetlen, hanem egy egész egyenes! Ezen az egyenesen bármely pont az együtthatók valódi vektora.

Ebben a tekintetben a tényezők teljes kollinearitása már a modellezésben a változók kiválasztásának szakaszában megoldott, és ezért semmi köze a paraméterek ökonometriai becsléseinek minőségének problémájához. A gyakorlatban gyakran előfordul egy másik helyzet - a tényezők közötti erős korreláció.

A multikollinearitás következményei

Ha a teljes kollinearitás a paraméterek értékeinek bizonytalanságához vezet, akkor a részleges multikollinearitás a becsléseik instabilitásához vezet . Az instabilitás a statisztikai bizonytalanság növekedésében – a becslések varianciájában – fejeződik ki. Ez azt jelenti, hogy a konkrét értékelési eredmények nagyban változhatnak mintánként, még akkor is, ha a minták homogének.

Mint ismeretes, a többszörös regresszió paramétereinek becsléseinek kovarianciamátrixa a legkisebb négyzetek módszerével egyenlő . Így minél „kisebb” a kovarianciamátrix ( determinánsa ), annál „nagyobb” a paraméterbecslések kovarianciamátrixa, és különösen minél nagyobb ennek a mátrixnak az átlós elemei, vagyis a paraméterbecslések szórása. A nagyobb áttekinthetőség érdekében vegye figyelembe ezt egy kéttényezős modell példáján: ${\frac {\sigma ^{2}}{n}}V_{x}^{-1}$

$y=b_{0}+b_{1}x_{1}+b_{2}x_{2}+\varepsilon$

Ekkor a paraméterbecslés szórása, például az első tényezővel:

$\sigma _{{\hat {b}}_{1}}^{2}={\frac {\sigma ^{2}}{n{\hat {\sigma }}_{x_{2 ))^{2}(1-{\kalap {r}}^{2})}}$

ahol a faktorok közötti mintakorrelációs együttható. ${\kalap {r))$

Itt jól látható, hogy minél nagyobb a faktorok közötti korreláció abszolút értéke, annál nagyobb a paraméterbecslések szórása. A (teljes kollinearitás) esetén a diszperzió a végtelenbe hajlik, ami megfelel a korábban elmondottaknak. $|r|\jobbra 1$

Így a paraméterek becslései pontatlanok, ami azt jelenti, hogy nehéz lesz értelmezni bizonyos tényezők hatását a magyarázott változóra. Ugyanakkor a multikollinearitás nem befolyásolja a modell egészének minőségét - statisztikailag szignifikánsnak tekinthető , még akkor is, ha minden együttható jelentéktelen (ez a multikollinearitás egyik jele).

Multikollinearitás észlelése

A multikollinearitás közvetett jelei a modellparaméterek becsléseinek nagy standard hibái, a kis t-statisztika (azaz az együtthatók jelentéktelensége), a becslések helytelen jelei, annak ellenére, hogy a modell egészét statisztikailag szignifikánsnak ismerik el (F nagy értéke). -statisztika). A multikollinearitást az is jelezheti, hogy a mintaadatok hozzáadásával (vagy eltávolításával) a paraméterbecslések erőteljes változása következett be (ha teljesülnek a kellő mintahomogenitás követelményei).

A faktorok multikollinearitásának kimutatásához közvetlenül elemezhetjük a faktorok korrelációs mátrixát. Már a párkorrelációs együtthatók nagy modulo (0,7-0,8 feletti) értékeinek jelenléte jelzi a kapott becslések minőségével kapcsolatos lehetséges problémákat.

A páronkénti korrelációs együtthatók elemzése azonban nem elegendő. Szükséges elemezni a tényezők más tényezőkre való regresszióinak determinációs együtthatóit ( ). A mutató kiszámítása javasolt . Ez utóbbi túl magas értéke a multikollinearitás jelenlétét jelenti. $R_{i}^{2}$ $VIF=1/(1-R_{j}^{2})$

A multikollinearitás problémájának megoldási módjai

Főkomponens módszer

A főkomponens módszer alkalmazása a modell faktoraira lehetővé teszi a kezdeti tényezők transzformálását és ortogonális (nem korrelált) tényezők halmazának előállítását. Ugyanakkor a multikollinearitás jelenléte lehetővé teszi számunkra, hogy néhány fő összetevőre korlátozzuk magunkat. Problémák adódhatnak azonban a fő összetevők értelmes értelmezésével.

Rekurzív OLS

Ridge regression

A gerincregresszió vagy a gerincregresszió magában foglalja a paraméterek becslését a következő képlet segítségével:

${\hat {b}}=(X^{T}X+\lambda I)^{-1}X^{T}y$

Egy paraméter hozzáadása megoldja a mátrix rossz kondicionálási problémáját . Ezek a becslések elfogultak , ellentétben az OLS becsléseivel. Azonban bebizonyosodott, hogy létezik olyan becslő, amelyre ezek a becslések hatékonyabbak, mint az LSM becslések (az LSM becslések hatékonyak (a legkisebb szórással rendelkeznek) a lineáris torzítatlan becslések között). Ennek a paraméternek a kiválasztására azonban nincsenek egyértelmű szabályok. $\lambda$ $X^{T}X$ $\lambda$