Multikollinearitás

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2016. szeptember 11-én felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

Multikollinearitás ( multikollinearitás ) - az ökonometriában ( regressziós elemzés ) - a regressziós modell magyarázó változói (tényezői) közötti lineáris kapcsolat jelenléte . Ugyanakkor megkülönböztetik a teljes kollinearitást , amely funkcionális (azonos) lineáris függést és részleges vagy egyszerűen multikollinearitást - a tényezők közötti  erős korreláció jelenlétét - jelenti.

A teljes kollinearitás a paraméterek bizonytalanságához vezet a lineáris regressziós modellben, függetlenül a becslési módszerektől. Tekintsük ezt a következő lineáris modell példáján

Legyen ennek a modellnek a faktorai azonos összefüggésben a következőképpen: . Ezután tekintsük az eredeti lineáris modellt, amelyben egy tetszőleges a számot adunk az első együtthatóhoz , és kivonjuk ugyanazt a számot a másik két együtthatóból. Akkor van (véletlen hiba nélkül):

Így a modell együtthatóinak viszonylag önkényes változtatása ellenére ugyanazt a modellt kaptuk. Egy ilyen modell alapvetően nem azonosítható. A bizonytalanság már magában a modellben is megvan. Ha az együtthatók 3 dimenziós terét vesszük figyelembe, akkor ebben a térben a valódi együtthatók vektora ebben az esetben nem az egyetlen, hanem egy egész egyenes! Ezen az egyenesen bármely pont az együtthatók valódi vektora.

Ebben a tekintetben a tényezők teljes kollinearitása már a modellezésben a változók kiválasztásának szakaszában megoldott, és ezért semmi köze a paraméterek ökonometriai becsléseinek minőségének problémájához. A gyakorlatban gyakran előfordul egy másik helyzet - a tényezők közötti erős korreláció.

A multikollinearitás következményei

Ha a teljes kollinearitás a paraméterek értékeinek bizonytalanságához vezet, akkor a részleges multikollinearitás a becsléseik instabilitásához vezet . Az instabilitás a statisztikai bizonytalanság növekedésében – a becslések varianciájában – fejeződik ki. Ez azt jelenti, hogy a konkrét értékelési eredmények nagyban változhatnak mintánként, még akkor is, ha a minták homogének.

Mint ismeretes, a többszörös regresszió paramétereinek becsléseinek kovarianciamátrixa a legkisebb négyzetek módszerével egyenlő . Így minél „kisebb” a kovarianciamátrix ( determinánsa ), annál „nagyobb” a paraméterbecslések kovarianciamátrixa, és különösen minél nagyobb ennek a mátrixnak az átlós elemei, vagyis a paraméterbecslések szórása. A nagyobb áttekinthetőség érdekében vegye figyelembe ezt egy kéttényezős modell példáján:

Ekkor a paraméterbecslés szórása, például az első tényezővel:

ahol  a faktorok közötti mintakorrelációs együttható.

Itt jól látható, hogy minél nagyobb a faktorok közötti korreláció abszolút értéke, annál nagyobb a paraméterbecslések szórása. A (teljes kollinearitás) esetén a diszperzió a végtelenbe hajlik, ami megfelel a korábban elmondottaknak.

Így a paraméterek becslései pontatlanok, ami azt jelenti, hogy nehéz lesz értelmezni bizonyos tényezők hatását a magyarázott változóra. Ugyanakkor a multikollinearitás nem befolyásolja a modell egészének minőségét - statisztikailag szignifikánsnak tekinthető , még akkor is, ha minden együttható jelentéktelen (ez a multikollinearitás egyik jele).

Multikollinearitás észlelése

A multikollinearitás közvetett jelei a modellparaméterek becsléseinek nagy standard hibái, a kis t-statisztika (azaz az együtthatók jelentéktelensége), a becslések helytelen jelei, annak ellenére, hogy a modell egészét statisztikailag szignifikánsnak ismerik el (F nagy értéke). -statisztika). A multikollinearitást az is jelezheti, hogy a mintaadatok hozzáadásával (vagy eltávolításával) a paraméterbecslések erőteljes változása következett be (ha teljesülnek a kellő mintahomogenitás követelményei).

A faktorok multikollinearitásának kimutatásához közvetlenül elemezhetjük a faktorok korrelációs mátrixát. Már a párkorrelációs együtthatók nagy modulo (0,7-0,8 feletti) értékeinek jelenléte jelzi a kapott becslések minőségével kapcsolatos lehetséges problémákat.

A páronkénti korrelációs együtthatók elemzése azonban nem elegendő. Szükséges elemezni a tényezők más tényezőkre való regresszióinak determinációs együtthatóit ( ). A mutató kiszámítása javasolt . Ez utóbbi túl magas értéke a multikollinearitás jelenlétét jelenti.

A multikollinearitás problémájának megoldási módjai

Főkomponens módszer

A főkomponens módszer alkalmazása a modell faktoraira lehetővé teszi a kezdeti tényezők transzformálását és ortogonális (nem korrelált) tényezők halmazának előállítását. Ugyanakkor a multikollinearitás jelenléte lehetővé teszi számunkra, hogy néhány fő összetevőre korlátozzuk magunkat. Problémák adódhatnak azonban a fő összetevők értelmes értelmezésével.

Rekurzív OLS

Ridge regression

A gerincregresszió vagy a gerincregresszió magában foglalja a paraméterek becslését a következő képlet segítségével:

Egy paraméter hozzáadása megoldja a mátrix rossz kondicionálási problémáját . Ezek a becslések elfogultak , ellentétben az OLS becsléseivel. Azonban bebizonyosodott, hogy létezik olyan becslő, amelyre ezek a becslések hatékonyabbak, mint az LSM becslések (az LSM becslések hatékonyak (a legkisebb szórással rendelkeznek) a lineáris torzítatlan becslések között). Ennek a paraméternek a kiválasztására azonban nincsenek egyértelmű szabályok.

Lásd még