Regresszió analízis

A regressziós elemzés statisztikai módszerek összessége egy vagy több független változó függő változóra gyakorolt ​​hatásának tanulmányozására . A független változókat másképpen regresszoroknak vagy prediktoroknak, a függő változókat pedig kritériumoknak vagy regresszoroknak nevezzük. A függő és független változók terminológiája csak a változók matematikai függőségét tükrözi ( lásd korreláció ), ok-okozati összefüggéseket nem. A regresszióanalízis legelterjedtebb típusa a lineáris regresszió, amikor olyan lineáris függvényt találunk, amely bizonyos matematikai kritériumok szerint a legjobban egyezik az adatokkal. Például a legkisebb négyzetek módszerében egy egyenest (vagy hipersíkot) számítanak ki, amelynek négyzetösszege és az adat között minimális.

A regresszióanalízis céljai

  1. A kritérium (függő) változó variációja determinizmus fokának meghatározása prediktorokkal (független változók)
  2. A függő változó értékének előrejelzése a független változó(k) segítségével
  3. Az egyes független változók hozzájárulásának meghatározása a függő változásához

A regresszió matematikai meghatározása

A szigorúan regresszív függőséget a következőképpen határozhatjuk meg. Legyenek valószínűségi változók adott közös valószínűségi eloszlással. Ha minden értékkészlethez feltételes elvárás van meghatározva

(általános regressziós egyenlet),

akkor a függvényt nagyságrendi regressziónak nevezzük , grafikonját pedig regressziós egyenesnek vagy regressziós egyenletnek .

A függőség az átlagértékek változásában nyilvánul meg változáskor . Bár minden rögzített értékhalmaz esetében az érték egy bizonyos eloszlású valószínűségi változó marad .

Annak a kérdésnek a tisztázása érdekében, hogy a regressziós elemzés mennyire pontosan becsüli meg a változással járó változást , a variancia átlagos értékét használjuk különböző értékkészletekre (valójában a függő változó szóródásának mértékéről beszélünk regressziós egyenes).

Mátrix formában a regressziós egyenlet (ER) a következőképpen van felírva: , ahol a hibamátrix. Egy X◤X invertálható mátrixszal a B együtthatók oszlopvektorát kapjuk, figyelembe véve U◤U=min(B). Egy adott esetben X=(±1) esetén az X◤X mátrix forgatható, és az SD használható idősorelemzésben és műszaki adatfeldolgozásban.

A legkisebb négyzetek módszere (együtthatók számítása)

A gyakorlatban a regressziós egyenest leggyakrabban olyan lineáris függvényként ( lineáris regresszió ) keresik, amely a legjobban közelíti a kívánt görbét. Ez a legkisebb négyzetek módszerével történik , amikor a ténylegesen megfigyelt becslésektől való négyzetes eltérések összege minimálisra csökken (vagyis a kívánt regressziós függőséget állítólagos egyenest használó becsléseket):

( a minta mérete). Ez a megközelítés azon a jól ismert tényen alapul, hogy a fenti kifejezésben megjelenő összeg pontosan arra az esetre veszi fel a minimális értéket, amikor .

A legkisebb négyzetek módszerével végzett regressziós analízis problémájának megoldására bevezetjük a maradék függvény fogalmát :

A maradék függvény minimumának feltétele:

A kapott rendszer egy lineáris egyenletrendszer ismeretlenekkel .

Ha az egyenletek bal oldalának szabad tagjait a mátrixszal ábrázoljuk

a jobb oldali ismeretlenek együtthatói pedig a mátrix

akkor megkapjuk a mátrixegyenletet: , amely könnyen megoldható a Gauss-módszerrel . A kapott mátrix a regressziós egyenes egyenlet együtthatóit tartalmazó mátrix lesz:

A legjobb becslések eléréséhez teljesíteni kell az LSM előfeltételeit (Gauss-Markov feltételek) . Az angol nyelvű irodalomban az ilyen becsléseket KÉK -nek ( Best Linear Unbiased Estimators - „a legjobb lineáris elfogulatlan becslések”) hívják. A vizsgált függőségek többsége az LSM segítségével nemlineáris matematikai függvényekkel ábrázolható .

Regressziós paraméterek értelmezése

A paraméterek parciális korrelációs együtthatók; A fennmaradó prediktorok befolyásának rögzítésével magyarázott Y variancia arányaként értelmezhető, azaz az Y magyarázatához való egyéni hozzájárulást méri . A korrelált prediktorok esetében a becslésekben a bizonytalanság problémája van , amelyek attól válnak függővé, hogy a prediktorok milyen sorrendben szerepelnek a modellben. Ilyen esetekben szükséges a korrelációelemzés és a lépésenkénti regresszióanalízis módszereinek alkalmazása.

Ha a regresszióanalízis nemlineáris modelljeiről beszélünk, fontos odafigyelni arra, hogy független változók nemlinearitásáról (formális szempontból könnyen lineáris regresszióra redukálható), vagy a becsült paraméterek nemlinearitásáról beszélünk. (komoly számítási nehézségeket okozva). Az első típus nemlinearitása miatt értelmi szempontból fontos kiemelni a , alak tagjainak megjelenését a modellben , jelezve a jellemzők közötti interakciók jelenlétét stb . (lásd Multikollinearitás ).

Lásd még

Irodalom