A regressziós elemzés statisztikai módszerek összessége egy vagy több független változó függő változóra gyakorolt hatásának tanulmányozására . A független változókat másképpen regresszoroknak vagy prediktoroknak, a függő változókat pedig kritériumoknak vagy regresszoroknak nevezzük. A függő és független változók terminológiája csak a változók matematikai függőségét tükrözi ( lásd korreláció ), ok-okozati összefüggéseket nem. A regresszióanalízis legelterjedtebb típusa a lineáris regresszió, amikor olyan lineáris függvényt találunk, amely bizonyos matematikai kritériumok szerint a legjobban egyezik az adatokkal. Például a legkisebb négyzetek módszerében egy egyenest (vagy hipersíkot) számítanak ki, amelynek négyzetösszege és az adat között minimális.
A szigorúan regresszív függőséget a következőképpen határozhatjuk meg. Legyenek valószínűségi változók adott közös valószínűségi eloszlással. Ha minden értékkészlethez feltételes elvárás van meghatározva
(általános regressziós egyenlet),akkor a függvényt nagyságrendi regressziónak nevezzük , grafikonját pedig regressziós egyenesnek vagy regressziós egyenletnek .
A függőség az átlagértékek változásában nyilvánul meg változáskor . Bár minden rögzített értékhalmaz esetében az érték egy bizonyos eloszlású valószínűségi változó marad .
Annak a kérdésnek a tisztázása érdekében, hogy a regressziós elemzés mennyire pontosan becsüli meg a változással járó változást , a variancia átlagos értékét használjuk különböző értékkészletekre (valójában a függő változó szóródásának mértékéről beszélünk regressziós egyenes).
Mátrix formában a regressziós egyenlet (ER) a következőképpen van felírva: , ahol a hibamátrix. Egy X◤X invertálható mátrixszal a B együtthatók oszlopvektorát kapjuk, figyelembe véve U◤U=min(B). Egy adott esetben X=(±1) esetén az X◤X mátrix forgatható, és az SD használható idősorelemzésben és műszaki adatfeldolgozásban.
A gyakorlatban a regressziós egyenest leggyakrabban olyan lineáris függvényként ( lineáris regresszió ) keresik, amely a legjobban közelíti a kívánt görbét. Ez a legkisebb négyzetek módszerével történik , amikor a ténylegesen megfigyelt becslésektől való négyzetes eltérések összege minimálisra csökken (vagyis a kívánt regressziós függőséget állítólagos egyenest használó becsléseket):
( a minta mérete). Ez a megközelítés azon a jól ismert tényen alapul, hogy a fenti kifejezésben megjelenő összeg pontosan arra az esetre veszi fel a minimális értéket, amikor .
A legkisebb négyzetek módszerével végzett regressziós analízis problémájának megoldására bevezetjük a maradék függvény fogalmát :
A maradék függvény minimumának feltétele:
A kapott rendszer egy lineáris egyenletrendszer ismeretlenekkel .
Ha az egyenletek bal oldalának szabad tagjait a mátrixszal ábrázoljuk
a jobb oldali ismeretlenek együtthatói pedig a mátrix
akkor megkapjuk a mátrixegyenletet: , amely könnyen megoldható a Gauss-módszerrel . A kapott mátrix a regressziós egyenes egyenlet együtthatóit tartalmazó mátrix lesz:
A legjobb becslések eléréséhez teljesíteni kell az LSM előfeltételeit (Gauss-Markov feltételek) . Az angol nyelvű irodalomban az ilyen becsléseket KÉK -nek ( Best Linear Unbiased Estimators - „a legjobb lineáris elfogulatlan becslések”) hívják. A vizsgált függőségek többsége az LSM segítségével nemlineáris matematikai függvényekkel ábrázolható .
A paraméterek parciális korrelációs együtthatók; A fennmaradó prediktorok befolyásának rögzítésével magyarázott Y variancia arányaként értelmezhető, azaz az Y magyarázatához való egyéni hozzájárulást méri . A korrelált prediktorok esetében a becslésekben a bizonytalanság problémája van , amelyek attól válnak függővé, hogy a prediktorok milyen sorrendben szerepelnek a modellben. Ilyen esetekben szükséges a korrelációelemzés és a lépésenkénti regresszióanalízis módszereinek alkalmazása.
Ha a regresszióanalízis nemlineáris modelljeiről beszélünk, fontos odafigyelni arra, hogy független változók nemlinearitásáról (formális szempontból könnyen lineáris regresszióra redukálható), vagy a becsült paraméterek nemlinearitásáról beszélünk. (komoly számítási nehézségeket okozva). Az első típus nemlinearitása miatt értelmi szempontból fontos kiemelni a , alak tagjainak megjelenését a modellben , jelezve a jellemzők közötti interakciók jelenlétét stb . (lásd Multikollinearitás ).
![]() | ||||
---|---|---|---|---|
|
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|