A regresszió ( lat. regressio – visszafelé mozgás, visszavonulás) a valószínűségszámításban és a matematikai statisztikában egy egyoldalú sztochasztikus kapcsolat, amely megfeleltetést hoz létre a valószínűségi változók között [1] , vagyis egy matematikai kifejezés , amely az y függő változó közötti kapcsolatot tükrözi. és az x független változók , feltéve, hogy ennek a kifejezésnek statisztikai szignifikanciája lesz . Ellentétben az y = f ( x ) tisztán funkcionális függőséggel , amikor az x független változó minden értéke egy adott y értéknek felel meg , akkor regressziós kapcsolat mellett ugyanaz az x érték felelhet meg esettől függően különböző y értékei . Ha minden értékhez az y érték i - ben y i 1 … y értékei vannak , akkor az aritmetikai átlag függése a kifejezéstől és a kifejezés statisztikai értelmében regressziót jelent [2] .
Ezt a kifejezést először Francis Galton (1886) használta a statisztikákban az emberi fizikai jellemzők öröklődésének vizsgálata kapcsán. Az emberi testmagasságot vették az egyik jellemzőnek; míg azt találták, hogy általában a magas apák fiai, nem meglepő módon, magasabbak, mint az alacsony termetű apák fiai. Érdekesebb volt, hogy a fiak magasságának változása kisebb volt, mint az apák magasságában. Így nyilvánult meg az a tendencia, hogy a fiúgyermekek növekedését visszaállítsák az átlaghoz ( regresszió a középszerűségbe ), vagyis a „visszafejlődés”. Ezt a tényt az 56 hüvelyk magas apák fiainak átlagmagasságának kiszámításával, az 58 hüvelyk magas apák fiainak átlagos magasságával stb. mutatták be , és az abszcissza tengely mentén az értékeket az apák átlagos magasságából. A pontok (körülbelül) egy egyenes vonalon helyezkednek el, amelynek pozitív lejtése kisebb, mint 45°; fontos, hogy a regresszió lineáris legyen .
Tegyük fel, hogy van egy minta egy valószínűségi változópár ( X, Y ) kétváltozós eloszlásából. Az ( x, y ) síkban lévő egyenes a függvény szelektív analógja volt
A valószínűségelméletben a "regresszió" alatt ezt a függvényt értjük, amely nem más, mint egy Y valószínűségi változó feltételes matematikai elvárása , feltéve, hogy egy másik X valószínűségi változó x értéket vett fel . Ha például egy ( X, Y ) pár kétváltozós normális eloszlású , ahol E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor ( X, Y )=ρ, akkor kimutatható, hogy Y feltételes eloszlása X = x esetén is normális lesz
és diszperzió
Ebben a példában Y regressziója X - re lineáris függvény . Ha Y regressziója X - en nem lineáris, akkor a megadott egyenletek a valódi regressziós egyenlet lineáris közelítései .
Általánosságban elmondható, hogy az egyik valószínűségi változó regressziója egy másikra nem feltétlenül lesz lineáris. Nem szükséges néhány valószínűségi változóra korlátozni magát. A statisztikai regressziós problémák a regressziós egyenlet általános formájának meghatározásával, a regressziós egyenletben szereplő ismeretlen paraméterek becslésének megalkotásával és a regresszióval kapcsolatos statisztikai hipotézisek tesztelésével kapcsolatosak [3] . Ezeket a problémákat a regresszióanalízis keretein belül vizsgáljuk .
Az Y regresszió egyszerű példája X-en az Y és X közötti kapcsolat , amelyet a következő összefüggés fejez ki: Y = u ( X ) + ε, ahol u ( x )= E ( Y | X = x ), és a véletlenszerű X és ε változók függetlenek. Ez az ábrázolás akkor hasznos, ha egy kísérletet tervezünk az y = u ( x ) funkcionális kapcsolat vizsgálatára az y és x nem véletlenszerű változók között . A gyakorlatban az y = u ( x ) egyenletben szereplő regressziós együtthatók általában ismeretlenek, és kísérleti adatokból becsülik meg őket.
Az y x - től való függését egy elsőrendű lineáris modell formájában ábrázoljuk:
Feltételezzük, hogy az x értékeket hiba nélkül határozzuk meg, β 0 és β 1 modellparaméterek, ε pedig olyan hiba, amelynek eloszlása megfelel a normáltörvénynek nulla átlaggal és σ 2 állandó eltéréssel . A β paraméterek értékei nem ismertek előre, és ezeket kísérleti értékekből kell meghatározni ( x i , y i ), i =1, …, n . Így írhatjuk:
ahol a modell által egy adott x -re előrejelzett y értéke , b 0 és b 1 a modell paramétereinek mintabecslései. Határozzuk meg azt is - a közelítési hiba értékét a th-edik megfigyeléshez.
A modellparaméterek kísérleti adatokból történő kiszámításához gyakran különböző programokat használnak statisztikai adatfeldolgozásra. Erre az egyszerű esetre azonban nem nehéz részletes képleteket kiírni [4] [5] .
A legkisebb négyzetek módszere a következő képleteket adja a modell paramétereinek és azok eltéréseinek kiszámításához:
itt az átlagokat a szokásos módon definiáljuk: , s e 2 pedig a regresszió maradék eltérését jelöli, amely a σ 2 variancia becslése, ha a modell helyes.
A regressziós együtthatók standard hibáit ugyanúgy használjuk, mint az átlag standard hibáját - konfidenciaintervallumok meghatározásához és hipotézisek teszteléséhez. Használjuk például a Student-kritériumot annak a hipotézisnek a tesztelésére, hogy a regressziós együttható nullával egyenlő, vagyis a modell szempontjából jelentéktelen. A tanuló statisztikái: . Ha a kapott érték és n − 2 szabadságfok valószínűsége elég kicsi, például <0,05, akkor a hipotézist elvetjük. Ellenkezőleg, ha mondjuk nincs ok a nullhipotézis elutasítására, akkor van okunk elgondolkodni a kívánt regresszió meglétén, legalább ebben a formában, vagy további megfigyelések gyűjtésén. Ha a szabad tag egyenlő nullával , akkor az egyenes átmegy az origón és a meredekség becslése egyenlő
,és annak standard hibája
Általában a β 0 és β 1 regressziós együtthatók valódi értékei nem ismertek. Csak b 0 és b 1 becsléseik ismertek . Más szóval, a regresszió valódi egyenes vonala másképp haladhat, mint a mintaadatokra épülő. Kiszámolhatja a regressziós egyenes konfidencia régióját. Bármely x érték esetén az y megfelelő értékei normál eloszlásúak. Az átlag a regressziós egyenlet értéke . Becslésének bizonytalanságát a standard regressziós hiba jellemzi:
Most kiszámíthatja a -százalékos konfidencia intervallumot a regressziós egyenlet értékéhez az x pontban :
,ahol t (1−α/2, n − 2) a Student-eloszlás t - értéke. Az ábrán egy 10 pontos regressziós egyenes (folytonos pontok) látható, valamint a regressziós egyenes 95%-os megbízhatósági tartománya, amelyet pontozott vonalak határolnak. 95%-os valószínűséggel vitatható, hogy az igazi vonal valahol ezen a területen belül van. Vagy egyébként, ha hasonló adathalmazokat gyűjtünk (körökkel jelölve), és regressziós egyeneseket építünk rájuk (kék jelzéssel), akkor 100-ból 95 esetben ezek a vonalak nem hagyják el a konfidencia régiót. (Kattintson a képre a megjelenítéshez) Vegye figyelembe, hogy néhány pont a megbízhatósági tartományon kívül esik. Ez teljesen természetes, hiszen a regressziós egyenes bizalmi tartományáról beszélünk, és nem magukról az értékekről. Az értékek szórása a regressziós egyenes körüli értékek szórásának és magának az egyenesnek a helyzete bizonytalanságának összege, nevezetesen:
Itt m az y mérés többszöröse adott x esetén . És a százalékos konfidencia intervallum (előrejelzési intervallum) az m y értékek átlagához a következő lenne:
.Az ábrán ezt a 95%-os megbízhatósági tartományt m = 1-nél folytonos vonalak határolják. A vizsgált x értékek tartományában az összes lehetséges y érték 95%-a ebbe a tartományba esik .
Szigorúan bebizonyítható, hogy ha valamely kétdimenziós valószínűségi változó ( X, Y ) feltételes elvárása lineáris függvénye , akkor ezt a feltételes elvárást a következő formában kell ábrázolni , ahol E ( X )=μ 1 , E ( Y )=μ 2 , var ( X )=σ 1 2 , var( Y )=σ 2 2 , cor( X, Y )=ρ.
Sőt, a korábban említett lineáris modell esetében, ahol és független valószínűségi változók, és nulla várakozással (és tetszőleges eloszlással) rendelkezik, be tudjuk bizonyítani, hogy . Ekkor a fent jelzett egyenlőség felhasználásával képleteket kaphatunk és : ,
.
Ha valahonnan eleve ismert, hogy a síkon a véletlenszerű pontok halmazát egy lineáris modell állítja elő, de ismeretlen együtthatókkal és , akkor ezekre az együtthatókra pontbecslést kaphatunk a megadott képletekkel. Ehhez az X és Y valószínűségi változók matematikai elvárásai, varianciái és korrelációi helyett ezekben a képletekben be kell cserélni az elfogulatlan becsléseiket. A kapott becslési képletek pontosan egybeesnek a legkisebb négyzetek módszere alapján levezetett képletekkel.
Szótárak és enciklopédiák |
---|