Regresszió (matematika)

A regresszió ( lat. regressio – visszafelé mozgás, visszavonulás) a valószínűségszámításban és a matematikai statisztikában egy egyoldalú sztochasztikus kapcsolat, amely megfeleltetést hoz létre a valószínűségi változók között [1] , vagyis egy matematikai kifejezés , amely az y függő változó közötti kapcsolatot tükrözi. és az x független változók , feltéve, hogy ennek a kifejezésnek statisztikai szignifikanciája lesz . Ellentétben az y = f ( x ) tisztán funkcionális függőséggel , amikor az x független változó minden értéke egy adott y értéknek felel meg , akkor regressziós kapcsolat mellett ugyanaz az x érték felelhet meg esettől függően különböző y értékei . Ha minden értékhez az y érték i - ben y i 1 … y értékei vannak , akkor az aritmetikai átlag függése a kifejezéstől és a kifejezés statisztikai értelmében regressziót jelent [2] . $x=x_{i}$ $n_{i}$ ${\bar {y}}_{i}=(y_{i1}+...+y_{in_{i}})/n_{i}$ $x=x_{i}$

Történelem

Ezt a kifejezést először Francis Galton (1886) használta a statisztikákban az emberi fizikai jellemzők öröklődésének vizsgálata kapcsán. Az emberi testmagasságot vették az egyik jellemzőnek; míg azt találták, hogy általában a magas apák fiai, nem meglepő módon, magasabbak, mint az alacsony termetű apák fiai. Érdekesebb volt, hogy a fiak magasságának változása kisebb volt, mint az apák magasságában. Így nyilvánult meg az a tendencia, hogy a fiúgyermekek növekedését visszaállítsák az átlaghoz ( regresszió a középszerűségbe ), vagyis a „visszafejlődés”. Ezt a tényt az 56 hüvelyk magas apák fiainak átlagmagasságának kiszámításával, az 58 hüvelyk magas apák fiainak átlagos magasságával stb. mutatták be , és az abszcissza tengely mentén az értékeket az apák átlagos magasságából. A pontok (körülbelül) egy egyenes vonalon helyezkednek el, amelynek pozitív lejtése kisebb, mint 45°; fontos, hogy a regresszió lineáris legyen .

Leírás

Tegyük fel, hogy van egy minta egy valószínűségi változópár ( X, Y ) kétváltozós eloszlásából. Az ( x, y ) síkban lévő egyenes a függvény szelektív analógja volt

g(x)=E(Y\közép X=x).

A valószínűségelméletben a "regresszió" alatt ezt a függvényt értjük, amely nem más, mint egy Y valószínűségi változó feltételes matematikai elvárása , feltéve, hogy egy másik X valószínűségi változó x értéket vett fel . Ha például egy ( X, Y ) pár kétváltozós normális eloszlású , ahol E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor ( X, Y )=ρ, akkor kimutatható, hogy Y feltételes eloszlása X = x esetén is normális lesz

E(Y\mid X=x)=\mu_2+\varrho\frac{\sigma_2}{\sigma_1}(x-\mu_1),

és diszperzió

\mathrm{var}(Y\mid X=x)=\sigma_2^2(1-\varrho^2).

Ebben a példában Y regressziója X - re lineáris függvény . Ha Y regressziója X - en nem lineáris, akkor a megadott egyenletek a valódi regressziós egyenlet lineáris közelítései .

Általánosságban elmondható, hogy az egyik valószínűségi változó regressziója egy másikra nem feltétlenül lesz lineáris. Nem szükséges néhány valószínűségi változóra korlátozni magát. A statisztikai regressziós problémák a regressziós egyenlet általános formájának meghatározásával, a regressziós egyenletben szereplő ismeretlen paraméterek becslésének megalkotásával és a regresszióval kapcsolatos statisztikai hipotézisek tesztelésével kapcsolatosak [3] . Ezeket a problémákat a regresszióanalízis keretein belül vizsgáljuk .

Az Y regresszió egyszerű példája X-en az Y és X közötti kapcsolat , amelyet a következő összefüggés fejez ki: Y = u ( X ) + ε, ahol u ( x )= E ( Y | X = x ), és a véletlenszerű X és ε változók függetlenek. Ez az ábrázolás akkor hasznos, ha egy kísérletet tervezünk az y = u ( x ) funkcionális kapcsolat vizsgálatára az y és x nem véletlenszerű változók között . A gyakorlatban az y = u ( x ) egyenletben szereplő regressziós együtthatók általában ismeretlenek, és kísérleti adatokból becsülik meg őket.

Lineáris regresszió

Az y x - től való függését egy elsőrendű lineáris modell formájában ábrázoljuk:

y=\beta _{0}+\beta _{1}x+\varepsilon .

Feltételezzük, hogy az x értékeket hiba nélkül határozzuk meg, β 0 és β 1 modellparaméterek, ε pedig olyan hiba, amelynek eloszlása megfelel a normáltörvénynek nulla átlaggal és σ 2 állandó eltéréssel . A β paraméterek értékei nem ismertek előre, és ezeket kísérleti értékekből kell meghatározni ( x i , y i ), i =1, …, n . Így írhatjuk:

{\widehat {y_{i}}}=b_{0}+b_{1}x_{i},i=1,\dots ,n

ahol a modell által egy adott x -re előrejelzett y értéke , b 0 és b 1 a modell paramétereinek mintabecslései. Határozzuk meg azt is - a közelítési hiba értékét a th-edik megfigyeléshez. $\widehat{y}$ $e_i=y_i-\widehat{y_i}$ $én$

A modellparaméterek kísérleti adatokból történő kiszámításához gyakran különböző programokat használnak statisztikai adatfeldolgozásra. Erre az egyszerű esetre azonban nem nehéz részletes képleteket kiírni [4] [5] .

A legkisebb négyzetek módszere a következő képleteket adja a modell paramétereinek és azok eltéréseinek kiszámításához:

b_{1}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x)))(y_{i}-{\bar {y} })}{\sum _{i=1}^{n}(x_{i}-{\bar {x)))^{2))}={\frac {\mathrm {cov} (x,y )}{\sigma _{x}^{2}}};

b_0=\bar{y}-b_1\bar{x};

s_e^2=\frac{\sum_{i=1}^n (y_i-\widehat{y})^2}{n-2};

s_{b_0}=s_e \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar x)^2)) ;

s_{b_1}=s_e \sqrt{\frac{1}{\sum_{i=1}^n(x_i-\bar x)^2}},

itt az átlagokat a szokásos módon definiáljuk: , s e 2 pedig a regresszió maradék eltérését jelöli, amely a σ 2 variancia becslése, ha a modell helyes. $\bar x=\frac{\sum_{i=1}^nx_i}{n}$ $\bar y=\frac{\sum_{i=1}^ny_i}{n}$

A regressziós együtthatók standard hibáit ugyanúgy használjuk, mint az átlag standard hibáját - konfidenciaintervallumok meghatározásához és hipotézisek teszteléséhez. Használjuk például a Student-kritériumot annak a hipotézisnek a tesztelésére, hogy a regressziós együttható nullával egyenlő, vagyis a modell szempontjából jelentéktelen. A tanuló statisztikái: . Ha a kapott érték és n − 2 szabadságfok valószínűsége elég kicsi, például <0,05, akkor a hipotézist elvetjük. Ellenkezőleg, ha mondjuk nincs ok a nullhipotézis elutasítására, akkor van okunk elgondolkodni a kívánt regresszió meglétén, legalább ebben a formában, vagy további megfigyelések gyűjtésén. Ha a szabad tag egyenlő nullával , akkor az egyenes átmegy az origón és a meredekség becslése egyenlő ${\displaystyle t=b/s_{b))$ $b_{1}$ $b_{0}$

b=\frac{\sum_{i=1}^n x_iy_i}{\sum_{i=1}^n x_i^2}

és annak standard hibája

s_{b}=s_e \sqrt{\frac{1}{\sum_{i=1}^n x_i^2}}.

Általában a β 0 és β 1 regressziós együtthatók valódi értékei nem ismertek. Csak b 0 és b 1 becsléseik ismertek . Más szóval, a regresszió valódi egyenes vonala másképp haladhat, mint a mintaadatokra épülő. Kiszámolhatja a regressziós egyenes konfidencia régióját. Bármely x érték esetén az y megfelelő értékei normál eloszlásúak. Az átlag a regressziós egyenlet értéke . Becslésének bizonytalanságát a standard regressziós hiba jellemzi: $\widehat{y}$

s_{\widehat{y}}=s_e \sqrt{\frac{1}{n} + \frac{(x-\bar{x})^2}{\sum_{i=1}^n(x_i- \bar x)^2}};

Most kiszámíthatja a -százalékos konfidencia intervallumot a regressziós egyenlet értékéhez az x pontban : $100\cdot \left(1-{\frac {\alpha }{2}}\right)$

\widehat{y}-t_{(1-\alpha/2, n-2)}s_{\widehat{y}}<y<\widehat{y}+t_{(1-\alpha/2, n- 2)}s_{\widehat{y}}

ahol t (1−α/2, n − 2) a Student-eloszlás t - értéke. Az ábrán egy 10 pontos regressziós egyenes (folytonos pontok) látható, valamint a regressziós egyenes 95%-os megbízhatósági tartománya, amelyet pontozott vonalak határolnak. 95%-os valószínűséggel vitatható, hogy az igazi vonal valahol ezen a területen belül van. Vagy egyébként, ha hasonló adathalmazokat gyűjtünk (körökkel jelölve), és regressziós egyeneseket építünk rájuk (kék jelzéssel), akkor 100-ból 95 esetben ezek a vonalak nem hagyják el a konfidencia régiót. (Kattintson a képre a megjelenítéshez) Vegye figyelembe, hogy néhány pont a megbízhatósági tartományon kívül esik. Ez teljesen természetes, hiszen a regressziós egyenes bizalmi tartományáról beszélünk, és nem magukról az értékekről. Az értékek szórása a regressziós egyenes körüli értékek szórásának és magának az egyenesnek a helyzete bizonytalanságának összege, nevezetesen:

s_Y=s_e \sqrt{\frac{1}{m} + \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum_{i=1}^n( x_i-\bar x)^2}};

Itt m az y mérés többszöröse adott x esetén . És a százalékos konfidencia intervallum (előrejelzési intervallum) az m y értékek átlagához a következő lenne: $100\cdot \left(1-{\frac {\alpha }{2}}\right)$

\widehat{y}-t_{(1-\alpha/2, n-2)}s_Y<y<\widehat{y}+t_{(1-\alpha/2, n-2)}s_Y

Az ábrán ezt a 95%-os megbízhatósági tartományt m = 1-nél folytonos vonalak határolják. A vizsgált x értékek tartományában az összes lehetséges y érték 95%-a ebbe a tartományba esik .

Még néhány statisztika

Szigorúan bebizonyítható, hogy ha valamely kétdimenziós valószínűségi változó ( X, Y ) feltételes elvárása lineáris függvénye , akkor ezt a feltételes elvárást a következő formában kell ábrázolni , ahol E ( X )=μ 1 , E ( Y )=μ 2 , var ( X )=σ 1 2 , var( Y )=σ 2 2 , cor( X, Y )=ρ. $E(Y\mid X=x)$ $x$ $E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2)){\sigma _{1))}(x-\mu _{1 })$

Sőt, a korábban említett lineáris modell esetében, ahol és független valószínűségi változók, és nulla várakozással (és tetszőleges eloszlással) rendelkezik, be tudjuk bizonyítani, hogy . Ekkor a fent jelzett egyenlőség felhasználásával képleteket kaphatunk és : , $Y=\beta _{0}+\beta _{1}X+\varepsilon$ $x$ $\varepsilon$ $\varepsilon$ $E(Y\mid X=x)=\beta _{0}+\beta _{1}x$ ${\displaystyle \beta _{0))$ $\beta_{1}$ $\beta _{1}=\varrho {\frac {\sigma _{2}}{\sigma _{1}}}$

${\displaystyle \beta _{0}=\mu _{2}-\beta _{1}\mu _{1))$ .

Ha valahonnan eleve ismert, hogy a síkon a véletlenszerű pontok halmazát egy lineáris modell állítja elő, de ismeretlen együtthatókkal és , akkor ezekre az együtthatókra pontbecslést kaphatunk a megadott képletekkel. Ehhez az X és Y valószínűségi változók matematikai elvárásai, varianciái és korrelációi helyett ezekben a képletekben be kell cserélni az elfogulatlan becsléseiket. A kapott becslési képletek pontosan egybeesnek a legkisebb négyzetek módszere alapján levezetett képletekkel. ${\displaystyle \beta _{0))$ $\beta_{1}$

Jegyzetek

↑ E. Foerster, B. Renz , Methods of Correlation and Regression Analysis, 1983 , p. tizenöt.
↑ Regresszió // Nagy Szovjet Enciklopédia : [30 kötetben] / ch. szerk. A. M. Prohorov . - 3. kiadás - M . : Szovjet Enciklopédia, 1969-1978.
↑ Alkalmazott statisztika kézikönyve. 2 kötetben T. 1: Per. angolról. / Szerk. E. Lloyd, W. Lederman, Yu. N. Tyurin. — M.: Pénzügy és statisztika, 1989. — 510 p. — ISBN 5-279-00245-3
↑ Lavagnini I., Magno F., Seraglia R., Traldi P. Kvantitatív módszerek a tömegspektrometriában - M .: Technosfera, 2008. - 176 p. - ISBN 978-5-94836-190-1 ; ISBN 978-0-470-02516-1
↑ Sergienko V.I., Bondareva I.B. Matematikai statisztika a klinikai kutatásban. - 2. kiadás, átdolgozva. és további — M.: GEOTAR-Media, 2006. — 304 p. — ISBN 5-9704-0197-8

Irodalom

Forster E., Renz B. Korrelációs és regresszióanalízis módszerei. Útmutató közgazdászoknak. - M. : Pénzügy és statisztika, 1983. - 304 p. — (Külföldi könyvek könyvtára közgazdászok és statisztikusok számára).

Linkek

Francis Galton. "Regression Towards Mediocrity in Hereditary Stature", Journal of the Anthropological Institute , 15:246-263 (1886). (Angol)

Szótárak és enciklopédiák	Nagy orosz