Regresszió (matematika)

A regresszió ( lat.  regressio  – visszafelé mozgás, visszavonulás) a valószínűségszámításban és a matematikai statisztikában  egy egyoldalú sztochasztikus kapcsolat, amely megfeleltetést hoz létre a valószínűségi változók között [1] , vagyis egy matematikai kifejezés , amely az y függő változó közötti kapcsolatot tükrözi. és az x független változók , feltéve, hogy ennek a kifejezésnek statisztikai szignifikanciája lesz . Ellentétben az y = f ( x ) tisztán funkcionális függőséggel , amikor az x független változó minden értéke egy adott y értéknek felel meg , akkor regressziós kapcsolat mellett ugyanaz az x érték felelhet meg esettől függően különböző y értékei . Ha minden értékhez az y érték i - ben y i 1 … y értékei vannak , akkor az aritmetikai átlag függése a kifejezéstől és a kifejezés statisztikai értelmében regressziót jelent [2] .

Történelem

Ezt a kifejezést először Francis Galton (1886) használta a statisztikákban az emberi fizikai jellemzők öröklődésének vizsgálata kapcsán. Az emberi testmagasságot vették az egyik jellemzőnek; míg azt találták, hogy általában a magas apák fiai, nem meglepő módon, magasabbak, mint az alacsony termetű apák fiai. Érdekesebb volt, hogy a fiak magasságának változása kisebb volt, mint az apák magasságában. Így nyilvánult meg az a tendencia, hogy a fiúgyermekek növekedését visszaállítsák az átlaghoz ( regresszió a középszerűségbe ), vagyis a „visszafejlődés”. Ezt a tényt az 56 hüvelyk magas apák fiainak átlagmagasságának kiszámításával, az 58 hüvelyk magas apák fiainak átlagos magasságával stb. mutatták be , és az abszcissza tengely mentén  az értékeket az apák átlagos magasságából. A pontok (körülbelül) egy egyenes vonalon helyezkednek el, amelynek pozitív lejtése kisebb, mint 45°; fontos, hogy a regresszió lineáris legyen .

Leírás

Tegyük fel, hogy van egy minta egy valószínűségi változópár ( X, Y ) kétváltozós eloszlásából. Az ( x, y ) síkban lévő egyenes a függvény szelektív analógja volt

A valószínűségelméletben a "regresszió" alatt ezt a függvényt értjük, amely nem más, mint egy Y valószínűségi változó feltételes matematikai elvárása , feltéve, hogy egy másik X valószínűségi változó x értéket vett fel . Ha például egy ( X, Y ) pár kétváltozós normális eloszlású , ahol E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor ( X, Y )=ρ, akkor kimutatható, hogy Y feltételes eloszlása ​​X = x esetén is normális lesz

és diszperzió

Ebben a példában Y regressziója X - re lineáris függvény . Ha Y regressziója X - en nem lineáris, akkor a megadott egyenletek a valódi regressziós egyenlet lineáris közelítései .

Általánosságban elmondható, hogy az egyik valószínűségi változó regressziója egy másikra nem feltétlenül lesz lineáris. Nem szükséges néhány valószínűségi változóra korlátozni magát. A statisztikai regressziós problémák a regressziós egyenlet általános formájának meghatározásával, a regressziós egyenletben szereplő ismeretlen paraméterek becslésének megalkotásával és a regresszióval kapcsolatos statisztikai hipotézisek tesztelésével kapcsolatosak [3] . Ezeket a problémákat a regresszióanalízis keretein belül vizsgáljuk .

Az Y regresszió egyszerű példája X-en az Y és X közötti kapcsolat , amelyet a következő összefüggés fejez ki: Y = u ( X ) + ε, ahol u ( x )= E ( Y | X = x ), és a véletlenszerű X és ε változók függetlenek. Ez az ábrázolás akkor hasznos, ha egy kísérletet tervezünk az y = u ( x ) funkcionális kapcsolat vizsgálatára az y és x nem véletlenszerű változók között . A gyakorlatban az y = u ( x ) egyenletben szereplő regressziós együtthatók általában ismeretlenek, és kísérleti adatokból becsülik meg őket.

Lineáris regresszió

Az y x - től való függését egy elsőrendű lineáris modell formájában ábrázoljuk:

Feltételezzük, hogy az x értékeket hiba nélkül határozzuk meg, β 0 és β 1  modellparaméterek, ε pedig olyan hiba, amelynek eloszlása ​​megfelel a normáltörvénynek nulla átlaggal és σ 2 állandó eltéréssel . A β paraméterek értékei nem ismertek előre, és ezeket kísérleti értékekből kell meghatározni ( x i , y i ), i =1, …, n . Így írhatjuk:

ahol a modell által egy adott x -re előrejelzett y értéke , b 0 és b 1  a modell paramétereinek mintabecslései. Határozzuk meg azt is  - a közelítési hiba értékét a th-edik megfigyeléshez.

A modellparaméterek kísérleti adatokból történő kiszámításához gyakran különböző programokat használnak statisztikai adatfeldolgozásra. Erre az egyszerű esetre azonban nem nehéz részletes képleteket kiírni [4] [5] .

A legkisebb négyzetek módszere a következő képleteket adja a modell paramétereinek és azok eltéréseinek kiszámításához:

itt az átlagokat a szokásos módon definiáljuk: , s e 2 pedig a regresszió maradék eltérését jelöli, amely a σ 2 variancia becslése, ha a modell helyes.

A regressziós együtthatók standard hibáit ugyanúgy használjuk, mint az átlag standard hibáját - konfidenciaintervallumok meghatározásához és hipotézisek teszteléséhez. Használjuk például a Student-kritériumot annak a hipotézisnek a tesztelésére, hogy a regressziós együttható nullával egyenlő, vagyis a modell szempontjából jelentéktelen. A tanuló statisztikái: . Ha a kapott érték és n − 2 szabadságfok valószínűsége elég kicsi, például <0,05, akkor a hipotézist elvetjük. Ellenkezőleg, ha mondjuk nincs ok a nullhipotézis elutasítására,  akkor van okunk elgondolkodni a kívánt regresszió meglétén, legalább ebben a formában, vagy további megfigyelések gyűjtésén. Ha a szabad tag egyenlő nullával , akkor az egyenes átmegy az origón és a meredekség becslése egyenlő

,

és annak standard hibája

Általában a β 0 és β 1 regressziós együtthatók valódi értékei nem ismertek. Csak b 0 és b 1 becsléseik ismertek . Más szóval, a regresszió valódi egyenes vonala másképp haladhat, mint a mintaadatokra épülő. Kiszámolhatja a regressziós egyenes konfidencia régióját. Bármely x érték esetén az y megfelelő értékei normál eloszlásúak. Az átlag a regressziós egyenlet értéke . Becslésének bizonytalanságát a standard regressziós hiba jellemzi:

Most kiszámíthatja a -százalékos konfidencia intervallumot a regressziós egyenlet értékéhez az x pontban :

,

ahol t (1−α/2, n − 2)  a Student-eloszlás t - értéke. Az ábrán egy 10 pontos regressziós egyenes (folytonos pontok) látható, valamint a regressziós egyenes 95%-os megbízhatósági tartománya, amelyet pontozott vonalak határolnak. 95%-os valószínűséggel vitatható, hogy az igazi vonal valahol ezen a területen belül van. Vagy egyébként, ha hasonló adathalmazokat gyűjtünk (körökkel jelölve), és regressziós egyeneseket építünk rájuk (kék jelzéssel), akkor 100-ból 95 esetben ezek a vonalak nem hagyják el a konfidencia régiót. (Kattintson a képre a megjelenítéshez) Vegye figyelembe, hogy néhány pont a megbízhatósági tartományon kívül esik. Ez teljesen természetes, hiszen a regressziós egyenes bizalmi tartományáról beszélünk, és nem magukról az értékekről. Az értékek szórása a regressziós egyenes körüli értékek szórásának és magának az egyenesnek a helyzete bizonytalanságának összege, nevezetesen:

Itt m  az y mérés többszöröse adott x esetén . És a százalékos konfidencia intervallum (előrejelzési intervallum) az m y értékek átlagához a következő lenne:

.

Az ábrán ezt a 95%-os megbízhatósági tartományt m = 1-nél folytonos vonalak határolják. A vizsgált x értékek tartományában az összes lehetséges y érték 95%-a ebbe a tartományba esik .

Még néhány statisztika

Szigorúan bebizonyítható, hogy ha valamely kétdimenziós valószínűségi változó ( X, Y ) feltételes elvárása lineáris függvénye , akkor ezt a feltételes elvárást a következő formában kell ábrázolni , ahol E ( X )=μ 1 , E ( Y )=μ 2 , var ( X )=σ 1 2 , var( Y )=σ 2 2 , cor( X, Y )=ρ.

Sőt, a korábban említett lineáris modell esetében, ahol és  független valószínűségi változók, és nulla várakozással (és tetszőleges eloszlással) rendelkezik, be tudjuk bizonyítani, hogy . Ekkor a fent jelzett egyenlőség felhasználásával képleteket kaphatunk és : ,

.

Ha valahonnan eleve ismert, hogy a síkon a véletlenszerű pontok halmazát egy lineáris modell állítja elő, de ismeretlen együtthatókkal és , akkor ezekre az együtthatókra pontbecslést kaphatunk a megadott képletekkel. Ehhez az X és Y valószínűségi változók matematikai elvárásai, varianciái és korrelációi helyett ezekben a képletekben be kell cserélni az elfogulatlan becsléseiket. A kapott becslési képletek pontosan egybeesnek a legkisebb négyzetek módszere alapján levezetett képletekkel.

Jegyzetek

  1. E. Foerster, B. Renz , Methods of Correlation and Regression Analysis, 1983 , p. tizenöt.
  2. Regresszió // Nagy Szovjet Enciklopédia  : [30 kötetben]  / ch. szerk. A. M. Prohorov . - 3. kiadás - M .  : Szovjet Enciklopédia, 1969-1978.
  3. Alkalmazott statisztika kézikönyve. 2 kötetben T. 1: Per. angolról. / Szerk. E. Lloyd, W. Lederman, Yu. N. Tyurin. — M.: Pénzügy és statisztika, 1989. — 510 p. — ISBN 5-279-00245-3
  4. Lavagnini I., Magno F., Seraglia R., Traldi P. Kvantitatív módszerek a tömegspektrometriában - M .: Technosfera, 2008. - 176 p. - ISBN 978-5-94836-190-1 ; ISBN 978-0-470-02516-1
  5. Sergienko V.I., Bondareva I.B. Matematikai statisztika a klinikai kutatásban. - 2. kiadás, átdolgozva. és további — M.: GEOTAR-Media, 2006. — 304 p. — ISBN 5-9704-0197-8

Irodalom

Linkek