Regresszió analízis

A regressziós elemzés statisztikai módszerek összessége egy vagy több független változó függő változóra gyakorolt hatásának tanulmányozására . A független változókat másképpen regresszoroknak vagy prediktoroknak, a függő változókat pedig kritériumoknak vagy regresszoroknak nevezzük. A függő és független változók terminológiája csak a változók matematikai függőségét tükrözi ( lásd korreláció ), ok-okozati összefüggéseket nem. A regresszióanalízis legelterjedtebb típusa a lineáris regresszió, amikor olyan lineáris függvényt találunk, amely bizonyos matematikai kritériumok szerint a legjobban egyezik az adatokkal. Például a legkisebb négyzetek módszerében egy egyenest (vagy hipersíkot) számítanak ki, amelynek négyzetösszege és az adat között minimális. $X_{1},X_{2},...,X_{p}$ $Y$

A regresszióanalízis céljai

A kritérium (függő) változó variációja determinizmus fokának meghatározása prediktorokkal (független változók)
A függő változó értékének előrejelzése a független változó(k) segítségével
Az egyes független változók hozzájárulásának meghatározása a függő változásához

A regresszió matematikai meghatározása

A szigorúan regresszív függőséget a következőképpen határozhatjuk meg. Legyenek valószínűségi változók adott közös valószínűségi eloszlással. Ha minden értékkészlethez feltételes elvárás van meghatározva $Y,X_{1},X_{2},\ldots ,X_{p}$ $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$

y(x_{1},x_{2},\ldots ,x_{p})={\mathbb {E))(Y\mid X_{1}=x_{1},X_{2}=x_{2 },\ldots ,X_{p}=x_{p})

(általános regressziós egyenlet),

akkor a függvényt nagyságrendi regressziónak nevezzük , grafikonját pedig regressziós egyenesnek vagy regressziós egyenletnek . $y(x_{1},x_{2},\ldots ,x_{p})$ $Y$ $X_{1},X_{2},\ldots ,X_{p}$ $Y$ $X_{1},X_{2},\ldots ,X_{p}$

A függőség az átlagértékek változásában nyilvánul meg változáskor . Bár minden rögzített értékhalmaz esetében az érték egy bizonyos eloszlású valószínűségi változó marad . $Y$ $X_{1},X_{2},\ldots ,X_{p}$ $Y$ $X_{1},X_{2},\ldots ,X_{p}$ $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$ $Y$

Annak a kérdésnek a tisztázása érdekében, hogy a regressziós elemzés mennyire pontosan becsüli meg a változással járó változást , a variancia átlagos értékét használjuk különböző értékkészletekre (valójában a függő változó szóródásának mértékéről beszélünk regressziós egyenes). $Y$ $X_{1},X_{2},...,X_{p}$ $Y$ $X_{1},X_{2},...,X_{p}$

Mátrix formában a regressziós egyenlet (ER) a következőképpen van felírva: , ahol a hibamátrix. Egy X◤X invertálható mátrixszal a B együtthatók oszlopvektorát kapjuk, figyelembe véve U◤U=min(B). Egy adott esetben X=(±1) esetén az X◤X mátrix forgatható, és az SD használható idősorelemzésben és műszaki adatfeldolgozásban. $Y=BX+U$ $U$

A legkisebb négyzetek módszere (együtthatók számítása)

A gyakorlatban a regressziós egyenest leggyakrabban olyan lineáris függvényként ( lineáris regresszió ) keresik, amely a legjobban közelíti a kívánt görbét. Ez a legkisebb négyzetek módszerével történik , amikor a ténylegesen megfigyelt becslésektől való négyzetes eltérések összege minimálisra csökken (vagyis a kívánt regressziós függőséget állítólagos egyenest használó becsléseket): ${\displaystyle Y=b_{0}+b_{1}X_{1}+b_{2}X_{2}+\ldots +b_{N}X_{N))$ ${Y}$ ${\kalap {Y}}$

\sum _{{k=1}}^{{M}}(Y_{k}-{\hat {Y_{k}}})^{2}\to \min

( a minta mérete). Ez a megközelítés azon a jól ismert tényen alapul, hogy a fenti kifejezésben megjelenő összeg pontosan arra az esetre veszi fel a minimális értéket, amikor . $M$ $Y=y(x_{1},x_{2},...x_{N})$

A legkisebb négyzetek módszerével végzett regressziós analízis problémájának megoldására bevezetjük a maradék függvény fogalmát :

\sigma ({\bar {b)))={\frac {1}{2}}\sum _{{k=1}}^{{M}}{(Y_{k}-{\hat {Y }}_{k})^{2}}

A maradék függvény minimumának feltétele:

\left\{{\begin{matrix}{\frac {\partial \sigma ({\bar {b)))}{\partial b_{i))}=0\\i=0... N\end{mátrix}}\jobbra.\Leftrightarrow {\begin{cases}\sum \limits _{i=1}^{M}{y_{i}}=\sum \limits _{i=1}^ {M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}}}+b_{0}M\\\sum \limits _{i=1}^ {M}{y_{i}x_{i,k}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j} x_{i,j}x_{i,k}}}+b_{0}\sum \limits _{i=1}^{M}{x_{i,k}}\\k=1,\ldots , N\end{cases}}

A kapott rendszer egy lineáris egyenletrendszer ismeretlenekkel . $N+1$ $N+1$ $b_{0},\ldots ,b_{N}$

Ha az egyenletek bal oldalának szabad tagjait a mátrixszal ábrázoljuk

B=\left({\begin{mátrix}\sum \limits _{i=1}^{M}{y_{i}}\\\sum \limits _{i=1}^{M} {y_{i}x_{i,1}}\\\vdots \\\sum \limits _{i=1}^{M}{y_{i}x_{i,N}}\end{mátrix}} \jobb),

a jobb oldali ismeretlenek együtthatói pedig a mátrix

A=\left({\begin{mátrix}M&\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{ M}{x_{i,2}}&...&\sum \limits _{i=1}^{M}{x_{i,N}}\\\sum \limits _{i=1}^ {M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,1}}&\sum \limits _{i=1 }^{M}{x_{i,2}x_{i,1}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,1 }}\\\sum \limits _{i=1}^{M}{x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{ i,2}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,2}}&...&\sum \limits _{i=1}^ {M}{x_{i,N}x_{i,2}}\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum \limits _{i=1}^{M}{ x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,N}}&\sum \limits _{i=1}^{M }{x_{i,2}x_{i,N}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,N}}\end {mátrix}}\jobbra),

akkor megkapjuk a mátrixegyenletet: , amely könnyen megoldható a Gauss-módszerrel . A kapott mátrix a regressziós egyenes egyenlet együtthatóit tartalmazó mátrix lesz: $A\timesX=B$

X=\left({\begin{mátrix}b_{0}\\b_{1}\\\vdots \\b_{N}\end{mátrix}}\jobbra)

A legjobb becslések eléréséhez teljesíteni kell az LSM előfeltételeit (Gauss-Markov feltételek) . Az angol nyelvű irodalomban az ilyen becsléseket KÉK -nek ( Best Linear Unbiased Estimators - „a legjobb lineáris elfogulatlan becslések”) hívják. A vizsgált függőségek többsége az LSM segítségével nemlineáris matematikai függvényekkel ábrázolható .

Regressziós paraméterek értelmezése

A paraméterek parciális korrelációs együtthatók; A fennmaradó prediktorok befolyásának rögzítésével magyarázott Y variancia arányaként értelmezhető, azaz az Y magyarázatához való egyéni hozzájárulást méri . A korrelált prediktorok esetében a becslésekben a bizonytalanság problémája van , amelyek attól válnak függővé, hogy a prediktorok milyen sorrendben szerepelnek a modellben. Ilyen esetekben szükséges a korrelációelemzés és a lépésenkénti regresszióanalízis módszereinek alkalmazása. $kettős}$ $(b_{i})^{2}$ $X_{i}$ $X_{i}$

Ha a regresszióanalízis nemlineáris modelljeiről beszélünk, fontos odafigyelni arra, hogy független változók nemlinearitásáról (formális szempontból könnyen lineáris regresszióra redukálható), vagy a becsült paraméterek nemlinearitásáról beszélünk. (komoly számítási nehézségeket okozva). Az első típus nemlinearitása miatt értelmi szempontból fontos kiemelni a , alak tagjainak megjelenését a modellben , jelezve a jellemzők közötti interakciók jelenlétét stb . (lásd Multikollinearitás ). $X_{1}X_{2}$ $X_{1}X_{2}X_{3}$ $X_{1}$ $X_{2}$

Lásd még

Irodalom

Draper N., Smith G. Alkalmazott regressziós elemzés. Többszörös regresszió = Alkalmazott regressziós elemzés. - 3. kiadás - M . : " Dialektika ", 2007. - 912 p. — ISBN 0-471-17082-8 .
Förster E., Renz B. A korrelációs és regresszióanalízis módszerei = Methoden der Korrelation - und Regressiolynsanalise. - M. : Pénzügy és statisztika, 1981. - 302 p.
Zakharov S. I. , Kholmskaya A. G. A rezgés- és zajjelek feldolgozásának hatékonyságának javítása a mechanizmusok tesztelése során // Vestnik mashinostroeniya : zhurnal. - M . : Mashinostroenie, 2001. - 10. sz . - S. 31-32 . — ISSN 0042-4633 .
Radchenko S. G. Stabil módszerek statisztikai modellek becslésére. - K . : PP "Sansparel", 2005. - 504 p. - ISBN 966-96574-0-7 , UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152.
Radchenko S. G. A regressziós elemzés módszertana. - K . : "Korniychuk", 2011. - 376 p. - ISBN 978-966-7599-72-0 .

Szótárak és enciklopédiák

Bibliográfiai katalógusokban
BNF : 119445648 GND : 4129903-6 J9U : 987007529518905171 LCCN : sh85112392 NDL : 00564579 NKC : ph125086

Gépi tanulás és adatbányászat
Feladatok	Osztályozási feladat Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellegyüttesek Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-háló Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG