Maximális valószínűség módszere

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. január 19-én felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

A maximum likelihood módszer vagy a maximum likelihood módszer (MMP, ML, MLE - angol m aximum l ikelihood e stimation ) a matematikai statisztikában egy ismeretlen paraméter becslésére szolgáló módszer a likelihood függvény maximalizálásával [1] . Azon a feltételezésen alapulva, hogy a statisztikai mintára vonatkozó összes információt a valószínűségi függvény tartalmazza.

A maximum likelihood módszerét R. Fischer elemezte, ajánlotta és nagymértékben népszerűsítette 1912 és 1922 között (bár korábban Gauss , Laplace és mások is használták).

A maximális valószínűség becslése egy népszerű statisztikai módszer, amelyet statisztikai modell létrehozására használnak az adatokból, és becslést adnak a modell paramétereiről.

A maximum likelihood módszer a statisztika területén számos jól ismert becslési módszernek felel meg. Például érdekli egy olyan antropometriai paraméter, mint Oroszország lakóinak magassága. Tegyük fel, hogy nem a teljes népesség, hanem egy bizonyos számú ember növekedéséről van adata. Ezenkívül feltételezzük, hogy a növekedés egy normális eloszlású mennyiség, ismeretlen szórással és átlaggal . A mintában a növekedés átlaga és szórása a legnagyobb valószínűsége a teljes sokaság átlagának és szórásának.

Egy rögzített adathalmaz és egy alap valószínűségi modell esetén a maximum likelihood módszerrel megkapjuk a modell paramétereinek azon értékeit, amelyek „közelebb” teszik az adatokat a valóshoz. A maximum likelihood becslés egyedülálló és egyszerű módot biztosít a megoldások meghatározására normál eloszlás esetén.

A maximális valószínűség becslési módszerét a statisztikai modellek széles körében alkalmazzák, beleértve a következőket:

lineáris modellek és általánosított lineáris modellek;
faktoranalízis ;
szerkezeti egyenletek modellezése;
sok helyzet hipotézis tesztelés és konfidenciaintervallum kialakítás alatt;
választható diszkrét modellek.

A módszer lényege

Legyen egy minta a disztribúcióból , ahol az ismeretlen paraméterek vannak. Legyen a likelihood függvény , ahol . Pontbecslés $X_{1},\lpontok ,X_{n}$ $\mathbb {P} _{\theta }$ $\theta \in \Theta$ $L({\mathbf {x}}\mid \theta )\colon \Theta \to {\mathbb {R}}$ ${\mathbf {x}}\in {\mathbb {R}}^{n}$

{\hat {\theta }}_{\mathrm {M\Pi } }={\hat {\theta }}_{\mathrm {M\Pi } }(X_{1},\ldots ,X_ {n})=\mathop {\rm {argmax)) \limits _{\theta \in \Theta }L(X_{1},\ldots ,X_{n}\mid \theta )

paraméter maximális valószínűségi becslésének nevezzük . Így a maximális valószínűségi becslés az, amely maximalizálja a valószínűségi függvényt egy rögzített mintavételi megvalósításhoz. $\theta$

Gyakran a log-likelihood függvényt használják a likelihood függvény helyett . Mivel a függvény monoton növekszik a teljes definíciós tartományban, bármely függvény maximuma a függvény maximuma, és fordítva. Ily módon $L$ $l=\ln L$ $x\ to \ln x,\;x>0$ $L(\theta)$ $\ln L(\theta )$

{\hat {\theta }}_{\mathrm {M\Pi } }=\mathop {\rm {argmax}} \limits _{\theta \in \Theta }l(X_{1},\ ldots ,X_{n}\mid \theta )

Ha a likelihood függvény differenciálható, akkor az extrémum szükséges feltétele a gradiens nullával való egyenlősége :

g(\theta )={\frac {\partial l({\mathbf {x)),\theta _{0})}{\partial \theta }}=0

Az elégséges szélsőfeltétel a második derivált mátrixa, a Hess- féle negatív meghatározottságaként fogalmazható meg :

H={\frac {\partial ^{2}l({\mathbf {x)),\theta _{0})}{\partial \theta \partial \theta ^{T))}

A maximum likelihood módszer becslései tulajdonságainak értékeléséhez fontos az úgynevezett információs mátrix , amely definíció szerint egyenlő:

I(\theta )=E[g(\theta )g(\theta )^{T}]

Az optimális ponton az információs mátrix egybeesik a mínusz előjellel vett hesseni várakozással:

I=-E(H_{0})

Tulajdonságok

A maximális valószínűség becslései általában torzíthatók (lásd a példákat), de konzisztens , aszimptotikusan hatékony és aszimptotikusan normális becslések. Az aszimptotikus normalitás azt jelenti

{\sqrt {n}}({\hat {\theta }}-\theta ){\xrightarrow d}N(0,{\boldsymbol {I}}_({\infty }}^{{-1}} )

hol van az aszimptotikus információs mátrix. ${\boldsymbol {I}}_{{\infty }}=-\lim _{{n\rightarrow \infty }}{\frac {1}{n}}{\mathbb {E}}({\boldsymbol { H))$

Az aszimptotikus hatékonyság azt jelenti, hogy az aszimptotikus kovariancia mátrix az összes konzisztens aszimptotikusan normális becslés alsó korlátja. ${\boldsymbol {I}}_{{\infty }}^{{-1}}$

Ha a maximális likelihood becslés, paraméterek , akkor a maximális valószínűségi becslés -re , ahol g egy folytonos függvény (funkcionális invariancia). Így az adatelosztási törvények többféleképpen paraméterezhetők. ${\kalap {\theta ))$ $\theta$ $g({\hat {\theta)))$ $g(\théta)$
Szintén az MP-értékelések szükséges feltétele az alábbi űrlaprendszer megvalósítása: $\left\{{\begin{matrix}{\frac {\partial }{\partial \theta _{1))}\ln {L_{n))\left({\vec {x)), {\vec {\theta }}\right)&=&0\\\cdots &\cdots &\\{\frac {\partial }{\partial \theta _{k}}}\ln {L_{n}} \left({\vec {x)),{\vec {\theta }}\right)&=&0\\\end{mátrix}}\jobbra.$

ahol a minta méretének valószínűségi függvénye

L_{n}\left({\vec {x)),{\vec {\theta }}\right)=\prod _{i=1}^{n}L_{1}\left(x_) {i},{\vec {\theta }}\jobbra)

{\vec {x}}

n

Példák

Legyen független minta egy folytonos egyenletes eloszlásból az intervallumon , ahol egy ismeretlen paraméter. Ekkor a likelihood függvény alakja van $X_{1},\ldots ,X_{n}\sim {\mathrm {U}}[0,\theta ]$ $[0,\théta ]$ $\theta >0$

f({\mathbf {x}}\mid \theta )={\begin{cases}{\frac {1}{\theta ^{n}}},&{\mathbf {x}}\in [0, \theta ]^{n}\subset {\mathbb {R}}^{n}\\0,&{\mathbf {x}}\not \in [0,\theta ]^{n}\end{cases }}.

Az utolsó egyenlőség a következőképpen írható át:

f({\mathbf {x}}\mid \theta )={\begin{cases}{\frac {1}{\theta ^{n}}},&\theta \geq \max(x_{1}, \ldots ,x_{n})\\0,&\theta <\max(x_{1},\ldots ,x_{n})\end{cases}},

ahol , ami azt mutatja, hogy a likelihood függvény a pontban éri el maximumát . Ily módon ${\mathbf {x}}=(x_{1},\ldots ,x_{n})^{{\top }}$ $\theta =\max(x_{1},\ldots ,x_{n})$

{\hat {\theta }}_{({\mathrm {M\Pi }}}}=\max(X_{1},\ldots ,X_{n})

Egy ilyen becslés elfogult lesz: , honnan $P\{\max(X_{1},\ldots ,X_{n})\leq x\}=\left({\frac {x}{\theta }}\right)^{n}$ $E{\hat {\theta }}_{({\mathrm {M\Pi }}}}=\int _{0}^{\theta }xd\left({\frac {x}{\theta }} \right)^{n}={\frac {n}{n+1}}\theta$

Legyen független minta egy normális eloszlásból ismeretlen átlaggal és szórással . Készítsünk egy maximum likelihood becslést egy ismeretlen paramétervektorra . A log-likelihood függvény alakja $X_{1},\ldots ,X_{n}\sim \mathrm {N} (\mu ,\sigma ^{2})$ $\left(\widehat {\mu }_{({\mathrm {M\Pi }}}},\widehat {\sigma ^{2}}_{({\mathrm {M\Pi }}}}\right )^{{{\rm {T))))$ $\left(\mu ,\sigma ^{2}\right)^{{{\rm {T))))$

L({\mathbf {x}}\mid \mu ,\sigma ^{2})=-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum \limits _{{i=1}}^{n}(X_{i}-\mu )^{2}

A maximum meghatározásához a parciális deriváltokat nullával egyenlővé tesszük :

\left\{{\begin{mátrix}\displaystyle {\frac {\partial }{\partial \mu }}L({\mathbf {x}}\mid \mu ,\sigma ^{2})=0\ \[10pt]\displaystyle {\frac {\partial }{\partial \sigma ^{2))}L({\mathbf {x))\mid \mu ,\sigma ^{2})=0\\\ end{matrix}}\right.\Rightarrow \left\{{\begin{matrix}\displaystyle {\frac {\sum \limits _{{i=1}}^{n}X_{i}-n\mu }{\sigma ^{2}}}=0\\[10pt]\displaystyle -{\frac {n}{2\sigma ^{2}}}+{\frac {\sum \limits _{{i= 1}}^{n}(X_{i}-\mu )^{2}}{2\left(\sigma ^{2}\right)^{2}}}=0\\\end{mátrix} }\jobb.,

ahol

{\hat {\mu }}_{\mathrm {M\Pi } }={\overline {X}}

a minta átlaga , és

\widehat {\sigma ^{2}}_{{{\mathrm {M\Pi }}}}=S_{n}^{2}

a minta varianciája .

Alkalmazási mód [2]

A kísérlet feldolgozása

Tegyük fel, hogy valamilyen mennyiséget mérünk . Egy mérés után az értékét hibával kaptuk : . Írjuk fel a valószínűségi sűrűséget, hogy az érték felveszi az értéket : ${\textstyle a}$ ${\textstyle x_{1))$ ${\textstyle \sigma _{1}}$ ${\textstyle x_{1}\pm \sigma _{1))$ ${\textstyle a}$ ${\textstyle x_{1))$

$W(a)={\frac {1}{\sqrt {2\pi \sigma _{1}^{2))))\exp \left[-{\frac {(x_{1}- a)^{2}}{2\sigma _{1}^{2}}}\jobbra]$ .

Most tegyük fel, hogy számos ilyen mérést végeztünk, és megkaptuk . Annak a valószínűségi sűrűsége, hogy a mennyiség felveszi az értékeket , a következő lesz: ${\textstyle x_{1}\pm \sigma _{1},x_{2}\pm \sigma _{2}\ldots x_{n}\pm \sigma _{n))$ ${\textstyle a}$ ${\textstyle x_{1},x_{2}\ldots x_{n))$

$W(a)=\prod _{i=1}^{n}({\frac {1}{\sqrt {2\pi \sigma _{i}^{2))))\exp \ balra[-{\frac {(x_{i}-a)^{2}}{2\sigma _{i}^{2}}}\jobbra]}$ .

Ezt a függvényt valószínűségi függvénynek nevezzük. A mért érték legvalószínűbb értékét a likelihood függvény maximuma határozza meg. Kényelmesebb a log-likelihood függvény: ${\textstyle a^{*}}$

$L(a)=\ln W(a)=-\sum _{i=1}^{n}{\frac {(x_{i}-a)^{2}}{2\sigma _ {i}^{2}}}+\sum _{i=1}^{n}{\ln {\frac {1}{\sqrt {2\pi \sigma _{i}^{2}}} }}$ .

Különböztesse meg a log-likelihood függvényt a következővel : ${\textstyle a}$

${\frac {\partial {L}}{\partial {a}}}=\sum _{{i=1}}^{n}{{\frac {x_{i}-a}{\sigma _{ i}^{2}}}}$ .

Egyenlítsd ki és szerezz valami értéket : ${\frac {\partial {L}}{\partial {a}}}$ ${\textstyle 0}$ ${\textstyle a=a^{*}}$

$a^{*}={\frac {\sum \limits _{{i=1}}^{{n}}{{\frac {x_{i}}{\sigma _{i}^{2}} ))}{\sum \limits _{{i=1}}^{{n}}{{\frac {1}{\sigma _{i}^{2}}}}}}$ .

Cramer a következő tételt fogalmazta meg:

Tétel: Nincs más módszer egy kísérlet eredményeinek feldolgozására, amely jobb közelítést adna az igazsághoz, mint a maximum likelihood módszer.

Mérési hibák

Tegyük fel, hogy méréssorozatot végeztünk és értéksorozatot kaptunk , természetes, hogy ennek az eloszlásnak Gauss-formája lesz : ${\textstyle a^{*}}$

$W(a)={\frac {1}{{\sqrt {2\pi \sigma _{{a^{*))}^{2))))}\exp \left[-{\frac {( a^{*}-a)^{2}}{2\sigma _{{a^{*}}}^{2}}}\jobbra]$ .

Írjuk fel a logaritmikus likelihood függvényt: . $L(a)=\ln W(a)=-{{\frac {(a^{*}-a)^{2}}{2\sigma _{{a^{*}}}^{2} ))}+{\ln {{\frac {1}{{\sqrt {2\pi \sigma _{{a^{*}}}^{2}}}}}}}$

Vegyük az első származékot:

${\frac {\partial {L}}{\partial {a}}}={\frac {a^{*}-a}{\sigma _{{a^{*}}}^{2}}}$ .

Ha , akkor . Most vegyük a második származékot: ${\frac {\partial {L}}{\partial {a}}}=0$ $a=a^{*}$

${\frac {\partial ^{2}{L}}{\partial {a}^{2}}}=-{\frac {1}{\sigma _{a^{*}}^{ 2}}}$ , ahol

$\sigma _{a^{*}}=\left(-{\frac {\partial ^{2}{L}}{\partial {a}^{2}}}{\Big |}_ {a=a^{*}}\jobbra)^{-1/2}$ .

Ezt nevezik az első mágikus képletnek [2] .

Feltételes maximum likelihood módszer

A feltételes maximum likelihood módszert (Conditional ML) használják a regressziós modellekben. A módszer lényege, hogy nem az összes változó (függő és regresszor) teljes együttes eloszlását használjuk, hanem csak a függő változó feltételes faktor szerinti eloszlását, vagyis valójában a regressziós modell véletlenszerű hibáinak eloszlását. . A teljes valószínűségi függvény a "feltételes valószínűségi függvény" és a tényezők eloszlássűrűségének szorzata. A feltételes MMP egyenértékű az MMP teljes verziójával abban az esetben, ha a tényezők eloszlása semmilyen módon nem függ a becsült paraméterektől. Ezt a feltételt gyakran megsértik az idősoros modellek, például az autoregresszív modell . Ebben az esetben a regresszorok a függő változó múltbeli értékei, ami azt jelenti, hogy értékeik is ugyanazt az AR modellt követik, vagyis a regresszorok eloszlása a becsült paraméterektől függ. Ilyen esetekben a feltételes és a teljes maximum likelihood módszer alkalmazásának eredménye eltér.

Lásd még

Jegyzetek

↑ Fisher – 1912. évi matematikai enciklopédikus szótár, Moszkva: Szovjet Enciklopédia, 1988.
↑ 1 2 A.P. Onuchin. A magfizika kísérleti módszerei. - Novoszibirszk: Novoszibirszki Állami Műszaki Egyetem, 2010. - S. 297-303. — 336 p. — ISBN 978-5-7782-1232-9 .

Irodalom

Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Econometrics. Kezdő tanfolyam. - M . : Delo, 2007. - 504 p. - ISBN 978-5-7749-0473-0 .
Ostapenko R. I. A strukturális modellezés alapjai a pszichológiában és a pedagógiában: oktatási segédlet a pszichológiai és pedagógiai kar hallgatói számára. - Voronyezs.: VGPU, 2012. - 116 p. - ISBN 978-5-88519-886-8 .
Nikulin M. S. A valószínűségi arányok kritériuma // Mathematical Encyclopedia / Vinogradov I. M. (főszerkesztő). - M .: Szovjet Enciklopédia , 1984. - T. 4. - S. 151. - 1216 p.

Szótárak és enciklopédiák	nagy kínai nagy kínai nagy kínai nagy kínai nagy kínai Nagy orosz