Kullback-Leibler távolság

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. december 3-án felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

Távolság (divergencia, divergence) Kullback-Leibler ( angolul Kullback-Leibler divergence ), RKL , információs eltérés , megkülönböztető információ , információnyereség , relatív entrópia ( angol relatív entrópia ) [1] - nem negatív funkcionális , amely aszimmetrikus mértéke távolság egymástól az elemi események közös terén definiált két valószínűségi eloszlás barátja [2] . Gyakran alkalmazzák az információelméletben és a matematikai statisztikákban .

Definíció és értelmezések

Egy eloszlás Kullback-Leibler divergenciáját ( vagy relatíve szólva "távolságtól -ig ") jelöli . A funkcionális (eloszlás ) első argumentumát általában igaz vagy eleve feltételezett eloszlásként értelmezik , a másodikat (eloszlás ) feltételezett (ellenőrizhető) eloszlásként. Az eloszlás gyakran egy eloszlás közelítéseként szolgál . A függvény értéke a figyelmen kívül hagyott eloszlási információ mennyiségeként értelmezhető, ha közelítésre használták . Ezt a távolságmértéket az információelméletben az információveszteség mértékeként is értelmezik, ha a valódi eloszlást az eloszlással helyettesítjük . $K$ $P$ $P$ $K$ $D_{\mathrm {KL} }(P\parallel Q)$ $P$ $K$ $K$ $P$ $P$ $K$ $P$ $P$ $K$

Általános esetben, ha bármely olyan mérték , amelyre léteznek függvények , abszolút folytonos az és viszonylatban, akkor az eloszlás Kullback-Leibler divergenciáját a -hoz viszonyítva definiáljuk: $\mu$ $x$ $\mu$ $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ $q={\frac {{\rm {d}}Q}({\rm {d}}\mu }}$ $K$ $P$

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}p\,\log {\frac {p}{q))\,{\rm {d))\mu

A logaritmus alapja ebben a képletben nem játszik jelentős szerepet. Választása lehetővé teszi egy adott típusú funkcionális rögzítését egyenértékű funkcionális családból, és egyenértékű a Kullback-Leibler-eltérés mértékegységének kiválasztásával (hasonlóan az entrópia számítási helyzetéhez ), így lehetséges a logaritmus használata bármely bázis nagyobb egynél. Más szóval, a funkcionális egy pozitív állandó tényezőig van definiálva. A leggyakoribb a természetes logaritmus (kényelmi okokból), valamint a bináris logaritmus - a bitekben való eltérés mérésére (általában az információelméletben használják ). A Kullback-Leibler divergencia egy dimenzió nélküli mennyiség , függetlenül az eredeti valószínűségi változók dimenziójától .

Bár a Kullback-Leibler távolságot (RKL) gyakran a valószínűségi eloszlások közötti távolság mérésének módszereként tartják számon, ez a függvény nem metrika az eloszlások terén, mivel nem elégíti ki a háromszög egyenlőtlenséget és nem teljesíti az axiómát. szimmetria: . Mindazonáltal infinitezimális alakja, különösen a Hessian , metrikus tenzort ad, amelyet Fisher információs metrikaként ismerünk . $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$

A Kullback-Leibler távolság az eltérések egy általánosabb osztályának, az úgynevezett f - eltérésnek , valamint a Bregman-féle eltérések egy speciális esete . Az RKL a valószínűségek egyetlen eltérése, amely mindkét osztályhoz tartozik.

Az RKL-t eredetileg Solomon Kullback és Richard Leibler vezette be 1951-ben, mint két disztribúció közötti irányú eltérést. Ezt Kullback Információelmélet és statisztika című szövege tárgyalja. [egy]

A Kullback-Leibler távolságot néha úgy is értelmezik, mint a helyett az elért információnyereséget . Néha zavaró neveket használnak az RKL relatív entrópia relatív (jelölése ) vagy kereszt entrópia jelölésére . $D_{\mathrm {KL} }(P\parallel Q)$ $P$ $K$ $P$ $K$ $H(P\mid Q)$

Különféle konvenciók léteznek a jelölés olvasására vonatkozóan . Gyakran egyszerűen a és közötti eltérésnek vagy távolságnak nevezik , azonban ez nem jelzi a kapcsolat alapvető aszimmetriáját. Néha azt mondják, hogy "eltérés (hozzá képest) " vagy, viszonylagosan szólva, "távolság tőle " (általában a relatív entrópia vagy az információszerzés összefüggésében). Ebben az esetben az eloszlást igaznak értelmezzük. $D_{\mathrm {KL} }(P\parallel Q)$ $P$ $K$ $P$ $K$ $K$ $P$ $K$

Sajátos definíciók és definíciók a Radon–Nikodim származék tekintetében

Diszkrét valószínűségi eloszlások és számos elemi esemény esetén az eloszlás Kullback-Leibler divergenciája az eloszlás tekintetében (vagy "távolság -tól " ) a következőképpen definiálható [3] : $P$ $K$ $n$ $K$ $P$ $P$ $K$

D_{KL}(P\parallel Q)=\sum \limits _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}

Más szóval, ez a valószínűségek és a valószínűségek közötti logaritmikus különbség átlaga , ahol az átlagot az eloszlásból veszik . Az RKL csak akkor van definiálva, ha mindenre ( abszolút folytonosság ). Amikor , a -edik tag hozzájárulása nullaként értelmeződik, mert . $p$ $q$ $P$ $q_{i}=0\Rightarrow p_{i}=0$ $i=1,...,n$ $p_{i}=0$ $én$ $\lim _{x\to 0}x\log(x)=0$

A -dimenziós abszolút folytonos eloszlások és a Kullback-Leibler távolságot a [4] kifejezés adja meg. $k$ $P$ $K$

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\,p(x)\log {\frac {p(x)}{q(x)))\, {\rm {d}}x

ahol és az intervallumon definiált eloszlássűrűségfüggvények és . $p(x)$ $q(x)$ $P$ $K$ ${\displaystyle X\subseteq R^{k))$

Általánosabban szólva, ha és valószínűségi mértékek a halmazon , és abszolút folytonosak a -hoz képest , akkor az RKL-t tól- ig a következőképpen definiáljuk: $P$ $K$ $x$ $P$ $K$ $P$ $K$

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\log {\frac ({\rm {d))P}({\rm {d))Q)) \,{\rm {d}}P

ahol a Radon-Nikodym származék a -hoz képest , és feltéve, hogy a jobb oldali kifejezés létezik. Ezzel egyenértékűen így is írható ${\frac {{\rm {d}}P}{{\rm {d}}Q}}$ $P$ $K$

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\log \!\left({\frac ({\rm {d))P}({\rm {d }}Q}}\jobbra){\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q

Meg kell jegyezni, hogy a Radon-Nikodim származék használata formális eszközként szolgál e kifejezések megírásához, de nem fedi fel értelmes jelentésüket.

A Kullback-Leibler divergencia függvény dimenzió nélküli, de értékei eltérő mértékegységűek lehetnek. Tehát, ha ezekben a képletekben a logaritmusokat 2-es bázisba vesszük, akkor a divergenciát (információelméleti szempontból ez is információ) bitben mérjük ; ha e -n alapul (természetes bázissal), akkor a divergenciát (információt) nats -ban mérjük . A legtöbb RKL-t tartalmazó képlet a logaritmus alapjától függetlenül megtartja jelentését.

Jellemzés

Arthur Hobson bebizonyította, hogy a Kullback-Leibler távolság az egyetlen mértéke a valószínűségi eloszlások közötti különbségnek, amely kielégít néhány olyan kívánatos tulajdonságot, amelyek az entrópia általánosan használt jellemzéseiben megjelenő tulajdonságok kanonikus kiterjesztései . [5] Ezért a kölcsönös információ a kölcsönös függés egyetlen olyan mértéke, amely bizonyos kapcsolódó feltételekhez kötődik, mivel az RCL-ben definiálható .

A Kullback-Leibler távolság Bayes-féle jellemzése is létezik. [6]

Motiváció

Az információelméletben a Kraft-McMillan-tétel kimondja, hogy bármely közvetlenül dekódolható kódolási séma üzenet kódolására egyetlen érték azonosítására , úgy tekinthető, mint amely egy implicit valószínűségi eloszlást képvisel a következőn , ahol a kód hossza bitben. Ezért az RCL úgy értelmezhető, mint a továbbítandó nulla jeltől számított extra üzenethossz, ha egy Q adott (helytelen) eloszlására optimális kódot használunk, összehasonlítva a P valódi eloszlásán alapuló kóddal. . $x_{i}\subset X$ $q(x_{i})=2^{-I_{i))$ $x$ $I_i$ $x_{i}$

${\textstyle {\begin{mátrix}D_{\mathrm {KL} }(P\parallel Q)=-\sum _{x}p(x)\log q(x)+\sum _{x}p( x)\log p(x)=H(P,Q)-H(P)\,\!\end{mátrix}}}$ , ahol P és Q keresztentrópiája , P entrópiája . $H(P,Q)$ $H(P)$

Vegye figyelembe azt is, hogy a nagy eltérések elméletében kapcsolat van az RKL és a "sebességfüggvény" között . [7] [8]

Tulajdonságok

A Kullback-Leibler távolság mindig nem negatív, ezt az eredményt szinte mindenhol Gibbs - egyenlőtlenségként ismerik . A H(P) entrópia tehát megadja a H(P,Q) keresztentrópia minimális értékét, a további bitek várható számát, ha Q helyett P-n alapuló kódot használunk . ha olyan kódot használunk, amely megfelel a Q valószínűségi eloszlásnak, nem pedig a „valós” eloszlásnak. $D_{\mathrm {KL} }(P\parallel Q)\geq 0,$ $D_{KL}(P\parallel Q)=0\iff P=Q$ $x\subset X$
A Kullback-Leibler távolság nem szimmetrikus: . $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$

A Kullback-Leibler távolság a folytonos eloszlások esetében szigorúan definiált marad, és a változók változása esetén invariáns. Például, ha az x változót az y(x) változóval helyettesítjük, akkor, mivel és , az RKL átírható: $P(x)dx=P(y)dy$ $Q(x)dx=Q(y)$

${\textstyle D_{\mathrm {KL} }(P\parallel Q)=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x) )}{Q(x)}}\right)\,dx=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)dy /dx}{Q(y)dy/dx}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P (y)}{Q(y)}}\right)\,dy}$ ,

hol és . Annak ellenére, hogy feltételezzük, hogy az átalakulás folyamatos volt, ez jelen esetben nem szükséges. Ebből is látszik, hogy az RKL a dimenzióval konzisztens értéket ad meg , hiszen ha x dimenziós változó, akkor P(x)-nek és Q(x)-nek is van dimenziója, mivel ez egy dimenzió nélküli mennyiség. A logaritmus alatti kifejezés azonban dimenzió nélküli marad, ahogy kell. Ezért a Kullback-Leibler távolság bizonyos értelemben alapvetőbb mennyiségnek tekinthető, mint néhány más információelméletbeli tulajdonság [9] (mint például az öninformáció vagy a Shannon-entrópia ), amely meghatározatlanná vagy negatívvá válhat a nem-ellenőrzésre. diszkrét valószínűségek. $y_{a}=y(x_{a})$ $y_{b}=y(x_{b})$ $P(x)dx$

Az RKL ugyanúgy additív a független eloszlásokhoz, mint a Shannon-entrópia. Ha független eloszlások közös eloszlással , és hasonlóan, , akkor $P_{1},P_{2}$ $P(x,y)=P_{1}(x)P_{2}(y)$ $Q(x,y)=Q_{1}(x)Q_{2}(y)$ $D_{\mathrm {KL} }(P\parallel Q)=D_{\mathrm {KL} }(P_{1}\parallel Q_{1})+D_{\mathrm {KL} }(P_{ 2}\parallel Q_{2}).$

A Kullback-Leibler távolság a többváltozós normális eloszláshoz

Tegyük fel, hogy két többváltozós normális eloszlásunk van, átlaggal és (reverzibilis) kovarianciamátrixszal . Ha két disztribúciónak ugyanaz a k dimenziója, akkor az eloszlások közötti RCL a következő [10] : ${\displaystyle \mu _{0},\mu _{1))$ $\Sigma _{0},\Sigma _{1}$

$D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={1 \over 2}\left(\mathrm { tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top } \Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\det \Sigma _{1} \over \det \Sigma _{ 0}}\jobbra)\jobbra).$

Az utolsó tag logaritmusát e bázisnak kell tekinteni, mivel az utolsó tag kivételével minden olyan kifejezés természetes logaritmusa, amelyek vagy a sűrűségfüggvény bármely tényezője, vagy más módon előfordulnak a természetben. Ezért az egyenlet nats -ban mért eredményt ad . Ha ezt a kifejezést teljesen elosztjuk log e 2-vel, megkapjuk az eloszlást bitben.

A metrikákhoz való viszony

Nevezhetnénk az RCL-t " metrikának " a valószínűségi eloszlások terén, de ez helytelen lenne, mivel nem szimmetrikus és nem teljesíti a háromszög egyenlőtlenséget . Ennek ellenére, előzetes mérőszámként , topológiát generál a valószínűségi eloszlások terén . Pontosabban, ha olyan eloszlássorozat, hogy , akkor azt mondjuk, hogy . Pinsker egyenlőtlenségéből következik, hogy — , ahol ez utóbbira van szükség a variáció konvergenciájához . $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$ ${\displaystyle \{P_{1},P_{2},\cdots \))$ $\lim _{n\rightarrow \infty }D_{\mathrm {KL} }(P_{n}\parallel Q)=0$ $P_{n}{\xrightarrow {D}}Q$ $P_{n}{\xrightarrow {\mathrm {D} }}P\Rightarrow P_{n}{\xrightarrow {\mathrm {TV} }}P$

Rényi Alfréd (1970, 1961) szerint . [11] [12]

Fisher's Information Metric

A Kullback-Leibler távolság azonban közvetlenül kapcsolódik a metrikához, nevezetesen a Fisher információs metrikához . Tegyük fel, hogy van P és Q valószínűségi eloszlás, mindkettő ugyanazzal (esetleg többváltozós) paraméterrel van paraméterezve . Tekintsük most a és két közeli értékét , így a paraméter csak kis számmal tér el a paramétertől . Ugyanis egy Taylor-sorozatban az első sorrendig bővítve ( az Einstein-konvenciót használva ) $\theta$ $P=P(\theta )$ $Q=P(\theta _{0})$ $\theta$ $\theta _{0}$

$P(\theta )=P(\theta _{0})+\Delta \theta ^{j}P_{j}(\theta _{0})+\cdots$ ,

ahol egy kis változás a j-edik irányban, és a megfelelő változási sebesség a valószínűségi eloszlásban. Mivel az RCL abszolút minimuma 0 P=Q-nál, vagyis az RCL a paraméterek tekintetében a második kicsinységi sorrenddel rendelkezik . Formálisabban, mint minden minimum esetében, a divergencia első deriváltja eltűnik ${\displaystyle \Delta \theta ^{j}=(\theta -\theta _{0})^{j))$ $\theta$ $P_{j}(\theta _{0})={\frac {\partial P}{\partial \theta ^{j))}(\theta _{0})$ $\theta =\theta _{0}$ ${\displaystyle \Delta \theta ^{j))$ $\left.{\frac {\partial }{\partial \theta ^{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\ párhuzamos P(\theta _{0}))=0,$

a Taylor-kiterjesztés pedig a kicsinység második rendjéből indul ki

$D_{\mathrm {KL} }(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2))\Delta \theta ^{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots$ ,

ahol a hesszinek nem negatívnak kell lennie. Ha megengedjük a változtatást (és a 0-s részindexet elhagyjuk), akkor a Hessian meghatároz egy (esetleg degenerált) Riemann-metrikát a paramétertérben , amelyet Fisher információs metrikának neveznek. $g_{jk}(\theta )$ $\theta _{0}$ $g_{jk}(\theta )$ $\theta$

Kapcsolat az információelmélet más dimenzióival

Sok más információelméleti mennyiség értelmezhető úgy, hogy a Kullback-Leibler távolságot konkrét esetekre alkalmazzuk.

A sajátérték a valószínűségi eloszlás RCL-je a Kronecker -szimbólumból , amely azt a bizonyosságot jelenti, hogy - vagyis a további bitek számát, amelyeket továbbítani kell annak meghatározásához , hogy csak a valószínűségi eloszlás áll-e rendelkezésre a vevő számára, nem azt a tényt, hogy . $D_{\mathrm {KL} }(\delta _{im}\parallel \{p_{i}\})$ $P(i)$ $i=m$ $én$ $P(i)$ $i=m$

Kölcsönös információ -

${\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\parallel P(X)P(Y))\\&=\operátornév { E} _{X}\{D_{\mathrm {KL} }(P(Y\mid X)\parallel P(Y))\}\\&=\operátornév {E} _{Y}\{D_{ \mathrm {KL} }(P(X\közép Y)\párhuzamos P(X))\}\end{igazított}}$

az RCL a közös valószínűségi eloszlásból származó két határvalószínűségi eloszlás szorzata – vagyis azon extra bitek várható száma, amelyeket el kell küldeni a meghatározásához , és ha kódolásuk csak a határeloszlást használja a közös eloszlás helyett. Ezzel egyenértékűen, ha az együttes valószínűség ismert, akkor átlagosan az extra bitek várható számát kell elküldeni annak meghatározására, hogy az értéket nem ismeri-e még a vevő. $P(X)P(Y)$ $P(X,Y)$ $x$ $Y$ $P(X,Y)$ $Y$ $x$

Shannon entrópiája -

${\begin{aligned}\mathrm {H} (X)&=\operátornév {E} [\operátornév {I} _{X}(x)]\\&=\log(N)-D_{ \text{KL}}(P(X)\párhuzamos P_{U}(X))\end{igazított}}$

a bitek száma, amelyet át kell küldeni az azonos valószínűségű kimenetek azonosításához , ez kisebb, mint a valódi eloszlásból származó egyenletes eloszlású RCL - vagyis kevesebb, mint a tárolt bitek várható száma, amelyet el kell küldeni, ha az érték kódolása a megfelelő az egyenletes eloszlásra és nem a valódi eloszlásra . $x$ $N$ $P_{U}(X)$ $P(X)$ $x$ $P_{U}(X)$ $P(X)$

Feltételes entrópia -

${\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL))(P(X,Y)\parallel P_{U}( X)P(Y))\\&=\log(N)-D_{\text{KL}}(P(X,Y)\párhuzamos P(X)P(Y))-D_{\text{KL }}(P(X)\párhuzamos P_{U}(X))\\&=\mathrm {H} (X)-\operátornév {I} (X;Y)\\&=\log(N)- \operátornév {E} _{Y}{\bigl [}D_{\text{KL}}(P(X\mid Y)\parallel P_{U}(X)){\bigr ]}\end{igazított} }$

a bitek száma, amelyet el kell küldeni az azonos valószínűségű kimenetek azonosításához , ez kisebb, mint a valódi közös eloszlásból származó eloszlások szorzatának RCL-je - azaz kevesebb, mint az elküldendő tárolt bitek várható száma, ha az érték az egységes eloszlás szerint van kódolva , nem pedig feltételes adateloszlással és . $x$ $N$ $P_{U}(X)$ $P(X,Y)$ $x$ $P_{U}(X)$ $P(X\mid Y)$ $x$ $Y$

A két valószínűségi eloszlás közötti keresztentrópia méri az esemény azonosításához szükséges bitek átlagos számát a lehetséges események halmazából, ha egy adott valószínűségi eloszláson alapuló kódolási sémát használunk az "igazi" eloszlás helyett . Két eloszlás és ugyanazon a valószínűségi tér keresztentrópiája a következőképpen definiálható: $K$ $P$ $P$ $K$ $H(p,q)=\operátornév {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\párhuzamos q).$

Kullback-Leibler távolság és Bayes-módosítás

A bayesi statisztikában a Kullback-Leibler távolság használható az információnyerés mértékeként, amikor egy megelőző utólagos valószínűségi eloszlásba lépünk. Ha valami új tényt fedeznek fel , akkor az (a priori) valószínűségi eloszlást egy új (utólagos) valószínűségi eloszlással módosíthatja a Bayes -tétel segítségével : $Y=y$ $p(x\mid I)$ $x$ $p(x\mid y,I)$

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I))).

Ennek az eloszlásnak új entrópiája van

H{\big (}p(\cdot \mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y, ÉN),

amely lehet kisebb vagy nagyobb az eredeti entrópiánál . Az új valószínűségi eloszlást tekintve azonban becsülhető, hogy az eredeti alapú kód használata az új alapú kód helyett a várt bitszámmal növelné az üzenet hosszát. Ennyi hasznos információ vagy információnyereség tehát a -val kapcsolatban , amelyet úgy kaptunk, hogy megállapították, hogy . ${\displaystyle H{\big (}p(\cdot \mid I){\big )))$ $p(x\mid I)$ $p(x\mid y,I)$ $D_{\mathrm {KL} }{\big (}p(\cdot \mid y,I)\mid p(\cdot \mid I){\big )}=\sum _{x}p( x\mid y,I)\log {\frac {p(x\mid y,I)}{p(x\mid I)))$ $x$ $Y=y$

Ha ezt követően újabb adat érkezik, akkor az x valószínűségi eloszlása tovább frissíthető, hogy egy új legjobb tippet kapjunk , . Ha újra megvizsgáljuk a használandó információnyereséget és nem , akkor kiderül, hogy lehet nagyobb vagy kisebb, mint korábban gondoltuk: , lehet vagy , mint , és ezért a teljes információnyereség nem elégíti ki a háromszög egyenlőtlenséget: $Y_{2}=y_{2}$ $p(x\mid y_{1},y_{2},I)$ $p(x\mid y_{1},I)$ $p(x\mid I)$ $\sum _{x}p(x\mid y_{1},y_{2},I)\log {\frac {p(x\mid y_{1},y_{2},I)} {p(x\mid I)}}$ $\leq$ $>$ $\displaystyle \sum _{x}p(x\mid y_{1},I)\log {\frac {p(x\mid y_{1},I)}{p(x\mid I) }}$

${\displaystyle D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\parallel p(\cdot \mid I){\big )))$ , lehet nagyobb, kisebb vagy egyenlő $D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\parallel p(\cdot \mid y_{1},I){ \big )}+D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},I)\parallel p(x\mid I){\big )}.$

Annyit lehet mondani, hogy átlagban, az átlagot véve , mindkét oldal megadja az átlagot. $p(y_{2}\mid y_{1},x,I)$

Bayes kísérleti modellje

Egy kísérleti Bayes-modellben közös cél a várt RCL maximalizálása a korábbi és utólagos eloszlások között. [13] Ha a posteriort Gauss-eloszláshoz közelítjük, a várható RCL-t maximalizáló modellt Bayes-i d-optimálisnak nevezzük .

Megkülönböztető információk

A Kullback-Leibler távolság úgy is értelmezhető, mint a több mint : mintánkénti átlaginformáció elvárt megkülönböztető információja a hipotézis javára való eltérés esetén , szemben azzal a hipotézissel, amikor a hipotézis igaz [14] . Ennek a mennyiségnek egy másik elnevezése, amelyet Irving John Good adott, az egyes mintáktól elvárt túllépések várható bizonyítási tömege . $D_{\mathrm {KL} }(p(x\mid H_{1})\parallel p(x\mid H_{0}))$ ${\displaystyle H_{1))$ ${\displaystyle H_{0))$ ${\displaystyle H_{1))$ ${\displaystyle H_{0))$ ${\displaystyle H_{1))$ ${\displaystyle H_{1))$ ${\displaystyle H_{0))$

A többletre vonatkozó bizonyítékok várható súlya nem egyezik meg például a hipotézis p(H) valószínűségi eloszlására várt információszerzéssel . ${\displaystyle H_{1))$ ${\displaystyle H_{0))$ $D_{\mathrm {KL} }(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\mathrm {KL} }(p( H\mid x)\parallel p(H\mid I)).$

A két mennyiség bármelyike használható hasznossági függvényként a Bayes-féle kísérleti formában az optimális következő vizsgálati kérdés kiválasztásához, de általában inkább eltérő kísérleti stratégiákhoz vezetnek.

Az információnyerési entrópia skálán nagyon kicsi a különbség a majdnem bizonyosság és a teljes bizonyosság között – a majdnem bizonyosság kódolása valószínűleg nem igényel több bitet, mint a teljes bizonyosság kódolása. Másrészt a bizonyítékok súlya benne van a logit skálában, és a kettő közötti különbség óriási, szinte végtelen. Ez tükrözheti a különbséget aközött, hogy majdnem biztos (valószínűségi szinten), mondjuk, hogy a Riemann-hipotézis igaz, és teljesen biztos abban, hogy igaz, mert van matematikai bizonyíték. A bizonytalanság két különböző veszteségfüggvény-skála egyaránt hasznos aszerint, hogy mindegyik mennyire tükrözi a problémában vizsgált probléma adott körülményeit.

A minimális megkülönböztető információ elve

Az RKL mint diszkriminatív információ ötlete arra késztette Kullbacket, hogy javaslatot tegyen a minimális diszkriminációs információ (MDI ) elvére : új tények ismeretében új terjesztést kell választani azok közül, amelyeket nehéz megkülönböztetni az eredeti terjesztéstől ; mert az új adatok a lehető legkevesebb információnyereséget generálnak . $f$ $f_{0}$ $D_{KL}(f\parallel f_{0})$

Például, ha van egy korábbi eloszlásunk és felett , majd tanulmányozzuk és valós eloszlását . A és , , új közös terjesztése és a régi korábbi disztribúció közötti RCL a következő lenne: $p(x,a)$ $x$ $a$ $a$ $u(a)$ $x$ $a$ $q(x\mid a)u(a)$ $D_{\mathrm {KL} }(q(x\mid a)u(a)\parallel p(x,a))=\operátornév {E} _{u(a)}\{D_{\ mathrm {KL} }(q(x\mid a)\parallel p(x\mid a))\}+D_{\mathrm {KL} }(u(a)\parallel p(a)),$

azaz az előző eloszlás RKL-jének összege a frissített eloszlásból , plusz az új eloszlásból származó korábbi feltételes eloszlás RKL-jének várható értéke (a használt valószínűségi eloszlás ) . (Megjegyzendő, hogy a gyakran később várható értéket feltételes RKL-nek (vagy feltételes relatív entrópiának) nevezzük, és [15] -nek jelöljük . Ez minimalizálja, ha a teljes tartalom felett van. És észrevesszük, hogy ez az eredmény egyesíti Bayes tételét, ha az új eloszlás valójában egy függvény, amely magabiztosan reprezentálja a -t, amelynek egy adott értéke van. $p(a)$ $a$ $u(a)$ $u(a)$ $p(x\mid a)$ $p(x\mid a)$ $D_{KL}(q(x\mid a)\parallel p(x\mid a))$ $q(x\mid a)=p(x\mid a)$ $u(a)$ $u(a)$ $a$

A Minimális Megkülönböztető Információ a Laplace -féle közömbösségi elv (más néven az elégtelen ész elve) és a Jaynes -féle Maximális entrópia elv kiterjesztése . Különösen a maximális entrópia elvének természetes kiterjesztése a diszkrétről a folytonos eloszlásra, amihez a Shannon-entrópia nem válik túl kényelmessé (lásd a differenciális entrópia ), de az RCL továbbra is ugyanolyan releváns.

A műszaki irodalomban az MDI-t néha a minimális keresztentrópia elvének nevezik . Az RCL - nek a -hoz képesti minimalizálása egyenértékű a keresztentrópia és a keresztezés minimalizálásával , tehát ez megfelelő, ha megpróbálunk pontos közelítő értéket választani -ig . $m$ $p$ $m$ $p$ $m$ $H(p,m)=H(p)+D_{\mathrm {KL} }(p\parallel m),$ $p$

Használati példa

Legyen, valamilyen valószínűségi változó eloszlásából vett minta alapján vissza kell állítani az eloszlásának sűrűségét, paraméteres család formájában megadva , ahol a függvény argumentuma ismeretlen paraméter. A paraméterbecslés a sűrűség és az "igaznak" tekintett tapasztalati eloszlássűrűség közötti Kullback-Leibler távolság minimalizálásának problémájának megoldásaként kereshető . ${\displaystyle x_{1},x_{2},\dotsc ,x_{n))$ $f(x,\theta )$ $x\in X\subseteq R$ $\theta$ $\theta$ $f(x,\theta )$

{\hat {f}}(x)={\frac {1}{n}}\sum \limits _{i=1}^{n}\mathbf {\delta } (x-x_{i})

hol van a Dirac függvény : $\delta$

{\hat {\theta }}=\operátornév {arg} {\underset {\theta }{\operatorname {min} }}D_{KL}({\hat {f}}(x),f(x,\ theta ))=\operátornév {arg} {\underset {\theta }{\operatorname {max} }}\int \limits _{X}^{}{\hat {f}}(x)\ln f(x ,\theta )\,dx=\operátornév {arg} {\underset {\theta }{\operatorname {max} }}\sum \limits _{i=1}^{n}\mathbf {\ln } f( x_{i},\theta )

Könnyen belátható, hogy a probléma megoldása a paraméter maximális valószínűségi becsléséhez vezet . Ha a valószínűségi változó tényleges eloszlássűrűsége nem tartozik a családba , a talált paraméterbecslést kvázi-likelihoodnak nevezzük, és ez adja a legjobb közelítést a minta által képviselt tényleges eloszláshoz a Kullback-Leibler távolságban kifejezett sűrűségű eloszlások között. . $\theta$ $f(x,\theta )$ ${\kalap {\theta ))$ $\theta$ $f(x,\theta )$

Jegyzetek

↑ 1 2 Kullback S. Információelmélet és statisztika. – John Wiley & Sons, 1959.
↑ Kullback S., Leibler R. A. Az információról és az elégségességről // The Annals of Mathematical Statistics. 1951.V.22. 1. szám P. 79-86.
↑ MacKay, David JC Információelmélet, következtetés és tanulási algoritmusok. - Első kiadás. - Cambridge University Press, 2003. - C. p. 34.
↑ Bishop C. Mintafelismerés és gépi tanulás. - 2006. - S. p. 55.
↑ Hobson, Arthur. Fogalmak a statisztikai mechanikában. Gordon és Breach. - New York, 1971. - ISBN 0677032404 .
↑ Baez, John; Fritz, Tóbiás. A kategóriák elmélete és alkalmazása 29.-C. „A relatív entrópia bayesi jellemzése”, 1. o. 421-456..
↑ I.N. Sanov. A valószínűségi változók nagy eltérésének valószínűségéről. - 1957. - S. 11-44.
↑ Novak SY Extreme Value Methods with Applications to Finance ch. 14.5. – Chapman és Hall. - 2011. - ISBN 978-1-4398-3574-6 .
↑ Relatív entrópia . videolectures.net. Letöltve: 2016. június 14. Az eredetiből archiválva : 2018. december 25. (határozatlan)
↑ Duchi J. "A lineáris algebra és az optimalizálás származékai". - S. 13 .
↑ Rényi A. Valószínűségszámítás. - 1970. - ISBN 0-486-45867-9 ..
↑ Rényi, A. "Az entrópia és információ mértékéről". - 4. Berkeley matematikai, statisztikai és valószínűségi szimpózium, 1960, 1961. - 547–561.
↑ Chaloner, K.; Verdinelli, I. "Bayesi kísérleti tervezés: áttekintés". — Statisztikai Tudomány 10, 1995. — 273–304 pp.
↑ Press, W.H.; Teukolsky, SA; Vetterling, WT; Flannery, B. P. (2007). "14.7.2. szakasz. Kullback–Leibler távolság". Numerikus receptek: A tudományos számítástechnika művészete (3. kiadás). Cambridge University Press. ISBN 978-0-521-88068-8 . .
↑ Thomas M. Borító, Joy A. Thomas. Az információelmélet elemei . – John Wiley & Sons. - 1991. - S. 22. o.