Kullback-Leibler távolság

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. december 3-án felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

Távolság (divergencia, divergence) Kullback-Leibler ( angolul  Kullback-Leibler divergence ), RKL , információs eltérés , megkülönböztető információ , információnyereség , relatív entrópia ( angol  relatív entrópia ) [1]  - nem negatív funkcionális , amely aszimmetrikus mértéke távolság egymástól az elemi események közös terén definiált két valószínűségi eloszlás barátja [2] . Gyakran alkalmazzák az információelméletben és a matematikai statisztikákban .

Definíció és értelmezések

Egy eloszlás Kullback-Leibler divergenciáját ( vagy relatíve szólva "távolságtól -ig ") jelöli . A funkcionális (eloszlás ) első argumentumát általában igaz vagy eleve feltételezett eloszlásként értelmezik , a másodikat (eloszlás ) feltételezett (ellenőrizhető) eloszlásként. Az eloszlás gyakran egy eloszlás közelítéseként szolgál . A függvény értéke a figyelmen kívül hagyott eloszlási információ mennyiségeként értelmezhető, ha közelítésre használták . Ezt a távolságmértéket az információelméletben az információveszteség mértékeként is értelmezik, ha a valódi eloszlást az eloszlással helyettesítjük .

Általános esetben, ha  bármely olyan mérték , amelyre léteznek függvények , abszolút folytonos az és viszonylatban, akkor az eloszlás Kullback-Leibler divergenciáját a -hoz viszonyítva definiáljuk:

.

A logaritmus alapja ebben a képletben nem játszik jelentős szerepet. Választása lehetővé teszi egy adott típusú funkcionális rögzítését egyenértékű funkcionális családból, és egyenértékű a Kullback-Leibler-eltérés mértékegységének kiválasztásával (hasonlóan az entrópia számítási helyzetéhez ), így lehetséges a logaritmus használata bármely bázis nagyobb egynél. Más szóval, a funkcionális egy pozitív állandó tényezőig van definiálva. A leggyakoribb a természetes logaritmus (kényelmi okokból), valamint a bináris logaritmus - a bitekben  való eltérés mérésére (általában az információelméletben használják ). A Kullback-Leibler divergencia egy dimenzió nélküli mennyiség , függetlenül az eredeti valószínűségi változók dimenziójától .

Bár a Kullback-Leibler távolságot (RKL) gyakran a valószínűségi eloszlások közötti távolság mérésének módszereként tartják számon, ez a függvény nem metrika az eloszlások terén, mivel nem elégíti ki a háromszög egyenlőtlenséget és nem teljesíti az axiómát. szimmetria: . Mindazonáltal infinitezimális alakja, különösen a Hessian , metrikus tenzort ad, amelyet Fisher információs metrikaként ismerünk .

A Kullback-Leibler távolság az eltérések egy általánosabb osztályának, az úgynevezett f - eltérésnek , valamint a Bregman-féle eltérések egy speciális esete . Az RKL a valószínűségek egyetlen eltérése, amely mindkét osztályhoz tartozik.

Az RKL-t eredetileg Solomon Kullback és Richard Leibler vezette be 1951-ben, mint két disztribúció közötti irányú eltérést. Ezt Kullback Információelmélet és statisztika című szövege tárgyalja. [egy]

A Kullback-Leibler távolságot néha úgy is értelmezik, mint a helyett az elért információnyereséget . Néha zavaró neveket használnak az RKL relatív entrópia relatív (jelölése ) vagy kereszt entrópia jelölésére .

Különféle konvenciók léteznek a jelölés olvasására vonatkozóan . Gyakran egyszerűen a és közötti eltérésnek vagy távolságnak nevezik , azonban ez nem jelzi a kapcsolat alapvető aszimmetriáját. Néha azt mondják, hogy "eltérés (hozzá képest) " vagy, viszonylagosan szólva, "távolság tőle " (általában a relatív entrópia vagy az információszerzés összefüggésében). Ebben az esetben az eloszlást igaznak értelmezzük.

Sajátos definíciók és definíciók a Radon–Nikodim származék tekintetében

Diszkrét valószínűségi eloszlások és számos elemi esemény esetén az eloszlás Kullback-Leibler divergenciája az eloszlás tekintetében (vagy "távolság -tól " ) a következőképpen definiálható [3] :

.

Más szóval, ez a valószínűségek és a valószínűségek közötti logaritmikus különbség átlaga , ahol az átlagot az eloszlásból veszik . Az RKL csak akkor van definiálva, ha mindenre ( abszolút folytonosság ). Amikor , a -edik tag hozzájárulása nullaként értelmeződik, mert .

A -dimenziós abszolút folytonos eloszlások és a Kullback-Leibler távolságot a [4] kifejezés adja meg.

,

ahol és  az intervallumon definiált eloszlássűrűségfüggvények és .

Általánosabban szólva, ha  és valószínűségi mértékek a halmazon , és abszolút folytonosak a -hoz képest , akkor az RKL-t tól- ig a következőképpen definiáljuk:

,

ahol  a Radon-Nikodym származék a -hoz képest , és feltéve, hogy a jobb oldali kifejezés létezik. Ezzel egyenértékűen így is írható

.

Meg kell jegyezni, hogy a Radon-Nikodim származék használata formális eszközként szolgál e kifejezések megírásához, de nem fedi fel értelmes jelentésüket.

A Kullback-Leibler divergencia függvény dimenzió nélküli, de értékei eltérő mértékegységűek lehetnek. Tehát, ha ezekben a képletekben a logaritmusokat 2-es bázisba vesszük, akkor a divergenciát (információelméleti szempontból ez is információ) bitben mérjük ; ha e -n alapul (természetes bázissal), akkor a divergenciát (információt) nats -ban mérjük . A legtöbb RKL-t tartalmazó képlet a logaritmus alapjától függetlenül megtartja jelentését.

Jellemzés

Arthur Hobson bebizonyította, hogy a Kullback-Leibler távolság az egyetlen mértéke a valószínűségi eloszlások közötti különbségnek, amely kielégít néhány olyan kívánatos tulajdonságot, amelyek az entrópia általánosan használt jellemzéseiben megjelenő tulajdonságok kanonikus kiterjesztései . [5] Ezért a kölcsönös információ a kölcsönös függés egyetlen olyan mértéke, amely bizonyos kapcsolódó feltételekhez kötődik, mivel az RCL-ben  definiálható .

A Kullback-Leibler távolság Bayes-féle jellemzése is létezik. [6]

Motiváció

Az információelméletben a Kraft-McMillan-tétel kimondja, hogy bármely közvetlenül dekódolható kódolási séma üzenet kódolására egyetlen érték azonosítására , úgy tekinthető, mint amely egy implicit valószínűségi eloszlást képvisel a következőn , ahol  a kód hossza bitben. Ezért az RCL úgy értelmezhető, mint a továbbítandó nulla jeltől számított extra üzenethossz, ha egy Q adott (helytelen) eloszlására optimális kódot használunk, összehasonlítva a P valódi eloszlásán alapuló kóddal. .

, ahol P és Q keresztentrópiája  , P  entrópiája .

Vegye figyelembe azt is, hogy a nagy eltérések elméletében kapcsolat van az RKL és a "sebességfüggvény" között . [7] [8]

Tulajdonságok

,

hol és . Annak ellenére, hogy feltételezzük, hogy az átalakulás folyamatos volt, ez jelen esetben nem szükséges. Ebből is látszik, hogy az RKL a dimenzióval konzisztens értéket ad meg , hiszen ha x dimenziós változó, akkor P(x)-nek és Q(x)-nek is van dimenziója, mivel ez egy dimenzió nélküli mennyiség. A logaritmus alatti kifejezés azonban dimenzió nélküli marad, ahogy kell. Ezért a Kullback-Leibler távolság bizonyos értelemben alapvetőbb mennyiségnek tekinthető, mint néhány más információelméletbeli tulajdonság [9] (mint például az öninformáció vagy a Shannon-entrópia ), amely meghatározatlanná vagy negatívvá válhat a nem-ellenőrzésre. diszkrét valószínűségek.

A Kullback-Leibler távolság a többváltozós normális eloszláshoz

Tegyük fel, hogy két többváltozós normális eloszlásunk van, átlaggal és (reverzibilis) kovarianciamátrixszal . Ha két disztribúciónak ugyanaz a k dimenziója, akkor az eloszlások közötti RCL a következő [10] :

Az utolsó tag logaritmusát e bázisnak kell tekinteni, mivel az utolsó tag kivételével minden olyan kifejezés természetes logaritmusa, amelyek vagy a sűrűségfüggvény bármely tényezője, vagy más módon előfordulnak a természetben. Ezért az egyenlet nats -ban mért eredményt ad . Ha ezt a kifejezést teljesen elosztjuk log e 2-vel, megkapjuk az eloszlást bitben.

A metrikákhoz való viszony

Nevezhetnénk az RCL-t " metrikának " a valószínűségi eloszlások terén, de ez helytelen lenne, mivel nem szimmetrikus és nem teljesíti a háromszög egyenlőtlenséget . Ennek ellenére, előzetes mérőszámként , topológiát generál a valószínűségi eloszlások terén . Pontosabban, ha olyan eloszlássorozat, hogy , akkor azt mondjuk, hogy . Pinsker egyenlőtlenségéből következik, hogy — , ahol ez utóbbira van szükség a variáció konvergenciájához .

Rényi Alfréd (1970, 1961) szerint . [11] [12]

Fisher's Information Metric

A Kullback-Leibler távolság azonban közvetlenül kapcsolódik a metrikához, nevezetesen a Fisher információs metrikához . Tegyük fel, hogy van P és Q valószínűségi eloszlás, mindkettő ugyanazzal (esetleg többváltozós) paraméterrel van paraméterezve . Tekintsük most a és két közeli értékét , így a paraméter csak kis számmal tér el a paramétertől . Ugyanis egy Taylor-sorozatban az első sorrendig bővítve ( az Einstein-konvenciót használva )

,

ahol  egy kis változás a j-edik irányban, és a megfelelő változási sebesség a valószínűségi eloszlásban. Mivel az RCL abszolút minimuma 0 P=Q-nál, vagyis az RCL a paraméterek tekintetében a második kicsinységi sorrenddel rendelkezik . Formálisabban, mint minden minimum esetében, a divergencia első deriváltja eltűnik

a Taylor-kiterjesztés pedig a kicsinység második rendjéből indul ki

,

ahol a hesszinek nem negatívnak kell lennie. Ha megengedjük a változtatást (és a 0-s részindexet elhagyjuk), akkor a Hessian meghatároz egy (esetleg degenerált) Riemann-metrikát a paramétertérben , amelyet Fisher információs metrikának neveznek.

Kapcsolat az információelmélet más dimenzióival

Sok más információelméleti mennyiség értelmezhető úgy, hogy a Kullback-Leibler távolságot konkrét esetekre alkalmazzuk.

A sajátérték a valószínűségi eloszlás RCL-je a Kronecker -szimbólumból , amely azt a bizonyosságot jelenti, hogy  - vagyis a további bitek számát, amelyeket továbbítani kell annak meghatározásához , hogy csak a valószínűségi eloszlás áll-e rendelkezésre a vevő számára, nem azt a tényt, hogy .

Kölcsönös információ -

az RCL a közös valószínűségi eloszlásból származó két határvalószínűségi eloszlás szorzata  – vagyis azon extra bitek várható száma, amelyeket el kell küldeni a meghatározásához , és ha kódolásuk csak a határeloszlást használja a közös eloszlás helyett. Ezzel egyenértékűen, ha az együttes valószínűség ismert, akkor átlagosan az extra bitek várható számát kell elküldeni annak meghatározására, hogy az értéket nem ismeri-e még a vevő.

Shannon entrópiája -

a bitek száma, amelyet át kell küldeni az azonos valószínűségű kimenetek azonosításához , ez kisebb, mint a valódi eloszlásból származó egyenletes eloszlású RCL  - vagyis kevesebb, mint a tárolt bitek várható száma, amelyet el kell küldeni, ha az érték kódolása a megfelelő az egyenletes eloszlásra és nem a valódi eloszlásra .

Feltételes entrópia -

a bitek száma, amelyet el kell küldeni az azonos valószínűségű kimenetek azonosításához , ez kisebb, mint a valódi közös eloszlásból származó eloszlások szorzatának RCL-je  - azaz kevesebb, mint az elküldendő tárolt bitek várható száma, ha az érték az egységes eloszlás szerint van kódolva , nem pedig feltételes adateloszlással és .

A két valószínűségi eloszlás közötti keresztentrópia méri az esemény azonosításához szükséges bitek átlagos számát a lehetséges események halmazából, ha egy adott valószínűségi eloszláson alapuló kódolási sémát használunk az "igazi" eloszlás helyett . Két eloszlás és ugyanazon a valószínűségi tér keresztentrópiája a következőképpen definiálható:

Kullback-Leibler távolság és Bayes-módosítás

A bayesi statisztikában a Kullback-Leibler távolság használható az információnyerés mértékeként, amikor egy megelőző utólagos valószínűségi eloszlásba lépünk. Ha valami új tényt fedeznek fel , akkor az (a priori) valószínűségi eloszlást egy új (utólagos) valószínűségi eloszlással módosíthatja a Bayes -tétel segítségével :

Ennek az eloszlásnak új entrópiája van

amely lehet kisebb vagy nagyobb az eredeti entrópiánál . Az új valószínűségi eloszlást tekintve azonban becsülhető, hogy az eredeti alapú kód használata az új alapú kód helyett a várt bitszámmal növelné az üzenet hosszát. Ennyi hasznos információ vagy információnyereség tehát a -val kapcsolatban , amelyet úgy kaptunk, hogy megállapították, hogy .

Ha ezt követően újabb adat érkezik, akkor az x valószínűségi eloszlása ​​tovább frissíthető, hogy egy új legjobb tippet kapjunk , . Ha újra megvizsgáljuk a használandó információnyereséget és nem , akkor kiderül, hogy lehet nagyobb vagy kisebb, mint korábban gondoltuk: , lehet vagy , mint , és ezért a teljes információnyereség nem elégíti ki a háromszög egyenlőtlenséget:

, lehet nagyobb, kisebb vagy egyenlő

Annyit lehet mondani, hogy átlagban, az átlagot véve , mindkét oldal megadja az átlagot.

Bayes kísérleti modellje

Egy kísérleti Bayes-modellben közös cél  a várt RCL maximalizálása a korábbi és utólagos eloszlások között. [13] Ha a posteriort Gauss-eloszláshoz közelítjük, a várható RCL-t maximalizáló modellt Bayes-i d-optimálisnak nevezzük .

Megkülönböztető információk

A Kullback-Leibler távolság úgy is értelmezhető, mint a több mint : mintánkénti átlaginformáció elvárt megkülönböztető információja a hipotézis javára való eltérés esetén , szemben azzal a hipotézissel, amikor a hipotézis igaz [14] . Ennek a mennyiségnek egy másik elnevezése, amelyet Irving John Good adott, az egyes mintáktól elvárt túllépések várható bizonyítási tömege .

A többletre vonatkozó bizonyítékok várható súlya nem egyezik meg például a hipotézis p(H) valószínűségi eloszlására várt információszerzéssel .

A két mennyiség bármelyike ​​használható hasznossági függvényként a Bayes-féle kísérleti formában az optimális következő vizsgálati kérdés kiválasztásához, de általában inkább eltérő kísérleti stratégiákhoz vezetnek.

Az információnyerési entrópia skálán nagyon kicsi a különbség a majdnem bizonyosság és a teljes bizonyosság között – a majdnem bizonyosság kódolása valószínűleg nem igényel több bitet, mint a teljes bizonyosság kódolása. Másrészt a bizonyítékok súlya benne van a logit skálában, és a kettő közötti különbség óriási, szinte végtelen. Ez tükrözheti a különbséget aközött, hogy majdnem biztos (valószínűségi szinten), mondjuk, hogy a Riemann-hipotézis igaz, és teljesen biztos abban, hogy igaz, mert van matematikai bizonyíték. A bizonytalanság két különböző veszteségfüggvény-skála egyaránt hasznos aszerint, hogy mindegyik mennyire tükrözi a problémában vizsgált probléma adott körülményeit.

A minimális megkülönböztető információ elve

Az RKL mint diszkriminatív információ ötlete arra késztette Kullbacket, hogy javaslatot tegyen a minimális diszkriminációs információ (MDI ) elvére : új tények ismeretében új terjesztést kell választani azok közül, amelyeket nehéz megkülönböztetni az eredeti terjesztéstől ; mert az új adatok a lehető legkevesebb információnyereséget generálnak .  

Például, ha van egy korábbi eloszlásunk és felett , majd tanulmányozzuk és valós eloszlását . A és , , új közös terjesztése és a régi korábbi disztribúció közötti RCL a következő lenne:

azaz az előző eloszlás RKL-jének összege a frissített eloszlásból , plusz az új eloszlásból származó korábbi feltételes eloszlás RKL-jének várható értéke (a használt valószínűségi eloszlás ) . (Megjegyzendő, hogy a gyakran később várható értéket feltételes RKL-nek (vagy feltételes relatív entrópiának) nevezzük, és [15] -nek jelöljük . Ez minimalizálja, ha a teljes tartalom felett van. És észrevesszük, hogy ez az eredmény egyesíti Bayes tételét, ha az új eloszlás valójában egy függvény, amely magabiztosan reprezentálja a -t, amelynek egy adott értéke van.

A Minimális Megkülönböztető Információ a Laplace -féle közömbösségi elv (más néven az elégtelen ész elve) és a Jaynes -féle Maximális entrópia elv kiterjesztése . Különösen a maximális entrópia elvének természetes kiterjesztése a diszkrétről a folytonos eloszlásra, amihez a Shannon-entrópia nem válik túl kényelmessé (lásd a differenciális entrópia ), de az RCL továbbra is ugyanolyan releváns.

A műszaki irodalomban az MDI-t néha a minimális keresztentrópia elvének nevezik . Az RCL - nek a -hoz képesti minimalizálása egyenértékű a keresztentrópia és a keresztezés minimalizálásával , tehát ez megfelelő, ha megpróbálunk pontos közelítő értéket választani -ig .

Használati példa

Legyen, valamilyen valószínűségi változó eloszlásából vett minta alapján vissza kell állítani az eloszlásának sűrűségét, paraméteres család formájában megadva , ahol  a függvény argumentuma  ismeretlen paraméter. A paraméterbecslés a sűrűség és az "igaznak" tekintett tapasztalati eloszlássűrűség közötti Kullback-Leibler távolság minimalizálásának problémájának megoldásaként kereshető .

,

hol  van a Dirac függvény :

.

Könnyen belátható, hogy a probléma megoldása a paraméter maximális valószínűségi becsléséhez vezet . Ha a valószínűségi változó tényleges eloszlássűrűsége nem tartozik a családba , a talált paraméterbecslést kvázi-likelihoodnak nevezzük, és ez adja a legjobb közelítést a minta által képviselt tényleges eloszláshoz a Kullback-Leibler távolságban kifejezett sűrűségű eloszlások között. .

Jegyzetek

  1. ↑ 1 2 Kullback S. Információelmélet és statisztika. – John Wiley & Sons, 1959.
  2. Kullback S., Leibler R. A. Az információról és az elégségességről // The Annals of Mathematical Statistics. 1951.V.22. 1. szám P. 79-86.
  3. MacKay, David JC Információelmélet, következtetés és tanulási algoritmusok. - Első kiadás. - Cambridge University Press, 2003. - C. p. 34.
  4. Bishop C. Mintafelismerés és gépi tanulás. - 2006. - S. p. 55.
  5. Hobson, Arthur. Fogalmak a statisztikai mechanikában. Gordon és Breach. - New York, 1971. - ISBN 0677032404 .
  6. Baez, John; Fritz, Tóbiás. A kategóriák elmélete és alkalmazása 29.-C. „A relatív entrópia bayesi jellemzése”, 1. o. 421-456..
  7. I.N. Sanov. A valószínűségi változók nagy eltérésének valószínűségéről. - 1957. - S. 11-44.
  8. Novak SY Extreme Value Methods with Applications to Finance ch. 14.5. – Chapman és Hall. - 2011. - ISBN 978-1-4398-3574-6 .
  9. Relatív entrópia . videolectures.net. Letöltve: 2016. június 14. Az eredetiből archiválva : 2018. december 25.
  10. Duchi J. "A lineáris algebra és az optimalizálás származékai". - S. 13 .
  11. Rényi A. Valószínűségszámítás. - 1970. - ISBN 0-486-45867-9 ..
  12. Rényi, A. "Az entrópia és információ mértékéről". - 4. Berkeley matematikai, statisztikai és valószínűségi szimpózium, 1960, 1961. - 547–561.
  13. Chaloner, K.; Verdinelli, I. "Bayesi kísérleti tervezés: áttekintés". — Statisztikai Tudomány 10, 1995. — 273–304 pp.
  14. Press, W.H.; Teukolsky, SA; Vetterling, WT; Flannery, B. P. (2007). "14.7.2. szakasz. Kullback–Leibler távolság". Numerikus receptek: A tudományos számítástechnika művészete (3. kiadás). Cambridge University Press. ISBN 978-0-521-88068-8 . .
  15. Thomas M. Borító, Joy A. Thomas. Az információelmélet elemei . – John Wiley & Sons. - 1991. - S. 22. o.