Távolság (divergencia, divergence) Kullback-Leibler ( angolul Kullback-Leibler divergence ), RKL , információs eltérés , megkülönböztető információ , információnyereség , relatív entrópia ( angol relatív entrópia ) [1] - nem negatív funkcionális , amely aszimmetrikus mértéke távolság egymástól az elemi események közös terén definiált két valószínűségi eloszlás barátja [2] . Gyakran alkalmazzák az információelméletben és a matematikai statisztikákban .
Egy eloszlás Kullback-Leibler divergenciáját ( vagy relatíve szólva "távolságtól -ig ") jelöli . A funkcionális (eloszlás ) első argumentumát általában igaz vagy eleve feltételezett eloszlásként értelmezik , a másodikat (eloszlás ) feltételezett (ellenőrizhető) eloszlásként. Az eloszlás gyakran egy eloszlás közelítéseként szolgál . A függvény értéke a figyelmen kívül hagyott eloszlási információ mennyiségeként értelmezhető, ha közelítésre használták . Ezt a távolságmértéket az információelméletben az információveszteség mértékeként is értelmezik, ha a valódi eloszlást az eloszlással helyettesítjük .
Általános esetben, ha bármely olyan mérték , amelyre léteznek függvények , abszolút folytonos az és viszonylatban, akkor az eloszlás Kullback-Leibler divergenciáját a -hoz viszonyítva definiáljuk:
.A logaritmus alapja ebben a képletben nem játszik jelentős szerepet. Választása lehetővé teszi egy adott típusú funkcionális rögzítését egyenértékű funkcionális családból, és egyenértékű a Kullback-Leibler-eltérés mértékegységének kiválasztásával (hasonlóan az entrópia számítási helyzetéhez ), így lehetséges a logaritmus használata bármely bázis nagyobb egynél. Más szóval, a funkcionális egy pozitív állandó tényezőig van definiálva. A leggyakoribb a természetes logaritmus (kényelmi okokból), valamint a bináris logaritmus - a bitekben való eltérés mérésére (általában az információelméletben használják ). A Kullback-Leibler divergencia egy dimenzió nélküli mennyiség , függetlenül az eredeti valószínűségi változók dimenziójától .
Bár a Kullback-Leibler távolságot (RKL) gyakran a valószínűségi eloszlások közötti távolság mérésének módszereként tartják számon, ez a függvény nem metrika az eloszlások terén, mivel nem elégíti ki a háromszög egyenlőtlenséget és nem teljesíti az axiómát. szimmetria: . Mindazonáltal infinitezimális alakja, különösen a Hessian , metrikus tenzort ad, amelyet Fisher információs metrikaként ismerünk .
A Kullback-Leibler távolság az eltérések egy általánosabb osztályának, az úgynevezett f - eltérésnek , valamint a Bregman-féle eltérések egy speciális esete . Az RKL a valószínűségek egyetlen eltérése, amely mindkét osztályhoz tartozik.
Az RKL-t eredetileg Solomon Kullback és Richard Leibler vezette be 1951-ben, mint két disztribúció közötti irányú eltérést. Ezt Kullback Információelmélet és statisztika című szövege tárgyalja. [egy]
A Kullback-Leibler távolságot néha úgy is értelmezik, mint a helyett az elért információnyereséget . Néha zavaró neveket használnak az RKL relatív entrópia relatív (jelölése ) vagy kereszt entrópia jelölésére .
Különféle konvenciók léteznek a jelölés olvasására vonatkozóan . Gyakran egyszerűen a és közötti eltérésnek vagy távolságnak nevezik , azonban ez nem jelzi a kapcsolat alapvető aszimmetriáját. Néha azt mondják, hogy "eltérés (hozzá képest) " vagy, viszonylagosan szólva, "távolság tőle " (általában a relatív entrópia vagy az információszerzés összefüggésében). Ebben az esetben az eloszlást igaznak értelmezzük.
Diszkrét valószínűségi eloszlások és számos elemi esemény esetén az eloszlás Kullback-Leibler divergenciája az eloszlás tekintetében (vagy "távolság -tól " ) a következőképpen definiálható [3] :
.Más szóval, ez a valószínűségek és a valószínűségek közötti logaritmikus különbség átlaga , ahol az átlagot az eloszlásból veszik . Az RKL csak akkor van definiálva, ha mindenre ( abszolút folytonosság ). Amikor , a -edik tag hozzájárulása nullaként értelmeződik, mert .
A -dimenziós abszolút folytonos eloszlások és a Kullback-Leibler távolságot a [4] kifejezés adja meg.
,ahol és az intervallumon definiált eloszlássűrűségfüggvények és .
Általánosabban szólva, ha és valószínűségi mértékek a halmazon , és abszolút folytonosak a -hoz képest , akkor az RKL-t tól- ig a következőképpen definiáljuk:
,ahol a Radon-Nikodym származék a -hoz képest , és feltéve, hogy a jobb oldali kifejezés létezik. Ezzel egyenértékűen így is írható
.Meg kell jegyezni, hogy a Radon-Nikodim származék használata formális eszközként szolgál e kifejezések megírásához, de nem fedi fel értelmes jelentésüket.
A Kullback-Leibler divergencia függvény dimenzió nélküli, de értékei eltérő mértékegységűek lehetnek. Tehát, ha ezekben a képletekben a logaritmusokat 2-es bázisba vesszük, akkor a divergenciát (információelméleti szempontból ez is információ) bitben mérjük ; ha e -n alapul (természetes bázissal), akkor a divergenciát (információt) nats -ban mérjük . A legtöbb RKL-t tartalmazó képlet a logaritmus alapjától függetlenül megtartja jelentését.
Arthur Hobson bebizonyította, hogy a Kullback-Leibler távolság az egyetlen mértéke a valószínűségi eloszlások közötti különbségnek, amely kielégít néhány olyan kívánatos tulajdonságot, amelyek az entrópia általánosan használt jellemzéseiben megjelenő tulajdonságok kanonikus kiterjesztései . [5] Ezért a kölcsönös információ a kölcsönös függés egyetlen olyan mértéke, amely bizonyos kapcsolódó feltételekhez kötődik, mivel az RCL-ben definiálható .
A Kullback-Leibler távolság Bayes-féle jellemzése is létezik. [6]
Az információelméletben a Kraft-McMillan-tétel kimondja, hogy bármely közvetlenül dekódolható kódolási séma üzenet kódolására egyetlen érték azonosítására , úgy tekinthető, mint amely egy implicit valószínűségi eloszlást képvisel a következőn , ahol a kód hossza bitben. Ezért az RCL úgy értelmezhető, mint a továbbítandó nulla jeltől számított extra üzenethossz, ha egy Q adott (helytelen) eloszlására optimális kódot használunk, összehasonlítva a P valódi eloszlásán alapuló kóddal. .
, ahol P és Q keresztentrópiája , P entrópiája .
Vegye figyelembe azt is, hogy a nagy eltérések elméletében kapcsolat van az RKL és a "sebességfüggvény" között . [7] [8]
,
hol és . Annak ellenére, hogy feltételezzük, hogy az átalakulás folyamatos volt, ez jelen esetben nem szükséges. Ebből is látszik, hogy az RKL a dimenzióval konzisztens értéket ad meg , hiszen ha x dimenziós változó, akkor P(x)-nek és Q(x)-nek is van dimenziója, mivel ez egy dimenzió nélküli mennyiség. A logaritmus alatti kifejezés azonban dimenzió nélküli marad, ahogy kell. Ezért a Kullback-Leibler távolság bizonyos értelemben alapvetőbb mennyiségnek tekinthető, mint néhány más információelméletbeli tulajdonság [9] (mint például az öninformáció vagy a Shannon-entrópia ), amely meghatározatlanná vagy negatívvá válhat a nem-ellenőrzésre. diszkrét valószínűségek.
Tegyük fel, hogy két többváltozós normális eloszlásunk van, átlaggal és (reverzibilis) kovarianciamátrixszal . Ha két disztribúciónak ugyanaz a k dimenziója, akkor az eloszlások közötti RCL a következő [10] :
Az utolsó tag logaritmusát e bázisnak kell tekinteni, mivel az utolsó tag kivételével minden olyan kifejezés természetes logaritmusa, amelyek vagy a sűrűségfüggvény bármely tényezője, vagy más módon előfordulnak a természetben. Ezért az egyenlet nats -ban mért eredményt ad . Ha ezt a kifejezést teljesen elosztjuk log e 2-vel, megkapjuk az eloszlást bitben.
Nevezhetnénk az RCL-t " metrikának " a valószínűségi eloszlások terén, de ez helytelen lenne, mivel nem szimmetrikus és nem teljesíti a háromszög egyenlőtlenséget . Ennek ellenére, előzetes mérőszámként , topológiát generál a valószínűségi eloszlások terén . Pontosabban, ha olyan eloszlássorozat, hogy , akkor azt mondjuk, hogy . Pinsker egyenlőtlenségéből következik, hogy — , ahol ez utóbbira van szükség a variáció konvergenciájához .
Rényi Alfréd (1970, 1961) szerint . [11] [12]
A Kullback-Leibler távolság azonban közvetlenül kapcsolódik a metrikához, nevezetesen a Fisher információs metrikához . Tegyük fel, hogy van P és Q valószínűségi eloszlás, mindkettő ugyanazzal (esetleg többváltozós) paraméterrel van paraméterezve . Tekintsük most a és két közeli értékét , így a paraméter csak kis számmal tér el a paramétertől . Ugyanis egy Taylor-sorozatban az első sorrendig bővítve ( az Einstein-konvenciót használva )
,
ahol egy kis változás a j-edik irányban, és a megfelelő változási sebesség a valószínűségi eloszlásban. Mivel az RCL abszolút minimuma 0 P=Q-nál, vagyis az RCL a paraméterek tekintetében a második kicsinységi sorrenddel rendelkezik . Formálisabban, mint minden minimum esetében, a divergencia első deriváltja eltűnik
a Taylor-kiterjesztés pedig a kicsinység második rendjéből indul ki
,
ahol a hesszinek nem negatívnak kell lennie. Ha megengedjük a változtatást (és a 0-s részindexet elhagyjuk), akkor a Hessian meghatároz egy (esetleg degenerált) Riemann-metrikát a paramétertérben , amelyet Fisher információs metrikának neveznek.
Sok más információelméleti mennyiség értelmezhető úgy, hogy a Kullback-Leibler távolságot konkrét esetekre alkalmazzuk.
A sajátérték a valószínűségi eloszlás RCL-je a Kronecker -szimbólumból , amely azt a bizonyosságot jelenti, hogy - vagyis a további bitek számát, amelyeket továbbítani kell annak meghatározásához , hogy csak a valószínűségi eloszlás áll-e rendelkezésre a vevő számára, nem azt a tényt, hogy .
az RCL a közös valószínűségi eloszlásból származó két határvalószínűségi eloszlás szorzata – vagyis azon extra bitek várható száma, amelyeket el kell küldeni a meghatározásához , és ha kódolásuk csak a határeloszlást használja a közös eloszlás helyett. Ezzel egyenértékűen, ha az együttes valószínűség ismert, akkor átlagosan az extra bitek várható számát kell elküldeni annak meghatározására, hogy az értéket nem ismeri-e még a vevő.
a bitek száma, amelyet át kell küldeni az azonos valószínűségű kimenetek azonosításához , ez kisebb, mint a valódi eloszlásból származó egyenletes eloszlású RCL - vagyis kevesebb, mint a tárolt bitek várható száma, amelyet el kell küldeni, ha az érték kódolása a megfelelő az egyenletes eloszlásra és nem a valódi eloszlásra .
a bitek száma, amelyet el kell küldeni az azonos valószínűségű kimenetek azonosításához , ez kisebb, mint a valódi közös eloszlásból származó eloszlások szorzatának RCL-je - azaz kevesebb, mint az elküldendő tárolt bitek várható száma, ha az érték az egységes eloszlás szerint van kódolva , nem pedig feltételes adateloszlással és .
A két valószínűségi eloszlás közötti keresztentrópia méri az esemény azonosításához szükséges bitek átlagos számát a lehetséges események halmazából, ha egy adott valószínűségi eloszláson alapuló kódolási sémát használunk az "igazi" eloszlás helyett . Két eloszlás és ugyanazon a valószínűségi tér keresztentrópiája a következőképpen definiálható:
A bayesi statisztikában a Kullback-Leibler távolság használható az információnyerés mértékeként, amikor egy megelőző utólagos valószínűségi eloszlásba lépünk. Ha valami új tényt fedeznek fel , akkor az (a priori) valószínűségi eloszlást egy új (utólagos) valószínűségi eloszlással módosíthatja a Bayes -tétel segítségével :
Ennek az eloszlásnak új entrópiája van
amely lehet kisebb vagy nagyobb az eredeti entrópiánál . Az új valószínűségi eloszlást tekintve azonban becsülhető, hogy az eredeti alapú kód használata az új alapú kód helyett a várt bitszámmal növelné az üzenet hosszát. Ennyi hasznos információ vagy információnyereség tehát a -val kapcsolatban , amelyet úgy kaptunk, hogy megállapították, hogy .
Ha ezt követően újabb adat érkezik, akkor az x valószínűségi eloszlása tovább frissíthető, hogy egy új legjobb tippet kapjunk , . Ha újra megvizsgáljuk a használandó információnyereséget és nem , akkor kiderül, hogy lehet nagyobb vagy kisebb, mint korábban gondoltuk: , lehet vagy , mint , és ezért a teljes információnyereség nem elégíti ki a háromszög egyenlőtlenséget:
, lehet nagyobb, kisebb vagy egyenlő
Annyit lehet mondani, hogy átlagban, az átlagot véve , mindkét oldal megadja az átlagot.
Egy kísérleti Bayes-modellben közös cél a várt RCL maximalizálása a korábbi és utólagos eloszlások között. [13] Ha a posteriort Gauss-eloszláshoz közelítjük, a várható RCL-t maximalizáló modellt Bayes-i d-optimálisnak nevezzük .
A Kullback-Leibler távolság úgy is értelmezhető, mint a több mint : mintánkénti átlaginformáció elvárt megkülönböztető információja a hipotézis javára való eltérés esetén , szemben azzal a hipotézissel, amikor a hipotézis igaz [14] . Ennek a mennyiségnek egy másik elnevezése, amelyet Irving John Good adott, az egyes mintáktól elvárt túllépések várható bizonyítási tömege .
A többletre vonatkozó bizonyítékok várható súlya nem egyezik meg például a hipotézis p(H) valószínűségi eloszlására várt információszerzéssel .
A két mennyiség bármelyike használható hasznossági függvényként a Bayes-féle kísérleti formában az optimális következő vizsgálati kérdés kiválasztásához, de általában inkább eltérő kísérleti stratégiákhoz vezetnek.
Az információnyerési entrópia skálán nagyon kicsi a különbség a majdnem bizonyosság és a teljes bizonyosság között – a majdnem bizonyosság kódolása valószínűleg nem igényel több bitet, mint a teljes bizonyosság kódolása. Másrészt a bizonyítékok súlya benne van a logit skálában, és a kettő közötti különbség óriási, szinte végtelen. Ez tükrözheti a különbséget aközött, hogy majdnem biztos (valószínűségi szinten), mondjuk, hogy a Riemann-hipotézis igaz, és teljesen biztos abban, hogy igaz, mert van matematikai bizonyíték. A bizonytalanság két különböző veszteségfüggvény-skála egyaránt hasznos aszerint, hogy mindegyik mennyire tükrözi a problémában vizsgált probléma adott körülményeit.
Az RKL mint diszkriminatív információ ötlete arra késztette Kullbacket, hogy javaslatot tegyen a minimális diszkriminációs információ (MDI ) elvére : új tények ismeretében új terjesztést kell választani azok közül, amelyeket nehéz megkülönböztetni az eredeti terjesztéstől ; mert az új adatok a lehető legkevesebb információnyereséget generálnak .
Például, ha van egy korábbi eloszlásunk és felett , majd tanulmányozzuk és valós eloszlását . A és , , új közös terjesztése és a régi korábbi disztribúció közötti RCL a következő lenne:
azaz az előző eloszlás RKL-jének összege a frissített eloszlásból , plusz az új eloszlásból származó korábbi feltételes eloszlás RKL-jének várható értéke (a használt valószínűségi eloszlás ) . (Megjegyzendő, hogy a gyakran később várható értéket feltételes RKL-nek (vagy feltételes relatív entrópiának) nevezzük, és [15] -nek jelöljük . Ez minimalizálja, ha a teljes tartalom felett van. És észrevesszük, hogy ez az eredmény egyesíti Bayes tételét, ha az új eloszlás valójában egy függvény, amely magabiztosan reprezentálja a -t, amelynek egy adott értéke van.
A Minimális Megkülönböztető Információ a Laplace -féle közömbösségi elv (más néven az elégtelen ész elve) és a Jaynes -féle Maximális entrópia elv kiterjesztése . Különösen a maximális entrópia elvének természetes kiterjesztése a diszkrétről a folytonos eloszlásra, amihez a Shannon-entrópia nem válik túl kényelmessé (lásd a differenciális entrópia ), de az RCL továbbra is ugyanolyan releváns.
A műszaki irodalomban az MDI-t néha a minimális keresztentrópia elvének nevezik . Az RCL - nek a -hoz képesti minimalizálása egyenértékű a keresztentrópia és a keresztezés minimalizálásával , tehát ez megfelelő, ha megpróbálunk pontos közelítő értéket választani -ig .
Legyen, valamilyen valószínűségi változó eloszlásából vett minta alapján vissza kell állítani az eloszlásának sűrűségét, paraméteres család formájában megadva , ahol a függvény argumentuma ismeretlen paraméter. A paraméterbecslés a sűrűség és az "igaznak" tekintett tapasztalati eloszlássűrűség közötti Kullback-Leibler távolság minimalizálásának problémájának megoldásaként kereshető .
,hol van a Dirac függvény :
.Könnyen belátható, hogy a probléma megoldása a paraméter maximális valószínűségi becsléséhez vezet . Ha a valószínűségi változó tényleges eloszlássűrűsége nem tartozik a családba , a talált paraméterbecslést kvázi-likelihoodnak nevezzük, és ez adja a legjobb közelítést a minta által képviselt tényleges eloszláshoz a Kullback-Leibler távolságban kifejezett sűrűségű eloszlások között. .