Bragman eltérés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. november 20-án felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

A Bragman- divergencia vagy a Bragman-távolság két pont közötti távolság mértéke , amelyet szigorúan konvex függvényként határozunk meg. Az eltérések fontos osztályát. Ha a pontokat valószínűségi eloszlásként értelmezzük , akár egy parametrikus modell értékeként , akár megfigyelt értékek halmazaként, akkor a kapott távolság egy statisztikai távolság . A legelemibb Bragman-divergencia a négyzetes euklideszi távolság .

A Bragman-divergencia hasonló a metrikákhoz , de nem teljesíti sem a háromszög-egyenlőtlenséget , sem a szimmetriát (általános esetben), de kielégíti az általánosított Pitagorasz-tételt . Az információgeometriában a megfelelő statisztikai sokaságot lapos sokaságként (vagy kettősként) értelmezzük . Ez lehetővé teszi számos optimalizálási technikának a Bragman-divergencia általánosítását, amely geometriailag megfelel a legkisebb négyzetek módszerének általánosításának .

A Bragman-divergencia Lev Meerovich Bragman nevéhez fűződik , aki 1967-ben javasolta a koncepciót .

Definíció

Legyen egy folyamatosan differenciálható szigorúan konvex függvény egy zárt konvex halmazon .

Az F függvényhez tartozó Bragman-távolság pontokhoz az F függvény p pontban lévő értéke és az F függvény q pontban lévő elsőrendű Taylor-kiterjesztésének értéke közötti különbség, amelyet a p pontban számítunk ki :

Tulajdonságok

Itt és a p-nek és q-nak megfelelő kettőspontok.

Példák

a negatív entrópiafüggvény alkotja konvex függvénnyel általánosítva

A projektív kettősség általánosítása

A számítási geometria egyik kulcsfontosságú eszköze a projektív kettősség ötlete , amely a pontokat a hipersíkra és fordítva képezi le, miközben továbbra is fenntartja az előfordulási és a feletti/alatti kapcsolatokat. A projektív kettősségnek sok fajtája létezik – a szokásos forma egy pontot egy hipersíkra képez le . Ez a leképezés felfogható (ha a hipersíkot a normállal azonosítjuk) konvex konjugált leképezésként, amely a p pontot a duális pontba viszi , ahol F egy d - dimenziós paraboloidot definiál .

Ha most a paraboloidot bármely konvex függvénnyel helyettesítjük, akkor egy másik duális leképezést kapunk, amely megőrzi a standard projektív dualitás előfordulási és feletti/alatti tulajdonságait. Ebből következik, hogy a számítási geometria természetes kettős fogalmai, mint például a Voronoi-diagram és a Delaunay-háromszögelés , megőrzik értéküket olyan terekben, amelyek távolságát egy tetszőleges Bragman-divergencia határozza meg. A "normál" geometria algoritmusai természetesen kiterjednek ezekre a terekre [4] .

A Bragman-divergencia általánosításai

A Bragman-divergencia a Jensen-féle ferde eltérések korlátozó eseteiként értelmezhető [5] (lásd Nielsen és Bolz tanulmányát [6] ). A Jensen-divergencia komparatív konvexitás segítségével általánosítható, és ezen ferde Jensen-divergencia határeseteinek általánosítása általánosított Bragman divergenciákhoz vezet (lásd Nielsen és Nock [7] tanulmányát ). A Bragman [8] akkorddivergensét úgy kapjuk meg, hogy érintő helyett akkordot veszünk.

Bragman eltérés más objektumokon

A Bragman-divergencia definiálható mátrixokra, függvényekre és mértékekre (eloszlásokra). A mátrixokra vonatkozó Bragman-divergencia magában foglalja a Stein-veszteségfüggvényt [9] és a Neumann-entrópiát . A függvények Bragman divergenciái közé tartozik a teljes négyzetes hiba, a relatív entrópia és a torzítás négyzet (lásd Frigik et al . [3] alább a definíciókat és tulajdonságokat). Hasonlóképpen, a Bragman-divergencia halmazokra is meghatározható a szubmoduláris halmazfüggvénnyel , amely a konvex függvény diszkrét analógjaként ismert . A szubmoduláris Bragman-divergencia számos diszkrét mértéket foglal magában, mint például a Hamming-távolságot , a pontosságot és a visszahívást , a kölcsönös információt és néhány más távolságmértéket a halmazokon ( a szubmoduláris Bragman-divergencia részleteit és tulajdonságait lásd Ayer és Bilmes [10] ).

A gyakori Bragman-mátrix eltérések listája a 15.1. táblázatban található Nock, Magdalow, Bryce, Nielsen cikkében [11] .

Alkalmazások

A gépi tanulásban a Bragman divergenciát egy módosított logisztikai hibafüggvény kiszámítására használják, amely zajos adatok esetén jobban teljesít, mint a softmax [12] .

Jegyzetek

  1. Bauschke, Borwein, 2001 .
  2. Banerjee, Merugu, Dhillon, Ghosh, 2005 .
  3. 1 2 Frigyik, Srivastava, Gupta, 2008 .
  4. Boissonnat, Nielsen, Nock, 2010 .
  5. ↑ A Jensen-Shannon Divergence név gyökeret vert az orosz nyelvű irodalomban , bár Jensen dán, és dánul kell olvasni, nem angolul. A Wikipédián van egy cikk Jensenről .
  6. Nielsen, Boltz, 2011 .
  7. Nielsen, Nock, 2017 .
  8. Nielsen, Frank & Nock, Richard (2018), The Bregman chord divergence, arΧiv : 1810.09113 [cs.LG]. 
  9. A Stein vesztesége kifejezést lásd: https://www.jstor.org/stable/2241373?seq=1 Archiválva : 2020. november 17., a Wayback Machine -nél
  10. Iyer, Bilmes, 2012 .
  11. Nock, Magdalou, Briys, Nielsen, 2012 , p. 373-402.
  12. Amid, Warmuth, Anil, Koren, 2019 , p. 14987-14996.

Irodalom