Nukleáris módszer

A nukleáris módszerek a gépi tanulásban a mintafelismerő algoritmusok egy osztálya , amelynek leghíresebb képviselője a támogató vektorgép (SVM, eng.  SVM ). A mintafelismerés általános feladata az általános kapcsolattípusok (pl. klaszterek , rangsorok , főkomponensek , korrelációk , osztályozások ) megtalálása és megtanulása az adatkészletekben. Az ezeket a problémákat megoldó algoritmusok közül sok esetében a nyers adatokat egy adott jellemző-elosztási séma kifejezetten jellemzővektoros reprezentációvá alakítja , de a kernelmetódusokhoz csak egy adott kernelre van szükség , pl. az adatpontpárok hasonlósági függvényei a nyers reprezentációban.

A kernelmetódusok a kernelfüggvények használatáról kapták a nevüket , amelyek lehetővé teszik számukra, hogy nagy dimenziós implicit jellemzőtérben működjenek anélkül, hogy kiszámolnák az adatok térbeli koordinátáit, egyszerűen az összes adat képe közötti pontszorzatok kiszámításával. párok a jellemzőtérben. Ez a művelet számítási szempontból gyakran olcsóbb, mint az explicit koordináta-számítás. Ezt a megközelítést " nukleáris trükknek " [1] nevezik . Soros adatokhoz, grafikonokhoz , szövegekhez, képekhez és vektorokhoz is bevezették a kernel függvényeket .

A kernelekkel dolgozni képes algoritmusok közé tartozik a nukleáris perceptron , a támogató vektorgépek, a Gauss-folyamatok , a főkomponens -elemzés ( PCA ), a kanonikus korrelációelemzés , a gerincregresszió , a spektrális klaszterezés , a lineáris adaptív szűrők és még sok más .  Bármely lineáris modell átalakítható nemlineáris modellné, ha a modellre egy kerneltrükköt alkalmazunk, a jellemzőit (előrejelzőit) kernelfüggvénnyel helyettesítve.

A legtöbb kernel-algoritmus konvex optimalizáláson vagy sajátvektor-keresésen alapul, és statisztikailag jól megalapozott. Statisztikai tulajdonságaikat általában a statisztikai tanuláselmélet segítségével elemzik (például Rademacher komplexitás ).

Okok és informális magyarázat

A kernelmetódusok úgy is felfoghatók, mint a példa általi tanulás – ahelyett, hogy a bemeneti jellemzőknek megfelelő fix paraméterhalmazt tanulnának meg, „emlékeznek” a tanítási példára , és annak súlyai ​​szerint edzenek . A címkézetlen bemenet előrejelzése, azaz A betanítási halmazban nem szereplő elemeket a címkézetlen bemenet és az egyes betanítási bemenetek közötti hasonlósági függvénnyel ( kernelnek hívják) tanulják meg . Például a kernel bináris osztályozója általában a súlyozott hasonlósági összeget számítja ki a képlet segítségével

,

ahol

A nukleáris osztályozókat az 1960-as évek elején írták le a nukleáris perceptron feltalálásával [2] . Az 1990-es években a támogató vektorgépek népszerűségével együtt széles körű elfogadásra tettek szert , amikor az SVM-ről kiderült, hogy versenyképes a neurális hálózatokkal olyan feladatokban, mint például a kézírás-felismerés .

Matematika: A nukleáris trükk

A kerneltrükk elkerüli az explicit leképezést, amely egy nemlineáris függvény vagy döntési határvonal lineáris tanulási algoritmusához szükséges . Az összes és a beviteli térben egyes függvények egy másik térben lévő pontszorzatként ábrázolhatók . A függvényt gyakran kernelnek vagy kernel függvénynek nevezik . A "kernel" szót a matematikában egy súlyfüggvényre vagy integrálra használják .

Egyes gépi tanulási problémák további szerkezettel rendelkeznek, nem csupán súlyfüggvényt . A számítások sokkal egyszerűbbek lesznek, ha a kernelt "jellemzőleképezésként" lehet írni, amely kielégíti az egyenlőséget

A fő megkötés itt az, hogy mi legyen megfelelő ponttermék. Másrészt, a for explicit ábrázolása nem szükséges, mivel ez egy pontszorzattér . Az alternatíva Mercer tételéből következik – implicit módon definiált függvény létezik, ha a tér felszerelhető megfelelő mértékkel , amely biztosítja, hogy a függvény kielégítse Mercer feltételét .

A Mercer-tétel olyan, mint egy lineáris algebra eredményének általánosítása, amely a pontszorzatot bármely pozitív határozott mátrixhoz viszonyítja . Valójában Mercer állapota erre az egyszerű esetre redukálható. Ha mértékünknek egy számláló mértéket választunk mindenre , amely a halmazon belüli pontok számát számolja , akkor a Mercer-tételben szereplő integrál összegzésre redukálódik.

Ha ez az egyenlőtlenség érvényes minden véges pontsorozatra és a valós értékű együtthatók összes halmazára (vö. Pozitív határozott kernel ), akkor a függvény teljesíti a Mercer-feltételt.

Egyes algoritmusok, amelyek az eredeti tér tetszőleges hivatkozásaitól függenek , valójában más feltételek mellett is lineárisan reprezentálják – a tartományos térben . A lineáris értelmezés képet ad az algoritmusról. Sőt, gyakran nincs szükség közvetlenül a számításra, mint a támaszvektor gép esetében . Egyesek az ebből fakadó időcsökkenést tartják az algoritmus fő előnyének. A kutatók arra használják, hogy finomítsák a meglévő algoritmusok jelentését és tulajdonságait.

Elméletileg a (néha "kernelmátrixnak" [3] nevezett) Gram-mátrixnak , ahol , pozitív félig meghatározottnak kell lennie [4] . Tapasztalatilag a gépi tanulási heurisztikák esetében továbbra is indokolt lehet olyan függvény kiválasztása , amely nem felel meg Mercer feltételének, ha az legalább megközelíti a hasonlóság intuitív elképzelését [5] . Függetlenül attól , hogy a mag Mercer- e vagy sem, továbbra is „a magnak” nevezhetjük.

Ha a kernelfüggvény egyben kovarianciafüggvény is , amelyet Gauss-folyamatban használunk , akkor a Gram-mátrixot nevezhetjük kovarianciamátrixnak [6] .

Alkalmazások

A nukleáris módszerek alkalmazásai sokrétűek, és magukban foglalják a geostatisztikát [7] , a kriginget , a távolságsúlyozást , a 3D-s rekonstrukciót , a bioinformatikát , a kemoinformatikát , az információ-kinyerést és a kézírás-felismerést .

Népszerű kernelek

Jegyzetek

  1. Theodoridis, 2008 , p. 203.
  2. Aizerman, Braverman, Rozoner, 1964 , p. 821–837.
  3. Hofmann, Scholkopf, Smola, 2007 .
  4. Mohri, Rostamizadeh, Talwalkar, 2012 .
  5. Sewell, Martin Support Vector Machines: Mercer's Condition . www.svms.org .
  6. Rasmussen, Williams, 2006 .
  7. Honarkhah, Caers, 2010 , p. 487–517.

Irodalom

Irodalom

Link