A nukleáris módszerek a gépi tanulásban a mintafelismerő algoritmusok egy osztálya , amelynek leghíresebb képviselője a támogató vektorgép (SVM, eng. SVM ). A mintafelismerés általános feladata az általános kapcsolattípusok (pl. klaszterek , rangsorok , főkomponensek , korrelációk , osztályozások ) megtalálása és megtanulása az adatkészletekben. Az ezeket a problémákat megoldó algoritmusok közül sok esetében a nyers adatokat egy adott jellemző-elosztási séma kifejezetten jellemzővektoros reprezentációvá alakítja , de a kernelmetódusokhoz csak egy adott kernelre van szükség , pl. az adatpontpárok hasonlósági függvényei a nyers reprezentációban.
A kernelmetódusok a kernelfüggvények használatáról kapták a nevüket , amelyek lehetővé teszik számukra, hogy nagy dimenziós implicit jellemzőtérben működjenek anélkül, hogy kiszámolnák az adatok térbeli koordinátáit, egyszerűen az összes adat képe közötti pontszorzatok kiszámításával. párok a jellemzőtérben. Ez a művelet számítási szempontból gyakran olcsóbb, mint az explicit koordináta-számítás. Ezt a megközelítést " nukleáris trükknek " [1] nevezik . Soros adatokhoz, grafikonokhoz , szövegekhez, képekhez és vektorokhoz is bevezették a kernel függvényeket .
A kernelekkel dolgozni képes algoritmusok közé tartozik a nukleáris perceptron , a támogató vektorgépek, a Gauss-folyamatok , a főkomponens -elemzés ( PCA ), a kanonikus korrelációelemzés , a gerincregresszió , a spektrális klaszterezés , a lineáris adaptív szűrők és még sok más . Bármely lineáris modell átalakítható nemlineáris modellné, ha a modellre egy kerneltrükköt alkalmazunk, a jellemzőit (előrejelzőit) kernelfüggvénnyel helyettesítve.
A legtöbb kernel-algoritmus konvex optimalizáláson vagy sajátvektor-keresésen alapul, és statisztikailag jól megalapozott. Statisztikai tulajdonságaikat általában a statisztikai tanuláselmélet segítségével elemzik (például Rademacher komplexitás ).
A kernelmetódusok úgy is felfoghatók, mint a példa általi tanulás – ahelyett, hogy a bemeneti jellemzőknek megfelelő fix paraméterhalmazt tanulnának meg, „emlékeznek” a tanítási példára , és annak súlyai szerint edzenek . A címkézetlen bemenet előrejelzése, azaz A betanítási halmazban nem szereplő elemeket a címkézetlen bemenet és az egyes betanítási bemenetek közötti hasonlósági függvénnyel ( kernelnek hívják) tanulják meg . Például a kernel bináris osztályozója általában a súlyozott hasonlósági összeget számítja ki a képlet segítségével
,ahol
A nukleáris osztályozókat az 1960-as évek elején írták le a nukleáris perceptron feltalálásával [2] . Az 1990-es években a támogató vektorgépek népszerűségével együtt széles körű elfogadásra tettek szert , amikor az SVM-ről kiderült, hogy versenyképes a neurális hálózatokkal olyan feladatokban, mint például a kézírás-felismerés .
A kerneltrükk elkerüli az explicit leképezést, amely egy nemlineáris függvény vagy döntési határvonal lineáris tanulási algoritmusához szükséges . Az összes és a beviteli térben egyes függvények egy másik térben lévő pontszorzatként ábrázolhatók . A függvényt gyakran kernelnek vagy kernel függvénynek nevezik . A "kernel" szót a matematikában egy súlyfüggvényre vagy integrálra használják .
Egyes gépi tanulási problémák további szerkezettel rendelkeznek, nem csupán súlyfüggvényt . A számítások sokkal egyszerűbbek lesznek, ha a kernelt "jellemzőleképezésként" lehet írni, amely kielégíti az egyenlőséget
A fő megkötés itt az, hogy mi legyen megfelelő ponttermék. Másrészt, a for explicit ábrázolása nem szükséges, mivel ez egy pontszorzattér . Az alternatíva Mercer tételéből következik – implicit módon definiált függvény létezik, ha a tér felszerelhető megfelelő mértékkel , amely biztosítja, hogy a függvény kielégítse Mercer feltételét .
A Mercer-tétel olyan, mint egy lineáris algebra eredményének általánosítása, amely a pontszorzatot bármely pozitív határozott mátrixhoz viszonyítja . Valójában Mercer állapota erre az egyszerű esetre redukálható. Ha mértékünknek egy számláló mértéket választunk mindenre , amely a halmazon belüli pontok számát számolja , akkor a Mercer-tételben szereplő integrál összegzésre redukálódik.
Ha ez az egyenlőtlenség érvényes minden véges pontsorozatra és a valós értékű együtthatók összes halmazára (vö. Pozitív határozott kernel ), akkor a függvény teljesíti a Mercer-feltételt.
Egyes algoritmusok, amelyek az eredeti tér tetszőleges hivatkozásaitól függenek , valójában más feltételek mellett is lineárisan reprezentálják – a tartományos térben . A lineáris értelmezés képet ad az algoritmusról. Sőt, gyakran nincs szükség közvetlenül a számításra, mint a támaszvektor gép esetében . Egyesek az ebből fakadó időcsökkenést tartják az algoritmus fő előnyének. A kutatók arra használják, hogy finomítsák a meglévő algoritmusok jelentését és tulajdonságait.
Elméletileg a (néha "kernelmátrixnak" [3] nevezett) Gram-mátrixnak , ahol , pozitív félig meghatározottnak kell lennie [4] . Tapasztalatilag a gépi tanulási heurisztikák esetében továbbra is indokolt lehet olyan függvény kiválasztása , amely nem felel meg Mercer feltételének, ha az legalább megközelíti a hasonlóság intuitív elképzelését [5] . Függetlenül attól , hogy a mag Mercer- e vagy sem, továbbra is „a magnak” nevezhetjük.
Ha a kernelfüggvény egyben kovarianciafüggvény is , amelyet Gauss-folyamatban használunk , akkor a Gram-mátrixot nevezhetjük kovarianciamátrixnak [6] .
A nukleáris módszerek alkalmazásai sokrétűek, és magukban foglalják a geostatisztikát [7] , a kriginget , a távolságsúlyozást , a 3D-s rekonstrukciót , a bioinformatikát , a kemoinformatikát , az információ-kinyerést és a kézírás-felismerést .
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|