Nukleáris módszer

A nukleáris módszerek a gépi tanulásban a mintafelismerő algoritmusok egy osztálya , amelynek leghíresebb képviselője a támogató vektorgép (SVM, eng. SVM ). A mintafelismerés általános feladata az általános kapcsolattípusok (pl. klaszterek , rangsorok , főkomponensek , korrelációk , osztályozások ) megtalálása és megtanulása az adatkészletekben. Az ezeket a problémákat megoldó algoritmusok közül sok esetében a nyers adatokat egy adott jellemző-elosztási séma kifejezetten jellemzővektoros reprezentációvá alakítja , de a kernelmetódusokhoz csak egy adott kernelre van szükség , pl. az adatpontpárok hasonlósági függvényei a nyers reprezentációban.

A kernelmetódusok a kernelfüggvények használatáról kapták a nevüket , amelyek lehetővé teszik számukra, hogy nagy dimenziós implicit jellemzőtérben működjenek anélkül, hogy kiszámolnák az adatok térbeli koordinátáit, egyszerűen az összes adat képe közötti pontszorzatok kiszámításával. párok a jellemzőtérben. Ez a művelet számítási szempontból gyakran olcsóbb, mint az explicit koordináta-számítás. Ezt a megközelítést " nukleáris trükknek " [1] nevezik . Soros adatokhoz, grafikonokhoz , szövegekhez, képekhez és vektorokhoz is bevezették a kernel függvényeket .

A kernelekkel dolgozni képes algoritmusok közé tartozik a nukleáris perceptron , a támogató vektorgépek, a Gauss-folyamatok , a főkomponens -elemzés ( PCA ), a kanonikus korrelációelemzés , a gerincregresszió , a spektrális klaszterezés , a lineáris adaptív szűrők és még sok más . Bármely lineáris modell átalakítható nemlineáris modellné, ha a modellre egy kerneltrükköt alkalmazunk, a jellemzőit (előrejelzőit) kernelfüggvénnyel helyettesítve.

A legtöbb kernel-algoritmus konvex optimalizáláson vagy sajátvektor-keresésen alapul, és statisztikailag jól megalapozott. Statisztikai tulajdonságaikat általában a statisztikai tanuláselmélet segítségével elemzik (például Rademacher komplexitás ).

Okok és informális magyarázat

A kernelmetódusok úgy is felfoghatók, mint a példa általi tanulás – ahelyett, hogy a bemeneti jellemzőknek megfelelő fix paraméterhalmazt tanulnának meg, „emlékeznek” a tanítási példára , és annak súlyai szerint edzenek . A címkézetlen bemenet előrejelzése, azaz A betanítási halmazban nem szereplő elemeket a címkézetlen bemenet és az egyes betanítási bemenetek közötti hasonlósági függvénnyel ( kernelnek hívják) tanulják meg . Például a kernel bináris osztályozója általában a súlyozott hasonlósági összeget számítja ki a képlet segítségével $én$ $(\mathbf {x} _{i},y_{i})$ $w_{i}$ $k$ ${\mathbf {x'))$ ${\displaystyle \mathbf {x} _{i))$

{\hat {y}}=\operátornév {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

ahol

${\hat {y}}\in \{-1,+1\}$ egy kernel bináris osztályozója az előrejelzett címkének a címkézetlen bemenethez, amelynek rejtett helyes címkéje szükséges; ${\mathbf {x'))$ $y$
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ egy kernelfüggvény, amely egy pár bemenet hasonlóságát méri ; $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X))$
az összeg az osztályozó tanítóhalmazában lévő összes n címkézett példán fut át ; ${\displaystyle \{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n))$ ${\displaystyle y_{i}\in \{-1,+1\))$
$w_{i}\in \mathbb {R}$ a tanítási példák súlyozása, a tanulási algoritmus által meghatározottak szerint;
Az sgn függvény határozza meg, hogy az előre jelzett osztályozás pozitív vagy negatív lesz.

A nukleáris osztályozókat az 1960-as évek elején írták le a nukleáris perceptron feltalálásával [2] . Az 1990-es években a támogató vektorgépek népszerűségével együtt széles körű elfogadásra tettek szert , amikor az SVM-ről kiderült, hogy versenyképes a neurális hálózatokkal olyan feladatokban, mint például a kézírás-felismerés .

Matematika: A nukleáris trükk

A kerneltrükk elkerüli az explicit leképezést, amely egy nemlineáris függvény vagy döntési határvonal lineáris tanulási algoritmusához szükséges . Az összes és a beviteli térben egyes függvények egy másik térben lévő pontszorzatként ábrázolhatók . A függvényt gyakran kernelnek vagy kernel függvénynek nevezik . A "kernel" szót a matematikában egy súlyfüggvényre vagy integrálra használják . $\mathbf {x}$ ${\mathbf {x'))$ ${\mathcal {X}}$ $k(\mathbf {x} ,\mathbf {x'} )$ ${\mathcal {V))$ $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$

Egyes gépi tanulási problémák további szerkezettel rendelkeznek, nem csupán súlyfüggvényt . A számítások sokkal egyszerűbbek lesznek, ha a kernelt "jellemzőleképezésként" lehet írni, amely kielégíti az egyenlőséget $k$ $\varphi \colon {\mathcal {X}}\ to {\mathcal {V}}$

k(\mathbf {x} ,\mathbf {x'} )=\langle \varphi (\mathbf {x} ),\varphi (\mathbf {x'} )\rangle _{\mathcal {V} }.

A fő megkötés itt az, hogy mi legyen megfelelő ponttermék. Másrészt, a for explicit ábrázolása nem szükséges, mivel ez egy pontszorzattér . Az alternatíva Mercer tételéből következik – implicit módon definiált függvény létezik, ha a tér felszerelhető megfelelő mértékkel , amely biztosítja, hogy a függvény kielégítse Mercer feltételét . $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ $\varphi$ ${\mathcal {V))$ $\varphi$ ${\mathcal {X}}$ $k$

A Mercer-tétel olyan, mint egy lineáris algebra eredményének általánosítása, amely a pontszorzatot bármely pozitív határozott mátrixhoz viszonyítja . Valójában Mercer állapota erre az egyszerű esetre redukálható. Ha mértékünknek egy számláló mértéket választunk mindenre , amely a halmazon belüli pontok számát számolja , akkor a Mercer-tételben szereplő integrál összegzésre redukálódik. $\mu (T)=|T|$ $T\subset X$ $T$

\sum _{i=1}^{n}\sum _{j=1}^{n}k(\mathbf {x} _{i},\mathbf {x} _{j})c_ {i}c_{j}\geq 0.

Ha ez az egyenlőtlenség érvényes minden véges pontsorozatra és a valós értékű együtthatók összes halmazára (vö. Pozitív határozott kernel ), akkor a függvény teljesíti a Mercer-feltételt. $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ ${\mathcal {X}}$ $n$ $(c_{1},\dots ,c_{n})$ $k$

Egyes algoritmusok, amelyek az eredeti tér tetszőleges hivatkozásaitól függenek , valójában más feltételek mellett is lineárisan reprezentálják – a tartományos térben . A lineáris értelmezés képet ad az algoritmusról. Sőt, gyakran nincs szükség közvetlenül a számításra, mint a támaszvektor gép esetében . Egyesek az ebből fakadó időcsökkenést tartják az algoritmus fő előnyének. A kutatók arra használják, hogy finomítsák a meglévő algoritmusok jelentését és tulajdonságait. ${\mathcal {X}}$ $\varphi$ $\varphi$

Elméletileg a (néha "kernelmátrixnak" [3] nevezett) Gram-mátrixnak , ahol , pozitív félig meghatározottnak kell lennie [4] . Tapasztalatilag a gépi tanulási heurisztikák esetében továbbra is indokolt lehet olyan függvény kiválasztása , amely nem felel meg Mercer feltételének, ha az legalább megközelíti a hasonlóság intuitív elképzelését [5] . Függetlenül attól , hogy a mag Mercer- e vagy sem, továbbra is „a magnak” nevezhetjük. ${\displaystyle \mathbf {K} \in \mathbb {R} ^{n\times n))$ ${\displaystyle \{\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n}\))$ $K_{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})$ $k$ $k$ $k$ $k$

Ha a kernelfüggvény egyben kovarianciafüggvény is , amelyet Gauss-folyamatban használunk , akkor a Gram-mátrixot nevezhetjük kovarianciamátrixnak [6] . $k$ ${\mathbf {K}}$

Alkalmazások

A nukleáris módszerek alkalmazásai sokrétűek, és magukban foglalják a geostatisztikát [7] , a kriginget , a távolságsúlyozást , a 3D-s rekonstrukciót , a bioinformatikát , a kemoinformatikát , az információ-kinyerést és a kézírás-felismerést .

Népszerű kernelek

Fisher kernel
Graph kernel
Nukleáris simító
Polinom kernel
Radiális bázisfüggvény kernel
String kernelek

Jegyzetek

↑ Theodoridis, 2008 , p. 203.
↑ Aizerman, Braverman, Rozoner, 1964 , p. 821–837.
↑ Hofmann, Scholkopf, Smola, 2007 .
↑ Mohri, Rostamizadeh, Talwalkar, 2012 .
↑ Sewell, Martin Support Vector Machines: Mercer's Condition . www.svms.org . (határozatlan)
↑ Rasmussen, Williams, 2006 .
↑ Honarkhah, Caers, 2010 , p. 487–517.

Irodalom

Aizerman MA, Emmanuel M. Braverman, Rozoner LI A potenciálfüggvény módszerének elméleti alapjai a mintafelismerő tanulásban // Automation and Remote Control. - 1964. - T. 25 . – S. 821–837 . A cikkben idézve
- Isabelle Guyon, B. Boser, Vladimir Vapnik. Nagyon nagy VC-dimenziós osztályozók automatikus kapacitáshangolása // Fejlődés a neurális információfeldolgozó rendszerekben. – 1993.
Sergios. mintafelismerés. - Elsevier BV, 2008. - ISBN 9780080949123 .
Mehryar Mohri, Afshin Rostamizadeh és Ameet Talwalkar. . - Cambridge, London: MIT press, 2012. - (Adaptive Computation and Machine Learning). - ISBN 978-0-262-01825-8 .
Thomas Hofmann, Bernhard Scholkopf, Alexander J. Smola. Kernel Methods in Machine Learning // The Annals of Statistics. - 2007. - január ( 36. évf. , 3. szám ).
Rasmussen CE, Williams CKI Gaussian Processes for Machine Learning. - Cambridge, London: MIT Press, 2006. - (Adaptive Computation and Machine Learning). — ISBN 0-262-18253-X .
Honarkhah M., Caers J. Minták sztochasztikus szimulációja távolság-alapú mintamodellezéssel // Mathematical Geosciences . - 2010. - T. 42 . - doi : 10.1007/s11004-010-9276-7 .

Irodalom

John Shawe-Taylor, Nello Cristianini. Kernel-módszerek a mintaelemzéshez. – Cambridge University Press, 2004.
Liu W., Principe J., Haykin S. Kernel Adaptive Filtering: A Comprehensive Introduction. Wiley, 2010.

Link

Kernel-Machines Org -közösségi webhely
www.support-vector-machines.org (irodalom, áttekintés, szoftver, támogatási vektorgépekhez kapcsolódó linkek – akadémiai webhely)
onlineprediction.net Kernel Methods cikk

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-közép módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-Net Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG