Az online gépi tanulás egy olyan gépi tanulási technika , amelyben az adatokat szekvenciális sorrendben teszik elérhetővé, és a későbbi adatok legjobb előrejelzésének frissítésére használják, minden egyes betanítási lépésben. A módszer ellentétes a kötegelt betanítási technikával, amelyben a legjobb előrejelzést generálják egy menetben a teljes betanítási adatkészletből. Az online tanulás egy gyakori technika, amelyet a gépi tanulás területein használnak, amikor nem lehetséges a teljes adathalmazon betanítani, például amikor külső memóriával működő algoritmusokra van szükség. A módszert olyan helyzetekben is alkalmazzák, amikor az algoritmusnak dinamikusan kell adaptálnia az adatok új mintáit, vagy amikor maga az adat az idő függvényében jön létre, például a tőzsdei árak előrejelzésekor . Az online tanulási algoritmusok katasztrofális interferenciára hajlamosak lehetnek , ez a probléma lépésről lépésre történő tanulási megközelítéssel megoldható [1] .
Felügyelt tanulási körülmények között egy függvény betanításra kerül , ahol a bemeneti adatok tere, és a kimeneti adatok tere, amely jól megjósolja a közös valószínűségi eloszlás elemeit a -n . Valójában a képzés során a valódi eloszlást soha nem ismerjük. Általában éppen ellenkezőleg, hozzá lehet férni a képzési példák halmazához . Ilyen feltételek mellett a veszteségfüggvényt úgy adjuk meg , hogy az előrejelzett érték és a valós értéke közötti különbséget méri . Az ideális cél az, hogy olyan függvényt válasszunk , ahol a függvények tere, az úgynevezett hipotézisek tere, úgy, hogy a teljes veszteség bizonyos értelemben minimális legyen. A modell típusától függően (statisztikai vagy kontradiktórius) különböző veszteségfogalmak alakíthatók ki, amelyek eltérő tanulási algoritmusokhoz vezetnek.
A statisztikai tanulási modellekben feltételezzük, hogy a tesztmintát a valódi eloszlásból veszik , és a tanulás célja a várható "kockázat" minimalizálása.
Az általános paradigma ebben a helyzetben az, hogy a funkciót az empirikus kockázat minimalizálásával vagy a szabályos empirikus kockázat minimalizálásával értékeljük (jellemzően Tikhonov-féle regularizációt használva ). A veszteségfüggvény kiválasztása itt számos jól ismert tanulási algoritmust eredményez, mint például a legalizált legkisebb négyzetek és a támogató vektorgépek . Egy tisztán online modell ebben a kategóriában csak az új bemenetekre , a jelenlegi legjobb előrejelzőre és néhány további tárolt információra oktat (amelynek általában az adatok méretétől független memóriaigénye van). Számos problémabeállításnál, például a nemlineáris kernelmetódusoknál a valódi online tanulás nem lehetséges, bár használhatók az online tanulás hibrid formái rekurzív algoritmusokkal, ahol az érték az összes korábbi adatponttól függhet . Ebben az esetben a memóriaigény már nem korlátozható, mert minden korábbi pontot meg kell tartani, de előfordulhat, hogy a megoldásnak kevesebb időbe telik a számítás az új adatpontok hozzáadásával, mint a kötegelt tanulási technikák.
A probléma kezelésének általános stratégiája a mini kötegelt tanulás, ahol kis mennyiségű adatpontot dolgoznak fel egy adott időpontban, és ez pszeudo-online tanulásnak tekinthető, sokkal kisebb számú képzési pont esetében. A minibatch technikát a betanítási adatok iterálásával használják a külső memória gépi tanulási algoritmusok optimalizált verziójának eléréséhez, például a sztochasztikus gradiens süllyedés . A visszaterjesztéssel kombinálva jelenleg ez a de facto képzési módszer a mesterséges neurális hálózatok számára .
A lineáris legkisebb négyzetek itt különböző online tanulási ötletek magyarázatára szolgálnak. Az ötletek elég általánosak ahhoz, hogy más beállításokra, például más konvex veszteségfüggvényekre is alkalmazhatók legyenek.
Felügyelt környezetben másodfokú veszteségfüggvénnyel a cél az empirikus veszteség minimalizálása
, ahol .Legyen az adatok mátrixa és a célértékek mátrixa az első adatpontok megérkezése után. Feltéve, hogy a kovariancia mátrix invertálható (ellenkező esetben a Tyihonov-féle regularizációhoz hasonló eljárást kell végrehajtani), a legkisebb négyzetek módszerének legjobb megoldását az egyenlőség adja
.Most a kovariancia mátrix kiszámítása időt vesz igénybe , a mátrix inverziója és a mátrix szorzása , ami a teljes időt adja meg . Ha összesen pont van az adatkészletben, és minden egyes adatpont megérkezése után újra kell számítania a megoldást , a természetes megközelítés teljes komplexitású lesz . Ne feledje, hogy ha a mátrix tárolva van, az egyes lépésekben történő frissítéshez csak a hozzáadását kell elvégezni , ami időbe telik, ami a teljes időt -ra csökkenti , de további tárhelyet igényel [ 2] .
A rekurzív legkisebb négyzetek a legkisebb négyzetek online megközelítését veszik figyelembe. Megmutatható, hogy inicializálással és a lineáris legkisebb négyzetek módszerének megoldásával a következőképpen számítható:
A fenti iteratív algoritmus indukcióval igazolható [3] -on . A bizonyíték is azt mutatja . A rekurzív legkisebb négyzetek számításba vehetők az adaptív szűrők kontextusában (lásd Rekurzív legkisebb négyzetek ).
Ennek az algoritmusnak a lépéseinek összetettsége , ami gyorsabb, mint a megfelelő kötegelt tanulási komplexitás. A mátrix tárolásának minden lépéséhez szükséges memória itt egy állandó . Abban az esetben, ha nem reverzibilis, a veszteségfüggvény szabályosított változatát vesszük figyelembe . Ezután könnyű megmutatni, hogy ugyanaz az algoritmus működik -val , és a folytatólagos iterációk a [2] eredményt adják .
Ha egyenlőség
Kicserélve
vagy -on , ez egy sztochasztikus gradiens süllyedési algoritmussá válik. Ebben az esetben az algoritmus lépéseinek bonyolultsága -ra csökken . A memóriaigény minden lépésnél állandó .
A várható kockázatminimalizálási probléma megoldásához azonban körültekintően kell megválasztani a lépésméretet , amint azt fentebb kifejtettük. A csillapítási lépés méretének megválasztásával igazolható az átlagos iteráció konvergenciája . Ezek a beállítások a sztochasztikus optimalizálás speciális esetei , egy jól ismert optimalizálási probléma [2] .
A gyakorlatban lehetőség van több sztochasztikus gradiens áthaladásra az adatokon. Az így kapott algoritmust növekményes gradiens módszernek nevezzük, és megfelel az iterációnak
A fő különbség a sztochasztikus gradiens módszerrel szemben az, hogy itt azt választják , hogy melyik képzési pontot keressük fel a lépésben . Egy ilyen sorozat lehet véletlenszerű vagy determinisztikus. Az iterációk száma így leválasztható a pontok számától (minden pont többször is megtekinthető). Kimutatható, hogy az inkrementális gradiens módszer empirikus kockázatminimalizálást tesz lehetővé [4] . Az inkrementális technikáknak előnyei lehetnek, ha a célfüggvényt sok elem összegének tekintjük, például egy nagyon nagy adathalmaz empirikus hibájaként [2] .
Kernelek segítségével a fenti algoritmusok kiterjeszthetők nem-paraméteres modellekre (vagy olyan modellekre, amelyekben a paraméterek végtelen dimenziós teret alkotnak). A megfelelő eljárás többé nem lesz igazán online, hanem az összes adatpontot tárolja, de a módszer gyorsabb marad, mint a nyers erő. Ez a tárgyalás a négyzetes veszteség esetére korlátozódik, bár bármely konvex veszteségfüggvényre kiterjeszthető. Közvetlen indukcióval [2] kimutatható, hogy ha a egy adatmátrix, akkor a a kimenet a véletlenszerű gradiens süllyedés algoritmus lépései után, akkor
ahol és a sorrend kielégíti az ismétlődő kapcsolatokat
ésVegye figyelembe, hogy itt van a szabványos kernel a -ban , és a prediktív függvény alakja
.Most, ha bevezetünk egy közös kernelt , és a predikciós függvényt mint
,akkor ugyanez a bizonyíték azt mutatja, hogy a veszteségfüggvény legkisebb négyzetes minimalizálását kapjuk, ha a fenti rekurziót helyettesítjük
A fenti kifejezés megköveteli az összes adat emlékezését a frissítéshez . A rekurzió teljes időbonyolultsága, ha a -edik adatpontra számítjuk , ahol a kernel egy pontpáron történő kiszámításának költsége [2] . Ekkor a kernel használata lehetővé teszi a mozgást egy véges dimenziós paramétertérből a kernel által képviselt, esetleg végtelen dimenziós térbe , ahelyett, hogy a paramétertéren ismétlődik , amelynek mérete megegyezik a betanítási adatkészlet méretével. Általában ez a megközelítés az [2] reprezentációs tétel következménye .
A progresszív tanulás hatékony tanulási modell, amelyet az emberek tanulási folyamata mutat meg. Ez a tanulási folyamat folyamatos, közvetlen tapasztalatból fakad. A gépi tanulás progresszív tanulási technikája dinamikusan, menet közben tanulhat meg új osztályokat vagy címkéket [5] . Bár az online képzés képes betanítani a szekvenciálisan beérkező új adatmintákat, új adatosztályokat nem . A progresszív tanulás tanulási paradigma független az osztálykényszerek számától, és képes új órákat tanítani, miközben megtartja az előző osztályok tudását. Ha azonban új (természetesen nem előforduló) osztályt találunk, az osztályozó automatikusan újraépül, és a paraméterek úgy számítódnak ki, hogy a korábbi tudás megmaradjon. Ez a technika valós alkalmazásokhoz alkalmas, ahol az osztályok száma gyakran ismeretlen, és valós idejű adatokból online tanulásra van szükség.
Az online konvex optimalizálás [6] egy általános döntési séma, amely konvex optimalizálást alkalmaz hatékony algoritmusok előállítására. A séma a következő műveletek többszöri megismétlése:
Mert
A cél a „sajnálat” vagy a teljes veszteség és a veszteség közötti különbség minimalizálása a legjobb rögzített ponton utólag. Példaként tekintsük az online lineáris legkisebb négyzetek regresszióját. Itt a vektorok súlya egy konvex halmazból származik, a természet pedig egy konvex veszteségfüggvényt ad vissza . Vegye figyelembe, hogy hallgatólagosan a következővel küldték el .
Néhány online előrejelzési probléma azonban nem fér bele az online konvex optimalizálási sémába. Például az online osztályozásnál az előrejelzési terület és a veszteségfüggvények nem konvexek. Az ilyen forgatókönyvekben két egyszerű konvex esetcsökkentési technikát alkalmaznak - a randomizációt és a helyettesítő veszteségfüggvényeket.
Néhány egyszerű online konvex optimalizálási algoritmus:
Kövesd a vezetőtA próba legegyszerűbb tanulási szabálya az, hogy (az aktuális lépésben) azt a hipotézist válasszuk, amelyiknek a legkisebb vesztesége van az összes korábbi kör közül. Ennek az algoritmusnak a neve " Kövesd a vezetőt ", és egyszerűen egy kört ad :
Ezt a módszert tehát mohó algoritmusnak tekinthetjük . Az online másodfokú optimalizálás esetében (ahol a veszteségfüggvény ) kimutatható, hogy a "sajnálat" határa növekszik . Más fontos modellcsaládok esetében azonban nem kaphatunk hasonló korlátokat a követni a vezető algoritmusra, mint az online lineáris optimalizálásra. Megszerzésükhöz a rendszerezést hozzáadjuk az algoritmushoz.
Rendszeresített vezető nyománEz a vezetőkövető algoritmus természetes módosítása, amely a vezetőt követő döntések stabilizálására és jobb megbánási határok elérésére szolgál. Kiválasztjuk a rendszerezési funkciót, és az edzést t körben a következőképpen hajtjuk végre :
Speciális esetként tekintsük az online lineáris optimalizálás esetét, vagyis amikor a természet a formátum veszteségfüggvényeit adja vissza . Hagyjuk is . Tegyük fel, hogy a regularizációs függvényt valamilyen pozitív számra választjuk . Ekkor kimutatható, hogy a „sajnálat” minimalizálásának iterációja átalakul
Vegye figyelembe, hogy ez átírható a következőre: , ami pontosan úgy néz ki, mint az online gradiens süllyedés módszere.
Ha S egy konvex altér , akkor S - t ki kell vetíteni, ami egy módosított frissítési szabályt eredményez
Az algoritmust lusta vetítésnek nevezik, mivel a vektor gradienseket halmoz fel. Ezt Neszterov kettős átlagoló algoritmusnak (vagy szubgradiens kettős átlagolási módszernek) is nevezik [7] . Ebben a forgatókönyvben a lineáris veszteségfüggvények és a másodfokú regularizáció „regret” értékre korlátozódik , majd az átlagos „regret” 0 .
A lineáris veszteségfüggvényekhez kötött "sajnálat" fentebb bizonyított . Az algoritmus tetszőleges konvex veszteségfüggvényre történő általánosításához a függvény részgradiensét lineáris közelítésként használjuk a körül , ami az online algradiens süllyedési algoritmusához vezet:
Paraméter indítása
Mert
Használhatja az online alámeneti süllyedés algoritmust, hogy megkapja a "sajnálat" határokat a támogatási vektor gép online verziójához az osztályozáshoz, amely darabonként lineáris veszteségfüggvényt használ
A négyzetre szabályosított vezérkövető algoritmusok lustán kivetített gradiens algoritmusokhoz vezetnek, a fent leírtak szerint. Ha a fenti megközelítést bármilyen konvex függvényhez és szabályzóhoz használni szeretné, online tükör süllyedés használható. A darabonkénti lineáris függvényben optimális regularizáció érhető el a lineáris veszteségfüggvényeknél, ami az AdaGrad algoritmushoz vezet . Az euklideszi regularizációnál kimutatható, hogy a "sajnálat" korlát egyenlő , és javítható szigorúan konvex és exp-konkáv veszteségfüggvényekre.
Az online tanulási paradigma a választott tanulási modelltől függően eltérő értelmezésekkel rendelkezik, és mindegyik más-más minőségű jellemzőszekvenciával . A megbeszéléshez a sztochasztikus gradiens süllyedés algoritmusát használjuk. Ahogy fentebb megjegyeztük, az algoritmus rekurzióját az egyenlőség adja
Az első értelmezés a sztochasztikus gradiens süllyedés módszerét a fent definiált várható kockázatminimalizálási probléma alkalmazásának tekinti [8] . Ezen túlmenően, egy végtelen adatfolyam esetén, mivel feltételezzük, hogy a példányokat egy független és egyenlő eloszlású eloszlásból vettük mintát , a fenti iteráció gradiens sorozatai a várható kockázati sztochasztikus gradiens becslés független és egyenlő eloszlású mintái , és ezért A sztochasztikus gradiens süllyedés módszerének komplexitási eredményeit alkalmazhatjuk az eltérés korlátozására , ahol a minimalizáló [9] . Ez az értelmezés véges képzési halmazokra is igaz. Bár a gradiensek többé nem függetlenek az adatok iterációja során, speciális esetekben összetettségi eredmények érhetők el.
A második értelmezés véges tanítóhalmaz esetére vonatkozik, és a sztochasztikus gradiens süllyedés algoritmusát tekinti a növekményes gradiens süllyedés reprezentánsának [4] . Ebben az esetben meg lehet nézni az empirikus kockázatot:
Mivel a növekményes gradiens süllyedés iterációiban a gradiensek a gradiens sztochasztikus becslései , ez az értelmezés a sztochasztikus gradiens süllyedés módszeréhez kapcsolódik, de az empirikus kockázatminimalizálásra vonatkozik, szemben a várt kockázattal. Mivel ez az értelmezés inkább az empirikus kockázatról szól, mint a várható kockázatról, az adatok többszöri áthaladása tökéletesen érvényes, és valójában szoros varianciahatárokhoz vezet , ahol .
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|