A statisztikában , a gépi tanulásban és az információelméletben a dimenziócsökkentés olyan adattranszformáció, amely a változók számának csökkentését jelenti főváltozók megszerzésével [1] . Az átalakítás jellemzők kiválasztására és jellemző kivonásra osztható [2] .
A jellemzőkiválasztási módszer megpróbálja megtalálni az eredeti változók egy részhalmazát (úgynevezett jellemzőket vagy attribútumokat). Három stratégia létezik: a szűrőstratégia (például jellemzők felhalmozása ), a tördelési stratégia (például keresés a pontosság szerint) és a beágyazási stratégia (a funkciókat a modell felépítése során kiválasztja a hozzáadáshoz vagy eltávolításhoz előrejelzési hibák alapján). Lásd még: kombinatorikus optimalizációs problémák .
Egyes esetekben az adatelemzés , mint például a regresszió vagy az osztályozás , a redukált térben pontosabban elvégezhető, mint az eredeti térben [3] .
A jellemzővetítés az adatokat nagy dimenziós térből alacsony dimenziós térré alakítja át. Az adattranszformáció lehet lineáris, mint a PCA , de számos nemlineáris dimenziócsökkentő technika létezik [4] [5] . Többdimenziós adatok esetén tenzorábrázolás használható a dimenziók csökkentésére többlineáris altér tanulással [6] .
A dimenziócsökkentés fő lineáris technikája, a főkomponens-elemzés, az adatok lineáris leképezését végzi el egy alacsonyabb dimenziójú térbe úgy, hogy az adatok varianciája az alacsony dimenziós ábrázolásban maximalizálva legyen. A gyakorlatban az adatokból kovariancia- (és néha korrelációs ) mátrixot készítenek, és ennek a mátrixnak a sajátvektorait számítják ki . A legnagyobb sajátértékeknek (főkomponenseknek) megfelelő sajátvektorok most felhasználhatók az eredeti adatok varianciájának nagy részének visszanyerésére. Ráadásul az első néhány sajátvektor gyakran értelmezhető a rendszer nagy léptékű fizikai viselkedése alapján. Az eredeti teret (amelynek mérete megegyezik a pontok számával) redukáljuk (adatvesztéssel, de abban a reményben, hogy a legfontosabb szórás megmarad) egy több sajátvektor által átfogott térre.
A nem-negatív mátrix felbontása egy nem negatív mátrixot két nem negatív mátrix szorzatára bont, amelyek ígéretes eszközökkel rendelkeznek azokon a területeken, ahol csak nem negatív jelek léteznek [7] [8] , mint például a csillagászat [9] [10 ] ] . A nem-negatív mátrixfelbontás jól ismert Lee és Seung multiplikatív frissítési szabálya [7] miatt, amelyet folyamatosan fejlesztettek: a bizonytalanságok [9] figyelembevétele , a hiányzó adatok figyelembevétele ) és a párhuzamos számítás [11] , szekvenciális konstrukció [11] , ami a HMP [10] stabilitásához és linearitásához , valamint egyéb kiigazításokhoz vezet .
Az építés során stabil komponensbázissal és egy lineáris modellezési folyamattal a szekvenciális nemnegatív mátrixbontás ( eng. szekvenciális NMF ) [11] képes megőrizni a közvetlen megfigyelés (vagyis közvetlenül megfigyelt, és nem) körkörös struktúrák áramlását. közvetett bizonyítékokkal) a csillagászatban [10] , mint az egyik módszer az exobolygók kimutatására , különösen a körkörös korongok közvetlen megfigyelésére . A PCA-hoz képest a nem-negatív mátrixbontás nem szünteti meg a mátrixok átlagát, amelyek eltávolítása nem-fizikai nemnegatív fluxusokhoz vezet, mivel az NMR több információt képes megtakarítani, mint a főkomponens-analízis, amit Ren et. al . [10] .
A főkomponens-elemzés más módon is alkalmazható a kerneltrükk segítségével . Az így kapott technika képes olyan nemlineáris leképezéseket készíteni, amelyek maximalizálják az adatok varianciáját. Ezt a technikát kernel főkomponens metódusának nevezik .
További ígéretes nemlineáris technikák a sokrétű tanulási technikák , mint például az Isomap , lokálisan lineáris beágyazás (LLE), lokálisan lineáris beágyazás a Hessian ( eng. Hessian LLE ), sajáttérképes módszer Laplacian értékek ( Laplacian Eigenmaps ) és a helyi érintőtér igazítási módszer ( local tangen space alignment , LTSA) . Ezek a technikák az adatok alacsony dimenziós reprezentációját építik fel egy költségfüggvény segítségével, amely megőrzi az adatok helyi tulajdonságait, és amely egy gráf alapú kernel meghatározásának tekinthető a kernel PCA számára.
A közelmúltban olyan technikákat javasoltak, amelyek ahelyett, hogy fix kernel definiálnának, megpróbálják megtanulni a kernelt félig meghatározott programozással . Az ilyen technikák legjelentősebb példája a Maximum Residual Sweep (RMS). Az RMN központi ötlete pontosan az, hogy megőrizze a páronkénti távolságokat a legközelebbi szomszédok között (pont szorzattérben), miközben maximalizálja a távolságokat a nem legközelebbi szomszédok között.
A szomszédság megőrzésének alternatív módja a költségfüggvény minimalizálása, amely a bemeneti és kimeneti terekben méri a távolságokat. Az ilyen technikák fontos példái a következők: klasszikus többdimenziós skálázás , amely megegyezik a PCA-val; Isomap , amely geodéziai távolságokat használ az adattérben; diffúziós térkép módszer , amely diffúziós távolságokat használ az adattérben; t -elosztott sztochasztikus szomszéd beágyazás , t-SNE, amely minimalizálja a pontpárok közötti különbséget, UMAP (Uniform Approximation and Projection), amely minimalizálja a Kullback-Leibler eltérést a halmazok között a magas és alacsony dimenziós terekben [12] , és nemlineáris komponenselemzés ( Curvilinear Component Analysis , CCA ) .
A nemlineáris dimenziócsökkentés másik megközelítése az autoencoderek használata, amelyek egy speciális típusú előrecsatolt hálózatok palack alakú (szűk keresztmetszetű) rejtett réteggel [13] . A mélykódolók betanítása általában mohó réteges előképzéssel történik (például kényszerű Boltzmann-gépek kaszkádjával), amit egy visszaterjesztésen alapuló finomhangolási lépés követ .
A lineáris diszkriminancia analízis (LDA) a Fisher-féle lineáris diszkrimináns általánosítása, amely a statisztikában, a mintafelismerésben és a gépi tanulásban használt technika, amely olyan jellemzők lineáris kombinációját keresi , amelyek két vagy több objektum vagy esemény osztályt írnak le vagy választanak el egymástól.
Az általános diszkriminancia analízis nemlineáris diszkriminancia analízissel foglalkozik a kernel függvény operátor használatával . A mögöttes elmélet közel áll a támogatási vektor géphez (SVM), mivel az SVM módszer a bemeneti vektorok leképezését adja egy nagydimenziós jellemzőtérre [14] [15] . Az LDA-hoz hasonlóan az ODA célja a jellemzők vetületének keresése egy alacsonyabb dimenziójú térbe, maximalizálva az osztályok közötti invariancia (pl . osztályközi szóródás ) és az osztályon belüli invariancia ( angol belüli szóródás ) arányát. .
Az autoencoder használható a nemlineáris dimenziócsökkentési és kódolási függvények, valamint az inverz függvény megtanulására a kódolttól az eredeti ábrázolásig.
A nagydimenziós (vagyis 10-nél több dimenziójú) adatkészletek esetében a dimenziócsökkentést általában a k -nearest szomszédok algoritmus ( k-NN) alkalmazása előtt hajtják végre, hogy elkerüljék a dimenzionalitás átkát [16] .
A jellemzők kinyerése és a méretcsökkentés egy lépésben kombinálható a főkomponens -analízis (PCA) , a lineáris diszkriminancia-analízis (LDA), a kanonikus korrelációs elemzés (CCA) vagy a nem-negatív mátrixbontás (NMR) segítségével, amelyet előzetes lépésként a csoportosítás követ. K-NN a jellemzővektoron a redukált dimenziótérben. A gépi tanulásban ezt a folyamatot alacsony dimenziós beágyazásnak is nevezik [17] .
Bármilyen nagy dimenziós adatkészlet esetén (például ha hasonlóságot keres egy videofolyamban, DNS-adatokban vagy nagy dimenziós idősorokban ), gyors közelítő K-NN keresést használva helyérzékeny hash , véletlenszerű vetítés [18] , "vázlatok" [19] (például tenzorvázlat ) vagy más nagydimenziós hasonlóságkeresési technikák az extra nagy adatbázisok arzenáljából[ pontosítás ] lehet az egyetlen lehetséges lehetőség.
Az idegtudományokban néha alkalmazott dimenziócsökkentési technika a maximális informatív dimenzió . A technika megkeresi az adatkészlet alacsony dimenziós reprezentációit, amelyek a lehető legtöbb információt megőrzik az eredeti adatokról.
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|
Ajánló rendszerek | |
---|---|
Fogalmak |
|
Módszerek és kérdések |
|
Megvalósítások |
|
Kutatás |
|