Dimenziócsökkentés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. november 30-án felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

A statisztikában , a gépi tanulásban és az információelméletben a dimenziócsökkentés  olyan adattranszformáció, amely a változók számának csökkentését jelenti főváltozók megszerzésével [1] . Az átalakítás jellemzők kiválasztására és jellemző kivonásra osztható [2] .

Funkció kiválasztása

A jellemzőkiválasztási módszer megpróbálja megtalálni az eredeti változók egy részhalmazát (úgynevezett jellemzőket vagy attribútumokat). Három stratégia létezik: a szűrőstratégia (például jellemzők felhalmozása ), a tördelési stratégia (például keresés a pontosság szerint) és a beágyazási stratégia (a funkciókat a modell felépítése során kiválasztja a hozzáadáshoz vagy eltávolításhoz előrejelzési hibák alapján). Lásd még: kombinatorikus optimalizációs problémák .

Egyes esetekben az adatelemzés , mint például a regresszió vagy az osztályozás , a redukált térben pontosabban elvégezhető, mint az eredeti térben [3] .

Jelek vetülete

A jellemzővetítés az adatokat nagy dimenziós térből alacsony dimenziós térré alakítja át. Az adattranszformáció lehet lineáris, mint a PCA , de számos nemlineáris dimenziócsökkentő technika létezik [4] [5] . Többdimenziós adatok esetén tenzorábrázolás használható a dimenziók csökkentésére többlineáris altér tanulással [6] .

Főkomponens módszer (PCA)

A dimenziócsökkentés fő lineáris technikája, a főkomponens-elemzés, az adatok lineáris leképezését végzi el egy alacsonyabb dimenziójú térbe úgy, hogy az adatok varianciája az alacsony dimenziós ábrázolásban maximalizálva legyen. A gyakorlatban az adatokból kovariancia- (és néha korrelációs ) mátrixot készítenek, és ennek a mátrixnak a sajátvektorait számítják ki . A legnagyobb sajátértékeknek (főkomponenseknek) megfelelő sajátvektorok most felhasználhatók az eredeti adatok varianciájának nagy részének visszanyerésére. Ráadásul az első néhány sajátvektor gyakran értelmezhető a rendszer nagy léptékű fizikai viselkedése alapján. Az eredeti teret (amelynek mérete megegyezik a pontok számával) redukáljuk (adatvesztéssel, de abban a reményben, hogy a legfontosabb szórás megmarad) egy több sajátvektor által átfogott térre.

Nem-negatív mátrix-kiterjesztés (NMP)

A nem-negatív mátrix felbontása egy nem negatív mátrixot két nem negatív mátrix szorzatára bont, amelyek ígéretes eszközökkel rendelkeznek azokon a területeken, ahol csak nem negatív jelek léteznek [7] [8] , mint például a csillagászat [9] [10 ] ] . A nem-negatív mátrixfelbontás jól ismert Lee és Seung multiplikatív frissítési szabálya [7] miatt, amelyet  folyamatosan fejlesztettek: a bizonytalanságok [9] figyelembevétele , a hiányzó adatok figyelembevétele ) és a párhuzamos számítás [11] , szekvenciális konstrukció [11] , ami a HMP [10] stabilitásához és linearitásához , valamint egyéb kiigazításokhoz vezet .   

Az építés során stabil komponensbázissal és egy lineáris modellezési folyamattal a szekvenciális nemnegatív mátrixbontás ( eng.  szekvenciális NMF ) [11] képes megőrizni a közvetlen megfigyelés (vagyis közvetlenül megfigyelt, és nem) körkörös struktúrák áramlását. közvetett bizonyítékokkal) a csillagászatban [10] , mint az egyik módszer az exobolygók kimutatására , különösen a körkörös korongok közvetlen megfigyelésére . A PCA-hoz képest a nem-negatív mátrixbontás nem szünteti meg a mátrixok átlagát, amelyek eltávolítása nem-fizikai nemnegatív fluxusokhoz vezet, mivel az NMR több információt képes megtakarítani, mint a főkomponens-analízis, amit Ren et. al . [10] .

Nukleáris főkomponens módszer (NPC)

A főkomponens-elemzés más módon is alkalmazható a kerneltrükk segítségével . Az így kapott technika képes olyan nemlineáris leképezéseket készíteni, amelyek maximalizálják az adatok varianciáját. Ezt a technikát kernel főkomponens metódusának nevezik .

Grafikon alapú nukleáris MGK

További ígéretes nemlineáris technikák a sokrétű tanulási technikák , mint például az Isomap , lokálisan lineáris beágyazás (LLE), lokálisan lineáris beágyazás a Hessian ( eng.  Hessian LLE ), sajáttérképes módszer Laplacian értékek ( Laplacian Eigenmaps )  és a helyi érintőtér igazítási módszer ( local tangen space alignment , LTSA) . Ezek a technikák az adatok alacsony dimenziós reprezentációját építik fel egy költségfüggvény segítségével, amely megőrzi az adatok helyi tulajdonságait, és amely egy gráf alapú kernel meghatározásának tekinthető a kernel PCA számára.  

A közelmúltban olyan technikákat javasoltak, amelyek ahelyett, hogy fix kernel definiálnának, megpróbálják megtanulni a kernelt félig meghatározott programozással . Az ilyen technikák legjelentősebb példája a Maximum Residual Sweep (RMS). Az RMN központi ötlete pontosan az, hogy megőrizze a páronkénti távolságokat a legközelebbi szomszédok között (pont szorzattérben), miközben maximalizálja a távolságokat a nem legközelebbi szomszédok között.

A szomszédság megőrzésének alternatív módja a költségfüggvény minimalizálása, amely a bemeneti és kimeneti terekben méri a távolságokat. Az ilyen technikák fontos példái a következők: klasszikus többdimenziós skálázás , amely megegyezik a PCA-val; Isomap , amely geodéziai távolságokat használ az adattérben; diffúziós térkép módszer , amely diffúziós távolságokat használ az adattérben; t -elosztott sztochasztikus  szomszéd beágyazás , t-SNE, amely minimalizálja a pontpárok közötti különbséget, UMAP (Uniform Approximation and Projection), amely minimalizálja a Kullback-Leibler eltérést a halmazok között a magas és alacsony dimenziós terekben [12] , és nemlineáris komponenselemzés ( Curvilinear Component Analysis , CCA ) . 

A nemlineáris dimenziócsökkentés másik megközelítése az autoencoderek használata, amelyek egy speciális típusú előrecsatolt  hálózatok palack alakú (szűk keresztmetszetű) rejtett réteggel [13] . A mélykódolók betanítása általában mohó réteges előképzéssel történik (például kényszerű Boltzmann-gépek kaszkádjával), amit egy visszaterjesztésen alapuló finomhangolási lépés követ .

Lineáris diszkriminancia analízis (LDA)

A lineáris diszkriminancia analízis (LDA) a Fisher-féle lineáris diszkrimináns általánosítása, amely a statisztikában, a mintafelismerésben és a gépi tanulásban használt technika, amely olyan jellemzők lineáris kombinációját keresi , amelyek két vagy több objektum vagy esemény osztályt írnak le vagy választanak el egymástól.

Általános diszkriminanciaelemzés (GDA)

Az általános diszkriminancia analízis nemlineáris diszkriminancia analízissel foglalkozik a kernel függvény operátor használatával .  A mögöttes elmélet közel áll a támogatási vektor géphez (SVM), mivel az SVM módszer a bemeneti vektorok leképezését adja egy nagydimenziós jellemzőtérre [14] [15] . Az LDA-hoz hasonlóan az ODA célja a jellemzők vetületének keresése egy alacsonyabb dimenziójú térbe, maximalizálva az osztályok közötti invariancia (pl . osztályközi szóródás ) és az osztályon belüli invariancia ( angol belüli szóródás ) arányát. .   

Autoencoder

Az autoencoder használható a nemlineáris dimenziócsökkentési és kódolási függvények, valamint az inverz függvény megtanulására a kódolttól az eredeti ábrázolásig.

Méretcsökkentés

A nagydimenziós (vagyis 10-nél több dimenziójú) adatkészletek esetében a dimenziócsökkentést általában a k -nearest szomszédok algoritmus ( k-NN) alkalmazása előtt hajtják végre, hogy elkerüljék a dimenzionalitás átkát [16] .  

A jellemzők kinyerése és a méretcsökkentés egy lépésben kombinálható a főkomponens -analízis (PCA) , a lineáris diszkriminancia-analízis (LDA), a kanonikus korrelációs elemzés (CCA) vagy a nem-negatív mátrixbontás (NMR) segítségével, amelyet előzetes lépésként a csoportosítás követ. K-NN a jellemzővektoron a redukált dimenziótérben. A gépi tanulásban ezt a folyamatot alacsony dimenziós beágyazásnak is nevezik [17] .

Bármilyen nagy dimenziós adatkészlet esetén (például ha hasonlóságot keres egy videofolyamban, DNS-adatokban vagy nagy dimenziós idősorokban ), gyors közelítő K-NN keresést használva helyérzékeny hash , véletlenszerű vetítés [18] , "vázlatok" [19] (például tenzorvázlat ) vagy más nagydimenziós hasonlóságkeresési technikák az extra nagy adatbázisok arzenáljából[ pontosítás ] lehet az egyetlen lehetséges lehetőség.

A méretcsökkentés előnyei

  1. Csökkenti a szükséges időt és memóriát.
  2. A multikollinearitás eltávolítása javítja a gépi tanulási modell sebességét.
  3. Könnyebb az adatok vizuális megjelenítése, ha nagyon alacsony méretekre, például 2D-re vagy 3D-re redukálják.

Alkalmazások

Az idegtudományokban néha alkalmazott dimenziócsökkentési technika a maximális informatív dimenzió . A technika megkeresi az adatkészlet alacsony dimenziós reprezentációit, amelyek a lehető legtöbb információt megőrzik az eredeti adatokról.

Lásd még

Jegyzetek

  1. Roweis, Saul, 2000 .
  2. Pudil, Novovičová, 1998 , p. 101.
  3. Rico-Sulayes, 2017 , p. 26-35.
  4. Samet, 2006 .
  5. Ding, He, Zha, Simon, 2002 .
  6. Lu, Plataniotis, Venetsanopoulos, 2011 , p. 1540–1551
  7. 1 2 Lee, Seung, 1999 , p. 788-791.
  8. Lee, Seung, 2001 , p. 556-562.
  9. 1 2 Blanton, Roweis, 2007 , p. 134.
  10. 1 2 3 4 Ren, Pueyo, Zhu, Duchêne, 2018 , p. 104.
  11. 1 2 3 Zhu, Guangtun B. (2016-12-19), Nemnegatív mátrixfaktorizáció (NMF) heteroszedasztikus bizonytalanságokkal és hiányzó adatokkal, arΧiv : 1612.06037 [astro-ph.IM]. 
  12. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction  ( 2018. december 7.). Letöltve: 2019. augusztus 26. Az eredetiből archiválva : 2019. november 3.
  13. Hu, Zahorian, 2010 .
  14. Baudat, Anouar, 2000 , p. 2385–2404.
  15. Haghighat, Zonouz, Abdel-Mottaleb, 2015 , p. 7905–7916.
  16. Beyer, Goldstein, Ramakrishnan, Shaft, 1999 , p. 217–235.
  17. Shaw, Jebara, 2009 , p. egy.
  18. Bingham, Mannila, 2001 , p. 245.
  19. Shasha, 2004 .

Irodalom

Linkek