Dimenziócsökkentés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. november 30-án felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

A statisztikában , a gépi tanulásban és az információelméletben a dimenziócsökkentés olyan adattranszformáció, amely a változók számának csökkentését jelenti főváltozók megszerzésével [1] . Az átalakítás jellemzők kiválasztására és jellemző kivonásra osztható [2] .

Funkció kiválasztása

A jellemzőkiválasztási módszer megpróbálja megtalálni az eredeti változók egy részhalmazát (úgynevezett jellemzőket vagy attribútumokat). Három stratégia létezik: a szűrőstratégia (például jellemzők felhalmozása ), a tördelési stratégia (például keresés a pontosság szerint) és a beágyazási stratégia (a funkciókat a modell felépítése során kiválasztja a hozzáadáshoz vagy eltávolításhoz előrejelzési hibák alapján). Lásd még: kombinatorikus optimalizációs problémák .

Egyes esetekben az adatelemzés , mint például a regresszió vagy az osztályozás , a redukált térben pontosabban elvégezhető, mint az eredeti térben [3] .

Jelek vetülete

A jellemzővetítés az adatokat nagy dimenziós térből alacsony dimenziós térré alakítja át. Az adattranszformáció lehet lineáris, mint a PCA , de számos nemlineáris dimenziócsökkentő technika létezik [4] [5] . Többdimenziós adatok esetén tenzorábrázolás használható a dimenziók csökkentésére többlineáris altér tanulással [6] .

Főkomponens módszer (PCA)

A dimenziócsökkentés fő lineáris technikája, a főkomponens-elemzés, az adatok lineáris leképezését végzi el egy alacsonyabb dimenziójú térbe úgy, hogy az adatok varianciája az alacsony dimenziós ábrázolásban maximalizálva legyen. A gyakorlatban az adatokból kovariancia- (és néha korrelációs ) mátrixot készítenek, és ennek a mátrixnak a sajátvektorait számítják ki . A legnagyobb sajátértékeknek (főkomponenseknek) megfelelő sajátvektorok most felhasználhatók az eredeti adatok varianciájának nagy részének visszanyerésére. Ráadásul az első néhány sajátvektor gyakran értelmezhető a rendszer nagy léptékű fizikai viselkedése alapján. Az eredeti teret (amelynek mérete megegyezik a pontok számával) redukáljuk (adatvesztéssel, de abban a reményben, hogy a legfontosabb szórás megmarad) egy több sajátvektor által átfogott térre.

Nem-negatív mátrix-kiterjesztés (NMP)

A nem-negatív mátrix felbontása egy nem negatív mátrixot két nem negatív mátrix szorzatára bont, amelyek ígéretes eszközökkel rendelkeznek azokon a területeken, ahol csak nem negatív jelek léteznek [7] [8] , mint például a csillagászat [9] [10 ] ] . A nem-negatív mátrixfelbontás jól ismert Lee és Seung multiplikatív frissítési szabálya [7] miatt, amelyet folyamatosan fejlesztettek: a bizonytalanságok [9] figyelembevétele , a hiányzó adatok figyelembevétele ) és a párhuzamos számítás [11] , szekvenciális konstrukció [11] , ami a HMP [10] stabilitásához és linearitásához , valamint egyéb kiigazításokhoz vezet .

Az építés során stabil komponensbázissal és egy lineáris modellezési folyamattal a szekvenciális nemnegatív mátrixbontás ( eng. szekvenciális NMF ) [11] képes megőrizni a közvetlen megfigyelés (vagyis közvetlenül megfigyelt, és nem) körkörös struktúrák áramlását. közvetett bizonyítékokkal) a csillagászatban [10] , mint az egyik módszer az exobolygók kimutatására , különösen a körkörös korongok közvetlen megfigyelésére . A PCA-hoz képest a nem-negatív mátrixbontás nem szünteti meg a mátrixok átlagát, amelyek eltávolítása nem-fizikai nemnegatív fluxusokhoz vezet, mivel az NMR több információt képes megtakarítani, mint a főkomponens-analízis, amit Ren et. al . [10] .

Nukleáris főkomponens módszer (NPC)

A főkomponens-elemzés más módon is alkalmazható a kerneltrükk segítségével . Az így kapott technika képes olyan nemlineáris leképezéseket készíteni, amelyek maximalizálják az adatok varianciáját. Ezt a technikát kernel főkomponens metódusának nevezik .

Grafikon alapú nukleáris MGK

További ígéretes nemlineáris technikák a sokrétű tanulási technikák , mint például az Isomap , lokálisan lineáris beágyazás (LLE), lokálisan lineáris beágyazás a Hessian ( eng. Hessian LLE ), sajáttérképes módszer Laplacian értékek ( Laplacian Eigenmaps ) és a helyi érintőtér igazítási módszer ( local tangen space alignment , LTSA) . Ezek a technikák az adatok alacsony dimenziós reprezentációját építik fel egy költségfüggvény segítségével, amely megőrzi az adatok helyi tulajdonságait, és amely egy gráf alapú kernel meghatározásának tekinthető a kernel PCA számára.

A közelmúltban olyan technikákat javasoltak, amelyek ahelyett, hogy fix kernel definiálnának, megpróbálják megtanulni a kernelt félig meghatározott programozással . Az ilyen technikák legjelentősebb példája a Maximum Residual Sweep (RMS). Az RMN központi ötlete pontosan az, hogy megőrizze a páronkénti távolságokat a legközelebbi szomszédok között (pont szorzattérben), miközben maximalizálja a távolságokat a nem legközelebbi szomszédok között.

A szomszédság megőrzésének alternatív módja a költségfüggvény minimalizálása, amely a bemeneti és kimeneti terekben méri a távolságokat. Az ilyen technikák fontos példái a következők: klasszikus többdimenziós skálázás , amely megegyezik a PCA-val; Isomap , amely geodéziai távolságokat használ az adattérben; diffúziós térkép módszer , amely diffúziós távolságokat használ az adattérben; t -elosztott sztochasztikus szomszéd beágyazás , t-SNE, amely minimalizálja a pontpárok közötti különbséget, UMAP (Uniform Approximation and Projection), amely minimalizálja a Kullback-Leibler eltérést a halmazok között a magas és alacsony dimenziós terekben [12] , és nemlineáris komponenselemzés ( Curvilinear Component Analysis , CCA ) .

A nemlineáris dimenziócsökkentés másik megközelítése az autoencoderek használata, amelyek egy speciális típusú előrecsatolt hálózatok palack alakú (szűk keresztmetszetű) rejtett réteggel [13] . A mélykódolók betanítása általában mohó réteges előképzéssel történik (például kényszerű Boltzmann-gépek kaszkádjával), amit egy visszaterjesztésen alapuló finomhangolási lépés követ .

Lineáris diszkriminancia analízis (LDA)

A lineáris diszkriminancia analízis (LDA) a Fisher-féle lineáris diszkrimináns általánosítása, amely a statisztikában, a mintafelismerésben és a gépi tanulásban használt technika, amely olyan jellemzők lineáris kombinációját keresi , amelyek két vagy több objektum vagy esemény osztályt írnak le vagy választanak el egymástól.

Általános diszkriminanciaelemzés (GDA)

Az általános diszkriminancia analízis nemlineáris diszkriminancia analízissel foglalkozik a kernel függvény operátor használatával . A mögöttes elmélet közel áll a támogatási vektor géphez (SVM), mivel az SVM módszer a bemeneti vektorok leképezését adja egy nagydimenziós jellemzőtérre [14] [15] . Az LDA-hoz hasonlóan az ODA célja a jellemzők vetületének keresése egy alacsonyabb dimenziójú térbe, maximalizálva az osztályok közötti invariancia (pl . osztályközi szóródás ) és az osztályon belüli invariancia ( angol belüli szóródás ) arányát. .

Autoencoder

Az autoencoder használható a nemlineáris dimenziócsökkentési és kódolási függvények, valamint az inverz függvény megtanulására a kódolttól az eredeti ábrázolásig.

Méretcsökkentés

A nagydimenziós (vagyis 10-nél több dimenziójú) adatkészletek esetében a dimenziócsökkentést általában a k -nearest szomszédok algoritmus ( k-NN) alkalmazása előtt hajtják végre, hogy elkerüljék a dimenzionalitás átkát [16] .

A jellemzők kinyerése és a méretcsökkentés egy lépésben kombinálható a főkomponens -analízis (PCA) , a lineáris diszkriminancia-analízis (LDA), a kanonikus korrelációs elemzés (CCA) vagy a nem-negatív mátrixbontás (NMR) segítségével, amelyet előzetes lépésként a csoportosítás követ. K-NN a jellemzővektoron a redukált dimenziótérben. A gépi tanulásban ezt a folyamatot alacsony dimenziós beágyazásnak is nevezik [17] .

Bármilyen nagy dimenziós adatkészlet esetén (például ha hasonlóságot keres egy videofolyamban, DNS-adatokban vagy nagy dimenziós idősorokban ), gyors közelítő K-NN keresést használva helyérzékeny hash , véletlenszerű vetítés [18] , "vázlatok" [19] (például tenzorvázlat ) vagy más nagydimenziós hasonlóságkeresési technikák az extra nagy adatbázisok arzenáljából[ pontosítás ] lehet az egyetlen lehetséges lehetőség.

A méretcsökkentés előnyei

Csökkenti a szükséges időt és memóriát.
A multikollinearitás eltávolítása javítja a gépi tanulási modell sebességét.
Könnyebb az adatok vizuális megjelenítése, ha nagyon alacsony méretekre, például 2D-re vagy 3D-re redukálják.

Alkalmazások

Az idegtudományokban néha alkalmazott dimenziócsökkentési technika a maximális informatív dimenzió . A technika megkeresi az adatkészlet alacsony dimenziós reprezentációit, amelyek a lehető legtöbb információt megőrzik az eredeti adatokról.

Lásd még

A legközelebbi szomszéd probléma megtalálása
MinHash
Információk felhalmozása egy döntési fában
Félig meghatározott beágyazás
A többtényezős tér méretcsökkentése
Multilineáris altér tanulás
Többlineáris főkomponens módszer
Véletlenszerű vetítés
szinguláris érték felbontás
Látens szemantikai elemzés
Szemantikus leképezés
Topológiai adatok elemzése
Helyérzékeny hash
Elegendő méretcsökkentés
Adatkonverzió
Súlyozott összefüggéshálózat elemzése
Hiperparaméter optimalizálás
CUR mátrix közelítések
Boríték modell
Nemlineáris dimenziócsökkentés
Sammon térképezés
Johnson-Lindenstrauss Lemma

Jegyzetek

↑ Roweis, Saul, 2000 .
↑ Pudil, Novovičová, 1998 , p. 101.
↑ Rico-Sulayes, 2017 , p. 26-35.
↑ Samet, 2006 .
↑ Ding, He, Zha, Simon, 2002 .
↑ Lu, Plataniotis, Venetsanopoulos, 2011 , p. 1540–1551
↑ 1 2 Lee, Seung, 1999 , p. 788-791.
↑ Lee, Seung, 2001 , p. 556-562.
↑ 1 2 Blanton, Roweis, 2007 , p. 134.
↑ 1 2 3 4 Ren, Pueyo, Zhu, Duchêne, 2018 , p. 104.
↑ 1 2 3 Zhu, Guangtun B. (2016-12-19), Nemnegatív mátrixfaktorizáció (NMF) heteroszedasztikus bizonytalanságokkal és hiányzó adatokkal, arΧiv : 1612.06037 [astro-ph.IM].
↑ UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction ( 2018. december 7.). Letöltve: 2019. augusztus 26. Az eredetiből archiválva : 2019. november 3.
↑ Hu, Zahorian, 2010 .
↑ Baudat, Anouar, 2000 , p. 2385–2404.
↑ Haghighat, Zonouz, Abdel-Mottaleb, 2015 , p. 7905–7916.
↑ Beyer, Goldstein, Ramakrishnan, Shaft, 1999 , p. 217–235.
↑ Shaw, Jebara, 2009 , p. egy.
↑ Bingham, Mannila, 2001 , p. 245.
↑ Shasha, 2004 .

Irodalom

Baudat G., Anouar F. Általános diszkriminanciaanalízis kernel megközelítéssel // Neurális számítás. - 2000. - T. 12 , sz. 10 .
Haghighat M., Zonouz S., Abdel-Mottaleb M. CloudID: Megbízható felhőalapú és vállalatközi biometrikus azonosítás // Expert Systems with Applications. - 2015. - T. 42 , sz. 21 .
Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft. Mikor van értelme a „legközelebbi szomszédnak”? // A 7. Nemzetközi Adatbáziselméleti Konferencia (ICDT) anyaga . – Jeruzsálem, Izrael, 1999.
Hongbing Hu, Stephen A. Zahorian. Dimenziócsökkentési módszerek HMM fonetikai felismeréshez // ICASSP 2010 . – Dallas, TX, 2010.
Bingham E., Mannila H. Véletlenszerű vetítés a dimenziócsökkentésben // Proceedings of the seventh ACM SIGKDD International Conference on Knowledge discovery and data mining – KDD '01 . - 2001. - ISBN 158113391X . - doi : 10.1145/502512.502546 .
D Magas Shasha. Teljesítmény felfedezése idősorokban. - Berlin: Springer, 2004. - ISBN 0-387-00857-8 .
Shaw B., Jebara T. Structure preservation beágyazás // Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 . - 2009. - S. 1. - ISBN 9781605585161 . - doi : 10.1145/1553374.1553494 .
Roweis ST, Saul LK Nemlineáris dimenziócsökkentés lokálisan lineáris beágyazással // Tudomány. - 2000. - T. 290 , sz. 5500 . — S. 2323–2326 . - doi : 10.1126/tudomány.290.5500.2323 . - Iránykód . — PMID 11125150 .
Pudil P., Novovičová J. Újszerű módszerek jellemzői részhalmazok kiválasztásához a problémaismeret tekintetében // Jellemzők kivonása, felépítése és kiválasztása / Huan Liu, Hiroshi Motoda. - 1998. - ISBN 978-1-4613-7622-4 . - doi : 10.1007/978-1-4615-5725-8_7 .
Antonio Rico-Sulayes. A vektortér dimenzióinak csökkentése a szerzői hozzárendelés automatikus osztályozásában // Revista Ingeniería Electrónica, Automática y Comunicaciones. - 2017. - T. 38 , 3. sz .
Samet H. A többdimenziós és metrikus adatstruktúrák alapjai. - Morgan Kaufmann, 2006. - ISBN 0-12-369446-9 .
Ding C., He X., Zha H., Simon HD Adaptive Dimension Reduction for Clustering High Dimensional Data // Proceedings of International Conference on Data Mining. – 2002.
Haiping Lu, KN Plataniotis, AN Venetsanopoulos. Tenzoradatok többlineáris altér-tanulásának felmérése // Mintafelismerés. - 2011. - T. 44 , 7. sz . - S. 1540-1551 . - doi : 10.1016/j.patcog.2011.01.004 .
Daniel D. Lee, H. Sebastian Seung. Tárgyak részeinek megtanulása nemnegatív mátrixfaktorizálással // Természet . - 1999. - T. 401 , szám. 6755 . – S. 788–791 . - doi : 10.1038/44565 . — . — PMID 10548103 .
Daniel D. Lee, H. Sebastian Seung. Algorithms for Non-negative Matrix Factorization // Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference . - MIT Press , 2001. - S. 556-562.
Michael R. Blanton, Sam Roweis. K-korrekciók és szűrőtranszformációk az ultraibolya, optikai és közeli infravörös sugárzásban // The Astronomical Journal. - 2007. - T. 133 . - doi : 10.1086/510127 . - Iránykód . - arXiv : astro-ph/0606170 .
Bin Ren, Laurent Pueyo, Guangtun B. Zhu, Gaspard Duchêne. Nem negatív mátrixfaktorizálás: kiterjesztett szerkezetek robusztus kivonása // The Astrophysical Journal. - 2018. - T. 852 . - doi : 10.3847/1538-4357/aaa1f2 . - Iránykód . - arXiv : 1712.10317 .
Fodor I. A méretcsökkentési technikák áttekintése. Nemzeti műszaki jelentés UCRL-ID-148494 . – Lawrence Livermore: Alkalmazott Tudományos Számítástechnikai Központ, 2002.
Cunningham P. Dimenziócsökkentés. Műszaki jelentés UCD-CSI-2007-7 . — University College Dublin, 2007.
Stephen A. Zahorian, Hongbing Hu. Nemlineáris dimenziócsökkentési módszerek az automatikus beszédfelismeréshez // Beszédtechnológiák. - 2011. - ISBN 978-953-307-996-7 . - doi : 10.5772/16863 .
Dhyaram Lakshmi Padmaja, B Vishnuvardhan. Összehasonlító vizsgálat a jellemző részhalmazok kiválasztásának módszereiről a dimenzionalitás csökkentésére tudományos adatokon. - 2016. - augusztus. – 31–34 . - doi : 10.1109/IACC.2016.16 .

Linkek

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-közép módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-Net Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG

Ajánló rendszerek
Fogalmak	kollektív intelligencia Relevancia Csillagok értékelése Hosszú farok
Módszerek és kérdések	Hideg indítás Együttműködési szűrés Dimenziócsökkentés Közvetett adatok gyűjtése Együttműködési szűrés az objektumok közötti kapcsolatok elemzésén keresztül Mátrixbontás Információgyűjtés a preferenciákról Keresés hasonlóság alapján szociális lustaság
Megvalósítások	Együttműködő információkereső rendszer Tartalomfelderítő platform Döntéstámogatási rendszer Projekt "Zene genom" Termék keresés
Kutatás	GroupLens kutatás MovieLens Netflix díj