A főkomponens - elemzés (PCA ) az egyik fő módja az adatok dimenziójának csökkentésének , a legkevesebb információ elvesztésével . Karl Pearson találta fel 1901- ben . Számos területen használják, beleértve az ökonometriát , a bioinformatikát , a képfeldolgozást , az adattömörítést , a társadalomtudományokat .
A főkomponensek számítása visszavezethető az adatmátrix szinguláris értékű dekompozíciójának kiszámítására vagy az eredeti adatok kovarianciamátrixának sajátvektorainak és sajátértékeinek kiszámítására . Néha a főkomponens módszert Karhunen-Loeve transzformációnak [ 1] vagy Hotelling transzformációnak nevezik .
A főkomponens-elemzési problémának legalább négy alapváltozata van:
Az első három verzió véges adathalmazokon működik. Egyenértékűek, és nem használnak hipotézist a statisztikai adatok előállítására vonatkozóan. A negyedik verzió véletlen változókkal működik . A véges halmazok itt mintaként jelennek meg egy adott eloszlásból, és az első három probléma megoldása - a Karhunen-Loeve tétel szerinti bővítés közelítéseként ( "igazi Karhunen-Loeve transzformáció" ). Ez egy további és nem egészen triviális kérdést vet fel ennek a közelítésnek a pontosságával kapcsolatban.
A főkomponens-elemzés azzal a problémával kezdődött, hogy a pontok véges halmazának legjobb közelítését lehet egyenesekkel és síkokkal elérni ( Pearson , 1901). Adott egy véges vektorhalmaz , az összes dimenziós lineáris sokaság mindegyikére úgy találjuk , hogy a négyzetes eltérések összege minimális :
,ahol az euklideszi távolság egy ponttól a lineáris sokaságig. Bármely dimenziós lineáris sokaság definiálható lineáris kombinációk halmazaként , ahol a paraméterek a valós vonalon futnak , és vektorok ortonormális halmaza
,ahol az euklideszi norma, az euklideszi skalárszorzat, vagy koordináta formában:
.A közelítési feladat megoldását egy egymásba ágyazott lineáris sokaság , . Ezeket a lineáris sokaságokat vektorok ortonormális halmaza (főkomponensvektorok) és egy vektor határozza meg . A vektort a minimalizálási probléma megoldásaként keresik :
,vagyis
.Ez a mintaátlag : .
Fréchet 1948 - ban észrevette, hogy az átlag variációs definíciója (mint olyan pont, amely minimalizálja az adatpontok távolságának négyzetének összegét) nagyon kényelmes statisztika tetszőleges metrikus térben történő készítéséhez , és elkészítette a klasszikus statisztika általánosítását az általános terekre (általánosított). legkisebb négyzetek ).
A főkomponensvektorok az azonos típusú optimalizálási problémák megoldásaként találhatók :
Továbbá a folyamat folytatódik, vagyis a lépésben a -edik főkomponensre vonatkozó vetületet levonjuk (ebben a pillanatban az előző főkomponensekre vonatkozó vetületeket már levontuk):
;lépésben pedig a -edik főkomponenst a probléma megoldásaként határozzuk meg:
(ha a megoldás nem egyedi, akkor valamelyiket választjuk).Minden előkészítő lépésben levonják az előző főkomponens vetületét. A talált vektorok pusztán a leírt optimalizálási feladat megoldásának eredményeként ortonormálisak, azonban annak érdekében, hogy a számítási hibák ne sértsék a főkomponensvektorok kölcsönös ortogonalitását, beépíthetők az optimalizálási feladat feltételei közé.
A definícióban lévő nem egyediség a jelválasztás triviális önkényén túl ( és ugyanazt a problémát oldja meg) jelentősebb lehet, és származhat például az adatszimmetria-feltételekből. Az utolsó főkomponens az összes előzőre merőleges egységvektor .
Adjunk meg egy központosított adatvektor-halmazt ( a számtani átlag nulla). A feladat egy olyan ortogonális transzformáció megtalálása egy új koordinátarendszerre , amelyre a következő feltételek lennének igazak:
Az adatok minta szórása a normalizált vektor által adott irányban :
(mivel az adatok középre vannak állítva, a minta szórása itt megegyezik a nullától való átlagos négyzetes eltéréssel).
A legjobb közelítés feladatának megoldása ugyanazt a főkomponens-készletet adja, mint a legnagyobb szórású ortogonális vetületek keresése, ennek nagyon egyszerű oka van: az első tag nem függ -től .
Egy másik ekvivalens megfogalmazás következik a nyilvánvaló azonosságból, amely minden vektorra igaz :
Ennek az azonosságnak a bal oldalán a pontok közötti négyzetgyök-távolság, a jobb oldalon pedig szögletes zárójelben a minta varianciája látható. A főkomponens módszerben tehát olyan altereket keresünk, amelyekre a vetítésben a pontok közötti négyzetes középtávolság maximális (illetve, ami megegyezik, a vetítés hatására minimális a torzulása) [2 ] . Egy ilyen újrafogalmazás lehetővé teszi, hogy általánosításokat készítsünk különböző páronkénti távolságok (és nem csak pontok) súlyozásával.
Adott dimenziós valószínűségi változóhoz keressünk olyan ortonormális bázist, , amelyben a különböző koordináták közötti kovariancia együttható nullával egyenlő. Az erre az alapra történő átalakítás után
számára .Itt van a kovariancia együttható, ahol a matematikai elvárás .
Minden főkomponens probléma a kovariancia mátrix vagy a minta kovariancia mátrix diagonalizációjának problémájához vezet. Ez egy empirikus vagy minta kovariancia mátrix
Egy többváltozós valószínűségi változó kovarianciamátrixa , ez
A legjobb illeszkedés és a legtöbb szóródást okozó ortogonális vetületi probléma főkomponensvektorai az empirikus kovarianciamátrix sajátvektorainak ortonormális halmaza , amelyek a sajátértékek csökkenő sorrendjében vannak elrendezve, és ezek a vektorok a kovarianciamátrix sajátvektorainak becsléseiként szolgálnak . A kovarianciamátrix sajátvektorai alapján természetesen átlós, és ezen az alapon a különböző koordináták közötti kovariancia együttható nullával egyenlő.
Ha a kovarianciamátrix spektruma degenerált, akkor a sajátvektorok tetszőleges ortonormális bázisát választjuk. Mindig létezik, és a kovarianciamátrix sajátértékei mindig valósak és nem negatívak.
A főkomponens módszer matematikai tartalma a kovariancia mátrix spektrális felbontása , azaz az adattér ábrázolása egymásra merőleges sajátrészterek összegeként , és magát a mátrixot az ezekre az alterekre ortogonális vetületek lineáris kombinációjaként együtthatókkal. . Ha egy mátrix központosított adatok sorvektoraiból (dimenzió ) épül fel , akkor a kovarianciamátrix spektrális dekompozíciójának problémája az adatmátrix szinguláris érték felbontásának problémájává válik .
Egy számot akkor és csak akkor nevezünk egy mátrix szinguláris értékének, ha van jobb és bal oldali szinguláris vektor : olyan -dimenziós sorvektor és -dimenziós oszlopvektor (mindkettő egységnyi hosszúságú), amelyre két egyenlőség vonatkozik:
Legyen az adatmátrix rangja . Az adatmátrix szinguláris értékű dekompozíciója a formában való megjelenítése
ahol egy szinguláris érték, a megfelelő jobb oldali szinguláris oszlopvektor, és a megfelelő bal oldali szinguláris sorvektor ( ). A jobboldali szinguláris oszlopvektorok , amelyek ebben a felbontásban vesznek részt, az empirikus kovarianciamátrix főkomponens-vektorai és sajátvektorai, amelyek a pozitív sajátértékeknek felelnek meg .
Bár formálisan az adatmátrix szinguláris értékfelbontásának és a kovarianciamátrix spektrális dekompozíciójának problémái egybeesnek, a szinguláris érték közvetlen, a kovarianciamátrix és spektrumának kiszámítása nélkül történő kiszámítására szolgáló algoritmusok hatékonyabbak és stabilabbak [3] .
A szinguláris értékelméletet James Joseph Sylvester alkotta meg 1889- ben , és a mátrixelméletről szóló összes részletes kézikönyv bemutatja [4] .
A fő eljárás az, hogy megkeressük egy tetszőleges mátrix legjobb közelítését egy alakú mátrixszal (ahol -dimenziós vektor, és -dimenziós vektor) a legkisebb négyzetek módszerével:
Ennek a problémának a megoldását egymást követő iterációk adják meg explicit képletekkel. Rögzített vektor esetén a forma minimumát adó értékeket egyedileg és explicit módon az egyenlőségek határozzák meg :
Hasonlóképpen egy fix vektor esetén a következő értékeket határozzuk meg :
A vektor kezdeti közelítéseként veszünk egy egységnyi hosszúságú véletlenszerű vektort, kiszámítjuk a vektort , majd kiszámítjuk ennek a vektornak a vektorát stb. Minden lépés csökkenti az értékét . A minimálisra csökkentett funkcionális iterációs lépésenkénti relatív csökkenése ( ) vagy magának az értéknek a kicsinysége megállási kritériumként szolgál .
Ennek eredményeként a mátrix esetében a legjobb közelítést egy alakú mátrix kapja (itt a felső index a közelítési számot jelöli). Továbbá a kapott mátrixot kivonjuk a mátrixból , és a kapott eltérési mátrixhoz ismét az azonos típusú legjobb közelítést keressük , és így tovább, amíg például a norma kellően kicsi nem lesz. Ennek eredményeként iteratív eljárást kaptunk egy mátrix felbontására 1. rangú mátrixok összegeként, azaz . Feltesszük és normalizáljuk a vektorokat : Ennek eredményeként szinguláris számok és szinguláris vektorok (jobb - és bal oldali - ) közelítését kapjuk.
Ennek az algoritmusnak az előnyei közé tartozik a kivételes egyszerűsége és az a képesség, hogy szinte változtatás nélkül átvihető a hiányos adatokhoz [5] , valamint a súlyozott adatokhoz.
Az alapalgoritmusnak különféle módosításai vannak, amelyek javítják a pontosságot és a stabilitást. Például a különböző főkomponensek vektorainak „konstrukció szerint” ortogonálisnak kell lenniük, azonban nagy számú iteráció (nagy dimenzió, sok komponens) esetén az ortogonalitástól való kis eltérések halmozódnak fel, és speciális korrekcióra lehet szükség minden lépést, biztosítva annak ortogonitását a korábban megtalált főkomponensekre.
A négyzetes szimmetrikus pozitív-definit mátrixok esetében a leírt algoritmus egy közvetlen iterációs módszerré alakul a sajátvektorok megtalálására (lásd a Sajátvektorok, értékek és terek cikket ).
Egy adatvektor gyakran egy téglalap alakú táblázat (például egy lapos kép) vagy akár egy többdimenziós táblázat kiegészítő szerkezetével rendelkezik - azaz egy tenzor : , . Ebben az esetben is hatékony a szinguláris értékbontás alkalmazása. A definíció, az alapképletek és az algoritmusok gyakorlatilag változtatás nélkül kerülnek átadásra: adatmátrix helyett -index értéket kapunk , ahol az első index az adatpont (tenzor) szám.
A fő eljárás az, hogy megtaláljuk a tenzor legjobb közelítését egy alak tenzorral (ahol -dimenziós vektor ( az adatpontok száma), a méretvektor at ) a legkisebb négyzetek módszerével:
Ennek a problémának a megoldását egymást követő iterációk adják meg explicit képletekkel. Ha egy kivételével minden faktorvektor adott , akkor ez a fennmaradó egy explicit módon meghatározásra kerül elegendő minimumfeltételek alapján.
A vektorok ( ) kezdeti közelítésének egységnyi hosszúságú véletlenszerű vektorokat veszünk , kiszámítjuk a vektort , majd erre a vektorra és ezekre a vektorokra kiszámítjuk a vektort, és így tovább (ciklus az indexeken). Minden lépés csökkenti az értékét . Az algoritmus nyilvánvalóan konvergál. A ciklusonként minimalizálandó funkcionális érték relatív csökkenésének kicsisége vagy magának az értéknek a kicsinysége leállítási kritériumként szolgál . Ezután a kapott közelítést kivonjuk a tenzorból , és ismét megkeressük a maradékra azonos típusú legjobb közelítést, és így tovább, amíg például a következő maradék normája kellően kicsi lesz.
Ezt a többkomponensű szinguláris értékbontást (a főkomponensek tenzoros módszere) sikeresen alkalmazzák képek, videojelek, és tágabb értelemben minden olyan adat feldolgozásakor, amely táblázatos vagy tenzorszerkezettel rendelkezik.
Az adattranszformációs mátrix főkomponensekre főkomponens-vektorokból áll, amelyek a sajátértékek csökkenő sorrendjében vannak elrendezve:
( átültetést jelent),és
Vagyis a mátrix ortogonális .
Az adatváltozatok nagy része az első koordinátákban összpontosul, ami lehetővé teszi, hogy egy alacsonyabb dimenziós térbe lépjen.
Legyen az adatok középen, . Ha az adatvektorokat az első főkomponensekre vetítésükkel helyettesítjük, az egy adatvektorra jutó hiba átlagos négyzete kerül bevezetésre:
hol vannak az empirikus kovarianciamátrix sajátértékei, csökkenő sorrendbe rendezve, figyelembe véve a multiplicitást.
Ezt a mennyiséget reziduális varianciának nevezzük . Érték
magyarázott varianciának nevezzük . Összegük egyenlő a minta szórásával. A megfelelő négyzetes relatív hiba a maradék variancia és a minta variancia aránya (azaz a megmagyarázhatatlan variancia aránya ):
A relatív hiba az első komponensekre vetítéssel értékeli a főkomponens módszer alkalmazhatóságát .
Megjegyzés : a legtöbb számítási algoritmusban a sajátértékek a megfelelő sajátvektorokkal - a fő komponensek kiszámítása "a legnagyobbtól a legkisebbig" sorrendben történik. A kiszámításához elegendő kiszámítani az első sajátértékeket és az empirikus kovariancia mátrix nyomát (az átlós elemek összegét , vagyis a tengelyek mentén fennálló eltéréseket). Akkor
Formálisan mindig alkalmazható a főkomponensek számának a megmagyarázott variancia szükséges arányával történő becslésének célszemlélete, de implicit módon azt feltételezi, hogy nincs szétválasztás „jel” és „zaj”, és minden előre meghatározott pontosságnak van értelme. Ezért gyakran produktívabb egy másik heurisztika , amely a „jel” (viszonylag kis dimenzió, viszonylag nagy amplitúdó) és a „zaj” (nagy dimenzió, viszonylag kis amplitúdó) jelenlétének hipotézisén alapul. Ebből a szempontból a főkomponens-módszer szűrőként működik: a jelet elsősorban az első főkomponensekre történő vetítés tartalmazza, a többi komponensben pedig jóval nagyobb a zaj aránya.
Kérdés: hogyan lehet megbecsülni a szükséges főkomponensek számát, ha a jel-zaj viszony nem ismert előre?
A főkomponensek kiválasztásának legegyszerűbb és legrégebbi módszere a Kaiser - szabály : jelentősek azok a főkomponensek, amelyekre
azaz meghaladja az átlagot (az adatvektor koordinátáinak átlagos mintavarianciáját). A Kaiser-szabály jól működik azokban az egyszerű esetekben, amikor több főkomponens van -val , amelyek jóval nagyobbak az átlagnál, a többi sajátérték pedig kisebb nála. Bonyolultabb esetekben túl sok jelentős főkomponenst adhat. Ha az adatokat egységnyi minta szórására normalizáljuk a tengelyek mentén, akkor a Kaiser-szabály különösen egyszerű formát ölt: csak azok a főkomponensek jelentősek, amelyekre
Az egyik legnépszerűbb heurisztikus megközelítés a szükséges főkomponensek számának becslésére a Broken stick modell [ 6 ] . Az egységösszegre normalizált sajátértékek halmazát ( , ) összehasonlítjuk egy egységnyi hosszúságú vessző töredékeinek hosszának eloszlásával, a véletlenszerűen kiválasztott pontban megtörve (a töréspontokat egymástól függetlenül választjuk ki, és egyenlően oszlanak el a a bot hossza). Legyen ( ) a kapott náddarabok hossza, hosszuk csökkenő sorrendjében számozva: . Nem nehéz megtalálni a matematikai elvárást :
A törött vesszőszabály szerint a sajátvektor (csökkenő sajátérték sorrendben ) a főkomponensek listájában tárolódik, ha
ábrán egy példa az 5 dimenziós esetre:
=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.Például kiválasztott
=0,5; =0,3; =0,1; =0,06; =0,04.A törött vessző szabálya szerint ebben a példában 2 fő összetevőt kell hagyni:
A felhasználók szerint a törött botszabály általában alábecsüli a jelentős főkomponensek számát.
Mind a Kaiser-szabály, mind a törött vesszőszabály meglehetősen érzékeny az irreleváns attribútumok jelenlétére. Ez könnyen kimutatható az attribútumok megkettőzésével. Mirkes és munkatársai [7] egy egyszerű tesztet javasoltak a dimenzióbecslés stabilitására: ha egyszerűen duplikálunk attribútumokat az adatbázisban, akkor a dimenzióbecslés nem növekedhet. Sem a Kaiser-szabály, sem a törött vesszőszabály nem megy át ezen a teszten, mert a kis sajátértékekkel rendelkező komponens "farka" eltolja a becslést és arányosan növeli a dimenziót. Ezt a hiányosságot a feltételszám szerinti becslés nem tartalmazza. [7] [8] A korrelációs mátrix feltételszáma a maximális sajátértékének a minimumhoz viszonyított aránya : . A nagy érték rosszul kondicionált és multikollineárist jelent . A fennmaradó komponensek számának meghatározásához ki kell választani a multikollinearitási küszöb bizonyos értékét, és azokat az összetevőket, amelyekhez . Így a többi komponensben nincs multikollinearitás. Az adatok dimenzióját a kovarianciamátrix azon sajátértékeinek számaként becsüljük meg, amelyek túllépik a legnagyobb sajátértékének fix töredékét ( ). A küszöb kiválasztását a probléma sajátosságai határozzák meg. Számos numerikus kísérlet mutatja, hogy a szelekció az alacsonytól a "közepes" multikollinearitásig terjed a megtartott komponensekben, és számos adatfeldolgozási probléma esetén elfogadható. [7] [9]
Az első főkomponensekre való kivetítés után célszerű a tengelyek mentén egységnyi (minta) szórásra normalizálni. A szóródás a th főkomponens mentén egyenlő ), ezért a normalizáláshoz el kell osztani a megfelelő koordinátát -vel . Ez az átalakítás nem ortogonális, és nem őrzi meg a pontszorzatot. A normalizálás után az adatvetületi kovariancia mátrix egységgé válik, a két merőleges irányú vetületek független mennyiségekké, és bármely ortonormális bázis a főkomponensek alapjává válik (emlékezzünk arra, hogy a koordináta szerinti normalizálás megváltoztatja a vektorok ortogonalitási arányát). A kiindulási adattérről az első főkomponensekre való leképezést a normalizálással együtt a mátrix adja meg
.Ezt az átalakulást nevezik leggyakrabban Karhunen-Loeve transzformációnak. Itt vannak oszlopvektorok, a felső index pedig transzponálást jelent.
Figyelmeztetés : ne keverje össze a főkomponensekre történő átalakítás után végzett normalizálást a főkomponensek kiszámítása előtt végzett adat-előfeldolgozás során végzett normalizálással és "dimenziómentességgel". Előnormalizálásra van szükség annak a metrikának ésszerű megválasztásához, amelyben az adatok legjobb közelítését számítják ki, vagy megkeresik a legnagyobb szórás irányát (ami egyenértékű). Például, ha az adatok háromdimenziós "méterek, literek és kilogrammok" vektorai, akkor a szabványos euklideszi távolságot használva az első koordináta 1 méteres eltérése ugyanolyan mértékben járul hozzá, mint a második koordináta 1 literes eltérése. , vagy 1 kg a harmadikban . Általában azok a mértékegységrendszerek, amelyekben az eredeti adatok szerepelnek, nem tükrözik pontosan a tengelyek mentén kialakult természetes léptékekről alkotott elképzeléseinket, és „ nem- dimenzionálásra ” kerül sor: minden koordinátát az adatok által meghatározott skálára osztanak, feldolgozásuk céljairól, valamint az adatok mérésének és gyűjtésének folyamatairól.
Az ilyen normalizálásnak három lényegesen eltérő standard megközelítése létezik: a tengelyek mentén mért egységnyi variancia (a tengelyek mentén lévő skálák megegyeznek a szórással - a transzformáció után a kovariancia mátrix egybeesik a korrelációs együtthatók mátrixával ), az egyenlő mérési pontosság . (a tengely menti skála arányos egy adott érték mérési pontosságával) és egyenlő követelmények mellett a feladatban (a tengely menti skálát egy adott érték előrejelzésének szükséges pontossága vagy megengedett torzulása határozza meg - a szint a tolerancia). Az előfeldolgozás megválasztását befolyásolja a probléma értelmes megfogalmazása, valamint az adatgyűjtés feltételei (például, ha az adatgyűjtés alapvetően hiányos, és az adatok még megérkeznek, akkor nem ésszerű szigorúan a normalizálást választani egységnyi szórással, még akkor is, ha ez megfelel a probléma jelentésének, mivel ez az összes adat újranormálását jelenti egy új rész vétele után; ésszerűbb olyan skálát választani, amely durván becsüli a szórást, és akkor nem változtat rajta) .
Ha a tengelyek nem főkomponensek, a koordináta-rendszer elforgatásával megsemmisül a tengelyek mentén az egységnyi szórásra való előnormálás, és az adat-előfeldolgozás során végzett normalizálás nem helyettesíti a főkomponensekre redukálás utáni normalizálást.
Ha minden adatvektorhoz egységnyi tömeget rendelünk, akkor az empirikus kovarianciamátrix egybeesik ennek a ponttömeg-rendszernek a tehetetlenségi tenzorával (osztva a teljes tömeggel ), és a főkomponensek problémája egybeesik a tehetetlenségi tenzor a főtengelyekhez. A tömegértékek megválasztásának további szabadsága felhasználható az adatpontok fontosságának vagy értékük megbízhatóságának figyelembevételére (nagyobb tömegeket rendelnek a fontos adatokhoz vagy megbízhatóbb forrásokból származó adatokhoz). Ha az adatvektor tömeget ad , akkor az empirikus kovarianciamátrix helyett kapjuk
A főkomponensekre redukáló összes további műveletet ugyanúgy hajtjuk végre, mint a metódus fő verziójában: ortonormális sajátbázist keresünk , a sajátértékeket csökkenő sorrendbe rendezzük, az adatközelítés súlyozott átlaghibáját a Az első komponenseket megbecsüljük (a sajátértékek összegével ), normalizálást hajtunk végre, és így tovább.
A súlyozás általánosabb módja a vetületek közötti páronkénti távolságok súlyozott összegének maximalizálása [10] . Minden két adatponthoz egy súly kerül megadásra ; és . Az empirikus kovarianciamátrix helyett használjuk
A szimmetrikus mátrix pozitív határozott, mert a másodfokú alak pozitív:
Ezután keresünk egy ortonormális sajátbázist , rendezzük a sajátértékek csökkenő sorrendjében, megbecsüljük az adatközelítés súlyozott átlagos hibáját az első komponensekkel stb. - pontosan ugyanúgy, mint a főalgoritmusban.
Ezt a módszert osztályok jelenlétében alkalmazzák: a különböző osztályok esetében a súlyt nagyobbra választják, mint az azonos osztályba tartozó pontoknál. Ennek eredményeként a súlyozott főkomponensekre történő vetítésben a különböző osztályok nagyobb távolságra „távolódnak el egymástól”.
Egy másik alkalmazás a nagy eltérések, az úgynevezett outlierek (en.:outlier) befolyásának csökkentése, amelyek a négyzetes távolság használata miatt torzíthatják a képet: ha a lehetőséget választja , akkor a nagy eltérések hatása csökkent. Így a főkomponens módszer ismertetett módosítása robusztusabb , mint a klasszikus.
A statisztikában a főkomponensek módszerének alkalmazásakor számos speciális kifejezést használnak.
A főkomponens módszer mindig alkalmazható. Az a közkeletű állítás, miszerint csak normál eloszlású adatokra (vagy a normálishoz közeli eloszlásokra) vonatkozik, téves: Pearson eredeti megfogalmazásában a probléma egy véges adathalmaz közelítése , és még csak hipotézis sincs ezek statisztikai előállításáról. , a terjesztésről nem is beszélve .
A módszer azonban nem mindig csökkenti hatékonyan a méretezést a pontossági korlátozások mellett . Az egyenesek és a síkok nem mindig adnak jó közelítést. Például az adatok jó pontossággal követhetnek valamilyen görbét, és ezt a görbét nehéz lehet megtalálni az adattérben. Ebben az esetben a főkomponens módszer az elfogadható pontosság érdekében több komponenst igényel (egy helyett), vagy egyáltalán nem ad méretcsökkentést elfogadható pontossággal. A főkomponensek ilyen „görbéivel” való munkavégzéshez a főösszetevők módszerét [12] és a főkomponensek nemlineáris módszerének [13] [14] különféle változatait találták ki . A több probléma összetett topológiaadatokat szállíthat. Közelítésükre különféle módszereket is feltaláltak, például önszerveződő Kohonen-térképeket , ideggázt [15] vagy topológiai nyelvtanokat [11] . Ha az adatokat statisztikailag a normáltól nagyon eltérő eloszlással állítjuk elő, akkor az eloszlás közelítéséhez célszerű a főkomponensektől független komponensek felé haladni [16] , amelyek az eredeti pontszorzatban már nem ortogonálisak. Végül izotróp eloszlásra (akár normálra is) a szóródási ellipszoid helyett egy gömböt kapunk, és a dimenziót közelítő módszerekkel nem lehet csökkenteni.
Az adatvizualizáció kísérleti adatok vagy egy elméleti tanulmány eredményeinek vizuális formában történő bemutatása.
Az első választás az adathalmaz megjelenítésénél az ortogonális vetítés az első két főkomponens síkjára (vagy az első három főkomponens 3D-s terére). A vetítési sík lényegében egy lapos, kétdimenziós „képernyő”, amely úgy van elhelyezve, hogy az adatokról a legkevesebb torzítással „képet” adjon. Egy ilyen vetítés három szempontból optimális (a különböző kétdimenziós képernyők összes merőleges vetülete között):
Az adatvizualizáció a főkomponens-analízis és annak nemlineáris általánosításainak egyik legszélesebb körben használt alkalmazása [2] .
A képek és videók kódolásakor a pixelek térbeli redundanciájának csökkentése érdekében a pixelblokkok lineáris transzformációját alkalmazzák. A kapott együtthatók utólagos kvantálása és a veszteségmentes kódolás jelentős tömörítési együtthatók elérését teszi lehetővé. A PCA transzformáció lineáris transzformációként való alkalmazása bizonyos adattípusoknál optimális az azonos torzítású vett adatok méretét tekintve [17] . Jelenleg ezt a módszert nem használják aktívan, elsősorban a nagy számítási bonyolultság miatt. Az adatok tömörítése az utolsó transzformációs együtthatók elvetésével is elérhető.
A módszer [18] fő lényege, hogy amikor egy pixelblokkból eltávolítjuk a zajt, ábrázoljuk ennek a blokknak a környékét egy többdimenziós térben lévő pontok halmazaként, alkalmazunk rá PCA-t, és csak a transzformáció első komponenseit hagyjuk meg. . Feltételezzük, hogy az első komponensek tartalmazzák a fő hasznos információkat, míg a többi komponens szükségtelen zajt tartalmaz. Az inverz transzformációt alkalmazva a főkomponensek bázisának csökkentése után zajmentes képet kapunk.
A fő ötlet az, hogy minden videókockát több értékkel ábrázoljunk PCA segítségével, amelyet később adatbázis felépítésénél és lekérdezésénél fogunk használni. Az adatok ilyen jelentős csökkenése lehetővé teszi a munka sebességének és a videó számos torzításával szembeni ellenállásának jelentős növelését.
A főkomponens-elemzést intenzíven használják a bioinformatikában a leírási dimenzió csökkentésére, értelmes információk kinyerésére, adatok megjelenítésére stb. Az egyik gyakori felhasználási eset a korrespondencia-elemzés [19] [20] [21] . Az illusztrációkon (A, B ábra) a genetikai szöveget [22] a triplett frekvenciák 64 dimenziós terében lévő pontok halmazaként mutatjuk be. Minden pont egy DNS - fragmensnek felel meg egy 300 nukleotid hosszú csúszó ablakban (DNS-séta). Ez a töredék az első pozíciótól kezdve nem átfedő hármasokra oszlik. A fragmentumban ezeknek a tripletteknek a relatív gyakorisága alkotja a 64 dimenziós vektort. ábrán Bemutatják a Streptomyces coelicolor baktérium genomjának első 2 fő összetevőjére vonatkozó vetületet . ábrán B az első 3 főkomponens vetületét mutatja. A vörös és barna árnyalatok kiemelik a kódoló szekvenciák fragmenseit az elülső DNS-szálban, és a zöld árnyalatok kiemelik a kódoló szekvenciák fragmentumait a fordított DNS-szálban. A nem kódoló részhez tartozó töredékek feketével vannak jelölve. A legtöbb ismert bakteriális genom főkomponens-elemzése egy speciális weboldalon található [23] .
A főkomponens módszer a kemometria egyik fő módszere . Lehetővé teszi az X kiindulási adatok mátrixának két részre osztását: „értelmes” és „zaj”.
A pszichodiagnosztika a főkomponensek módszerének egyik legfejlettebb alkalmazási területe [24] . A felhasználási stratégia azon a hipotézisen alapul, hogy a kísérleti adatok öninformatívak , ami azt jelenti, hogy a kezdeti jellemzők terében egy objektumhalmaz geometriai szerkezetének közelítésével diagnosztikai modell hozható létre. Egy jó lineáris diagnosztikai modell akkor építhető fel, ha a kezdeti jellemzők jelentős része belsőleg konzisztens. Ha ez a belső konzisztencia tükrözi a kívánt pszichológiai konstrukciót , akkor a lineáris diagnosztikai modell paramétereit (a jellemző súlyait) a főkomponensek módszerével adjuk meg.
A főkomponens-elemzés az ökonometria egyik kulcsfontosságú eszköze , az adatok megjelenítésére, a modellek tömörségének biztosítására, a számítások és értelmezések egyszerűsítésére, valamint a tárolt információk mennyiségének tömörítésére szolgál. A módszer maximális információtartalmat és minimális torzítást biztosít a forrásadatok geometriai szerkezetében.
A szociológiában a módszer az első két fő feladat megoldásához szükséges [25] :
A politikatudományban a főkomponens módszer volt a Political Atlas of Modernity projekt [26] fő eszköze a világ 192 országának besorolásának lineáris és nemlineáris elemzésére öt speciálisan kidolgozott integrálindex (életszínvonal, nemzetközi befolyás, fenyegetések, államiság és demokrácia). Az elemzés eredményeinek térképezésére egy speciális geoinformációs rendszert fejlesztettek ki , amely egyesíti a földrajzi teret a tereptérrel. Politikai atlasz adattérképeket is készítettek, háttérként 5D-s országtérben 2D fősokariumokat használva. Az adattérkép és a földrajzi térkép között az a különbség, hogy a földrajzi térképen olyan objektumok vannak a közelben, amelyeknek hasonló földrajzi koordinátái vannak, míg az adattérképen hasonló jellemzőkkel (indexekkel) rendelkező objektumok (országok) vannak a közelben.
A dimenzionalitás átka megnehezíti az összetett rendszerek modellezését. A modelldimenzió csökkentése szükséges feltétele a szimuláció sikerességének. E cél elérése érdekében kiterjedt matematikai technológiát hoztak létre. Ezekben a problémákban a főkomponens-elemzést is használják (gyakran megfelelő ortogonális dekompozíciónak ( POD ) nevezik ). Például a turbulencia dinamikájának leírásakor a dinamikus változók – a sebességmező – egy végtelen dimenziós térhez tartoznak (vagy ha a mezőt értékei egy kellően finom rácson ábrázolják, akkor egy véges dimenziós térhez nagy dimenziójú). Felveheti a pillanatnyi mezőértékek nagy gyűjteményét, és főkomponens-elemzést alkalmazhat erre a többdimenziós "adatvektor"-készletre. Ezeket a főkomponenseket empirikus sajátvektoroknak is nevezik . Egyes esetekben ( strukturális turbulencia ) a módszer lenyűgöző dimenziócsökkentést ad [27] . Ennek a dinamikus modellredukciós technikának más alkalmazásai rendkívül változatosak, a vegyészmérnöki tudomány elméleti alapjaitól az oceanológiáig és a klimatológiáig .
A főkomponensek módszerét az élelmiszerek tulajdonságainak érzékszervi (érzékszervi) vizsgálata során alkalmazták [28] . A főkomponens-elemzés (PCA) lehetővé teszi az élelmiszerek osztályozását olyan esetekben, amikor egyidejűleg nagyszámú leírót használnak tulajdonságaik jellemzésére, például bor, [29] lekvár, [30] extrudált élelmiszerek tulajdonságainak értékelése során, [31] sajt, [32] és mások.
A főkomponens módszer a legelterjedtebb dimenziócsökkentési módszer , de vannak más módszerek is, különösen a független komponensek módszere , a többdimenziós skálázás , valamint számos nemlineáris általánosítás: a főgörbék és -sokaságok módszere, a módszer rugalmas térképek , a legjobb vetítés keresése ( eng. Projection Pursuit ), szűk keresztmetszetű neurális hálózati módszerek , önszerveződő Kohonen térképek .
Szótárak és enciklopédiák | |
---|---|
Bibliográfiai katalógusokban |
|
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|