Főkomponens módszer

A főkomponens - elemzés (PCA ) az egyik  fő módja az adatok dimenziójának csökkentésének , a legkevesebb információ elvesztésével . Karl Pearson találta fel 1901- ben . Számos területen használják, beleértve az ökonometriát , a bioinformatikát , a képfeldolgozást , az adattömörítést , a társadalomtudományokat .

A főkomponensek számítása visszavezethető az adatmátrix szinguláris értékű dekompozíciójának kiszámítására vagy az eredeti adatok kovarianciamátrixának sajátvektorainak és sajátértékeinek kiszámítására . Néha a főkomponens módszert Karhunen-Loeve transzformációnak [ 1] vagy Hotelling transzformációnak nevezik .  

A probléma hivatalos megfogalmazása

A főkomponens-elemzési problémának legalább négy alapváltozata van:

Az első három verzió véges adathalmazokon működik. Egyenértékűek, és nem használnak hipotézist a statisztikai adatok előállítására vonatkozóan. A negyedik verzió véletlen változókkal működik . A véges halmazok itt mintaként jelennek meg egy adott eloszlásból, és az első három probléma megoldása - a Karhunen-Loeve tétel szerinti bővítés közelítéseként ( "igazi Karhunen-Loeve transzformáció" ). Ez egy további és nem egészen triviális kérdést vet fel ennek a közelítésnek a pontosságával kapcsolatban.

Adatok közelítése lineáris sokaságokkal

A főkomponens-elemzés azzal a problémával kezdődött, hogy a pontok véges halmazának legjobb közelítését lehet egyenesekkel és síkokkal elérni ( Pearson , 1901). Adott egy véges vektorhalmaz , az összes dimenziós lineáris sokaság mindegyikére úgy találjuk , hogy a négyzetes eltérések összege minimális :

,

ahol  az euklideszi távolság egy ponttól a lineáris sokaságig. Bármely dimenziós lineáris sokaság definiálható lineáris kombinációk halmazaként , ahol a paraméterek a valós vonalon futnak , és  vektorok ortonormális halmaza

,

ahol az euklideszi norma,  az euklideszi skalárszorzat, vagy koordináta formában:

.

A közelítési feladat megoldását egy egymásba ágyazott lineáris sokaság , . Ezeket a lineáris sokaságokat vektorok ortonormális halmaza (főkomponensvektorok) és egy vektor határozza meg . A vektort a minimalizálási probléma megoldásaként keresik :

,

vagyis

.

Ez a mintaátlag : .

Fréchet 1948 - ban észrevette, hogy az átlag variációs definíciója (mint olyan pont, amely minimalizálja az adatpontok távolságának négyzetének összegét) nagyon kényelmes statisztika tetszőleges metrikus térben történő készítéséhez , és elkészítette a klasszikus statisztika általánosítását az általános terekre (általánosított). legkisebb négyzetek ).

A főkomponensvektorok az azonos típusú optimalizálási problémák megoldásaként találhatók :

  1. Az adatok centralizáltak (az átlag levonásával): . Most ;
  2. Az első főkomponens a probléma megoldásaként található: . ha a megoldás nem egyedi, akkor valamelyiket választjuk.
  3. Az első főkomponensre vonatkozó vetületet levonjuk az adatokból: ;
  4. A második fő komponens a probléma megoldásaként található: . Ha a megoldás nem egyedi, akkor valamelyiket választjuk.

Továbbá a folyamat folytatódik, vagyis a lépésben a -edik főkomponensre vonatkozó vetületet levonjuk (ebben a pillanatban az előző főkomponensekre vonatkozó vetületeket már levontuk):

;

lépésben pedig a -edik főkomponenst a probléma megoldásaként határozzuk meg:

(ha a megoldás nem egyedi, akkor valamelyiket választjuk).

Minden előkészítő lépésben levonják az előző főkomponens vetületét. A talált vektorok pusztán a leírt optimalizálási feladat megoldásának eredményeként ortonormálisak, azonban annak érdekében, hogy a számítási hibák ne sértsék a főkomponensvektorok kölcsönös ortogonalitását, beépíthetők az optimalizálási feladat feltételei közé.

A definícióban lévő nem egyediség a jelválasztás triviális önkényén túl ( és ugyanazt a problémát oldja meg) jelentősebb lehet, és származhat például az adatszimmetria-feltételekből. Az utolsó főkomponens  az összes előzőre merőleges egységvektor .

Keressen ortogonális vetületeket a legnagyobb szórással

Adjunk meg egy központosított adatvektor-halmazt ( a számtani átlag nulla). A feladat egy olyan ortogonális transzformáció megtalálása egy új koordinátarendszerre , amelyre a következő feltételek lennének igazak:

Az adatok minta szórása a normalizált vektor által adott irányban :

(mivel az adatok középre vannak állítva, a minta szórása itt megegyezik a nullától való átlagos négyzetes eltéréssel).

A legjobb közelítés feladatának megoldása ugyanazt a főkomponens-készletet adja, mint a legnagyobb szórású ortogonális vetületek keresése, ennek nagyon egyszerű oka van: az első tag nem függ -től .

Keressen ortogonális vetületeket a legnagyobb effektív távolsággal a pontok között

Egy másik ekvivalens megfogalmazás következik a nyilvánvaló azonosságból, amely minden vektorra igaz :

Ennek az azonosságnak a bal oldalán a pontok közötti négyzetgyök-távolság, a jobb oldalon pedig szögletes zárójelben a minta varianciája látható. A főkomponens módszerben tehát olyan altereket keresünk, amelyekre a vetítésben a pontok közötti négyzetes középtávolság maximális (illetve, ami megegyezik, a vetítés hatására minimális a torzulása) [2 ] . Egy ilyen újrafogalmazás lehetővé teszi, hogy általánosításokat készítsünk különböző páronkénti távolságok (és nem csak pontok) súlyozásával.

A koordináták közötti korrelációk törlése

Adott dimenziós valószínűségi változóhoz keressünk olyan ortonormális bázist, , amelyben a különböző koordináták közötti kovariancia együttható nullával egyenlő. Az erre az alapra történő átalakítás után

számára .

Itt  van a kovariancia együttható, ahol  a matematikai elvárás .

A kovarianciamátrix diagonalizálása

Minden főkomponens probléma a kovariancia mátrix vagy a minta kovariancia mátrix diagonalizációjának problémájához vezet. Ez egy empirikus vagy minta kovariancia mátrix

Egy többváltozós valószínűségi változó kovarianciamátrixa , ez

A legjobb illeszkedés és a legtöbb szóródást okozó ortogonális vetületi probléma főkomponensvektorai az empirikus kovarianciamátrix sajátvektorainak ortonormális halmaza , amelyek a sajátértékek csökkenő sorrendjében vannak elrendezve, és ezek a vektorok a kovarianciamátrix sajátvektorainak becsléseiként szolgálnak . A kovarianciamátrix sajátvektorai alapján természetesen átlós, és ezen az alapon a különböző koordináták közötti kovariancia együttható nullával egyenlő.

Ha a kovarianciamátrix spektruma degenerált, akkor a sajátvektorok tetszőleges ortonormális bázisát választjuk. Mindig létezik, és a kovarianciamátrix sajátértékei mindig valósak és nem negatívak.

Adatmátrix szinguláris értékű dekompozíciója

A szinguláris érték dekompozíció ötlete

A főkomponens módszer matematikai tartalma a kovariancia mátrix spektrális felbontása , azaz az adattér ábrázolása egymásra merőleges sajátrészterek összegeként , és magát a mátrixot  az ezekre az alterekre ortogonális vetületek lineáris kombinációjaként együtthatókkal. . Ha egy mátrix központosított adatok  sorvektoraiból (dimenzió ) épül fel , akkor a kovarianciamátrix spektrális dekompozíciójának problémája az adatmátrix szinguláris érték felbontásának problémájává válik .

Egy számot akkor és csak akkor nevezünk egy mátrix szinguláris értékének, ha van jobb és bal oldali szinguláris vektor : olyan -dimenziós sorvektor és -dimenziós oszlopvektor (mindkettő egységnyi hosszúságú), amelyre két egyenlőség vonatkozik:

Legyen  az adatmátrix rangja . Az adatmátrix szinguláris értékű dekompozíciója  a formában való megjelenítése

ahol  egy szinguláris érték,  a megfelelő jobb oldali szinguláris oszlopvektor, és  a megfelelő bal oldali szinguláris sorvektor ( ). A jobboldali szinguláris oszlopvektorok , amelyek ebben a felbontásban vesznek részt, az empirikus kovarianciamátrix főkomponens-vektorai és sajátvektorai, amelyek a pozitív sajátértékeknek felelnek meg .

Bár formálisan az adatmátrix szinguláris értékfelbontásának és a kovarianciamátrix spektrális dekompozíciójának problémái egybeesnek, a szinguláris érték közvetlen, a kovarianciamátrix és spektrumának kiszámítása nélkül történő kiszámítására szolgáló algoritmusok hatékonyabbak és stabilabbak [3] .

A szinguláris értékelméletet James Joseph Sylvester alkotta meg 1889- ben , és a mátrixelméletről szóló összes részletes kézikönyv bemutatja [4] .

Egy egyszerű iteratív szinguláris érték felbontási algoritmus

A fő eljárás az, hogy megkeressük egy tetszőleges mátrix legjobb közelítését  egy alakú mátrixszal (ahol -dimenziós vektor, és  -dimenziós vektor) a legkisebb négyzetek módszerével:

Ennek a problémának a megoldását egymást követő iterációk adják meg explicit képletekkel. Rögzített vektor esetén a forma minimumát adó értékeket egyedileg és explicit módon az egyenlőségek határozzák meg  :

Hasonlóképpen egy fix vektor esetén a következő értékeket határozzuk meg :

A vektor kezdeti közelítéseként veszünk egy egységnyi hosszúságú véletlenszerű vektort, kiszámítjuk a vektort , majd kiszámítjuk ennek a vektornak a vektorát stb. Minden lépés csökkenti az értékét . A minimálisra csökkentett funkcionális iterációs lépésenkénti relatív csökkenése ( ) vagy magának az értéknek a kicsinysége megállási kritériumként szolgál .

Ennek eredményeként a mátrix esetében a legjobb közelítést egy alakú mátrix kapja (itt a felső index a közelítési számot jelöli). Továbbá a kapott mátrixot kivonjuk a mátrixból , és a kapott eltérési mátrixhoz ismét az azonos típusú legjobb közelítést keressük , és így tovább, amíg például a norma kellően kicsi nem lesz. Ennek eredményeként iteratív eljárást kaptunk egy mátrix felbontására 1. rangú mátrixok összegeként, azaz . Feltesszük és normalizáljuk a vektorokat : Ennek eredményeként szinguláris számok és szinguláris vektorok (jobb - és bal oldali - ) közelítését kapjuk.

Ennek az algoritmusnak az előnyei közé tartozik a kivételes egyszerűsége és az a képesség, hogy szinte változtatás nélkül átvihető a hiányos adatokhoz [5] , valamint a súlyozott adatokhoz.

Az alapalgoritmusnak különféle módosításai vannak, amelyek javítják a pontosságot és a stabilitást. Például a különböző főkomponensek vektorainak „konstrukció szerint” ortogonálisnak kell lenniük, azonban nagy számú iteráció (nagy dimenzió, sok komponens) esetén az ortogonalitástól való kis eltérések halmozódnak fel, és speciális korrekcióra lehet szükség minden lépést, biztosítva annak ortogonitását a korábban megtalált főkomponensekre.

A négyzetes szimmetrikus pozitív-definit mátrixok esetében a leírt algoritmus egy közvetlen iterációs módszerré alakul a sajátvektorok megtalálására (lásd a Sajátvektorok, értékek és terek cikket ).

Tenzorok szinguláris értékű dekompozíciója és tenzor főkomponens módszere

Egy adatvektor gyakran egy téglalap alakú táblázat (például egy lapos kép) vagy akár egy többdimenziós táblázat kiegészítő szerkezetével rendelkezik - azaz egy tenzor : , . Ebben az esetben is hatékony a szinguláris értékbontás alkalmazása. A definíció, az alapképletek és az algoritmusok gyakorlatilag változtatás nélkül kerülnek átadásra: adatmátrix helyett -index értéket kapunk , ahol az első index az adatpont (tenzor) szám.

A fő eljárás az, hogy megtaláljuk a tenzor legjobb közelítését  egy alak tenzorral (ahol -dimenziós vektor (  az adatpontok száma),  a méretvektor at ) a legkisebb négyzetek módszerével:

Ennek a problémának a megoldását egymást követő iterációk adják meg explicit képletekkel. Ha egy kivételével minden faktorvektor adott , akkor ez a fennmaradó egy explicit módon meghatározásra kerül elegendő minimumfeltételek alapján.

A vektorok ( ) kezdeti közelítésének egységnyi hosszúságú véletlenszerű vektorokat veszünk , kiszámítjuk a vektort , majd erre a vektorra és ezekre a vektorokra kiszámítjuk a vektort, és így tovább (ciklus az indexeken). Minden lépés csökkenti az értékét . Az algoritmus nyilvánvalóan konvergál. A ciklusonként minimalizálandó funkcionális érték relatív csökkenésének kicsisége vagy magának az értéknek a kicsinysége leállítási kritériumként szolgál . Ezután a kapott közelítést kivonjuk a tenzorból , és ismét megkeressük a maradékra azonos típusú legjobb közelítést, és így tovább, amíg például a következő maradék normája kellően kicsi lesz.

Ezt a többkomponensű szinguláris értékbontást (a főkomponensek tenzoros módszere) sikeresen alkalmazzák képek, videojelek, és tágabb értelemben minden olyan adat feldolgozásakor, amely táblázatos vagy tenzorszerkezettel rendelkezik.

Átalakítási mátrix főkomponensekké

Az adattranszformációs mátrix főkomponensekre főkomponens-vektorokból áll, amelyek a sajátértékek csökkenő sorrendjében vannak elrendezve:

( átültetést jelent),

és

Vagyis a mátrix ortogonális .

Az adatváltozatok nagy része az első koordinátákban összpontosul, ami lehetővé teszi, hogy egy alacsonyabb dimenziós térbe lépjen.

Maradék variancia

Legyen az adatok középen, . Ha az adatvektorokat az első főkomponensekre vetítésükkel helyettesítjük, az egy adatvektorra jutó hiba átlagos négyzete kerül bevezetésre:

hol vannak az empirikus kovarianciamátrix sajátértékei, csökkenő sorrendbe rendezve, figyelembe véve a multiplicitást.

Ezt a mennyiséget reziduális varianciának nevezzük . Érték

magyarázott varianciának nevezzük . Összegük egyenlő a minta szórásával. A megfelelő négyzetes relatív hiba a maradék variancia és a minta variancia aránya (azaz a megmagyarázhatatlan variancia aránya ):

A relatív hiba az első komponensekre vetítéssel értékeli a főkomponens módszer alkalmazhatóságát .

Megjegyzés : a legtöbb számítási algoritmusban a sajátértékek a megfelelő sajátvektorokkal - a fő komponensek kiszámítása "a legnagyobbtól  a legkisebbig" sorrendben történik. A kiszámításához elegendő kiszámítani az első sajátértékeket és az empirikus kovariancia mátrix nyomát (az átlós elemek összegét , vagyis a tengelyek mentén fennálló eltéréseket). Akkor

A főkomponens kiválasztása Kaiser-szabály szerint

Formálisan mindig alkalmazható a főkomponensek számának a megmagyarázott variancia szükséges arányával történő becslésének célszemlélete, de implicit módon azt feltételezi, hogy nincs szétválasztás „jel” és „zaj”, és minden előre meghatározott pontosságnak van értelme. Ezért gyakran produktívabb egy másik heurisztika , amely a „jel” (viszonylag kis dimenzió, viszonylag nagy amplitúdó) és a „zaj” (nagy dimenzió, viszonylag kis amplitúdó) jelenlétének hipotézisén alapul. Ebből a szempontból a főkomponens-módszer szűrőként működik: a jelet elsősorban az első főkomponensekre történő vetítés tartalmazza, a többi komponensben pedig jóval nagyobb a zaj aránya.

Kérdés: hogyan lehet megbecsülni a szükséges főkomponensek számát, ha a jel-zaj viszony nem ismert előre?

A főkomponensek kiválasztásának legegyszerűbb és legrégebbi módszere a Kaiser - szabály :  jelentősek azok a főkomponensek, amelyekre

azaz meghaladja az átlagot (az adatvektor koordinátáinak átlagos mintavarianciáját). A Kaiser-szabály jól működik azokban az egyszerű esetekben, amikor több főkomponens van -val , amelyek jóval nagyobbak az átlagnál, a többi sajátérték pedig kisebb nála. Bonyolultabb esetekben túl sok jelentős főkomponenst adhat. Ha az adatokat egységnyi minta szórására normalizáljuk a tengelyek mentén, akkor a Kaiser-szabály különösen egyszerű formát ölt: csak azok a főkomponensek jelentősek, amelyekre

A főkomponensek számának becslése a törött nádszabály segítségével

Az egyik legnépszerűbb heurisztikus megközelítés a szükséges főkomponensek számának becslésére a Broken stick modell [ 6 ] .  Az egységösszegre normalizált sajátértékek halmazát ( , ) összehasonlítjuk egy egységnyi hosszúságú vessző töredékeinek hosszának eloszlásával, a véletlenszerűen kiválasztott pontban megtörve (a töréspontokat egymástól függetlenül választjuk ki, és egyenlően oszlanak el a a bot hossza). Legyen ( ) a kapott náddarabok hossza, hosszuk csökkenő sorrendjében számozva: . Nem nehéz megtalálni a matematikai elvárást :

A törött vesszőszabály szerint a sajátvektor (csökkenő sajátérték sorrendben ) a főkomponensek listájában tárolódik, ha

ábrán egy példa az 5 dimenziós esetre:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Például kiválasztott

=0,5; =0,3; =0,1; =0,06; =0,04.

A törött vessző szabálya szerint ebben a példában 2 fő összetevőt kell hagyni:

A felhasználók szerint a törött botszabály általában alábecsüli a jelentős főkomponensek számát.

A főkomponensek számának becslése a feltételszámból

Mind a Kaiser-szabály, mind a törött vesszőszabály meglehetősen érzékeny az irreleváns attribútumok jelenlétére. Ez könnyen kimutatható az attribútumok megkettőzésével. Mirkes és munkatársai [7] egy egyszerű tesztet javasoltak a dimenzióbecslés stabilitására: ha egyszerűen duplikálunk attribútumokat az adatbázisban, akkor a dimenzióbecslés nem növekedhet. Sem a Kaiser-szabály, sem a törött vesszőszabály nem megy át ezen a teszten, mert a kis sajátértékekkel rendelkező komponens "farka" eltolja a becslést és arányosan növeli a dimenziót. Ezt a hiányosságot a feltételszám szerinti becslés nem tartalmazza. [7] [8] A korrelációs mátrix feltételszáma a maximális sajátértékének a minimumhoz viszonyított aránya : . A nagy érték rosszul kondicionált és multikollineárist jelent . A fennmaradó komponensek számának meghatározásához ki kell választani a multikollinearitási küszöb bizonyos értékét, és azokat az összetevőket, amelyekhez . Így a többi komponensben nincs multikollinearitás. Az adatok dimenzióját a kovarianciamátrix azon sajátértékeinek számaként becsüljük meg, amelyek túllépik a legnagyobb sajátértékének fix töredékét ( ). A küszöb kiválasztását a probléma sajátosságai határozzák meg. Számos numerikus kísérlet mutatja, hogy a szelekció az alacsonytól a "közepes" multikollinearitásig terjed a megtartott komponensekben, és számos adatfeldolgozási probléma esetén elfogadható. [7] [9]

Normalizálás

Normalizálás a főkomponensekre redukálás után

Az első főkomponensekre való kivetítés után célszerű a tengelyek mentén egységnyi (minta) szórásra normalizálni. A szóródás a th főkomponens mentén egyenlő ), ezért a normalizáláshoz el kell osztani a megfelelő koordinátát -vel . Ez az átalakítás nem ortogonális, és nem őrzi meg a pontszorzatot. A normalizálás után az adatvetületi kovariancia mátrix egységgé válik, a két merőleges irányú vetületek független mennyiségekké, és bármely ortonormális bázis a főkomponensek alapjává válik (emlékezzünk arra, hogy a koordináta szerinti normalizálás megváltoztatja a vektorok ortogonalitási arányát). A kiindulási adattérről az első főkomponensekre való leképezést a normalizálással együtt a mátrix adja meg

.

Ezt az átalakulást nevezik leggyakrabban Karhunen-Loeve transzformációnak. Itt  vannak oszlopvektorok, a felső index pedig transzponálást jelent.

Normalizálás a főkomponensek kiszámításához

Figyelmeztetés : ne keverje össze a főkomponensekre történő átalakítás után végzett normalizálást a főkomponensek kiszámítása előtt végzett adat-előfeldolgozás során végzett normalizálással és "dimenziómentességgel". Előnormalizálásra van szükség annak a metrikának ésszerű megválasztásához, amelyben az adatok legjobb közelítését számítják ki, vagy megkeresik a legnagyobb szórás irányát (ami egyenértékű). Például, ha az adatok háromdimenziós "méterek, literek és kilogrammok" vektorai, akkor a szabványos euklideszi távolságot használva az első koordináta 1 méteres eltérése ugyanolyan mértékben járul hozzá, mint a második koordináta 1 literes eltérése. , vagy 1 kg a harmadikban . Általában azok a mértékegységrendszerek, amelyekben az eredeti adatok szerepelnek, nem tükrözik pontosan a tengelyek mentén kialakult természetes léptékekről alkotott elképzeléseinket, és „ nem- dimenzionálásra ” kerül sor: minden koordinátát az adatok által meghatározott skálára osztanak, feldolgozásuk céljairól, valamint az adatok mérésének és gyűjtésének folyamatairól.

Az ilyen normalizálásnak három lényegesen eltérő standard megközelítése létezik: a tengelyek mentén mért egységnyi variancia (a tengelyek mentén lévő skálák megegyeznek a szórással - a transzformáció után a kovariancia mátrix egybeesik a korrelációs együtthatók mátrixával ), az egyenlő mérési pontosság . (a tengely menti skála arányos egy adott érték mérési pontosságával) és egyenlő követelmények mellett a feladatban (a tengely menti skálát egy adott érték előrejelzésének szükséges pontossága vagy megengedett torzulása határozza meg - a szint a tolerancia). Az előfeldolgozás megválasztását befolyásolja a probléma értelmes megfogalmazása, valamint az adatgyűjtés feltételei (például, ha az adatgyűjtés alapvetően hiányos, és az adatok még megérkeznek, akkor nem ésszerű szigorúan a normalizálást választani egységnyi szórással, még akkor is, ha ez megfelel a probléma jelentésének, mivel ez az összes adat újranormálását jelenti egy új rész vétele után; ésszerűbb olyan skálát választani, amely durván becsüli a szórást, és akkor nem változtat rajta) .

Ha a tengelyek nem főkomponensek, a koordináta-rendszer elforgatásával megsemmisül a tengelyek mentén az egységnyi szórásra való előnormálás, és az adat-előfeldolgozás során végzett normalizálás nem helyettesíti a főkomponensekre redukálás utáni normalizálást.

Mechanikai analógia és főkomponens-elemzés súlyozott adatokhoz

Ha minden adatvektorhoz egységnyi tömeget rendelünk, akkor az empirikus kovarianciamátrix egybeesik ennek a ponttömeg-rendszernek a tehetetlenségi tenzorával (osztva a teljes tömeggel ), és a főkomponensek problémája egybeesik a tehetetlenségi tenzor a főtengelyekhez. A tömegértékek megválasztásának további szabadsága felhasználható az adatpontok fontosságának vagy értékük megbízhatóságának figyelembevételére (nagyobb tömegeket rendelnek a fontos adatokhoz vagy megbízhatóbb forrásokból származó adatokhoz). Ha az adatvektor tömeget ad , akkor az empirikus kovarianciamátrix helyett kapjuk

A főkomponensekre redukáló összes további műveletet ugyanúgy hajtjuk végre, mint a metódus fő verziójában: ortonormális sajátbázist keresünk , a sajátértékeket csökkenő sorrendbe rendezzük, az adatközelítés súlyozott átlaghibáját a Az első komponenseket megbecsüljük (a sajátértékek összegével ), normalizálást hajtunk végre, és így tovább.

A súlyozás általánosabb módja a vetületek közötti páronkénti távolságok súlyozott összegének maximalizálása [10] . Minden két adatponthoz egy súly kerül megadásra ; és . Az empirikus kovarianciamátrix helyett használjuk

A szimmetrikus mátrix pozitív határozott, mert a másodfokú alak pozitív:

Ezután keresünk egy ortonormális sajátbázist , rendezzük a sajátértékek csökkenő sorrendjében, megbecsüljük az adatközelítés súlyozott átlagos hibáját az első komponensekkel stb. - pontosan ugyanúgy, mint a főalgoritmusban.

Ezt a módszert osztályok jelenlétében alkalmazzák: a különböző osztályok esetében a súlyt nagyobbra választják, mint az azonos osztályba tartozó pontoknál. Ennek eredményeként a súlyozott főkomponensekre történő vetítésben a különböző osztályok nagyobb távolságra „távolódnak el egymástól”.

Egy másik alkalmazás a nagy eltérések, az úgynevezett outlierek (en.:outlier) befolyásának csökkentése, amelyek a négyzetes távolság használata miatt torzíthatják a képet: ha a lehetőséget választja , akkor a nagy eltérések hatása csökkent. Így a főkomponens módszer ismertetett módosítása robusztusabb , mint a klasszikus.

Speciális terminológia

A statisztikában a főkomponensek módszerének alkalmazásakor számos speciális kifejezést használnak.

A módszer alkalmazhatóságának és hatékonyságának korlátai

A főkomponens módszer mindig alkalmazható. Az a közkeletű állítás, miszerint csak normál eloszlású adatokra (vagy a normálishoz közeli eloszlásokra) vonatkozik, téves: Pearson eredeti megfogalmazásában a probléma egy véges adathalmaz közelítése , és még csak hipotézis sincs ezek statisztikai előállításáról. , a terjesztésről nem is beszélve .

A módszer azonban nem mindig csökkenti hatékonyan a méretezést a pontossági korlátozások mellett . Az egyenesek és a síkok nem mindig adnak jó közelítést. Például az adatok jó pontossággal követhetnek valamilyen görbét, és ezt a görbét nehéz lehet megtalálni az adattérben. Ebben az esetben a főkomponens módszer az elfogadható pontosság érdekében több komponenst igényel (egy helyett), vagy egyáltalán nem ad méretcsökkentést elfogadható pontossággal. A főkomponensek ilyen „görbéivel” való munkavégzéshez a főösszetevők módszerét [12] és a főkomponensek nemlineáris módszerének [13] [14] különféle változatait találták ki . A több probléma összetett topológiaadatokat szállíthat. Közelítésükre különféle módszereket is feltaláltak, például önszerveződő Kohonen-térképeket , ideggázt [15] vagy topológiai nyelvtanokat [11] . Ha az adatokat statisztikailag a normáltól nagyon eltérő eloszlással állítjuk elő, akkor az eloszlás közelítéséhez célszerű a főkomponensektől független komponensek felé haladni [16] , amelyek az eredeti pontszorzatban már nem ortogonálisak. Végül izotróp eloszlásra (akár normálra is) a szóródási ellipszoid helyett egy gömböt kapunk, és a dimenziót közelítő módszerekkel nem lehet csökkenteni.

Használati példák

Adatvizualizáció

Az adatvizualizáció kísérleti adatok vagy egy elméleti tanulmány eredményeinek vizuális formában történő bemutatása.

Az első választás az adathalmaz megjelenítésénél az ortogonális vetítés az első két főkomponens síkjára (vagy az első három főkomponens 3D-s terére). A vetítési sík lényegében egy lapos, kétdimenziós „képernyő”, amely úgy van elhelyezve, hogy az adatokról a legkevesebb torzítással „képet” adjon. Egy ilyen vetítés három szempontból optimális (a különböző kétdimenziós képernyők összes merőleges vetülete között):

  1. Az adatpontok és az első főkomponensek síkbeli vetületei közötti távolságok négyzetének minimális összege, vagyis a képernyő a pontfelhőhöz a lehető legközelebb helyezkedik el.
  2. Az adatfelhőből származó összes pontpár közötti távolság négyzetes torzításainak minimális összege a pontok síkra vetítése után.
  3. Az összes adatpont és a "súlypontjuk" közötti távolság torzulásainak négyzetes összege.

Az adatvizualizáció a főkomponens-analízis és annak nemlineáris általánosításainak egyik legszélesebb körben használt alkalmazása [2] .

Kép- és videótömörítés

A képek és videók kódolásakor a pixelek térbeli redundanciájának csökkentése érdekében a pixelblokkok lineáris transzformációját alkalmazzák. A kapott együtthatók utólagos kvantálása és a veszteségmentes kódolás jelentős tömörítési együtthatók elérését teszi lehetővé. A PCA transzformáció lineáris transzformációként való alkalmazása bizonyos adattípusoknál optimális az azonos torzítású vett adatok méretét tekintve [17] . Jelenleg ezt a módszert nem használják aktívan, elsősorban a nagy számítási bonyolultság miatt. Az adatok tömörítése az utolsó transzformációs együtthatók elvetésével is elérhető.

Zajcsökkentés a képeken

A módszer [18] fő lényege,  hogy amikor egy pixelblokkból eltávolítjuk a zajt, ábrázoljuk ennek a blokknak a környékét egy többdimenziós térben lévő pontok halmazaként, alkalmazunk rá PCA-t, és csak a transzformáció első komponenseit hagyjuk meg. . Feltételezzük, hogy az első komponensek tartalmazzák a fő hasznos információkat, míg a többi komponens szükségtelen zajt tartalmaz. Az inverz transzformációt alkalmazva a főkomponensek bázisának csökkentése után zajmentes képet kapunk.

Videó indexelése

A fő ötlet az, hogy minden videókockát több értékkel ábrázoljunk PCA segítségével, amelyet később adatbázis felépítésénél és lekérdezésénél fogunk használni. Az adatok ilyen jelentős csökkenése lehetővé teszi a munka sebességének és a videó számos torzításával szembeni ellenállásának jelentős növelését.

Bioinformatika

A főkomponens-elemzést intenzíven használják a bioinformatikában a leírási dimenzió csökkentésére, értelmes információk kinyerésére, adatok megjelenítésére stb. Az egyik gyakori felhasználási eset a korrespondencia-elemzés [19] [20] [21] . Az illusztrációkon (A, B ábra) a genetikai szöveget [22] a triplett frekvenciák 64 dimenziós terében lévő pontok halmazaként mutatjuk be. Minden pont egy DNS - fragmensnek felel meg egy 300 nukleotid hosszú csúszó ablakban (DNS-séta). Ez a töredék az első pozíciótól kezdve nem átfedő hármasokra oszlik. A fragmentumban ezeknek a tripletteknek a relatív gyakorisága alkotja a 64 dimenziós vektort. ábrán Bemutatják a Streptomyces coelicolor baktérium genomjának első 2 fő összetevőjére vonatkozó vetületet . ábrán B az első 3 főkomponens vetületét mutatja. A vörös és barna árnyalatok kiemelik a kódoló szekvenciák fragmenseit az elülső DNS-szálban, és a zöld árnyalatok kiemelik a kódoló szekvenciák fragmentumait a fordított DNS-szálban. A nem kódoló részhez tartozó töredékek feketével vannak jelölve. A legtöbb ismert bakteriális genom főkomponens-elemzése egy speciális weboldalon található [23] .

Kémometria

A főkomponens módszer a kemometria egyik fő módszere . Lehetővé teszi az X kiindulási adatok mátrixának két részre osztását: „értelmes” és „zaj”.

Pszichodiagnosztika

A pszichodiagnosztika a főkomponensek módszerének egyik legfejlettebb alkalmazási területe [24] . A felhasználási stratégia azon a hipotézisen alapul, hogy a kísérleti adatok öninformatívak , ami azt jelenti, hogy a kezdeti jellemzők terében egy objektumhalmaz geometriai szerkezetének közelítésével diagnosztikai modell hozható létre. Egy jó lineáris diagnosztikai modell akkor építhető fel, ha a kezdeti jellemzők jelentős része belsőleg konzisztens. Ha ez a belső konzisztencia tükrözi a kívánt pszichológiai konstrukciót , akkor a lineáris diagnosztikai modell paramétereit (a jellemző súlyait) a főkomponensek módszerével adjuk meg.

Ökonometria

A főkomponens-elemzés az ökonometria egyik kulcsfontosságú eszköze , az adatok megjelenítésére, a modellek tömörségének biztosítására, a számítások és értelmezések egyszerűsítésére, valamint a tárolt információk mennyiségének tömörítésére szolgál. A módszer maximális információtartalmat és minimális torzítást biztosít a forrásadatok geometriai szerkezetében.

Szociológia

A szociológiában a módszer az első két fő feladat megoldásához szükséges [25] :

  1. adatelemzés (felmérések vagy egyéb vizsgálatok eredményeinek leírása, számszerű adattömbök formájában);
  2. társadalmi jelenségek leírása (jelenségmodellek felépítése, beleértve a matematikai modelleket is).

Politikatudomány

A politikatudományban a főkomponens módszer volt a Political Atlas of Modernity projekt [26] fő eszköze a világ 192 országának besorolásának lineáris és nemlineáris elemzésére öt speciálisan kidolgozott integrálindex (életszínvonal, nemzetközi befolyás, fenyegetések, államiság és demokrácia). Az elemzés eredményeinek térképezésére egy speciális geoinformációs rendszert fejlesztettek ki , amely egyesíti a földrajzi teret a tereptérrel. Politikai atlasz adattérképeket is készítettek, háttérként 5D-s országtérben 2D fősokariumokat használva. Az adattérkép és a földrajzi térkép között az a különbség, hogy a földrajzi térképen olyan objektumok vannak a közelben, amelyeknek hasonló földrajzi koordinátái vannak, míg az adattérképen hasonló jellemzőkkel (indexekkel) rendelkező objektumok (országok) vannak a közelben.

A dinamikus modellek dimenziójának csökkentése

A dimenzionalitás átka megnehezíti az összetett rendszerek modellezését. A modelldimenzió csökkentése szükséges feltétele a szimuláció sikerességének. E cél elérése érdekében kiterjedt matematikai technológiát hoztak létre. Ezekben a problémákban a főkomponens-elemzést is használják (gyakran  megfelelő ortogonális dekompozíciónak ( POD ) nevezik ). Például a turbulencia dinamikájának leírásakor a dinamikus változók – a sebességmező – egy végtelen dimenziós térhez tartoznak (vagy ha a mezőt értékei egy kellően finom rácson ábrázolják, akkor egy véges dimenziós térhez nagy dimenziójú). Felveheti a pillanatnyi mezőértékek nagy gyűjteményét, és főkomponens-elemzést alkalmazhat erre a többdimenziós "adatvektor"-készletre. Ezeket a főkomponenseket empirikus sajátvektoroknak is nevezik . Egyes esetekben ( strukturális turbulencia ) a módszer lenyűgöző dimenziócsökkentést ad [27] . Ennek a dinamikus modellredukciós technikának más alkalmazásai rendkívül változatosak, a vegyészmérnöki tudomány elméleti alapjaitól az oceanológiáig és a klimatológiáig .  

Az élelmiszerek érzékszervi értékelése

A főkomponensek módszerét az élelmiszerek tulajdonságainak érzékszervi (érzékszervi) vizsgálata során alkalmazták [28] . A főkomponens-elemzés (PCA) lehetővé teszi az élelmiszerek osztályozását olyan esetekben, amikor egyidejűleg nagyszámú leírót használnak tulajdonságaik jellemzésére, például bor, [29] lekvár, [30] extrudált élelmiszerek tulajdonságainak értékelése során, [31] sajt, [32] és mások.

Alternatívák és általánosítások

A főkomponens módszer a legelterjedtebb dimenziócsökkentési módszer , de vannak más módszerek is, különösen a független komponensek módszere , a többdimenziós skálázás , valamint számos nemlineáris általánosítás: a főgörbék és -sokaságok módszere, a módszer rugalmas térképek , a legjobb vetítés keresése ( eng.  Projection Pursuit ), szűk keresztmetszetű neurális hálózati módszerek , önszerveződő Kohonen térképek .

Lásd még

Jegyzetek

  1. Valójában a módszer a Karhunen-Loeve-tétel empirikus megvalósítása, amely szerint bármely véletlenszerű folyamat ábrázolható ortogonális függvények végtelen sorozataként . Az orosz nyelvű tudományos irodalomban a " Karunen-Loev transzformáció " írásmód is gyakori , ami megfelel a finn vezetéknév angol olvasatának.
  2. 1 2 Zinoviev A. Yu. , Többdimenziós adatok megjelenítése 2019. március 6-i archív példány a Wayback Machine -nél , Krasznojarszk, Szerk. KSTU, 2000.
  3. Bau III, D., Trefethen, LN , Numerikus lineáris algebra Archiválva : 2022. április 7., a Wayback Machine , Philadelphia: Society for Industrial and Applied Mathematics, 1997. (31. előadás) ISBN 978-0-891871-36
  4. F. R. Gantmakher , Mátrixelmélet. - M .: Nauka, 1966. - 576 oldal.
  5. Rossiev A. A. ,: Hiányos adatok iteratív modellezése kisdimenziós elosztók segítségével Archiválva : 2019. március 6., a Wayback Machine , az Orosz Tudományos Akadémia szibériai fiókjának kiadója, 2005.
  6. Cangelosi R. , Goriely A. , Komponensmegtartás a főkomponens-analízisben cDNS-microarray adatokra történő alkalmazással Archiválva : 2008. március 9., Wayback Machine , Biology Direct 2007, 2:2. A PCA webhelyén is archiválva 2019. március 16-án, a Wayback Machine -nél .
  7. 1 2 3 Mirkes, Jevgenyij M.; Allohibi, Jeza; Gorban, Sándor. „A töredéknormák és a kvázinormák nem segítenek leküzdeni a dimenzionalitás átkát” Entrópia 22, 2020. sz. 10:1105. https://doi.org/10.3390/e22101105
  8. Fukunaga, K.; Olsen, D. R. Egy algoritmus az adatok belső dimenzióinak megtalálására. IEEE Trans. Comput. 1971, C-20, 176-183 https://doi.org/10.1109/TC.1971.223208
  9. Dormann CF, Elith J., Bacher S., Buchmann C., Carl G., Carré G., Marquéz JR, Gruber B., Lafourcade B., Leitão PJ, Münkemüller T. Kollinearitás: a kezelési módszerek áttekintése azt és a teljesítményüket értékelő szimulációs tanulmányt. Ecography 36(1), 27-46 (2013). https://doi.org/10.1111/j.1600-0587.2012.07348.x
  10. Koren Y., Carmel L., Robust lineáris dimenziócsökkentés, IEEE Transactions on Visualization and Computer Graphics, 10 (4) (2004), 459-470. A PCA webhelyén is archiválva 2019. március 16-án, a Wayback Machine -nél
  11. 1 2 A módszer leírása megtalálható a cikkben: Gorban AN , Sumner NR, and Zinovyev AY , Topological grammars for data approximation, Applied Mathematics Letters, Volume 20, Issue 4 (2007), 382-386; vagy Gorban AN , Sumner NR és Zinovyev AY , Beyond The Concept of Manifolds: Principal Trees, Metro Maps and Elastic Cubic Complexes Archived 2019 March 6, the Wayback Machine In: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0 ; és az arXiv-ben is
  12. Ezzel a munkával kezdődött a fősokaságok tanulmányozása. T. Hastie disszertációja : Hastie T. , Fő görbék és felületek elérve 2022.03.10 . Archiválva : 2022. március 10., a Wayback Machine , Ph.D disszertáció, Stanford Linear Accelerator Center, Stanford University, Stanford, Kalifornia, USA, november 1984 archiválvaA PCA webhelyén is 2019. március 6-án a Wayback Machine -nél
  13. Scholz M., Fraunholz M., Selbig J. , Nonlinear Principal Component Analysis: Neural Network Models and Applications Archivált : 2019. március 6. a Wayback Machine -nél , In: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
  14. Yin H. Learning Nonlinear Principal Manifolds by Self-Organising Maps Archiválva : 2019. március 6. a Wayback Machine -nél , In: Gorban AN et al (szerk.), LNCSE 58, Springer, 2007 ISBN 978-3-5490-77
  15. Martinetz, TM, Berkovich, SG és Schulten KJ , Neurális gázhálózat vektorkvantáláshoz és alkalmazása idősor-előrejelzéshez. Archiválva : 2019. július 16 .: Wayback Machine IEEE Transactions on Neural Networks, 4 (1993) #4, 558-569 . A PCA webhelyéről Archiválva : 2019. március 16., a Wayback Machine -nél
  16. Hyvdrinen A, Karhunen J. és Oja E. , Independent Component Analysis, A Volume in the Wiley Series on Adaptive and Learning Systems for Signal Processing, Communications and Control. – John Wiley & Sons, Inc., 2001. – XVI+481 pp. ISBN 0-471-40540-X
  17. Rao, K., Yip P. (szerk.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.
  18. Muresan DD, Parks TW , Adaptive Principal Components and Image Denoising Archiválva : 2019. július 16. a Wayback Machine -nél , in: Image Processing, 2003, Proceedings 2003 IEEE International Conference on Image Processing (ICIP), szeptember 14-17. 2003, 1. v., pp. I-101-104. A PCA webhelyéről Archiválva : 2019. március 16., a Wayback Machine -nél
  19. angol.  Levelezési elemzés
  20. Benzécri, J.-P. , L'Analysis des Donnees. kötet II. L'Analyse des Correspondences, Dunod, Párizs, Franciaország, 1973.
  21. Tekaia F. , Correspondence Analysis használata a genomfeltárásban Archiválva : 2007. augusztus 12., a Wayback Machine -nél .
  22. Lásd: Fordítás (biológia)
  23. ↑ Zinovyev A. , Сluster szerkezetek genomikus szavak gyakorisági eloszlásában Archivált : 2019. március 10., a Wayback Machine ; és az arXiv-ben is: PCA és K-Means megfejti a genomot Archivált 2019. július 24-én a Wayback Machine -nál .
  24. Duke V. A., Számítógépes pszichodiagnosztika, Szentpétervár, 1994; lásd az egyes részeket a Psi Factor webhelyen Archiválva : 2019. április 28. a Wayback Machine -nél
  25. Guts A. K., Frolova Yu. V. , Matematikai módszerek a szociológiában Archív példány 2022. január 21-én a Wayback Machine -nél , Sorozat: Szinergetika: a múltból a jövőbe. - "URSS" kiadó, 2007. - 216 p.
  26. A modernitás politikai atlasza: A modern államok politikai rendszereinek többdimenziós statisztikai elemzésének tapasztalata. Archív példány 2022. január 21-én a Wayback Machine -nél  - M .: MGIMO-University Publishing House, 2007. - 272 p.
  27. Berkoos G, Holmes Ph. és. Lumley J. L , The right orthogonal decomposition in the analysis of turbulens flows, Archivált : 2019. július 16., a Wayback Machine Annu. Fordulat. FluidMech. 25, 539-575 (1993). A turbulencia elemzésével foglalkozó első publikáció Lumley, JL , The structure of inhomogénous turbulence. In Atmospheric Turbulence and Wave Propagation, szerk. A. M. Yaglom, VI Tatarski, pp. 166-178. Moszkva, Nauka, 1967 (illusztrációkkal és térképekkel. (AN SSSR. Osztályközi Geofizikai Bizottság. Légkörfizikai Intézet). Érdekes, hogy e művek szerzői Kosambi (1943), Loev munkáihoz követik nyomon megközelítésük történetét. (1945), Karhunen (1946), Pugacsov (1953) és Obukhov (1954), figyelmen kívül hagyva Pearson munkásságát és a módszer 40 éves történetét.
  28. Harry T. Lawless, Hildegarde Heymann. Adatkapcsolatok és többváltozós alkalmazások  (angol)  // Élelmiszertudományi szövegsorozat. – New York, NY: Springer New York, 2010. – P. 433–449 . - ISBN 9781441964878 , 9781441964885 . - doi : 10.1007/978-1-4419-6488-5_18 . Archiválva az eredetiből 2018. június 9-én.
  29. Összefüggés az illékony összetétel és az érzékszervi tulajdonságok között spanyol Albariño borokban  //  Microchemical Journal. — 2010-07-01. — Vol. 95 , iss. 2 . — P. 240–246 . — ISSN 0026-265X . - doi : 10.1016/j.microc.2009.12.007 .
  30. Nataliya V Zhilinskaya, Varuzhan A Sarkisyan, Valentina M Vorobieva, Irina S Vorobieva, Alla A Kochetkova, Elena A Smirnova, Irina V Glazkova. Lekvár fejlesztése 2-es típusú cukorbetegségben szenvedő betegek számára: Érzékszervi jellemzők és elfogadhatóság  (angol)  // Food Science and Technology International: periodical. - 2018. - június 7. — ISSN 10820132 .
  31. Textúraprofil és korreláció az extrudált rágcsálnivalók érzékszervi és műszeres elemzései között  //  Journal of Food Engineering. — 2014-01-01. — Vol. 121 . — P. 9–14 . — ISSN 0260-8774 . - doi : 10.1016/j.jfoodeng.2013.08.007 . Archiválva az eredetiből 2022. június 17-én.
  32. Az új, csökkentett zsírtartalmú sajt érzékszervi tulajdonságainak és piaci pozíciójának jellemzése  //  Innovative Food Science & Emerging Technologies. — 2014-01-01. — Vol. 21 . — P. 169–178 . — ISSN 1466-8564 . - doi : 10.1016/j.ifset.2013.10.003 .

Irodalom

klasszikus művek Alapvető útmutatók Korabeli kritikák Oktatási szoftver

Linkek