A legjobb vetítés megtalálása

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2017. február 26-án felülvizsgált verziótól ; az ellenőrzések 12 szerkesztést igényelnek .

A legjobb vetítés keresése ( eng. Projection Pursuit ) egy statisztikai módszer, amely abból áll, hogy többdimenziós adatok olyan vetületét találjuk meg, amelynél valamilyen vetítési minőségi függvény eléri a maximumot .

Hatókör

Bár az emberek jók az információk vizuális észlelésében, csak kis méretű képeket képesek elemezni . Többdimenziós adatok elemzésekor a képészlelés nem működik olyan jól. Ezt a problémát a második vagy harmadik dimenziós adatvetületek figyelembevételével oldjuk meg. Az adatprojekciók megjelenítéséhez a szokásos technikákat használjuk: szórásdiagramokat , hisztogramokat , dobozdiagramokat és így tovább.

Módszerötlet

El kell dönteni, hogy melyik vetítés lesz a legérdekesebb. A „legérdekesebb” vetítés kiválasztásának automatizálásának egyik megközelítése a következő megfontolásokon alapul (az egyértelműség kedvéért az egyenes vonalra történő vetítést tekintjük). Az adatprojekciót „érdektelennek” tekintjük, ha a hisztogram normál eloszlási sűrűségű , mint az 1. ábrán.

A kétcsúcsos eloszlású vetületek, mint a 2. ábrán, „érdekesnek” tekinthetők.

A bimodális (bimodális) eloszlást tartjuk érdekesebbnek, mivel ez két klaszter lehetséges jelenlétét jelzi az adatokban.

Vetítési index

A „legérdekesebb” vetítés keresésének automatizálására egy speciálisan kiválasztott minőségi funkciót használnak, amelyet gyakran indexnek neveznek. A legjobb vetítés az, amelynél a minőségi függvény maximális. A többdimenziós adatok vetületének keresését, amely a vetítés minőségének valamely függvényének maximalizálásán alapul, a legjobb vetítés keresésének (Projection Pursuit) nevezik. Az index kiválasztása határozza meg, hogy az eredmény mennyire lesz hasznos. Ismertesse meg a vetítési minőségi függvény több változatát.

Egydimenziós vetítés keresése

Vezessük be a jelölést. Legyen -dimenziós véletlen vektor , akkor feltételezzük, hogy a vektor középpontos, azaz . $x$ $p$ $E(X)=0$

Jelölje a - -dimenziós numerikus vektort, ennek a vektornak a megtalálása a legjobb vetület megtalálásának problémája, amely így fog kinézni . $a$ $p$ $a^{T}X$

Ebben az esetben az adatmátrix dimenziója , a vektor az adatmátrix. $p\times 1$ $x$

Ezután az indexet a lineáris kombináció varianciájaként definiáljuk, egy további normalizálási feltétellel . $I(a)$ $a^{T}X$ $a^{T}a=1$

Közös vetítési indexek

Friedman és Tukey megközelítése

Jerome Friedman és John Tukey (1974) az index alapján mérte fel, mennyire "érdekes" egy többváltozós eloszlás . $x$

$I_{FT,\;h}(a)=n^{-1}\sum _{j=1}^{n}{\hat {f))_{h,\;a}^{ 2}(a^{T}X_{i})$ ,

ahol a vetített adatokból kapott magsűrűség becslését jelöli , ${\hat {f}}_{h,\;a}$

${\hat {f}}_{h,\;a}(z)=n^{-1}\sum _{j=1}^{n}K_{h}(za^{T} X_{j})$ .

Ha egy többváltozós valószínűségi változó normális eloszlású, akkor minden vetületnek van egy szabványos normális eloszlása, mindaddig, amíg és középre van állítva. A relatív változás a normalitástól való eltérést jelzi. $x$ $z=a^{T}X$ $\|a\|=1$ $x$ $I_{FT,\;h}(a)$ $a$

Hodges és Lehman megközelítése

A vetületi index definíciója: ahol egy többváltozós valószínűségi változó eloszlási sűrűsége , amely egy adatmátrix. Nagyon gyakran a sűrűséget nem lehet kifejezetten kiszámítani, vagy sokkal kényelmesebb a sűrűség helyett annak becslését használni. ${\displaystyle \int (f')^{2))$ $f$ $x$

Hodges és Lehman (1956) kimutatta, hogy haés, akkor a minimumotaz Epanechnikov-sűrűségnél érjük el, amelynek alakja, aholés. Ez egy parabolikus sűrűségfüggvény, amely az intervallumon kívül nulla. Így egy ilyen index használatakor az Epanechnikov-sűrűség lesz a legkevésbé érdekes. A nagy indexérték a parabola alaktól való nagy eltérést jelez. $E(X)=0$ $D(X)=1$ ${\displaystyle \int (f')^{2))$ $f(z)=\max {\{0,\;c(b^{2}-z^{2})\))$ $c={\frac {3}{20{\sqrt {5}}}}$ $b={\sqrt {5}}$ $(-{\sqrt {5)),\;{\sqrt {5)))$

Az alternatív Hodges-Lehman index az entrópia maximalizálásán alapul , azaz . $\int (-f\log f)$

Ha és , akkor az index minimumát a standard normál sűrűségnél érjük el. Ez a tulajdonság az index előnye az előző verzióhoz képest. $E(X)=0$ $D(X)=1$ $\int (f\log f)$

Valójában intuitív módon úgy tűnik, hogy a normál eloszlás "kevésbé érdekes", mint az Epanechnikov-eloszlás. Így az index segítségével mérjük az eloszlás normálistól való eltérését. $\int (f\log f)$

Fisher megközelítése

Egy másik indexnek tekinthetjük a Fisher-információt , . $\int (f')^{2}/f$

Az entrópiaindex számításakor nagy számítási nehézségekbe ütközünk, amelyek elvégzése sok időt igényel, ami persze nem túl kényelmes.

Jones és Sibson megközelítése

Jones és Sibson (1987) azt javasolta, hogy a normál sűrűségtől való eltéréseket vegyék figyelembe , ahol a függvény teljesíti a feltételeket. ${\displaystyle f(x)=\varphi (x)\{1+\varepszilon (x)\))$ $\varepsilon$

$\int \varphi (u)\varepsilon (u)u^{-r}du=0$ , nál nél $r=0,\;1,\;2.$

A Jones-Sibson index kiszámításának egyszerűsítése érdekében célszerű áttérni a kumulánsokra , . $\kappa _{3}=\mu _{3}=E(X^{3})$ $\kappa _{4}=\mu _{4}=E(X^{4})-3$

Mivel a normál normálsűrűség kielégíti a feltételt , az indexnek legalább a normalitástól való szimmetrikus eltérések szintjéig ( vagy nullától eltérő) információkat kell tartalmaznia. Ezen indexek közül a legegyszerűbb a és pozitív határozott másodfokú alakja . Ebben az esetben az adat előjelének megváltoztatásakor invariancia kell, hogy legyen, és -től kezdve , akkor ugyanilyen eltérést kell kapnunk a normalitástól. Vegyük észre, hogy ez páratlan, vagyis . És - egyenletesen, vagyis . A és másodfokú alakja , amely a normalitástól való eltérést méri, nem tartalmaz vegyes együtthatót . $\kappa _{3}=\kappa _{4}=0$ $\kappa_{3}$ ${\displaystyle \kappa _{4))$ $\kappa_{3}$ ${\displaystyle \kappa _{4))$ $a^{T}X$ $-a^{T}X$ $\kappa_{3}$ $\kappa _{3}(a^{T}X)=-\kappa _{3}(-a^{T}X)$ ${\displaystyle \kappa _{4))$ $\kappa _{4}(a^{T}X)=\kappa _{4}(-a^{T}X)$ $\kappa_{3}$ ${\displaystyle \kappa _{4))$ ${\displaystyle \kappa _{3}\kappa _{4))$

Ezért a Jones és Sibson által javasolt index az

$I_{JS}(a)=\{\kappa _{3}^{2}(a^{T}X)+\kappa _{4}^{2}(a^{T}X) /4\}/12$ .

Ez az index valójában a különbséget méri . $\int f\log f-\int \varphi \log \varphi$

Megvalósítási problémák

A legjobb vetítés megtalálásának módszere érdekes eredményeket adhat, de megvalósításában számos hiányosság van. Először is, nehéz a kapott eredmények helyes értelmezésével előállni. Másodszor, a módszer végrehajtása sokáig tarthat, és meglehetősen nagy mennyiségű számítógépes RAM-ot igényel. Emellett még mindig vannak különbségek a legjobb vetítés emberi vizuális megjelenítése és a legjobb vetítés keresésekor kapott megoldás között. Ezek a problémák még nem oldódtak meg, a módszernek nincs „kanonikus” változata, aktív kutatások folynak.

Irodalom

Peter J. Huber , Projection Pursuit (meghívott dolgozat), Harvard University, The Annalas of Statistics, 13, 1. sz. 2 (1985), 435-475.
Jerome H. Friedman , Feltáró vetítési törekvés. J. Amer. stat. Assoc. 82, 249-266 (1987). Szoftver online .