A legjobb vetítés megtalálása

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2017. február 26-án felülvizsgált verziótól ; az ellenőrzések 12 szerkesztést igényelnek .

A legjobb vetítés keresése ( eng.  Projection Pursuit ) egy statisztikai módszer, amely abból áll, hogy többdimenziós adatok olyan vetületét találjuk meg, amelynél valamilyen vetítési minőségi függvény eléri a maximumot .

Hatókör

Bár az emberek jók az információk vizuális észlelésében, csak kis méretű képeket képesek elemezni . Többdimenziós adatok elemzésekor a képészlelés nem működik olyan jól. Ezt a problémát a második vagy harmadik dimenziós adatvetületek figyelembevételével oldjuk meg. Az adatprojekciók megjelenítéséhez a szokásos technikákat használjuk: szórásdiagramokat , hisztogramokat , dobozdiagramokat és így tovább.

Módszerötlet

El kell dönteni, hogy melyik vetítés lesz a legérdekesebb. A „legérdekesebb” vetítés kiválasztásának automatizálásának egyik megközelítése a következő megfontolásokon alapul (az egyértelműség kedvéért az egyenes vonalra történő vetítést tekintjük). Az adatprojekciót „érdektelennek” tekintjük, ha a hisztogram normál eloszlási sűrűségű , mint az 1. ábrán.

A kétcsúcsos eloszlású vetületek, mint a 2. ábrán, „érdekesnek” tekinthetők.

A bimodális (bimodális) eloszlást tartjuk érdekesebbnek, mivel ez két klaszter lehetséges jelenlétét jelzi az adatokban.

Vetítési index

A „legérdekesebb” vetítés keresésének automatizálására egy speciálisan kiválasztott minőségi funkciót használnak, amelyet gyakran indexnek neveznek. A legjobb vetítés az, amelynél a minőségi függvény maximális. A többdimenziós adatok vetületének keresését, amely a vetítés minőségének valamely függvényének maximalizálásán alapul, a legjobb vetítés keresésének (Projection Pursuit) nevezik. Az index kiválasztása határozza meg, hogy az eredmény mennyire lesz hasznos. Ismertesse meg a vetítési minőségi függvény több változatát.

Egydimenziós vetítés keresése

Vezessük be a jelölést. Legyen  -dimenziós véletlen vektor , akkor feltételezzük, hogy a vektor középpontos, azaz .

Jelölje a  - -dimenziós numerikus vektort, ennek a vektornak a megtalálása a legjobb vetület megtalálásának problémája, amely így fog kinézni .

Ebben az esetben az adatmátrix dimenziója , a vektor az adatmátrix.

Ezután az indexet a lineáris kombináció varianciájaként definiáljuk, egy további normalizálási feltétellel .

Közös vetítési indexek

Friedman és Tukey megközelítése

Jerome Friedman és John Tukey (1974) az index alapján mérte fel, mennyire "érdekes" egy többváltozós eloszlás .

,

ahol a vetített adatokból kapott magsűrűség becslését jelöli ,

.

Ha egy többváltozós valószínűségi változó normális eloszlású, akkor minden vetületnek van egy szabványos normális eloszlása, mindaddig, amíg és középre van állítva. A relatív változás a normalitástól való eltérést jelzi.

Hodges és Lehman megközelítése

A vetületi index definíciója: ahol  egy többváltozós valószínűségi változó eloszlási sűrűsége , amely egy adatmátrix. Nagyon gyakran a sűrűséget nem lehet kifejezetten kiszámítani, vagy sokkal kényelmesebb a sűrűség helyett annak becslését használni.

Hodges és Lehman (1956) kimutatta, hogy haés, akkor a minimumotaz Epanechnikov-sűrűségnél érjük el, amelynek alakja, aholés. Ez egy parabolikus sűrűségfüggvény, amely az intervallumon kívül nulla. Így egy ilyen index használatakor az Epanechnikov-sűrűség lesz a legkevésbé érdekes. A nagy indexérték a parabola alaktól való nagy eltérést jelez.

Az alternatív Hodges-Lehman index az entrópia maximalizálásán alapul , azaz .

Ha és , akkor az index minimumát a standard normál sűrűségnél érjük el. Ez a tulajdonság az index előnye az előző verzióhoz képest.

Valójában intuitív módon úgy tűnik, hogy a normál eloszlás "kevésbé érdekes", mint az Epanechnikov-eloszlás. Így az index segítségével mérjük az eloszlás normálistól való eltérését.

Fisher megközelítése

Egy másik indexnek tekinthetjük a Fisher-információt , .

Az entrópiaindex számításakor nagy számítási nehézségekbe ütközünk, amelyek elvégzése sok időt igényel, ami persze nem túl kényelmes.

Jones és Sibson megközelítése

Jones és Sibson (1987) azt javasolta, hogy a normál sűrűségtől való eltéréseket vegyék figyelembe , ahol a függvény teljesíti a feltételeket.

, nál nél

A Jones-Sibson index kiszámításának egyszerűsítése érdekében célszerű áttérni a kumulánsokra , .

Mivel a normál normálsűrűség kielégíti a feltételt , az indexnek legalább a normalitástól való szimmetrikus eltérések szintjéig ( vagy  nullától eltérő) információkat kell tartalmaznia. Ezen indexek közül a legegyszerűbb a és pozitív határozott másodfokú alakja . Ebben az esetben az adat előjelének megváltoztatásakor invariancia kell, hogy legyen, és -től kezdve , akkor ugyanilyen eltérést kell kapnunk a normalitástól. Vegyük észre, hogy  ez páratlan, vagyis . És  - egyenletesen, vagyis . A és másodfokú alakja , amely a normalitástól való eltérést méri, nem tartalmaz vegyes együtthatót .

Ezért a Jones és Sibson által javasolt index az

.

Ez az index valójában a különbséget méri .

Megvalósítási problémák

A legjobb vetítés megtalálásának módszere érdekes eredményeket adhat, de megvalósításában számos hiányosság van. Először is, nehéz a kapott eredmények helyes értelmezésével előállni. Másodszor, a módszer végrehajtása sokáig tarthat, és meglehetősen nagy mennyiségű számítógépes RAM-ot igényel. Emellett még mindig vannak különbségek a legjobb vetítés emberi vizuális megjelenítése és a legjobb vetítés keresésekor kapott megoldás között. Ezek a problémák még nem oldódtak meg, a módszernek nincs „kanonikus” változata, aktív kutatások folynak.

Irodalom

Lásd még