A legjobb vetítés keresése ( eng. Projection Pursuit ) egy statisztikai módszer, amely abból áll, hogy többdimenziós adatok olyan vetületét találjuk meg, amelynél valamilyen vetítési minőségi függvény eléri a maximumot .
Bár az emberek jók az információk vizuális észlelésében, csak kis méretű képeket képesek elemezni . Többdimenziós adatok elemzésekor a képészlelés nem működik olyan jól. Ezt a problémát a második vagy harmadik dimenziós adatvetületek figyelembevételével oldjuk meg. Az adatprojekciók megjelenítéséhez a szokásos technikákat használjuk: szórásdiagramokat , hisztogramokat , dobozdiagramokat és így tovább.
El kell dönteni, hogy melyik vetítés lesz a legérdekesebb. A „legérdekesebb” vetítés kiválasztásának automatizálásának egyik megközelítése a következő megfontolásokon alapul (az egyértelműség kedvéért az egyenes vonalra történő vetítést tekintjük). Az adatprojekciót „érdektelennek” tekintjük, ha a hisztogram normál eloszlási sűrűségű , mint az 1. ábrán.
A kétcsúcsos eloszlású vetületek, mint a 2. ábrán, „érdekesnek” tekinthetők.
A bimodális (bimodális) eloszlást tartjuk érdekesebbnek, mivel ez két klaszter lehetséges jelenlétét jelzi az adatokban.
A „legérdekesebb” vetítés keresésének automatizálására egy speciálisan kiválasztott minőségi funkciót használnak, amelyet gyakran indexnek neveznek. A legjobb vetítés az, amelynél a minőségi függvény maximális. A többdimenziós adatok vetületének keresését, amely a vetítés minőségének valamely függvényének maximalizálásán alapul, a legjobb vetítés keresésének (Projection Pursuit) nevezik. Az index kiválasztása határozza meg, hogy az eredmény mennyire lesz hasznos. Ismertesse meg a vetítési minőségi függvény több változatát.
Vezessük be a jelölést. Legyen -dimenziós véletlen vektor , akkor feltételezzük, hogy a vektor középpontos, azaz .
Jelölje a - -dimenziós numerikus vektort, ennek a vektornak a megtalálása a legjobb vetület megtalálásának problémája, amely így fog kinézni .
Ebben az esetben az adatmátrix dimenziója , a vektor az adatmátrix.
Ezután az indexet a lineáris kombináció varianciájaként definiáljuk, egy további normalizálási feltétellel .
Jerome Friedman és John Tukey (1974) az index alapján mérte fel, mennyire "érdekes" egy többváltozós eloszlás .
,
ahol a vetített adatokból kapott magsűrűség becslését jelöli ,
.
Ha egy többváltozós valószínűségi változó normális eloszlású, akkor minden vetületnek van egy szabványos normális eloszlása, mindaddig, amíg és középre van állítva. A relatív változás a normalitástól való eltérést jelzi.
A vetületi index definíciója: ahol egy többváltozós valószínűségi változó eloszlási sűrűsége , amely egy adatmátrix. Nagyon gyakran a sűrűséget nem lehet kifejezetten kiszámítani, vagy sokkal kényelmesebb a sűrűség helyett annak becslését használni.
Hodges és Lehman (1956) kimutatta, hogy haés, akkor a minimumotaz Epanechnikov-sűrűségnél érjük el, amelynek alakja, aholés. Ez egy parabolikus sűrűségfüggvény, amely az intervallumon kívül nulla. Így egy ilyen index használatakor az Epanechnikov-sűrűség lesz a legkevésbé érdekes. A nagy indexérték a parabola alaktól való nagy eltérést jelez.
Az alternatív Hodges-Lehman index az entrópia maximalizálásán alapul , azaz .
Ha és , akkor az index minimumát a standard normál sűrűségnél érjük el. Ez a tulajdonság az index előnye az előző verzióhoz képest.
Valójában intuitív módon úgy tűnik, hogy a normál eloszlás "kevésbé érdekes", mint az Epanechnikov-eloszlás. Így az index segítségével mérjük az eloszlás normálistól való eltérését.
Egy másik indexnek tekinthetjük a Fisher-információt , .
Az entrópiaindex számításakor nagy számítási nehézségekbe ütközünk, amelyek elvégzése sok időt igényel, ami persze nem túl kényelmes.
Jones és Sibson (1987) azt javasolta, hogy a normál sűrűségtől való eltéréseket vegyék figyelembe , ahol a függvény teljesíti a feltételeket.
, nál nél
A Jones-Sibson index kiszámításának egyszerűsítése érdekében célszerű áttérni a kumulánsokra , .
Mivel a normál normálsűrűség kielégíti a feltételt , az indexnek legalább a normalitástól való szimmetrikus eltérések szintjéig ( vagy nullától eltérő) információkat kell tartalmaznia. Ezen indexek közül a legegyszerűbb a és pozitív határozott másodfokú alakja . Ebben az esetben az adat előjelének megváltoztatásakor invariancia kell, hogy legyen, és -től kezdve , akkor ugyanilyen eltérést kell kapnunk a normalitástól. Vegyük észre, hogy ez páratlan, vagyis . És - egyenletesen, vagyis . A és másodfokú alakja , amely a normalitástól való eltérést méri, nem tartalmaz vegyes együtthatót .
Ezért a Jones és Sibson által javasolt index az
.
Ez az index valójában a különbséget méri .
A legjobb vetítés megtalálásának módszere érdekes eredményeket adhat, de megvalósításában számos hiányosság van. Először is, nehéz a kapott eredmények helyes értelmezésével előállni. Másodszor, a módszer végrehajtása sokáig tarthat, és meglehetősen nagy mennyiségű számítógépes RAM-ot igényel. Emellett még mindig vannak különbségek a legjobb vetítés emberi vizuális megjelenítése és a legjobb vetítés keresésekor kapott megoldás között. Ezek a problémák még nem oldódtak meg, a módszernek nincs „kanonikus” változata, aktív kutatások folynak.