A Mahalanobis-távolság a valószínűségi változók vektorai közötti távolság mértéke , általánosítva az euklideszi távolság fogalmát.
Mahalanobis indiai statisztikus javasolta 1936-ban [1] . A Mahalanobis-távolság segítségével meghatározható egy ismeretlen és egy ismert minta hasonlósága . Abban különbözik az euklideszi távolságtól , hogy figyelembe veszi a változók közötti összefüggéseket , és skálainvariáns.
Formálisan a Mahalanobis-távolság egy többdimenziós vektortól egy átlagértékkel és egy kovarianciamátrixszal rendelkező halmazhoz a következőképpen definiálható [2] :
A Mahalanobis-távolság definiálható két véletlen vektor közötti eltérés mértékeként és egyetlen valószínűségi eloszlásból egy kovarianciamátrixszal :
Ha a kovarianciamátrix az azonosságmátrix, akkor a Mahalanobis-távolság egyenlő lesz az euklideszi távolsággal. Ha a kovariancia mátrix átlós (de nem feltétlenül egység), akkor a kapott távolságmértéket normalizált euklideszi távolságnak nevezzük :
Itt látható a mintában szereplő szórás .
Tekintsük annak a valószínűségének meghatározásának problémáját, hogy egy N-dimenziós euklideszi tér valamely pontja olyan halmazhoz tartozik, amelyet olyan pontok halmaza ad meg, amelyek határozottan ehhez a halmazhoz tartoznak. Keresse meg a halmaz tömegközéppontját. Intuitív módon minél közelebb van egy adott pont a tömegközépponthoz, annál valószínűbb, hogy a halmazhoz tartozik.
Érdemes azonban figyelembe venni annak a területnek a méretét is, amelyen a halmaz pontjai szétszóródnak, hogy megértsük, mennyire jelentős az adott pont és a tömegközéppont távolsága. A legegyszerűbb módszer a beállított pontok tömegközépponttól való szórásának kiszámítása. Ha az adott pont és a tömegközéppont távolsága kisebb, mint a szórás, akkor azt a következtetést vonhatjuk le, hogy a halmazhoz tartozó pont valószínűsége nagy. Minél távolabb van a pont, annál valószínűbb, hogy nincs benne a készletben.
Ez az intuitív megközelítés matematikailag definiálható egy adott pont és egy halmaz közötti távolság alapján a képlet segítségével . Ha ezt az értéket behelyettesítjük a normál eloszlásba , akkor meghatározhatjuk annak valószínűségét, hogy egy pont egy halmazhoz tartozik.
Ennek a megközelítésnek a hátránya annak a feltételezésnek a használata, hogy a halmaz pontjai a tömegközéppont körül gömbölyűen oszlanak el (azaz minden dimenzióban egyenletesen). Ha az eloszlás egyértelműen nem gömb alakú (például ellipszoid), akkor természetes lenne, ha a tagsági valószínűségnél nem csak a tömegközéppont távolságát, hanem az irányát is figyelembe vennénk. Az ellipszoid rövid tengelye irányában az adott pontnak közelebb kell lennie a tömegközépponthoz, hogy a halmazhoz tartozzon, míg a hosszú tengely irányában távolabb is lehet.
Ennek matematikai felírásához a halmaz valószínűségi eloszlását legjobban reprezentáló ellipszoidot a halmaz kovarianciamátrixa adhatja meg. A Mahalanobis távolság egyszerűen az adott pont és a tömegközéppont közötti távolság osztva az ellipszoid szélességével az adott pont irányában.
A Mahalanobis-távolságot a koponyák hasonlóságának meghatározására irányuló munka során határozták meg mérések alapján 1927-ben [3] .
A Mahalanobis távolságot széles körben használják a klaszterelemzési és osztályozási módszerekben . Ez szorosan összefügg a többváltozós statisztikai tesztelésben használt Hotelling - féle T-négyzet eloszlással és a felügyelt gépi tanulásban használt Fisher-féle lineáris diszkriminanciaanalízissel [4] .
Ahhoz, hogy a Mahalanobis-távolságot használhassuk annak meghatározására, hogy egy adott pont az N osztályok valamelyikébe tartozik-e, meg kell találni az összes osztály kovarianciamátrixát. Ez általában az egyes osztályokból ismert minták alapján történik. Ezután ki kell számítani a Mahalanobis távolságot az adott ponttól minden osztályig, és kiválasztani azt az osztályt, amelynél ez a távolság minimális. Valószínűségi értelmezést használva kimutatható, hogy ez egyenértékű a maximum likelihood módszerrel végzett osztálykiválasztással .
A Mahalanobis-távolságot a kiugró értékek meghatározására is használják, például a lineáris regresszió megalkotásának problémájában. Azt a pontot tekintjük a legnagyobb jelentőségűnek, amelyiknek a legnagyobb Mahalanobis-távolsága van az adott ponthalmaz többi részétől, mivel ez van a legnagyobb hatással a görbületre és a regressziós egyenlet együtthatóira. Ezenkívül a Mahalanobis-távolságot a többváltozós kiugró értékek meghatározásánál és az aktív alakmodellek használatakor használják .
Szótárak és enciklopédiák |
---|