Mahalanobis távolság

A Mahalanobis-távolság a valószínűségi változók vektorai közötti távolság mértéke , általánosítva az euklideszi távolság fogalmát.

Mahalanobis indiai statisztikus javasolta 1936-ban [1] . A Mahalanobis-távolság segítségével meghatározható egy ismeretlen és egy ismert minta hasonlósága . Abban különbözik az euklideszi távolságtól , hogy figyelembe veszi a változók közötti összefüggéseket , és skálainvariáns.

Definíció

Formálisan a Mahalanobis-távolság egy többdimenziós vektortól egy átlagértékkel és egy kovarianciamátrixszal rendelkező halmazhoz a következőképpen definiálható [2] :

A Mahalanobis-távolság definiálható két véletlen vektor közötti eltérés mértékeként és egyetlen valószínűségi eloszlásból egy kovarianciamátrixszal  :

Ha a kovarianciamátrix az azonosságmátrix, akkor a Mahalanobis-távolság egyenlő lesz az euklideszi távolsággal. Ha a kovariancia mátrix átlós (de nem feltétlenül egység), akkor a kapott távolságmértéket normalizált euklideszi távolságnak nevezzük :

Itt látható a mintában szereplő szórás .

Intuitív magyarázat

Tekintsük annak a valószínűségének meghatározásának problémáját, hogy egy N-dimenziós euklideszi tér valamely pontja olyan halmazhoz tartozik, amelyet olyan pontok halmaza ad meg, amelyek határozottan ehhez a halmazhoz tartoznak. Keresse meg a halmaz tömegközéppontját. Intuitív módon minél közelebb van egy adott pont a tömegközépponthoz, annál valószínűbb, hogy a halmazhoz tartozik.

Érdemes azonban figyelembe venni annak a területnek a méretét is, amelyen a halmaz pontjai szétszóródnak, hogy megértsük, mennyire jelentős az adott pont és a tömegközéppont távolsága. A legegyszerűbb módszer a beállított pontok tömegközépponttól való szórásának kiszámítása. Ha az adott pont és a tömegközéppont távolsága kisebb, mint a szórás, akkor azt a következtetést vonhatjuk le, hogy a halmazhoz tartozó pont valószínűsége nagy. Minél távolabb van a pont, annál valószínűbb, hogy nincs benne a készletben.

Ez az intuitív megközelítés matematikailag definiálható egy adott pont és egy halmaz közötti távolság alapján a képlet segítségével . Ha ezt az értéket behelyettesítjük a normál eloszlásba , akkor meghatározhatjuk annak valószínűségét, hogy egy pont egy halmazhoz tartozik.

Ennek a megközelítésnek a hátránya annak a feltételezésnek a használata, hogy a halmaz pontjai a tömegközéppont körül gömbölyűen oszlanak el (azaz minden dimenzióban egyenletesen). Ha az eloszlás egyértelműen nem gömb alakú (például ellipszoid), akkor természetes lenne, ha a tagsági valószínűségnél nem csak a tömegközéppont távolságát, hanem az irányát is figyelembe vennénk. Az ellipszoid rövid tengelye irányában az adott pontnak közelebb kell lennie a tömegközépponthoz, hogy a halmazhoz tartozzon, míg a hosszú tengely irányában távolabb is lehet.

Ennek matematikai felírásához a halmaz valószínűségi eloszlását legjobban reprezentáló ellipszoidot a halmaz kovarianciamátrixa adhatja meg. A Mahalanobis távolság egyszerűen az adott pont és a tömegközéppont közötti távolság osztva az ellipszoid szélességével az adott pont irányában.

Alkalmazások

A Mahalanobis-távolságot a koponyák hasonlóságának meghatározására irányuló munka során határozták meg mérések alapján 1927-ben [3] .

A Mahalanobis távolságot széles körben használják a klaszterelemzési és osztályozási módszerekben . Ez szorosan összefügg a többváltozós statisztikai tesztelésben használt Hotelling - féle T-négyzet eloszlással és a felügyelt gépi tanulásban használt Fisher-féle lineáris diszkriminanciaanalízissel [4] .  

Ahhoz, hogy a Mahalanobis-távolságot használhassuk annak meghatározására, hogy egy adott pont az N osztályok valamelyikébe tartozik-e, meg kell találni az összes osztály kovarianciamátrixát. Ez általában az egyes osztályokból ismert minták alapján történik. Ezután ki kell számítani a Mahalanobis távolságot az adott ponttól minden osztályig, és kiválasztani azt az osztályt, amelynél ez a távolság minimális. Valószínűségi értelmezést használva kimutatható, hogy ez egyenértékű a maximum likelihood módszerrel végzett osztálykiválasztással .

A Mahalanobis-távolságot a kiugró értékek meghatározására is használják, például a lineáris regresszió megalkotásának problémájában. Azt a pontot tekintjük a legnagyobb jelentőségűnek, amelyiknek a legnagyobb Mahalanobis-távolsága van az adott ponthalmaz többi részétől, mivel ez van a legnagyobb hatással a görbületre és a regressziós egyenlet együtthatóira. Ezenkívül a Mahalanobis-távolságot a többváltozós kiugró értékek meghatározásánál és az aktív alakmodellek használatakor használják .

Jegyzetek

  1. Mahalanobis, Prasanta Chandra. Az általánosított távolságról a statisztikában  (neopr.)  // Proceedings of the National Institute of Sciences of India. - 1936. - V. 2 , 1. sz . - S. 49-55 . Az eredetiből archiválva : 2013. május 29.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D. L. Massart (2000) A Mahalanobis-távolság. Kémometria és intelligens laboratóriumi rendszerek 50:1–18
  3. Mahalanobis, PC (1927). A fajkeverék elemzése Bengálban. J. Proc. Asiatic Soc. a bengáli. 23:301-333.
  4. McLachlan, Geoffry J (1992): Diszkriminanciaanalízis és statisztikai mintafelismerés. Wiley Interscience. ISBN 0471691151 p. 12