Helyi kibocsátási szint

A lokális kiugró szint egy algoritmus az anomália-észlelésben , amelyet Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng és Jörg Sander javasoltak 2000-ben, hogy kiugró adatpontokat találjanak egy adott pont helyi eltérésének mérésével a szomszédaitól. [1] .

A lokális kiugró szint olyan fogalmakon osztozik, mint a DBSCAN és az OPTICS , mint például az "alaptávolság" és az "elérhető távolság" [2] fogalma , amelyeket a helyi sűrűség becslésére használnak [3] .

Alapötlet

A lokális kiugró szint a lokális sűrűség fogalmán alapul, ahol a lokalitást a legközelebbi szomszédok adják meg, akiknek távolsága alapján becsüljük meg a sűrűséget. Ha egy objektum lokális sűrűségét a szomszédai lokális sűrűségével hasonlítjuk össze, hasonló sűrűségű területek és pontok azonosíthatók, amelyek sűrűsége lényegesen kisebb, mint a szomszédaié. Ezek a pontok kiugrónak számítanak .

A helyi sűrűséget a szomszédos pontoktól „elérhető” tipikus távolság alapján becsüljük meg. Az algoritmusban használt "elérhető távolság" definíciója egy további intézkedés a klasztereken belüli robusztusabb eredmények eléréséhez.

Formai leírás

Legyen az objektum és a k -edik legközelebbi szomszéd távolsága. Ne feledje, hogy a k legközelebbi szomszéd halmaza tartalmazza az összes objektumot, amely attól a távolságtól van, és egy "csomópont" esetén több mint k objektumot tartalmazhat. A k legközelebbi szomszéd halmazát jelöljük .

Ez a távolság az elérhető távolság meghatározására szolgál ( eng.  reachability-distance ):

Más szóval, egy objektumtól elérhető távolság a két objektum valódi távolsága. Azokat a jellemzőket, amelyek a pont k legközelebbi szomszédjához tartoznak (a pont "magpontjai" , lásd DBSCAN ), a stabilabb eredmények érdekében azonos távolságra lévőnek tekintjük. Vegye figyelembe, hogy ez a távolság nem távolság matematikai értelemben, mivel nem szimmetrikus. (Gyakori hiba, hogy mindig alkalmazzuk, így ez egy kicsit más módszert ad, az úgynevezett egyszerűsített lokális kiugró módszert [4] )

Egy objektum helyi elérhetőségi sűrűsége a következőképpen van meghatározva

,

ami egy objektum szomszédaitól való átlagos elérhetőségi távolságának reciproka. Megjegyzendő, hogy ez nem a szomszédok átlagos elérhetőségi távolsága a ponttól (amelynek definíció szerint kellene lennie ), hanem az a távolság, amelyen A "elérhető" a szomszédaitól. Ismétlődő pontok esetén ez az érték végtelenné válhat.

A helyi elérhetőségi sűrűségeket ezután összehasonlítják a szomszédok helyi elérhetőségi sűrűségével

amely a szomszédok átlagos lokális elérhetőségi sűrűsége osztva magának az objektumnak a lokális elérhetőségi sűrűségével. A hozzávetőlegesen egyenlő érték azt jelenti, hogy az objektum összehasonlítható a szomszédaival (és akkor nem kiugró érték). A -nál kisebb érték sűrű területet jelent (amely lehet a belső terület), míg a -nál lényegesen nagyobb értékek kiugró értékeket jeleznek.

Előnyök

A megközelítés lokális elhelyezkedéséből adódóan a lokális kiugró szintű algoritmus képes olyan kiugró értékeket észlelni az adatkészletben, amelyek az adatkészlet más területein esetleg nem lehetnek kiugróak. Például a sűrű klasztertől "kis" távolságra lévő pont kiugró érték, míg egy ritka klaszteren belüli pont hasonló távolságra lehet a szomszédaitól.

Míg az algoritmus geometriai intuíciója csak kisdimenziós vektorterekre vonatkozik, az algoritmus bármilyen környezetben alkalmazható, ahol különbségi függvény definiálható. Kísérletileg kimutatták, hogy az algoritmus számos helyzetben jól működik, gyakran felülmúlva a riválisokat, például a behatolásérzékelő rendszerekben [5] és a feldolgozott osztályozási adatokon [6] .

A lokális kiugró szintű módszerek családja könnyen általánosítható, majd különféle más problémákra is alkalmazható, mint például a földrajzi adatokban, a videofolyamokban vagy a hitelhálózatokban található kiugró értékek észlelése [4] .

Hátrányok és bővítmények

Az így kapott értékek nehezen értelmezhetők. Az 1-es vagy akár egynél kisebb érték azt jelenti, hogy a pont tisztán belső, de nincs egyértelmű szabály, hogy egy pont kiugró érték. Egy adathalmazban az 1,1-es érték már kiugró értéket jelenthet, egy másik adathalmazban és paraméterezésben (erős lokális fluktuáció mellett) a 2-es érték még belsőt jelenthet. Ezek a különbségek ugyanazon adathalmazon belül is előfordulhatnak a metódus lokalitása miatt. Vannak metódusbővítmények, amelyek megpróbálják javítani az algoritmust:

Jegyzetek

  1. Breunig, Kriegel, Ng, Sander, 2000 , p. 93–104.
  2. A szakirodalomban az "elérhető távolság" helyett az "elérhető" elnevezés is megtalálható.
  3. Breunig, Kriegel, Ng, Sander, 1999 , p. 262.
  4. 1 2 3 Schubert, Zimek, Kriegel, 2012 .
  5. Lazarevic, Ozgur, Ertoz, Srivastava, Kumar, 2003 , p. 25–36.
  6. Campos, Zimek, Sander, Campello et al., 2016 .
  7. Lazarevic és Kumar 2005 , p. 157–166.
  8. Zimek, Campello, Sander, 2014 , p. tizenegy.
  9. Kriegel, Kröger, Schubert, Zimek, 2009 , p. 1649–1652
  10. Kriegel, Kröger, Schubert, Zimek, 2011 , p. 13–24.
  11. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , p. 1047–1058.

Irodalom