Hierarchikus klaszterezés

A hierarchikus klaszterezés (a gráfklaszterezési algoritmusok és a hierarchikus klaszteranalízis is) olyan adatrendezési algoritmusok halmaza, amelyek célja a beágyazott klaszterek hierarchiájának ( fa ) létrehozása. A hierarchikus klaszterezési módszereknek két osztálya van:

A hierarchikus klaszterező algoritmusok feltételezik, hogy az elemzett objektumok halmazát bizonyos fokú összekapcsolhatóság jellemzi. A jellemzők száma szerint néha megkülönböztetnek monotetikus és politetikus osztályozási módszereket. A függőségek megjelenítésének legtöbb vizuális módjához hasonlóan a grafikonok is gyorsan elveszítik láthatóságukat a klaszterek számának növekedésével. Számos speciális program létezik grafikonok készítésére .

Dendrogram

A dendrogramon általában egy közelségi mértékek mátrixából összeállított fát értünk. A dendrogram lehetővé teszi egy adott halmaz objektumai közötti kapcsolat ábrázolását [1] . A dendrogram létrehozásához hasonlósági (vagy különbségi ) mátrixra van szükség , amely meghatározza a klaszterpárok közötti hasonlóság szintjét. Az agglomerációs módszereket gyakrabban alkalmazzák.

Hasonlósági (különbség) mátrix felépítéséhez be kell állítani egy távolságmértéket két klaszter között. A távolság meghatározására leggyakrabban használt módszerek ( angol  rendezési stratégiák ) [2] :

  1. Az egykapcsolatos módszert "legközelebbi szomszéd módszernek " is nevezik .  Feltételezzük, hogy két klaszter távolsága egyenlő a különböző klaszterekből származó két elem közötti minimális távolsággal: , ahol az elemek és a klaszterekhez való tartozás távolsága és
  2. A teljes összekapcsolási módszert távoli szomszéd módszernekis nevezik .  Feltételezzük, hogy két klaszter közötti távolság egyenlő a különböző klaszterekből származó két elem közötti maximális távolsággal:;
  3. Pair -group  módszer számtani átlaggal :
    • Súlyozatlan ( angol  UPGMA ). Feltételezzük, hogy két klaszter távolsága megegyezik ezen klaszterek elemei közötti átlagos távolsággal: , ahol az elemek és a klaszterekhez tartozó elemek közötti távolság és , és és a klaszterek kardinalitásai .
    • Súlyozott ( angol  WPGMA ).
  4. Centroid módszer ( angol  pair-group módszer a centroid átlagával ):
    • Súlyozatlan ( angol  UPGMC ). Feltételezzük, hogy a klaszterek közötti távolság egyenlő a súlypontjaik (tömegközéppontjaik) közötti távolsággal [3] : , ahol és a súlypontok és .
    • Súlyozott ( angol  WPGMC ).
  5. Ward módszere .  _ _ Más klaszterelemzési módszerekkel ellentétben itt a diszperzióanalízis módszereit használjuk a klaszterek közötti távolságok becslésére. A klaszterek közötti távolságként az objektumok a klaszter középpontja közötti távolságok négyzetes összegének növekedését vesszük, amelyet egyesülésük eredményeként kapunk [4] : . Az algoritmus minden lépésében két klaszter kombinálódik, amelyek a variancia minimális növekedéséhez vezetnek. Ezt a módszert szorosan elhelyezkedő klaszterekkel kapcsolatos problémák esetén használják.

Az első három módszerhez létezik egy általános képlet, amelyet A. N. Kolmogorov javasolt a hasonlósági mérésekre [5] :

ahol  két objektum (klaszter) csoportja és ;  — az objektum (klaszter), amellyel a meghatározott csoport hasonlóságát keresik;  a klaszter elemeinek száma ;  a klaszter elemeinek száma . A távolságokra van egy hasonló Lance-Williams képlet [6] .

Korrelatív Plejádok

Széles körben használják a geobotanikában és a virágkertészetben . Gyakran korrelációs plejádoknak nevezik őket [7] [8] [9] [10] .

Speciális eset az optimális fák (dendritek) szerkesztési módszereként ismert módszer , amelyet a lvivi iskola matematikusa, Hugo Steinhaus [11] javasolt , majd a módszert a wroclawi taxonómiai iskola matematikusai dolgozták ki [12] . A dendritek szintén nem alkothatnak ciklusokat. A grafikonok irányított íveit részben használhatja további befogadási mértékek (aszimmetrikus hasonlósági mértékek) használatával.

Czekanowski diagramja

A különbségi mátrix "diagonalizálásának" módszerét és a klaszterek grafikus ábrázolását a különbségmátrix főátlója mentén (Czekanowski diagramja) Jan Czekanowski javasolta először 1909-ben [13] . Itt található a módszertan leírása:

Ennek a módszernek a lényege abban rejlik, hogy a kapott hasonlósági értékek teljes amplitúdóját több osztályra osztjuk, majd a hasonlósági értékek mátrixában ezeket az értékeket olyan árnyékolással helyettesítjük, amely eltérő minden osztályt, és általában sötétebb árnyékolást használnak a magasabb hasonlósági osztályokhoz. Ezután a táblázatban a leírások sorrendjének megváltoztatásával biztosítják, hogy további hasonló leírások következzenek [14]

Adjunk egy hipotetikus példát a fenti diagram megszerzésére. A módszer alapja egy tranzitív zárómátrix felépítése [15] .

Egy tranzitív lezárási mátrix felépítéséhez vegyünk egy egyszerű hasonlósági mátrixot, és szorozzuk meg önmagával:

,

ahol az első iteráció után kapott új (második) mátrixban a -edik sor és -edik oszlop  metszéspontjában lévő elem ;  a hasonlósági mátrix sorainak (oszlopainak) teljes száma. Ezt az eljárást addig kell folytatni, amíg a mátrix idempotenssé (vagyis önhasonlóvá) nem válik: , ahol n az iterációk száma.

Ezután a mátrixot úgy alakítjuk át, hogy közeli számértékek legyenek a közelben. Ha minden számértékhez hozzárendelünk egy színt vagy színárnyalatot (mint esetünkben), akkor a klasszikus Czekanowski diagramot kapjuk. Hagyományosan a sötétebb szín nagyobb hasonlóságot, a világosabb szín pedig egy kisebb hasonlóságot jelent. Ebben hasonló a távolságmátrix hőtérképéhez .

Lásd még

Források és jegyzetek

  1. Zhambyu M. Hierarchikus klaszterelemzés és megfeleltetések. — M.: Pénzügy és statisztika, 1988. — 345 p.
  2. Osztályozás és klaszter. Szerk. J. Wen Raizina. M.: Mir, 1980. 390 p.
  3. Sneath PHA, Sokal RR Numerikus taxonómia: A numerikus osztályozás alapelvei és gyakorlata. - San-Francisco: Freeman, 1973. - 573 p.
  4. Ward JH Hierarchikus csoportosítás egy célfüggvény optimalizálására // J. of the American Statistical Association, 1963. - 236 p.
  5. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Alkalmazott statisztika: Osztályozás és méretcsökkentés. - M .: Pénzügy és statisztika, 1989. - 607 p.
  6. Lance GN, Willams WT Az osztályozási rendezési stratégiák általános elmélete. 1. Hierarchikus rendszerek // Összeg. J. 1967. No. 9. P. 373-380.
  7. von Terentjev PV Biometrische Untersuchungen über die morphologischen Merkmale von Rana ridibunda Pall. (Amphibia, Salientia) // Biometrika. 1931. 23. szám (1-2). P. 23-51.
  8. Terentiev P.V. Korrelációs plejádok módszere // Vestn. LGU. 9. szám 1959. S. 35-43.
  9. Terentiev P. V. A korrelációs plejádok módszerének továbbfejlesztése // Matematikai módszerek alkalmazása a biológiában. T. 1. L.: 1960. S. 42-58.
  10. Vyhandu L.K. A többattribútumú biológiai rendszerek vizsgálatáról // Matematikai módszerek alkalmazása a biológiában. L.: kérdés. 3. 1964. S. 19-22.
  11. Steinhaus G. Matematikai kaleidoszkóp. — M.: Nauka, 1981. — 160 p.
  12. Florek K., Lukaszewicz S., Percal S., Steinhaus H., Zubrzycki S. Taksonomia Wroclawska // Przegl. antropopol. 1951. T. 17. S. 193-211.
  13. Czekanowski J. Zur differenciál Diagnose der Neandertalgruppe // Korrespbl. Dtsch. Ges. Anthropol. 1909. Bd 40. S. 44-47.
  14. Vasziljevics V. I. Statisztikai módszerek a geobotanikában. - L .: Nauka, 1969. - 232 p.
  15. Tamura S., Hiquchi S., Tanaka K. Mintaosztályozás fuzzy reláción alapul // IEEE tranzakció a rendszereken, az emberen és a kibernetikán, 1971, SMC 1, 1. sz., 61-67.