A hierarchikus klaszterezés (a gráfklaszterezési algoritmusok és a hierarchikus klaszteranalízis is) olyan adatrendezési algoritmusok halmaza, amelyek célja a beágyazott klaszterek hierarchiájának ( fa ) létrehozása. A hierarchikus klaszterezési módszereknek két osztálya van:
A hierarchikus klaszterező algoritmusok feltételezik, hogy az elemzett objektumok halmazát bizonyos fokú összekapcsolhatóság jellemzi. A jellemzők száma szerint néha megkülönböztetnek monotetikus és politetikus osztályozási módszereket. A függőségek megjelenítésének legtöbb vizuális módjához hasonlóan a grafikonok is gyorsan elveszítik láthatóságukat a klaszterek számának növekedésével. Számos speciális program létezik grafikonok készítésére .
A dendrogramon általában egy közelségi mértékek mátrixából összeállított fát értünk. A dendrogram lehetővé teszi egy adott halmaz objektumai közötti kapcsolat ábrázolását [1] . A dendrogram létrehozásához hasonlósági (vagy különbségi ) mátrixra van szükség , amely meghatározza a klaszterpárok közötti hasonlóság szintjét. Az agglomerációs módszereket gyakrabban alkalmazzák.
Hasonlósági (különbség) mátrix felépítéséhez be kell állítani egy távolságmértéket két klaszter között. A távolság meghatározására leggyakrabban használt módszerek ( angol rendezési stratégiák ) [2] :
Az első három módszerhez létezik egy általános képlet, amelyet A. N. Kolmogorov javasolt a hasonlósági mérésekre [5] :
ahol két objektum (klaszter) csoportja és ; — az objektum (klaszter), amellyel a meghatározott csoport hasonlóságát keresik; a klaszter elemeinek száma ; a klaszter elemeinek száma . A távolságokra van egy hasonló Lance-Williams képlet [6] .
Széles körben használják a geobotanikában és a virágkertészetben . Gyakran korrelációs plejádoknak nevezik őket [7] [8] [9] [10] .
Speciális eset az optimális fák (dendritek) szerkesztési módszereként ismert módszer , amelyet a lvivi iskola matematikusa, Hugo Steinhaus [11] javasolt , majd a módszert a wroclawi taxonómiai iskola matematikusai dolgozták ki [12] . A dendritek szintén nem alkothatnak ciklusokat. A grafikonok irányított íveit részben használhatja további befogadási mértékek (aszimmetrikus hasonlósági mértékek) használatával.
A különbségi mátrix "diagonalizálásának" módszerét és a klaszterek grafikus ábrázolását a különbségmátrix főátlója mentén (Czekanowski diagramja) Jan Czekanowski javasolta először 1909-ben [13] . Itt található a módszertan leírása:
Ennek a módszernek a lényege abban rejlik, hogy a kapott hasonlósági értékek teljes amplitúdóját több osztályra osztjuk, majd a hasonlósági értékek mátrixában ezeket az értékeket olyan árnyékolással helyettesítjük, amely eltérő minden osztályt, és általában sötétebb árnyékolást használnak a magasabb hasonlósági osztályokhoz. Ezután a táblázatban a leírások sorrendjének megváltoztatásával biztosítják, hogy további hasonló leírások következzenek [14]
Adjunk egy hipotetikus példát a fenti diagram megszerzésére. A módszer alapja egy tranzitív zárómátrix felépítése [15] .
Egy tranzitív lezárási mátrix felépítéséhez vegyünk egy egyszerű hasonlósági mátrixot, és szorozzuk meg önmagával:
,ahol az első iteráció után kapott új (második) mátrixban a -edik sor és -edik oszlop metszéspontjában lévő elem ; a hasonlósági mátrix sorainak (oszlopainak) teljes száma. Ezt az eljárást addig kell folytatni, amíg a mátrix idempotenssé (vagyis önhasonlóvá) nem válik: , ahol n az iterációk száma.
Ezután a mátrixot úgy alakítjuk át, hogy közeli számértékek legyenek a közelben. Ha minden számértékhez hozzárendelünk egy színt vagy színárnyalatot (mint esetünkben), akkor a klasszikus Czekanowski diagramot kapjuk. Hagyományosan a sötétebb szín nagyobb hasonlóságot, a világosabb szín pedig egy kisebb hasonlóságot jelent. Ebben hasonló a távolságmátrix hőtérképéhez .
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|