Link elemzés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. július 16-án felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

A linkelemzés vagy linkelemzés (az angol " link analysis " szóból) egy adatelemzési módszer , amelyet a hálózatelemzés keretében használnak a csomópontok (objektumok / szereplők) közötti kapcsolatok (kapcsolatok) értékelésére. . A kapcsolatok különféle típusú csomópontokhoz definiálhatók: emberek, szervezetek, műveletek stb. A „linkelemzés” kifejezés (az egyik fordítási lehetőség: „kapcsolatelemzés”) a különböző hálózati objektumok közötti kapcsolatok összességének elemzésére utal. jellemzőinek azonosítása érdekében .

Kezdetben ezt a módszert a bûnözés – elsõsorban a csalás és a terrorizmus – leküzdésére használták, a felderítés és az információbiztonsági eszközök optimalizálása céljából . Később ezt a módszert a marketingben és az orvosi kutatásban, valamint a keresőalgoritmusok optimalizálásában is alkalmazták .

Ez a módszer az adatbányászati ​​módszerek csoportjába tartozik . Ez iteratív és interaktív algoritmusok csoportja az adatok különböző mintáinak észlelésére, elemzésére és megjelenítésére. A linkelemzés az algoritmusok ebbe a csoportjába tartozik, és a csoport legtöbb módszeréhez hasonlóan a következő lépésekben valósul meg[ style ] [1] : Adatgyűjtés, Adatfeldolgozás , Adatelemzés és Adatvizualizáció .

Az eszköztár fejlesztésének története

Klerks három [2] korszakot különböztetett meg a Link Analysis megvalósításához szükséges eszközök fejlesztésében. Az első generációt 1975-ben mutatta be Anacpapa Chart néven Harper és Harris [3] . Ez a módszer a következőképpen valósul meg: A kutató feldolgozza a rendelkezésre álló adatokat, interakciós mátrix formájában jelölve a szereplők közötti kapcsolatokat. Ezután a kutató megfelelő grafikont készít az adatok megjelenítéséhez, és végül elemzi a létrejövő hálózatot, meghatározva a centralitás mutatóit (Patterns of interest). Ez a módszer rendkívül időigényes, ha nagy mennyiségű adatot veszünk figyelembe.

Az eszközök második generációja lehetővé tette a megfelelő interakciós mátrixok grafikonjainak felépítésének automatizálását, de az adatbevitelt továbbra is manuálisan kellett elvégezni. Az adatelemzési eljárásokhoz a szükséges tudásbázissal rendelkező kutató aktív közreműködésére is szükség volt.

Az eszközök harmadik generációja lehetővé teszi a szereplők közötti kapcsolatok automatikus megjelenítését is. Ezenkívül olyan eszközök jelennek meg , amelyek lehetővé teszik nagy mennyiségű adat vizuális tömörítését kompakt kötegekbe, ami leegyszerűsíti az összetett modellek vizuális adatelemzését. A centralitás főbb mutatóinak számítása szintén automatikusan megtörtént.

Adatgyűjtés

Vélemények és szavazások

A hálózati adatok gyűjtése során, nevezetesen a társadalmi kapcsolatok meglétének vagy hiányának rögzítésekor a legtöbb esetben a válaszadók jelentéseit használják fel. Ezeket az adatokat általában úgy szerzik meg, hogy felkérik a válaszadót, hogy sorolja fel azokat az ügynököket, akikkel ő vagy a szervezet, amelyhez tartozik, közvetlen kapcsolatban áll. Ezeknek a kapcsolatoknak a típusa (vagy típusa) előre meghatározott, és a vizsgálat célkitűzéseitől függ. Ha a lakosság korlátozott (a szereplők száma – a jövőbeli hálózat elemei kicsi), előfordulhat, hogy a válaszadók egyszerűen felsorolják kapcsolataikat, de gyakrabban más módszereket alkalmaznak. Holland és Lenhardt [4] a következőket használta:

  1. az ilyen típusú interakciók meglétére vagy hiányára vonatkozó dichotóm indikátorok, amelyekben rögzíthető volt a válaszadók közötti kapcsolatok száma;
  2. skálák vagy sorozatok, amelyek intenzitás szerint különböztetik meg a kapcsolatokat;
  3. különböző kölcsönhatások páros összehasonlításának módszerei az erősség szempontjából.

Szisztematikusabban a hálózati adatok gyűjtésének technikáját Burt eljárása [5] mutatja be , ahol először egy vagy több paraméterrel azonosították a válaszadói hálózatba való tagságot, majd az adatoktól függően további eredmények születtek, amelyek magyarázatot adtak egy ilyen elrendezés. A hálózatok következő tulajdonságait vizsgáltuk:

  1. az egyének attribútumai (hálózati elemek);
  2. a válaszadók közötti kapcsolatok lehetséges tulajdonságai - kapcsolatfelvétel gyakorisága, intenzitása;
  3. a válaszadópárok közötti kapcsolatok intenzitása, amely az egocentrikus hálózatok szerkezeti tulajdonságainak mérésére szolgál (például sűrűségmeghatározás).

A szervezetközi interakciók tanulmányozása során nem szabad az egyik adatközlő vallomására szorítkozni, a válaszadók kiválasztásának problémája egyenes arányban nő az adott szervezet specializációjának szélességével. Kisebb tanulmányokhoz a szervezet egyik ügynökétől származó jó minőségű hálózati jelentés is elegendő, de az ilyen jelentéseket fel kell használni az olyan típusú interakciók tanulmányozására, amelyek az informátor tevékenységének csak az egyik oldalát tükrözik. A szervezetek elemzésekor azonban célszerű több ügynök jelentéséből nyert információkat, valamint a szervezet dokumentumaival (levelek, feljegyzések, jelentések, ülések jegyzőkönyvei) alátámasztott információkat elemezni.

Archívum

A jó minőségű hálózati adatok gyűjtéséhez jelentős erőforrásokra van szükség. A levéltári források jóval olcsóbbak, és egyik előnyük, hogy retrospektív kutatást tesznek lehetővé és követik a vizsgált hálózatok fejlődését. Itt a linkelemzés mint adatbányászati ​​eszköz szorosan kapcsolódik az adatelemzés egy másik területéhez, a szövegbányászathoz .

Kapcsolatelemzési eljárás

Az empirikus adatok gyűjtésének és feldolgozásának eredménye a vizsgált hálózat szereplői közötti interakció formalizált mátrixai.

A kapott adatok alapján interakciós mátrix formájában egy megfelelő gráfot készítünk, amely szemlélteti a hálózat szereplőinek kapcsolatait.

A kulcsmutatók számítása

A megközelítés korlátai

Egyes kutatók [6] megjegyzik, hogy amellett, hogy nagy a kockázata annak, hogy az adatközlők szubjektív értékelést kapnak a hálózatról, fennáll a kockázata annak, hogy a kutató szubjektíven érzékeli a kapott adatokat, és így akár ugyanazon információk elemzése is vezethet eltérő következtetéseket.

Ennek ellenére számos általánosan elfogadott technika létezik a hálózat tulajdonságainak és a szereplői közötti kapcsolatok értékelésére.

Hálózat mérete

A hálózat méretét jelző fő mutató az egyes csatlakozásokban található közvetlen linkek száma. A hálózat mérete a minimális értéktől 1 (2 csúcs a gráfban) a maximális lehetséges értékig (g-1) változhat , ahol g a gráf csúcsainak száma.

Hálózati sűrűség

Általában a hálózatban lévő asszociációk közötti kapcsolat jelentős erősségeként vagy (dichotóm méréseknél) a meglévő és lehetséges kapcsolatok arányaként értjük.

Egy irányítatlan gráf kapcsolatsűrűsége a következő képlettel számítható ki:

, ahol L a megfigyelt linkek száma egy adott gráfban vagy részgráfban.

Az irányított gráf kapcsolatok sűrűségét a következő képlettel számítjuk ki:

.

A sűrűség segítségével azonban meglehetősen problematikus a strukturális kapcsolatok feltárása, ha a hálózatnak vannak alcsoportjai, és sűrűségtranszformáció léphet fel a hálózat méretének változása esetén.

Központiság és centralizáció [7] A centralitás mértékének mérése

Ennél a megközelítésnél fontos azoknak a szereplőknek a száma, akikhez ez a szereplő társul. A legegyszerűbb esetben ez egyszerűen megszámolja a szereplőkapcsolatok számát a következő képlet segítségével:

.

Annak érdekében, hogy ne csak ugyanazon a hálózaton belül, hanem a különböző struktúrájú hálózatok között is össze lehessen hasonlítani egy szereplő centralitásának fokát, ki kell számítani a centralitás standardizált becslését a következő képlet segítségével:

.

Kiszámíthatja a teljes hálózat központiságának mértékét is:

.

Gyakran össze kell hasonlítani a különböző struktúrákat, és meg kell határozni, hogy melyik biztosítja a szereplők legjobb központosítását. Ehhez van egy képlet a teljes hálózat normalizált centralitási fokának kiszámításához:

.

A centralitás sűrűsége

Ez a megközelítés a centralitás sűrűségét méri – azt, hogy egy szereplő milyen közel áll a többi szereplőhöz. Vagyis ennél a megközelítésnél a központi az a pozíció, ahonnan a minimális számú lépést meg kell tenni a csoport összes többi pozíciójába.

A szereplők központosságának sűrűségét a következőképpen mérjük:

.

Itt van a kapcsolatok száma a szereplők és a között . Az index maximális értéke . Így a normalizált szereplőcentralitási együtthatót a következő képlettel számítjuk ki:

A normalizált hálózat központi sűrűségét a következő képlettel számítjuk ki:

A központiság mint közvetítés

Ennek a megközelítésnek a keretein belül a centralitást az egyes pozíciók közötti kapcsolatok szabályozásának tekintik. Így, ha az n 2 és n 3 szereplők közötti legrövidebb távolság n 2 , n 1 , n 4 és n 3 , akkor az n 1 és n 4 pozíciók vezérlik az n 2 és n 3 szereplőpárt .

A szereplők közvetítési központja a következő képlettel számítható ki:

Itt van a színészen áthaladó legrövidebb utak száma . Mivel a gráf összes csúcsa közötti kapcsolatok maximális száma egyenlő

.

A szabványos hálózati központossági pontszám a következő képlettel számítható ki:

.

Egyenértékűség

Egy hálózat szerkezeti tulajdonságainak leírásakor gyakran az egyes szereplők szerkezeti hasonlóságának fogalmaihoz folyamodunk. A szerkezetileg hasonló pozíciók azonosítása lehetővé teszi a gráf egyszerűsítését azáltal, hogy a szerkezeti tulajdonságaikban hasonló szereplőket új, vállalati szereplőkké kombináljuk. Ennek megfelelően a két pozíció közötti egyenértékűség azonosítására általában a következő Burt által javasolt képletet [8] használják :

Lásd még

Jegyzetek

  1. Ahonen, H., A Knowledge Discovery Systems jellemzői Archiválva : 2012. december 8. a Wayback Machine -nél .
  2. Klerks, P. A bûnszervezetekre alkalmazott hálózati paradigma: Elméleti csínytevés vagy releváns doktrína a nyomozóknak? Friss fejlemények Hollandiában  (angol)  // Kapcsolatok : folyóirat. - 2001. - Vol. 24 . - 53-65 . o .
  3. Harper és Harris, The Analysis of Criminal Intelligence, Human Factors and Ergonomics Society Annual Meeting Proceedings, 19(2), 1975, pp. 232-238.
  4. Holland PW, LeinhardtS. A mérési hiba szerkezeti hatásai a szociometriában // J. Match. Sociol, 1973. évf. 3. P. 85-111.
  5. Burt RS Hálózati struktúra modelljei//Annu. Fordulat. Sociol, 1980. évf. 6. P. 79-141.
  6. McGrath, C., Blythe, J., Krackhardt, D., Seeing Groups in Graph Layouts Archivált 2013. október 3-án a Wayback Machine -nél
  7. Freeman L. Centralitással a közösségi hálózatokban, fogalmi tisztázások / / Soc. Networks, 1979. évf. 1. P. 215-236.
  8. Burt RS Társadalmi fertőzés és innováció: kohézió versus strukturális ekvivalencia.//American Journal of Sociology, 1987.92: 1287-1335.

Források

  • Gradoselskaya GV Hálózati mérések a szociológiában: Tankönyv / Szerk. G. S. Batygina. M .: "Új tankönyv" kiadó, 2004.
  • Chubukova I.A. adatbányászat. M.: Binom, 2008
  • Thelwall M. Link Analysis: An Information Science Approach. New York: Academic Press , 2004.