A közösségi gráf egy olyan gráf , amelynek csomópontjait közösségi objektumok képviselik, például felhasználói profilok különféle attribútumokkal (például: név, születésnap, szülőváros), közösségek , médiatartalom stb., az élek pedig a köztük lévő közösségi kapcsolatok [ 1] [2] .
Az implicit közösségi gráf egy olyan grafikon, amely létrehozható (levezethető, kiszámítható) a felhasználói interakciók alapján a „barátaikkal” és „baráti csoportjaival” egy közösségi hálózatban. Ezen a grafikonon a szokásos társadalmi gráftól eltérően nincs kifejezett utalás a "barátokra", vagyis nincsenek nyilvánvaló társadalmi kapcsolatok [3] .
A társadalmi gráf jellemzőit olyan metrikák jellemzik, mint: kapcsolati metrikák , kapcsolódási metrikák és szegmentációs metrikák . A társadalmi gráfok problémáinak megoldására speciális modelleket használnak, amelyekkel helyettesíthetők a "valódi" gráfok . Társadalmi gráfok segítségével olyan problémákat oldanak meg, mint: felhasználó azonosítás ; közösségi keresés ; ajánlások generálása a „barátok”, a médiatartalom, a hírek és hasonlók kiválasztására vonatkozóan ; „valódi” összefüggések feltárása vagy nyílt információk gyűjtése gráfmodellezéshez. A közösségi gráfok adatainak feldolgozása számos problémával jár , mint például a közösségi hálózatok különbségei , a közösségi adatok közelsége .
A társadalmi gráfon végzett feladatokban a metrika fogalmát használják - olyan mutatókat, amelyek numerikusan jelenítik meg a társadalmi objektumok, szegmensek, objektumcsoportok jellemzőit és kapcsolataikat. Ezeket a mutatókat a közösségi hálózatok elemzésekor használják .
A kapcsolati metrikák egy társadalmi objektum más társadalmi objektumokkal való kapcsolatának természetét tükrözik.
A homofília [4] azt jelenti, hogy a felhasználó milyen mértékben létesít kapcsolatot hasonló emberekkel. A hasonlóság meghatározható nem, életkor, társadalmi státusz, iskolai végzettség stb. szerint [5] .
Multiplicitás – azon "többszörös" kapcsolatok száma, amelyekben a felhasználók vannak [6] . Például két felhasználó, akik barátok és együtt dolgoznak, 2-es "többszörös" lesz [7] . A "többszörös" a "kapcsolat erősségéhez" kapcsolódik.
Kölcsönösség – az a fok, ahogyan a felhasználók interakcióba lépnek egymással, viszonozzák egymás cselekedeteit [8] . A hálózati adatvédelem azt jelenti, hogy a felhasználó barátai milyen mértékben barátkoznak egymással. "A relációs hármasok teljességének mértéke " is nevezik. Azt a feltételezést, hogy a felhasználó hálózatzárásban van, tranzitivitásnak nevezzük . [9] . Neighborhood – a felhasználók azon tendenciája, hogy nagyszámú kapcsolatot létesítsenek földrajzilag közeli felhasználókkal [8] .
A linkmetrikák a hivatkozások jellemzőit tükrözik, mind az egyes közösségi objektumok, mind a grafikon egésze esetében.
A híd olyan felhasználó, akinek gyenge láncszemei "strukturális lyukakat" töltenek ki, egyetlen kapcsolatot biztosítva más felhasználók vagy klaszterek (felhasználói csoportok) között. Ezen kívül a legrövidebb útvonal is áthalad rajta [10] .
Központiság - egy adott felhasználó (felhasználók csoportja) "jelentőségét" vagy "befolyását" bemutató fok a grafikonon belül [11] [12] . A centralitás mérésének standard módszerei a mediációs centralitás , a proximity centrality , a sajátvektor-centralitás , az alfa-centralitás és a fokcentralitás [13] .
A sűrűség a közvetlen kapcsolatok aránya a hálózatban a lehetséges teljes számhoz viszonyítva [14] [15] . A távolság a hivatkozások minimális száma, amely két különböző felhasználó közötti kapcsolat létrehozásához szükséges. A szerkezeti lyukak a hálózat két része közötti kapcsolatok hiánya.
A kapcsolat erősségét az idő, a közelség és a reciprocitás lineáris kombinációja határozza meg [10] , minél nagyobb a kapcsolat erősségének értéke, annál erősebb. Az erős kapcsolatokat a "homofília", a "szomszédság" vagy a "tranzitivitás", míg a gyenge kapcsolatokat a "hidak" határozzák meg.
A szegmentációs mérőszámok a megkülönböztető jegyekkel rendelkező szegmensekre osztott közösségi gráf jellemzőit tükrözik.
A klikk egy olyan csoport, amelyben minden felhasználó "közvetlen" kapcsolattal rendelkezik (a csúcsok éllel vannak összekötve (összekötve)) egymással [16] . A társasági kör olyan csoport, amelyben nincs szükség "közvetlen" kapcsolatokra a felhasználók között [17] .
A klaszterezési együttható annak valószínűsége, hogy egy adott személyhez két különböző felhasználó is társul. A magas klaszterezési együttható magas csoportzáródást jelez, más szóval a csoport egy „klikk” lehet.
A kohézió az a fok, ahogyan a felhasználókat közös kötelék köti össze, ami társadalmi kohéziót hoz létre . Strukturális kohézió - a csoport olyan egységes szerkezetét jelzi, hogy kis számú felhasználó eltávolítása a csoport megszakadásához vezet [16] .
Néhány jól ismert gráfmodell helyettesítheti a "valódi" társadalmi gráfokat [18] .
A funkcionálisan vezérelt modellek célja a gráf statisztikai jellemzőinek reprodukálása, például a hatványtörvény eloszlása és a gráf sűrűségének dinamikus változásai, mint például a Barabasi-Albert modell és az égő erdő modell .
A szándékosan vezérelt modellek az eredeti gráf létrehozási folyamatának emulálására összpontosítanak, a modellek ebbe az osztályába véletlenszerű bejárást és véletlenszerű sétákat, a legközelebbi szomszéd modellt tartalmaznak.
A struktúravezérelt modellek statisztikai adatokat rögzítenek egy gráf szerkezetéből, lehetővé téve a megfelelő generátor számára, hogy véletlenszerű gráfokat reprodukáljon ugyanazokkal a szerkezeti megszorításokkal. Ilyen modellek a Kronecker-gráfok és a dK-gráfok .
Felhasználó azonosítása - egy személyhez tartozó profilok észlelése több közösségi hálózaton [19] . A probléma megoldása lehetővé teszi egy teljesebb társadalmi gráf készítését, amely számos feladatban hasznos lehet, például a közösségi keresésben és az ajánlások generálásában .
Közösségi objektumok keresése (felhasználók, adataik, rekordjaik stb.) a kívánt objektumokat tartalmazó linkhalmaz elemzése alapján [20] .
Fontos feladat, hogy pontos algoritmusokat találjunk a felhasználóknak szóló ajánlások, ajánlatok generálására, amivel egy társadalmi gráf alapján is készíthetünk érdeklődési grafikont. Ezek lehetnek barátok ajánlásai (a felhasználók ritkán osztják fel kapcsolataikat társadalmi csoportokra, de ennek ellenére a közösségi hálózaton belüli interakcióik révén implicit módon csoportokra osztják ezeket a kapcsolatokat [21] ), tartalmi ajánlások (ajánlatok médiatartalomra, közösségekre, hírekre stb. .). további [22] [ link megadása ] ). Vannak hagyományos megközelítések az ajánlórendszerekben [23] [ link megadása ] :
Külön kihívást jelent a „ nyílt forráskódú intelligencia ” megközelítés alkalmazása a felhasználók, azaz valódi barátok, rokonok és így tovább közötti valódi kapcsolatok azonosítására [25] .
Közösségi gráf készítése a közösségi hálózat szolgáltatók webszolgáltatásainak elemzése eredményeként kapott adatok alapján.
A feladat értékeléséhez a következő kritériumok vannak beállítva [26] :
A csomópontok megválasztása fontos szerepet játszik a bejárásban: a csomópontok jelentik a bejárás kiindulópontját, fontos a megfelelő csomópontok és bejárási sor sorrend kiválasztása, hogy elkerüljük a rossz oldalminőséget. A csomópontkiválasztási algoritmusok döntik el, hogy melyik csomópontot válasszák legközelebb, az alkalmazott algoritmusok között szerepel a szélességi keresés , a mohó algoritmusok csoportja .
A közösségi adatok közelsége miatt a közösségi gráf nagy része kihagyható, a különböző bypass algoritmusok eltérő módon hatnak az ilyen felhasználókra. Ráadásul a különböző közösségi hálózatok eltérő egyedi tulajdonságokkal rendelkeznek, még ha hasonló szolgáltatásokat is nyújtanak, ami szintén megnehezíti az információgyűjtés feladatát.
A felhasználói azonosítás problémája szempontjából a fő probléma a közösségi hálózatok különbségei. Főleg a társadalmi objektumok és a különböző topológiájú társadalmi gráfok [27] [ specific link ] kapcsolatának szemantikája játszik szerepet .
Az ajánlások generálásának fő problémája a hidegindítás problémája – az ajánlások kiszámítása új közösségi objektumokhoz (felhasználók, bejegyzések, médiatartalom stb.) [28] [ link megadása ] .
A közösségi gráfhoz való adatgyűjtés fő problémája a közösségi hálózatok közelsége [29] . Először is, a szociális adatok értéke és jogi védelme miatt nehéz társadalmi grafikont szerezni a "beszállítóktól" [30] . Másodszor, a nagy nehézséget az jelenti, hogy a kaparók milliónyi névjegylistát, profilt, fotót, videót és hasonló tartalmat gyűjtenek össze . Sok közösségi média "szolgáltató" egyetlen oldalmodellt vagy sok Ajaxot és DHTML -t tartalmazó dinamikus oldalt használ , ami szintén sok problémát okoz a rugalmas elemző létrehozása során.