Együttműködési szűrés

A kollaboratív szűrés , az együttműködési szűrés az egyik módszer az előrejelzések  ( ajánlások) létrehozására az ajánlórendszerekben , amely a felhasználók egy csoportjának ismert preferenciáit (becsléseit) használja egy másik felhasználó ismeretlen preferenciáinak előrejelzésére . [1] Alapfeltevése az, hogy akik a múltban a dolgokat egyformán értékelték, hajlamosak a jövőben hasonló értékeket adni más dolgoknak. [1] Például a kollaboratív szűrés segítségével egy zenei alkalmazás képes megjósolni, hogy a felhasználó milyen zenét fog kedvelni , amelynek hiányos listája a preferenciáiról (tetszik és nem tetszik). [2] Az előrejelzések minden felhasználó számára egyedileg készülnek, bár a felhasznált információkat sok résztvevőtől gyűjtik össze. Ily módon a kollaboratív szűrés eltér az egyszerűbb megközelítéstől , amely átlagos pontszámot ad minden egyes érdeklődésre számot tartó objektumra, például a rá leadott szavazatok száma alapján. Korunkban aktívan folynak kutatások ezen a területen, ami a kollaboratív szűrés megoldatlan problémáinak is köszönhető.

Leírás

Az információrobbanás korában nagyon hasznosak az olyan személyre szabott ajánlási módszerek, mint a kollaboratív szűrés, mert már egy kategóriában (például filmek, zenék, könyvek, hírek, weboldalak) is olyan nagyra nőtt az objektumok száma, hogy egyetlen ember sem. mindegyiket megtekintheti, és kiválaszthatja a megfelelőt.

Az együttműködésen alapuló szűrőrendszerek általában kétlépcsős sémát használnak [1] :

  1. Keresse meg azokat, akik osztják az "aktív" (kivetített) felhasználó értékítéletét.
  2. A jóslat kiszámításához használja az első lépésben talált hasonló gondolkodású emberek pontszámait.

A fent leírt algoritmus a rendszer felhasználóira való tekintettel épül fel.

Létezik egy alternatív algoritmus is, amelyet az Amazon talált ki [3] , amely a rendszerben lévő tételek (termékek) tekintetében épül fel. Ez az algoritmus a következő lépéseket tartalmazza:

  1. Összeállítunk egy mátrixot, amely meghatározza az objektumpárok közötti kapcsolatot, hogy hasonló objektumokat találjunk.
  2. A felépített mátrix és a felhasználóról szóló információk felhasználásával előrejelzéseket készítünk az értékeléseiről.

Példaként láthatja a Slope One algoritmuscsaládot

Az együttműködésen alapuló szűrésnek van egy másik formája is, amely a felhasználó normál viselkedésének implicit megfigyelésén alapul (szemben az explicit megfigyeléssel, amely a felhasználói értékeléseket gyűjti). Ezekben a rendszerekben megfigyelheti, hogy egy adott felhasználó mit csinált, és mit csináltak mások (milyen zenét hallgattak, milyen videókat néztek meg, milyen dalokat vásároltak), és az adatok alapján előre jelezheti a felhasználó viselkedését a jövőben, vagy megjósolhatja, hogy mit ha van rá lehetőség. Ezeket az előrejelzéseket az üzleti logika szerint kell megtenni , mivel hiába ajánljuk fel valakinek, hogy vásároljon meg egy már meglévő zenefájlt.

Az együttműködésen alapuló szűrés típusai

Az ajánlórendszerek létrehozásához 2 fő módszert használnak – a kollaboratív szűrést és a tartalomalapú ajánlásokat. A gyakorlatban is alkalmaznak egy hibrid módszert az ajánlások kidolgozására, amely magában foglalja a fenti módszerek keverékét. A kollaboratív szűrés pedig szintén 3 fő megközelítésre (típusra) oszlik [4] :

Szomszédság alapú

Ez a megközelítés a történelemben az első a kollaboratív szűrésben, és számos ajánlórendszerben használják. Ebben a megközelítésben a hozzá hasonló felhasználók alcsoportját választják ki egy aktív felhasználó számára. A súlyok és az alcsoport pontszámok kombinációját használják az aktív felhasználói pontszámok előrejelzésére [5] . Ennek a megközelítésnek a következő fő lépései vannak:

  1. Minden felhasználóhoz rendeljen súlyt, figyelembe véve az értékelései és az aktív felhasználó hasonlóságát.
  2. Válasszon ki több olyan felhasználót, akiknek maximális súlyuk van, vagyis leginkább az aktív felhasználóhoz hasonlítanak. Ezt a felhasználói csoportot szomszédoknak [6] nevezzük .
  3. Számítsa ki az aktív felhasználói értékelések előrejelzését azokra a tételekre, amelyeket nem értékelt, figyelembe véve a szomszédok súlyát és értékelését.

Modell alapú

Ez a megközelítés ajánlásokat ad a statisztikai modellek paramétereinek mérésével a felhasználói értékelésekhez, amelyek olyan módszerekkel készültek, mint a Bayes-hálózatok , a klaszterezés , a látens szemantikai modellek , mint például a szinguláris értékbontás , a valószínűségi látens szemantikai elemzés , a látens Dirichlet-eloszlás és a Markov-alapú döntéshozatali modellek . [5] A modelleket adatbányászattal, gépi tanulási algoritmusokkal fejlesztik, hogy a betanítási adatokon alapuló mintákat találjanak. A modellben szereplő paraméterek száma típustól függően csökkenthető a főkomponens módszerrel .

Ez a megközelítés összetettebb és pontosabb előrejelzéseket ad, mivel segít feltárni a látens tényezőket, amelyek megmagyarázzák a megfigyelt pontszámokat. [7]

Ennek a megközelítésnek számos előnye van. Jobban kezeli a ritka mátrixokat, mint a szomszédosság alapú megközelítés, ami viszont segíti a nagy adatkészletek méretezhetőségét.

Ennek a megközelítésnek a hátránya a modell "drága" létrehozása [8] . A pontosság és a modell mérete között kompromisszum van, mivel a modellcsökkentés miatt hasznos információk veszhetnek el.

Hibrid

Ez a megközelítés ötvözi a szomszédság alapú és a modell alapú megközelítést. A hibrid megközelítés a legelterjedtebb a kereskedelmi helyek ajánlórendszereinek fejlesztésében, mivel segít az eredeti (szomszédságon alapuló) megközelítés korlátainak leküzdésében és az előrejelzések minőségének javításában. Ez a megközelítés az adatritkaság és az információvesztés problémáját is legyőzi. Ez a megközelítés azonban bonyolult és költséges a megvalósítása és alkalmazása. [9]

Problémák

Adat ritkaság

Általános szabály, hogy a legtöbb kereskedelmi ajánlórendszer nagy mennyiségű adaton (terméken) alapul, míg a legtöbb felhasználó nem értékeli a termékeket. Ennek eredményeként az elem-felhasználó mátrix nagyon nagy és ritka, ami problémákat okoz az ajánlások kiszámításakor. Ez a probléma különösen akut az új, újonnan megjelenő rendszerek esetében. [4] Ezenkívül az adatok ritkasága súlyosbítja a hidegindítási problémát .

Skálázhatóság

A rendszerben lévő felhasználók számának növekedésével megjelenik a skálázhatóság problémája. Például 10 millió ügyfél és egy millió cikk esetén egy egyenlő bonyolultságú együttműködési szűrési algoritmust már túl bonyolult kiszámítani. Ezenkívül sok rendszernek azonnal válaszolnia kell az összes felhasználó online kérésére, függetlenül a vásárlási előzményektől és az értékelésektől, ami még nagyobb méretezhetőséget igényel.

Hidegindítási probléma

Az új elemek vagy felhasználók nagy problémát jelentenek az ajánlórendszerek számára. A tartalom alapú megközelítés a probléma egy részét segíti, mivel az értékelések helyett attribútumokra támaszkodik, hogy segítsen új elemeket beilleszteni a felhasználóknak szóló ajánlásokba. Az új felhasználónak szóló ajánlások problémája azonban nehezebben megoldható. [négy]

Szinonímia

A szinonímia az a tendencia, hogy a hasonló és azonos objektumoknak eltérő neveik vannak. A legtöbb ajánlórendszer nem képes észlelni ezeket a rejtett kapcsolatokat, ezért ezeket az elemeket különbözőként kezeli. Például a „gyermekfilmek” és a „gyerekfilmek” ugyanabba a műfajba tartoznak, de a rendszer eltérően érzékeli őket. [5]

Csalás

Az ajánlórendszerekben, ahol bárki értékelhet, az emberek pozitívan értékelhetik alanyaikat, versenytársaikat pedig rosszul. Ezenkívül az ajánlórendszerek nagy befolyást gyakoroltak az eladásokra és a nyereségre, mivel széles körben használták őket kereskedelmi oldalakon. Ennek eredményeként a gátlástalan szállítók megpróbálják csalárd módon rangsorolni termékeiket, és leminősíteni versenytársaikat. [négy]

Sokszínűség

Az együttműködésen alapuló szűrést eredetileg a sokszínűség növelésére tervezték, hogy a felhasználók végtelen számú új terméket fedezhessenek fel. Egyes algoritmusok, különösen az eladásokon és értékeléseken alapuló algoritmusok azonban nagyon nehéz feltételeket teremtenek az új és kevéssé ismert termékek promóciójához, mivel ezeket felváltják a régóta piacon lévő népszerű termékek. Ez viszont csak növeli a „gazdag leszel gazdagabb” hatást, és kisebb változatossághoz vezet. [tíz]

Fehér varjak

A "fehér varjak" olyan felhasználók, akiknek véleménye állandóan nem esik egybe a többiek többségével. Egyedi ízük miatt lehetetlen nekik bármit is ajánlani. Az ilyen embereknek azonban problémáik vannak az ajánlások megszerzésével a való életben, ezért a probléma megoldásának keresése jelenleg nem folyik. [5]

Alkalmazás a közösségi hálózatokban

Az együttműködésen alapuló szűrést széles körben használják a kereskedelmi szolgáltatásokban és a közösségi hálózatokban. Az első felhasználási eset az, hogy a közösség "szavazatai" alapján ajánlást készítsen érdekes és népszerű információkhoz. Az olyan szolgáltatások, mint a Reddit és a Digg  , tipikus példái az együttműködő szűrőalgoritmusokat használó rendszereknek.

Egy másik felhasználási terület az, hogy személyre szabott ajánlásokat készítsen a felhasználónak, korábbi tevékenysége és más hasonló felhasználók preferenciáira vonatkozó adatok alapján. Ez a megvalósítás megtalálható olyan oldalakon, mint a YouTube , a Last.fm és az Amazon [3] , valamint a földrajzi helymeghatározási szolgáltatásokban , mint például a Gvidi és a Foursquare .

Lásd még

Jegyzetek

  1. 1 2 3 Felmérés az együttműködésen alapuló szűrési technikákról, 2009 , p. egy.
  2. ↑ A TV Genius által írt TV-ajánlások integrált megközelítése Archiválva : 2012. június 6.
  3. 1 2 Amazon, 2003 , p. egy.
  4. 1 2 3 4 Problémák az ajánlórendszerekben, 2010 , p. 7.
  5. 1 2 3 4 Felmérés az együttműködésen alapuló szűrési technikákról, 2009 , p. 3.
  6. K-legközelebbi szomszéd algoritmus
  7. Skálázható és pontos együttműködési szűrés, 2009 .
  8. Egy felmérés az együttműködésen alapuló szűrési technikákról, 2009 , p. 3-4.
  9. Problémák az ajánlórendszerekben, 2010 , p. 6.
  10. A sokszínűség problémája, 2009 , p. 23.

Irodalom