Az asszociációs szabály tanulása vagy az asszociációs szabály keresése egy szabályalapú módszer a tanuló gépek számára, hogy felfedezzék a változók közötti érdekes kapcsolatokat egy adatbázisban . Javasolunk egy módszert az adatbázisban található erős szabályok megállapítására, néhány érdekességi mérőszám segítségével [1] . Ez a szabályalapú megközelítés új szabályokat is generál, amint több adat kerül elemzésre. A végső cél – kellően nagy adathalmaz mellett – az, hogy segítse a gépet utánozni az emberi jellemzők kinyerését , és megteremtse azt a képességet, hogy új, nem minősített adatokból absztrakt asszociációkat találjon [2] .
A szigorú szabályok koncepciója alapján Rakesh Agrawal, Tomasz Imelinsky és Arun Swami [3] asszociációs szabályokat terjesztett elő a nagy tranzakciók során a termékek közötti minták kimutatására a szupermarketek POS -rendszerei által rögzített adatok tekintetében. Például a szupermarketek értékesítési adataiban található {hagyma, burgonya} => { hamburger } szabály azt jelentheti, hogy ha egy vásárló együtt vásárol hagymát és burgonyát, akkor nagyobb valószínűséggel vásárol hamburgert is. Ez a fajta információ felhasználható marketingakciókkal kapcsolatos döntések alapjául, mint például a promóciós árképzés vagy a termékelhelyezés .
A fenti piaci kosárelemzési példán kívül az asszociációs szabályokat ma már sok más területen is használják, beleértve a webbányászatot , a behatolásészlelést , a folyamatos gyártást a . A szekvenciális mintaérzékeléstől ellentétben az asszociációs szabályok tanulása általában nem veszi figyelembe az elemek sorrendjét egy tranzakción belül vagy a tranzakciók között.
Tranzakció azonosítója | tej | kenyér | olaj | sör | pelenkák |
---|---|---|---|---|---|
egy | egy | egy | 0 | 0 | 0 |
2 | 0 | 0 | egy | 0 | 0 |
3 | 0 | 0 | 0 | egy | egy |
négy | egy | egy | egy | 0 | 0 |
5 | 0 | egy | 0 | 0 | 0 |
Agrawal, Imelinsky és Swami [4] eredeti definícióját követve az asszociációs szabályok megtalálásának problémája a következőképpen vetődik fel:
Legyen adott egy objektumnak nevezett bináris attribútum .
Adjuk meg a tranzakciók halmazát, amelyet adatbázisnak nevezünk .
Minden tranzakció egyedi tranzakcióazonosítóval (számmal) rendelkezik, és a következőtől származó objektumok egy részhalmazából áll .
A szabályt az űrlap következményeként határozzuk meg :
, hol .
Agrawal, Imelinsky, Swami [4] cikkében a szabály csak egy halmaz és egyetlen objektum között van meghatározva .
Bármely szabály két különböző objektumkészletből áll, más néven objektumkészletekből és , ahol az első operandus vagy a bal oldal , és a második operandus vagy jobb oldal .
A koncepció illusztrálására használjunk egy kis példát a szupermarket területéről. Az I objektumok halmaza tej, kenyér, vaj, sör, pelenka, a fenti táblázatban pedig egy objektumokat tartalmazó kis adatbázis látható, amelyben az 1-es érték az objektum jelenlétét jelenti a megfelelő tranzakcióban, a 0 pedig a hiányát. az ügylet tárgyáról.
Példa egy szupermarketre vonatkozó szabályra: {vaj, kenyér} => {tej}, ami azt jelenti, hogy ha vajat és kenyeret vásárolnak, a vásárló tejet is vásárol.
Megjegyzés: Ez a példa rendkívül kicsi. A gyakorlati alkalmazásokban egy szabályt néhány százezer tranzakcióban kell teljesíteni, mielőtt statisztikailag szignifikánsnak minősül, és az adatbázisok gyakran több ezer vagy millió tranzakciót tartalmaznak.
Annak érdekében, hogy az összes lehetséges szabály közül kiválaszthassunk egy érdekes szabályt, a jelentőség és értelmesség különböző mértékeire vonatkozó korlátozásokat alkalmazunk. A legismertebb korlátozások a támogatás és a bizalom minimális küszöbe.
Legyen objektumok halmaza, egy asszociációs szabály, és legyen az adott adatbázis tranzakcióinak halmaza.
A támogatás annak mértéke, hogy milyen gyakran található objektumkészlet az adatbázisban.
A készlet támogatása a -hoz képest: a készletet tartalmazó adatbázisban lévő tranzakciók számának az összes tranzakcióhoz viszonyított aránya.
Példánkban az X={sör, pelenkák} adatkészlet támogatja, mert az összes tranzakció 20%-ában megtalálható (5 tranzakcióból 1). A függvényargumentum előfeltételek halmaza, ezért a bővülés során korlátozóbbá válik (szemben a befogadóbbval) [5] .
A bizalom annak mértéke, hogy egy szabály milyen gyakran igaz.
A szabálynak egy tranzakcióhalmazhoz viszonyított bizalmi értéke a halmazt és készletet egyaránt tartalmazó tranzakciók számának aránya a készletet tartalmazó tranzakciók számához viszonyítva .
A bizalom meghatározása a következő:
Például a {vaj, kenyér} => {tej} szabálynak adatbázis-megbízhatósága van, ami azt jelenti, hogy a vajjal és kenyérrel kapcsolatos tranzakciók 100%-ára igaz a szabály (az esetek 100%-ában vaj és kenyér vásárlásakor tej is vásárolt ).
Jegyezze meg, mit jelent X-ben és Y-ben lévő objektumok támogatása. Ez kissé zavaró, mert általában az események valószínűségében gondolkodunk , nem pedig objektumok halmazában. Valószínűségként átírhatjuk , hogy hol és melyek azok az események, amelyeket a tranzakció tartalmaz, halmazokat , ill. [6]
A bizalom felfogható a feltételes valószínűség becsléseként, a szabály jobb oldalának megtalálásának valószínűsége a tranzakciókban, tekintettel arra, hogy a tranzakciók tartalmazzák a szabály bal oldalát [5] [7] .
A lift szabály meghatározása a következő:
vagy a megfigyelt támogatás és az esemény várható értékének aránya, ha X és Y függetlenek . Például a {tej, kenyér} => {vaj} szabálynak van liftje .
Ha a szabály 1-es lifttel rendelkezik, ez azt jelenti, hogy a bal oldali esemény független a jobb oldali eseménytől. Ha két esemény független, akkor a két eseményből nem lehet szabályt levonni.
Ha az emelkedés > 1, ez tudatja velünk, hogy az események milyen mértékben kapcsolódnak egymáshoz, és potenciálisan hasznossá teszi ezeket a szabályokat az eredmény előrejelzéséhez a jövőbeli adatkészletekben.
Ha az emelés < 1, az azt jelenti, hogy az objektumok felcserélik egymást. Ez azt jelenti, hogy egy objektum jelenléte negatív hatással van egy másik objektum jelenlétére, és fordítva.
Az emelés értéke figyelembe veszi mind a szabály megbízhatóságát, mind az általános adatokat [5] .
A szabály bizonyosságát a következőképpen határozzuk meg .
Például a {tej, kenyér} => {vaj} szabálynak van bizonyossága , és úgy értelmezhető, mint annak a várható gyakoriságának az aránya, amikor X előfordul Y nélkül (más szóval annak a gyakoriságnak, amelyet a szabály rosszul jósol), ha X és Y független, és a megfigyelt téves előrejelzések aránya. Ebben a példában az 1,2-es megbízhatósági érték azt jelzi, hogy a {tej, kenyér} => {vaj} szabály 20%-kal gyakrabban (1,2-szer gyakrabban) hibás lesz, ha az X és Y közötti összefüggés tiszta véletlen volt.
A társítási szabályoknak általában meg kell felelniük a felhasználó által meghatározott minimális támogatásnak és a felhasználó által meghatározott minimális bizalomnak. Az asszociációs szabályok létrehozása általában két lépésre oszlik:
A második lépés egyszerű és világos, míg az első lépés több figyelmet igényel.
Az összes gyakori halmaz megtalálása az adatbázisban nehéz, mert az összes lehetséges halmazt (objektumkombinációt) meg kell találni. A lehetséges halmazok halmaza logikai érték , és mérete van (kivéve az üres halmazt , amely nem érvényes halmaz). Bár a logikai mérete exponenciálisan növekszik a -ben lévő objektumok számával , a hatékony keresés lehetséges a top-down support closure tulajdonság [4] (más néven antimonotonitás [8] ) segítségével, amely biztosítja, hogy egy gyakran előforduló halmaz esetén az összes részhalmazai is gyakran előfordulnak, ezért nem lehetnek ritka részhalmazai egy gyakran előforduló halmaznak. Ezzel a tulajdonsággal a hatékony algoritmusok (pl. Apriori [9] és Eclat [10] ) megtalálják az összes gyakran előforduló halmazt.
Az asszociációs szabály koncepciója Agrawal, Imelinsky, Swamy [3] 1993-as cikkével vált népszerűvé , amely a Google Scholar szerint 2015 augusztusára több mint 18 000 hivatkozást tartalmazott, és az egyik legtöbbet idézett cikk az adatbányászat területén ( minták keresése adatbázisokban). adatok). A ma „társítási szabályoknak” nevezettet azonban már egy 1966-os tanulmányban [11] vezették be a GUHA rendszerről, egy általános adatelemzési módszerről, amelyet Piotr Gajek és munkatársai fejlesztettek ki [12] .
1989 elején (körülbelül) az összes asszociációs szabály kereséséhez szükséges minimális támogatás és bizalom megkeresésére a Feature Based Modeling rendszert használták , amely minden olyan szabályt megtalál, amelyek értékei nagyobbak , mint a felhasználó által megadott határok [ 13] .
A bizalom mellett a szabályok egyéb érdekességeit is javasolták. Néhány népszerű intézkedés:
Tan, Kumar és Srivasthana [19] , valamint Hasler [6] számos más mérést is bemutatott és összehasonlított . Az olyan technikák megtalálása, amelyek modellezhetik, amit a felhasználó tud (és ezt az érdeklődés mértékeként használják), jelenleg egy aktív kutatási irányzat, amelyet "szubjektív érdeklődésnek" neveznek.
Az asszociáció-észlelés standard megközelítésének egyik korlátja, hogy amikor nagyszámú lehetséges asszociáció között keresünk egy társítható objektumkészletet, nagy a kockázata annak, hogy nagyszámú véletlenszerű asszociációt találunk. Ezek olyan objektumok gyűjteményei, amelyek nem várt gyakorisággal jelennek meg az adatokban, de pusztán véletlenül. Tegyük fel például, hogy egy 10 000 objektumból álló halmazt nézünk, és keresünk egy szabályt, amely két objektumot tartalmaz a bal oldalon és egy objektumot a jobb oldalon. Körülbelül 1 000 000 000 000 ilyen szabály létezik. Ha 0,05-ös szintű statisztikai függetlenségi tesztet alkalmazunk , ez azt jelenti, hogy összefüggés hiányában csak 5% az esély a szabály elfogadására. Ha feltételezzük, hogy nincsenek asszociációk, akkor is 50 000 000 000 szabályt kell találnunk. A statisztikailag megalapozott asszociációdetektálás [20] [21] szabályozza ezt a kockázatot, a legtöbb esetben csökkentve annak kockázatát, hogy véletlenszerű asszociációt találjanak egy felhasználó által meghatározott szignifikanciaszinthez .
Számos algoritmust javasoltak asszociációs szabályok generálására.
Néhány algoritmus jól ismert, az Apriori , az Eclat és az FP-Growth, de ezek csak a munka felét végzik el, mert úgy tervezték, hogy megtalálják a gyakran előforduló objektumkészleteket. Még egy lépést kell tenni, miután a gyakran előforduló halmazokat megtaláltuk az adatbázisban.
Az Apriori algoritmus [9] szélességi keresési stratégiát használ az objektumok megszámlálására, és egy jelöltgeneráló függvényt használ, amely a felülről lefelé irányuló támogatási zárás tulajdonságon alapul.
Az Eclat [10] algoritmus (vagy ECLAT, az Equivalence Class Transformation szóból) egy mélység-első keresési algoritmus , amely meghatározott metszésponton alapul. Az algoritmus soros és párhuzamos végrehajtásra is alkalmas lokális javítási tulajdonságokkal [22] [23] .
Az FP algoritmust a gyakran előforduló minták azonosítására tervezték [24] .
Az első lépésben az algoritmus megszámolja az objektumok (attribútum-érték párok) előfordulását a halmazokban, és eltárolja azokat a "fejléctáblázatban". A második lépésben az algoritmus példányok beszúrásával építi fel az FP fa szerkezetét. Az objektumokat minden példányban csökkenő sorrendbe kell rendezni a halmazban való előfordulásuk gyakorisága szerint, hogy a fa gyorsan feldolgozható legyen. A minimális küszöbértéket el nem érő objektumok minden esetben el lesznek vetve. Ha sok példány megosztja a leggyakrabban előforduló objektumokat, az FP-fa magas szintű tömörítést biztosít a fa gyökeréhez közel.
A főhalmaz LOB növekedési tömörítésének ezen verziójának rekurzív feldolgozása közvetlenül hozzá van rendelve, ahelyett, hogy jelölteket generálna, majd a teljes bázissal ellenőrzi. A növekedés a fejléctáblázat aljáról indul az összes olyan példány megtalálásával, amely megfelel az adott feltételeknek. Létrejön egy új fa az eredeti fából származó számokkal, amelyek az attribútumtól függő példányok halmazának felelnek meg, és minden csomópont megkapja gyermekei számlálásának összegét. A rekurzív növekedés leáll, ha már nem marad olyan objektum, amely eleget tesz a minimális támogatási küszöbértéknek, és folytatódik a munka az eredeti FP-fa fejléceinek fennmaradó elemein.
Amikor a rekurzív folyamat befejeződött, a rendszer megtalálja az összes minimális lefedettségű objektumkészletet, és megkezdődik az asszociációs szabály létrehozása [25] .
Az AprioriDP [26] dinamikus programozást használ a gyakran előforduló objektumkészletek elemzésére. A működési elv a jelöltgenerálás kiküszöbölése, mint egy FP fában, de az algoritmus nem egy fában, hanem egy meghatározott struktúrában jegyzi meg a támogatásszámlálókat.
Kontextus alapú asszociációs szabály keresési algoritmusA CBPNARM egy 2013-ban kifejlesztett algoritmus a kapcsolódó szabályok kontextuson alapuló felfedezésére. Az algoritmus egy kontextusváltozót használ, amely alapján az objektumkészlet támogatási értéke megváltozik, és e szabály alapján átkerül a szabálykészletbe.
Csomópontok halmazán alapuló algoritmusokA FIN [27] , a PrePost [28] és a PPV [29] három csomópontkészleteken alapuló algoritmus. Az FP-fa kódolásában található csomópontokat használják az objektumok halmazainak ábrázolására, és támogatják a mélységi keresési stratégiát a gyakran előforduló objektumkészletek felderítésére a csomópontkészletek "keresztezésével".
A GUHA metódus ASSOC eljárásaA GUHA egy általános adatelemzési technika, amelynek elméleti alapjai vannak [30] .
Az ASSOC eljárás [31] egy GUHA-metódus, amely általános asszociációs szabályokat keres gyors bitlánc- műveletek segítségével . Az ezzel a módszerrel feltárt asszociációs szabályok általánosabbak, mint az Apriori módszerrel kapottak, például az "objektumok" konjunkcióval és diszjunkcióval is összekapcsolhatók, és a szabály bal és jobb oldala közötti kapcsolat nincs korlátozva. a minimális támogatási és bizalmi értékek beállításához, mint az Apriori-módszerben. – az érdeklődés mértékének tetszőleges kombinációja használható.
Keresés az OPUS-banAz OPUS egy hatékony algoritmus a szabályfeltáráshoz, amely sok alternatívától eltérően nem igényel sem monotonitási, sem antimonotonitási megkötéseket, például a támogatási minimumot [32] . Az OPUS kereső a népszerű Magnum Opus egyesületi keresőmotor alapvető technológiája.
Van egy híres történet az asszociációs szabályok felfedezéséről, ez a „sör és pelenka” története. Valószínűleg egy szupermarketben a vásárlási szokások felülvizsgálata során kiderült, hogy a pelenkát vásárló vásárlók (valószínűleg fiatalok) gyakran sört is vásárolnak. Ez a novella úgy vált népszerűvé, mint egy példa arra, hogyan lehet váratlan asszociációs szabályokat találni a mindennapi adatokban. Sokféle vélemény létezik arról, hogy mennyire igaz a történet [33] . Daniel Powers mondta: [33]
1992-ben Thomas Blishock, a Teradata Corporation kiskereskedelmi tanácsadó csoportjának menedzsere 1,2 millió "piaci kosárról" (vagyis egyetlen vásárló által vásárolt vásárlásról) készített elemzést körülbelül 25 Osco drogériából. Adatbázis-lekérdezéseket fejlesztettek ki a kosarak tulajdonságainak feltárására. Az elemzés azt mutatta, hogy a 17:00 és 19:00 közötti időszakban a vásárlók sört és pelenkát vásárolnak. Az Osco gyógyszertárvezetői NEM helyezték el a termékeket közelebb egymáshoz a polcokon, hogy megszerezzék a sör és a pelenka kötését.
A Multi-Relation Association Rules ( MRAR ) olyan társítási szabályok, amelyekben minden objektumhoz több hivatkozás is tartozhat . Ezek a kapcsolatok közvetett kapcsolatokat mutatnak az entitások között. Vegyük fontolóra a következő többtársulási szabályt, amelyben az első tag három olyan kapcsolatból áll, ahol ben él , közel és nedves : "Két, aki párás klímájú város közelében él, és 20 év alatti => egészségi állapota jó ." Az ilyen asszociációs szabályok származtathatók RDBMS adatokból vagy internetes szemantikai adatokból [34] .
A kontextus alapú társítási szabályok egyfajta asszociációs szabályok. Azt állítják, hogy ezek a szabályok pontosabbak az asszociációs szabályok elemzésében, és egy látens változó, az úgynevezett kontextusváltozó figyelembevételével működnek, amely megváltoztatja az asszociációs szabályok végső halmazát a kontextusváltozók értékétől függően. Például a bevásárlókosár-orientáció a piaci kosárelemzésben furcsa eredményeket tükröz a hónap elején. Ennek oka lehet a kontextus, például a bérszámfejtés a hónap elején [35] .
A kontraszthalmazos tanulás azegyik fajtája. A kontraszttanulásolyan szabályokat használ, amelyek szignifikánsan különböznek az alhalmazok közötti eloszlásukban [36] [37] .
A súlyozott osztályos tanulás az asszociatív tanulás egy másik fajtája , amelyben súlyok rendelhetők az osztályokhoz, hogy az adatbányászati eredményekkel kapcsolatos konkrét kérdésekre összpontosítsanak.
A magasrendű mintázatok felfedezése megkönnyíti a valós világból származó összetett adatokban rejlő magasrendű minták vagy asszociációs események kinyerését [ 38] .
A K-optimális mintázat észlelése alternatívát kínál a standard asszociációs szabály tanulási megközelítéshez, ahol minden mintának gyakran meg kell jelennie az adatokban.
Az Approximate Frequent Itemset bányászat a Frequent Itemset bányászat gyengébb változata, amely lehetővé teszi, hogy egyes sorban lévő objektumok 0-val egyenlőek legyenek [39] .
Generalized Association Riles – hierarchikus besorolás
Kvantitatív asszociációs szabályok – kategorikus és mennyiségi adatok [ 40] [41] .
Időközi adattársítási szabályok – intervallumokra bontva tartalmazzák az adatokat, például az életkort 5 év intervallummal .
A szekvenciaminta bányászata olyan részszekvenciákat amelyek több mint minsup szekvenciára jellemzőek az adatbázisban, ahol a minsup értéket a felhasználó állítja be. A sorozat a tranzakciók rendezett listája [42] .
A Subspace Clustering , a nagydimenziós adatfürtözés egy speciális típusa, sok esetben szintén a felülről lefelé záródó tulajdonságon alapul adott klasztermodelleknél [43] .
A Warmr -t az ACE adatelemző csomag részeként szállítjuk. A rendszer lehetővé teszi az asszociációs szabályok tanulását elsőrendű relációs szabályokhoz [44] .
Deng ZH, Wang Z. Új gyors függőleges módszer a gyakori minták bányászatára // International Journal of Computational Intelligence Systems. - 2010. - 3. évf. , szám. 6 .
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|