Egyesületi szabályzat képzés

Az asszociációs szabály tanulása vagy az asszociációs szabály keresése egy szabályalapú módszer a tanuló gépek számára, hogy felfedezzék a változók közötti érdekes kapcsolatokat egy adatbázisban . Javasolunk egy módszert az adatbázisban található erős szabályok megállapítására, néhány érdekességi mérőszám segítségével [1] . Ez a szabályalapú megközelítés új szabályokat is generál, amint több adat kerül elemzésre. A végső cél – kellően nagy adathalmaz mellett – az, hogy segítse a gépet utánozni az emberi jellemzők kinyerését , és megteremtse azt a képességet, hogy új, nem minősített adatokból absztrakt asszociációkat találjon [2] .

A szigorú szabályok koncepciója alapján Rakesh Agrawal, Tomasz Imelinsky és Arun Swami [3] asszociációs szabályokat terjesztett elő a nagy tranzakciók során a termékek közötti minták kimutatására a szupermarketek POS -rendszerei által rögzített adatok tekintetében. Például a szupermarketek értékesítési adataiban található {hagyma, burgonya} => { hamburger } szabály azt jelentheti, hogy ha egy vásárló együtt vásárol hagymát és burgonyát, akkor nagyobb valószínűséggel vásárol hamburgert is. Ez a fajta információ felhasználható marketingakciókkal kapcsolatos döntések alapjául, mint például a promóciós árképzés vagy a termékelhelyezés .

A fenti piaci kosárelemzési példán kívül az asszociációs szabályokat ma már sok más területen is használják, beleértve a webbányászatot , a behatolásészlelést , a folyamatos gyártást a . A szekvenciális mintaérzékeléstől ellentétben az asszociációs szabályok tanulása általában nem veszi figyelembe az elemek sorrendjét egy tranzakción belül vagy a tranzakciók között.

Definíció

Példa adatbázis 5 tranzakcióval és 5 tétellel

Tranzakció azonosítója	tej	kenyér	olaj	sör	pelenkák
egy	egy	egy	0	0	0
2	0	0	egy	0	0
3	0	0	0	egy	egy
négy	egy	egy	egy	0	0
5	0	egy	0	0	0

Agrawal, Imelinsky és Swami [4] eredeti definícióját követve az asszociációs szabályok megtalálásának problémája a következőképpen vetődik fel:

Legyen adott egy objektumnak nevezett bináris attribútum . $I=\{i_{1},i_{2},\ldots ,i_{n}}\}$ $n$

Adjuk meg a tranzakciók halmazát, amelyet adatbázisnak nevezünk . $D=\{t_{1},t_{2},\ldots ,t_{m}}\}$

Minden tranzakció egyedi tranzakcióazonosítóval (számmal) rendelkezik, és a következőtől származó objektumok egy részhalmazából áll . $D$ $én$

A szabályt az űrlap következményeként határozzuk meg :

$X\Rightarrow Y$ , hol . $X,Y\subseteq I$

Agrawal, Imelinsky, Swami [4] cikkében a szabály csak egy halmaz és egyetlen objektum között van meghatározva . ${\displaystyle X\Rightarrow i_{j))$ $i_{j}\in I$

Bármely szabály két különböző objektumkészletből áll, más néven objektumkészletekből és , ahol az első operandus vagy a bal oldal , és a második operandus vagy jobb oldal . $x$ $Y$ $x$ $Y$

A koncepció illusztrálására használjunk egy kis példát a szupermarket területéről. Az I objektumok halmaza tej, kenyér, vaj, sör, pelenka, a fenti táblázatban pedig egy objektumokat tartalmazó kis adatbázis látható, amelyben az 1-es érték az objektum jelenlétét jelenti a megfelelő tranzakcióban, a 0 pedig a hiányát. az ügylet tárgyáról.

Példa egy szupermarketre vonatkozó szabályra: {vaj, kenyér} => {tej}, ami azt jelenti, hogy ha vajat és kenyeret vásárolnak, a vásárló tejet is vásárol.

Megjegyzés: Ez a példa rendkívül kicsi. A gyakorlati alkalmazásokban egy szabályt néhány százezer tranzakcióban kell teljesíteni, mielőtt statisztikailag szignifikánsnak minősül, és az adatbázisok gyakran több ezer vagy millió tranzakciót tartalmaznak.

Hasznos fogalmak

Annak érdekében, hogy az összes lehetséges szabály közül kiválaszthassunk egy érdekes szabályt, a jelentőség és értelmesség különböző mértékeire vonatkozó korlátozásokat alkalmazunk. A legismertebb korlátozások a támogatás és a bizalom minimális küszöbe.

Legyen objektumok halmaza, egy asszociációs szabály, és legyen az adott adatbázis tranzakcióinak halmaza. $x$ $X\Rightarrow Y$ $T$

Támogatás

A támogatás annak mértéke, hogy milyen gyakran található objektumkészlet az adatbázisban.

A készlet támogatása a -hoz képest: a készletet tartalmazó adatbázisban lévő tranzakciók számának az összes tranzakcióhoz viszonyított aránya. $x$ $T$ $t$ $x$

\mathrm {supp} (X)={\frac {|\{t\in T;X\subseteq t\}|}{|T|}}

Példánkban az X={sör, pelenkák} adatkészlet támogatja, mert az összes tranzakció 20%-ában megtalálható (5 tranzakcióból 1). A függvényargumentum előfeltételek halmaza, ezért a bővülés során korlátozóbbá válik (szemben a befogadóbbval) [5] . $1/5=0{,}2$ $\mathrm {supp} ()$

Bízz

A bizalom annak mértéke, hogy egy szabály milyen gyakran igaz.

A szabálynak egy tranzakcióhalmazhoz viszonyított bizalmi értéke a halmazt és készletet egyaránt tartalmazó tranzakciók számának aránya a készletet tartalmazó tranzakciók számához viszonyítva . $X\Rightarrow Y$ $T$ $x$ $Y$ $x$

A bizalom meghatározása a következő:

$\mathrm {conf} (X\Rightarrow Y)=\mathrm {supp} (X\cup Y)/\mathrm {supp} (X)$

Például a {vaj, kenyér} => {tej} szabálynak adatbázis-megbízhatósága van, ami azt jelenti, hogy a vajjal és kenyérrel kapcsolatos tranzakciók 100%-ára igaz a szabály (az esetek 100%-ában vaj és kenyér vásárlásakor tej is vásárolt ). $0{,}2/0{,}2=1{,}0$

Jegyezze meg, mit jelent X-ben és Y-ben lévő objektumok támogatása. Ez kissé zavaró, mert általában az események valószínűségében gondolkodunk , nem pedig objektumok halmazában. Valószínűségként átírhatjuk , hogy hol és melyek azok az események, amelyeket a tranzakció tartalmaz, halmazokat , ill. [6] $\mathrm {supp} (X\cup Y)$ $\mathrm {supp} (X\cup Y)$ $P(E_{X}\cap E_{Y})$ $E_{X}$ $E_{Y}$ $x$ $Y$

A bizalom felfogható a feltételes valószínűség becsléseként, a szabály jobb oldalának megtalálásának valószínűsége a tranzakciókban, tekintettel arra, hogy a tranzakciók tartalmazzák a szabály bal oldalát [5] [7] . $P(E_{Y}|E_{X})$

Lift

A lift szabály meghatározása a következő:

$\mathrm {lift} (X\Rightarrow Y)={\frac {\mathrm {supp} (X\cup Y)}{\mathrm {supp} (X)\times \mathrm {supp} (Y) }}$

vagy a megfigyelt támogatás és az esemény várható értékének aránya, ha X és Y függetlenek . Például a {tej, kenyér} => {vaj} szabálynak van liftje . ${\frac {0{,}2}{0{,}4\times 0{,}4}}=1{,}25$

Ha a szabály 1-es lifttel rendelkezik, ez azt jelenti, hogy a bal oldali esemény független a jobb oldali eseménytől. Ha két esemény független, akkor a két eseményből nem lehet szabályt levonni.

Ha az emelkedés > 1, ez tudatja velünk, hogy az események milyen mértékben kapcsolódnak egymáshoz, és potenciálisan hasznossá teszi ezeket a szabályokat az eredmény előrejelzéséhez a jövőbeli adatkészletekben.

Ha az emelés < 1, az azt jelenti, hogy az objektumok felcserélik egymást. Ez azt jelenti, hogy egy objektum jelenléte negatív hatással van egy másik objektum jelenlétére, és fordítva.

Az emelés értéke figyelembe veszi mind a szabály megbízhatóságát, mind az általános adatokat [5] .

Bizalom

A szabály bizonyosságát a következőképpen határozzuk meg . $\mathrm {conv} (X\Rightarrow Y)={\frac {1-\mathrm {supp} (Y)}{1-\mathrm {conf} (X\Rightarrow Y)))$

Például a {tej, kenyér} => {vaj} szabálynak van bizonyossága , és úgy értelmezhető, mint annak a várható gyakoriságának az aránya, amikor X előfordul Y nélkül (más szóval annak a gyakoriságnak, amelyet a szabály rosszul jósol), ha X és Y független, és a megfigyelt téves előrejelzések aránya. Ebben a példában az 1,2-es megbízhatósági érték azt jelzi, hogy a {tej, kenyér} => {vaj} szabály 20%-kal gyakrabban (1,2-szer gyakrabban) hibás lesz, ha az X és Y közötti összefüggés tiszta véletlen volt. ${\frac {1-0{,}4}{1-0{,}5}}=1{,}2$

Folyamat

A társítási szabályoknak általában meg kell felelniük a felhasználó által meghatározott minimális támogatásnak és a felhasználó által meghatározott minimális bizalomnak. Az asszociációs szabályok létrehozása általában két lépésre oszlik:

A minimális támogatási küszöb az összes gyakori szolgáltatáskészlet megkeresésére szolgál az adatbázisban.
Ezekre a halmazokra egy minimális megbízhatósági megszorítás vonatkozik a szabály kialakításához.

A második lépés egyszerű és világos, míg az első lépés több figyelmet igényel.

Az összes gyakori halmaz megtalálása az adatbázisban nehéz, mert az összes lehetséges halmazt (objektumkombinációt) meg kell találni. A lehetséges halmazok halmaza logikai érték , és mérete van (kivéve az üres halmazt , amely nem érvényes halmaz). Bár a logikai mérete exponenciálisan növekszik a -ben lévő objektumok számával , a hatékony keresés lehetséges a top-down support closure tulajdonság [4] (más néven antimonotonitás [8] ) segítségével, amely biztosítja, hogy egy gyakran előforduló halmaz esetén az összes részhalmazai is gyakran előfordulnak, ezért nem lehetnek ritka részhalmazai egy gyakran előforduló halmaznak. Ezzel a tulajdonsággal a hatékony algoritmusok (pl. Apriori [9] és Eclat [10] ) megtalálják az összes gyakran előforduló halmazt. $én$ $2^{n}-1$ $n$ $én$

Történelem

Az asszociációs szabály koncepciója Agrawal, Imelinsky, Swamy [3] 1993-as cikkével vált népszerűvé , amely a Google Scholar szerint 2015 augusztusára több mint 18 000 hivatkozást tartalmazott, és az egyik legtöbbet idézett cikk az adatbányászat területén ( minták keresése adatbázisokban). adatok). A ma „társítási szabályoknak” nevezettet azonban már egy 1966-os tanulmányban [11] vezették be a GUHA rendszerről, egy általános adatelemzési módszerről, amelyet Piotr Gajek és munkatársai fejlesztettek ki [12] .

1989 elején (körülbelül) az összes asszociációs szabály kereséséhez szükséges minimális támogatás és bizalom megkeresésére a Feature Based Modeling rendszert használták , amely minden olyan szabályt megtalál, amelyek értékei nagyobbak , mint a felhasználó által megadott határok [ 13] . $\mathrm {supp} (X)$ $\mathrm {conf} (X\Rightarrow Y)$

Az érdekesség alternatív mértékei

A bizalom mellett a szabályok egyéb érdekességeit is javasolták. Néhány népszerű intézkedés:

Teljes bizalom ( eng. All-bizalom ) [14]
Kollektív erő [ 15 ]
Elítélés [ 16 ] _
Tőkeáttétel [ 17 ] _
Lift (eredeti nevén kamat) [18]

Tan, Kumar és Srivasthana [19] , valamint Hasler [6] számos más mérést is bemutatott és összehasonlított . Az olyan technikák megtalálása, amelyek modellezhetik, amit a felhasználó tud (és ezt az érdeklődés mértékeként használják), jelenleg egy aktív kutatási irányzat, amelyet "szubjektív érdeklődésnek" neveznek.

Statisztikailag megalapozott asszociációk

Az asszociáció-észlelés standard megközelítésének egyik korlátja, hogy amikor nagyszámú lehetséges asszociáció között keresünk egy társítható objektumkészletet, nagy a kockázata annak, hogy nagyszámú véletlenszerű asszociációt találunk. Ezek olyan objektumok gyűjteményei, amelyek nem várt gyakorisággal jelennek meg az adatokban, de pusztán véletlenül. Tegyük fel például, hogy egy 10 000 objektumból álló halmazt nézünk, és keresünk egy szabályt, amely két objektumot tartalmaz a bal oldalon és egy objektumot a jobb oldalon. Körülbelül 1 000 000 000 000 ilyen szabály létezik. Ha 0,05-ös szintű statisztikai függetlenségi tesztet alkalmazunk , ez azt jelenti, hogy összefüggés hiányában csak 5% az esély a szabály elfogadására. Ha feltételezzük, hogy nincsenek asszociációk, akkor is 50 000 000 000 szabályt kell találnunk. A statisztikailag megalapozott asszociációdetektálás [20] [21] szabályozza ezt a kockázatot, a legtöbb esetben csökkentve annak kockázatát, hogy véletlenszerű asszociációt találjanak egy felhasználó által meghatározott szignifikanciaszinthez .

Algoritmusok

Számos algoritmust javasoltak asszociációs szabályok generálására.

Néhány algoritmus jól ismert, az Apriori , az Eclat és az FP-Growth, de ezek csak a munka felét végzik el, mert úgy tervezték, hogy megtalálják a gyakran előforduló objektumkészleteket. Még egy lépést kell tenni, miután a gyakran előforduló halmazokat megtaláltuk az adatbázisban.

Apriori algoritmus

Az Apriori algoritmus [9] szélességi keresési stratégiát használ az objektumok megszámlálására, és egy jelöltgeneráló függvényt használ, amely a felülről lefelé irányuló támogatási zárás tulajdonságon alapul.

Az Eclat algoritmus

Az Eclat [10] algoritmus (vagy ECLAT, az Equivalence Class Transformation szóból) egy mélység-első keresési algoritmus , amely meghatározott metszésponton alapul. Az algoritmus soros és párhuzamos végrehajtásra is alkalmas lokális javítási tulajdonságokkal [22] [23] .

FP-növekedési algoritmus

Az FP algoritmust a gyakran előforduló minták azonosítására tervezték [24] .

Az első lépésben az algoritmus megszámolja az objektumok (attribútum-érték párok) előfordulását a halmazokban, és eltárolja azokat a "fejléctáblázatban". A második lépésben az algoritmus példányok beszúrásával építi fel az FP fa szerkezetét. Az objektumokat minden példányban csökkenő sorrendbe kell rendezni a halmazban való előfordulásuk gyakorisága szerint, hogy a fa gyorsan feldolgozható legyen. A minimális küszöbértéket el nem érő objektumok minden esetben el lesznek vetve. Ha sok példány megosztja a leggyakrabban előforduló objektumokat, az FP-fa magas szintű tömörítést biztosít a fa gyökeréhez közel.

A főhalmaz LOB növekedési tömörítésének ezen verziójának rekurzív feldolgozása közvetlenül hozzá van rendelve, ahelyett, hogy jelölteket generálna, majd a teljes bázissal ellenőrzi. A növekedés a fejléctáblázat aljáról indul az összes olyan példány megtalálásával, amely megfelel az adott feltételeknek. Létrejön egy új fa az eredeti fából származó számokkal, amelyek az attribútumtól függő példányok halmazának felelnek meg, és minden csomópont megkapja gyermekei számlálásának összegét. A rekurzív növekedés leáll, ha már nem marad olyan objektum, amely eleget tesz a minimális támogatási küszöbértéknek, és folytatódik a munka az eredeti FP-fa fejléceinek fennmaradó elemein.

Amikor a rekurzív folyamat befejeződött, a rendszer megtalálja az összes minimális lefedettségű objektumkészletet, és megkezdődik az asszociációs szabály létrehozása [25] .

Egyéb

AprioriDP

Az AprioriDP [26] dinamikus programozást használ a gyakran előforduló objektumkészletek elemzésére. A működési elv a jelöltgenerálás kiküszöbölése, mint egy FP fában, de az algoritmus nem egy fában, hanem egy meghatározott struktúrában jegyzi meg a támogatásszámlálókat.

Kontextus alapú asszociációs szabály keresési algoritmus

A CBPNARM egy 2013-ban kifejlesztett algoritmus a kapcsolódó szabályok kontextuson alapuló felfedezésére. Az algoritmus egy kontextusváltozót használ, amely alapján az objektumkészlet támogatási értéke megváltozik, és e szabály alapján átkerül a szabálykészletbe.

Csomópontok halmazán alapuló algoritmusok

A FIN [27] , a PrePost [28] és a PPV [29] három csomópontkészleteken alapuló algoritmus. Az FP-fa kódolásában található csomópontokat használják az objektumok halmazainak ábrázolására, és támogatják a mélységi keresési stratégiát a gyakran előforduló objektumkészletek felderítésére a csomópontkészletek "keresztezésével".

A GUHA metódus ASSOC eljárása

A GUHA egy általános adatelemzési technika, amelynek elméleti alapjai vannak [30] .

Az ASSOC eljárás [31] egy GUHA-metódus, amely általános asszociációs szabályokat keres gyors bitlánc- műveletek segítségével . Az ezzel a módszerrel feltárt asszociációs szabályok általánosabbak, mint az Apriori módszerrel kapottak, például az "objektumok" konjunkcióval és diszjunkcióval is összekapcsolhatók, és a szabály bal és jobb oldala közötti kapcsolat nincs korlátozva. a minimális támogatási és bizalmi értékek beállításához, mint az Apriori-módszerben. – az érdeklődés mértékének tetszőleges kombinációja használható.

Keresés az OPUS-ban

Az OPUS egy hatékony algoritmus a szabályfeltáráshoz, amely sok alternatívától eltérően nem igényel sem monotonitási, sem antimonotonitási megkötéseket, például a támogatási minimumot [32] . Az OPUS kereső a népszerű Magnum Opus egyesületi keresőmotor alapvető technológiája.

Legendák

Van egy híres történet az asszociációs szabályok felfedezéséről, ez a „sör és pelenka” története. Valószínűleg egy szupermarketben a vásárlási szokások felülvizsgálata során kiderült, hogy a pelenkát vásárló vásárlók (valószínűleg fiatalok) gyakran sört is vásárolnak. Ez a novella úgy vált népszerűvé, mint egy példa arra, hogyan lehet váratlan asszociációs szabályokat találni a mindennapi adatokban. Sokféle vélemény létezik arról, hogy mennyire igaz a történet [33] . Daniel Powers mondta: [33]

1992-ben Thomas Blishock, a Teradata Corporation kiskereskedelmi tanácsadó csoportjának menedzsere 1,2 millió "piaci kosárról" (vagyis egyetlen vásárló által vásárolt vásárlásról) készített elemzést körülbelül 25 Osco drogériából. Adatbázis-lekérdezéseket fejlesztettek ki a kosarak tulajdonságainak feltárására. Az elemzés azt mutatta, hogy a 17:00 és 19:00 közötti időszakban a vásárlók sört és pelenkát vásárolnak. Az Osco gyógyszertárvezetői NEM helyezték el a termékeket közelebb egymáshoz a polcokon, hogy megszerezzék a sör és a pelenka kötését.

Más típusú társítási szabályok felfedezése

A Multi-Relation Association Rules ( MRAR ) olyan társítási szabályok, amelyekben minden objektumhoz több hivatkozás is tartozhat . Ezek a kapcsolatok közvetett kapcsolatokat mutatnak az entitások között. Vegyük fontolóra a következő többtársulási szabályt, amelyben az első tag három olyan kapcsolatból áll, ahol ben él , közel és nedves : "Két, aki párás klímájú város közelében él, és 20 év alatti => egészségi állapota jó ." Az ilyen asszociációs szabályok származtathatók RDBMS adatokból vagy internetes szemantikai adatokból [34] .

A kontextus alapú társítási szabályok egyfajta asszociációs szabályok. Azt állítják, hogy ezek a szabályok pontosabbak az asszociációs szabályok elemzésében, és egy látens változó, az úgynevezett kontextusváltozó figyelembevételével működnek, amely megváltoztatja az asszociációs szabályok végső halmazát a kontextusváltozók értékétől függően. Például a bevásárlókosár-orientáció a piaci kosárelemzésben furcsa eredményeket tükröz a hónap elején. Ennek oka lehet a kontextus, például a bérszámfejtés a hónap elején [35] .

A kontraszthalmazos tanulás azegyik fajtája. A kontraszttanulásolyan szabályokat használ, amelyek szignifikánsan különböznek az alhalmazok közötti eloszlásukban [36] [37] .

A súlyozott osztályos tanulás az asszociatív tanulás egy másik fajtája , amelyben súlyok rendelhetők az osztályokhoz, hogy az adatbányászati eredményekkel kapcsolatos konkrét kérdésekre összpontosítsanak.

A magasrendű mintázatok felfedezése megkönnyíti a valós világból származó összetett adatokban rejlő magasrendű minták vagy asszociációs események kinyerését [ 38] .

A K-optimális mintázat észlelése alternatívát kínál a standard asszociációs szabály tanulási megközelítéshez, ahol minden mintának gyakran meg kell jelennie az adatokban.

Az Approximate Frequent Itemset bányászat a Frequent Itemset bányászat gyengébb változata, amely lehetővé teszi, hogy egyes sorban lévő objektumok 0-val egyenlőek legyenek [39] .

Generalized Association Riles – hierarchikus besorolás

Kvantitatív asszociációs szabályok – kategorikus és mennyiségi adatok [ 40] [41] .

Időközi adattársítási szabályok – intervallumokra bontva tartalmazzák az adatokat, például az életkort 5 év intervallummal .

A szekvenciaminta bányászata olyan részszekvenciákat amelyek több mint minsup szekvenciára jellemzőek az adatbázisban, ahol a minsup értéket a felhasználó állítja be. A sorozat a tranzakciók rendezett listája [42] .

A Subspace Clustering , a nagydimenziós adatfürtözés egy speciális típusa, sok esetben szintén a felülről lefelé záródó tulajdonságon alapul adott klasztermodelleknél [43] .

A Warmr -t az ACE adatelemző csomag részeként szállítjuk. A rendszer lehetővé teszi az asszociációs szabályok tanulását elsőrendű relációs szabályokhoz [44] .

Lásd még

Szekvenciális mintaérzékelés
A tudásreprezentáció termelési modellje
Tanulási osztályozók rendszere
Szabályalapú gépi tanulás

Jegyzetek

↑ Piatetsky-Shapiro, 1991 .
↑ Hogyan működik az egyesületi tanulás? . deepai.org . Letöltve: 2018. november 11. Az eredetiből archiválva : 2019. február 17. (határozatlan)
↑ 1 2 Agrawal, Imielinski, Swami, 1993 , p. 207.
↑ 1 2 3 4 Tan, Steinbach, Kumar, 2005 .
↑ 123 Hahsler , 2005 .
↑ 12 Michael Hahsler (2015). A társulási szabályokhoz általánosan használt kamatmérők valószínűségi összehasonlítása. http://michael.hahsler.net/research/association_rules/measures.html Archiválva : 2018. augusztus 2. a Wayback Machine -nél
↑ Hipp, Güntzer, Nakhaeizadeh, 2000 , p. 58.
↑ Pei, Han, Lakshmanan, 2001 , p. 433-442.
↑ 1 2 Agrawal, Srikant, 1994 , p. 487-499.
↑ 1 2 Zaki, 2000 , p. 372–390.
↑ Hájek, Havel, Chytil, 1966 , p. 293-308.
↑ Hájek, Feglar, Rauch, Coufal, 2004 .
↑ Webb, 1989 , p. 195–205.
↑ Omiecinski, 2003 , p. 57-69.
↑ Aggarwal, Yu, 1998 , p. 18-24.
↑ Brin, Motwani, Ullman, Tsur, 1997 , p. 255-264.
↑ Piatetsky-Shapiro, 1991 , p. 229-248.
↑ Brin, Motwani, Ullman, Tsur, 1997 , p. 265-276.
↑ Tan, Kumar, Srivastava, 2004 , p. 293-313.
↑ Webb, 2007 , p. 1-33.
↑ Gionis, Mannila, Mielikäinen, Tsaparas, 2007 .
↑ Zaki, Parthasarathy, Ogihara, Li, 1997 .
↑ Zaki, Parthasarathy, Ogihara, Li, 1997 , p. 343-373.
↑ HAN, PEI, YIN, MAO, 2000 , p. 1–12.
↑ Witten, Frank, Hall: Adatbányászati gyakorlati gépi tanulási eszközök és technikák, 3. kiadás
↑ Bhalodiya, Patel, Patel, 2013 .
↑ Deng, Lv, 2014 , p. 4505–4512.
↑ Deng, Wang, Jiang, 2012 , p. 2008-2030.
↑ Deng, Wang, 2010 , p. 733-744.
↑ Rauch, 1997 , p. 47-57.
↑ Hájek, Havranek, 1978 .
↑ Webb, 1995 , p. 431-465.
↑ 1 2 DSS News: Vol. 3, sz. 23 . Letöltve: 2018. november 11. Az eredetiből archiválva : 2018. november 6.. (határozatlan)
↑ Ramazani, Saraee, Nematbakhsh, 2014 , p. 133-158.
↑ Shaheen, Shahbaz, Guergachi, 2013 , p. 261-273.
↑ Webb, Butler, Newlands, 2003 .
↑ Menzies, Hu, 2003 , p. 18-25.
↑ Wong és Wang 1997 , p. 877–893.
↑ Liu, Paulsen, Sun, Wang, Nobel, Prins, 2006 .
↑ Angiulli, Ianni, Palopoli, 2003 , p. 217–249.
↑ Salleb-Aouissi, Vrain és Nortet, 2007 , p. 1035–1040.
↑ Zaki, 2001 , p. 31–60.
↑ Zimek, Assent, Vreeken, 2014 , p. 403–423.
↑ King, Srinivasan, Dehaspe, 2001 , p. 173–81.

Irodalom

Gregory Piatetsky-Shapiro. Erős szabályok felfedezése, elemzése és bemutatása // Knowledge Discovery in Databases / Piatetsky-Shapiro, Gregory; és Frawley, William J. - Cambridge, MA.: AAAI/MIT Press, 1991.
Michael Hahsler. Bevezetés az arule-ba – Számítási környezet a bányászati társulási szabályokhoz és gyakori elemkészletekhez // Journal of Statistical Software. – 2005.
Hipp J., Güntzer U., Nakhaeizadeh G. Algorithms for Association rule mining --- általános felmérés és összehasonlítás // ACM SIGKDD Explorations Newsletter. - 2000. - T. 2 . - doi : 10.1145/360402.360421 .
Reza Ramezani, Mohamad Saraee, Mohammad Ali Nematbakhsh. MRAR: Mining Multi-Relation Association Rules // Journal of Computing and Security. - 2014. - T. 1 , sz. 2 .
Agrawal R., Imieliński T., Swami A. Bányászati társítási szabályok nagy adatbázisok elemkészletei között // Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data - SIGMOD '93. - 1993. - ISBN 0897915925 . - doi : 10.1145/170035.170072 .
JIAWEI HAN, JIAN PEI, YIWEN YIN, RUNYING MAO. Gyakori minták bányászata jelölt generáció nélkül // A 2000. évi ACM SIGMOD nemzetközi adatkezelési konferencia előadásai. - 2000. - T. SIGMOD '00 . – S. 1–12 . - doi : 10.1145/342009.335372 .
- JIAWEI HAN, JIAN PEI, YIWEN YIN, RUNYING MAO. Gyakori minták bányászata jelöltgenerálás nélkül // Adatbányászat és tudásfeltárás. - 2004. - Kiadás. 8 . – 53–87 .
Edward R. Omiecinski. Alternatív érdekeltségi intézkedések a bányászati társulások számára adatbázisokban // IEEE Transactions on Knowledge and Data Engineering. - 2003. - Jan / Feb ( 15. évf. , 1. szám ).
Charu C. Aggarwal, Philip S. Yu. Új keretrendszer az elemkészletek generálásához // PODS 98, Symposium on Principles of Database Systems, Seattle, WA, USA, 1998. - New York, NY, Egyesült Államok: ACM, 1998. - P. 18-24.
Sergey Brin, Rajeev Motwani, Jeffrey D. Ullman, Shalom Tsur. Dinamikus elemkészlet-számlálás és implikációs szabályok piaci kosáradatokhoz // SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997). – Tucson, Arizona, USA, 1997.
Petr Hájek, Ivan Havel, Metoděj Chytil. Az automatikus hipotézismeghatározás GUHA módszere // Számítástechnika. - 1966. - Kiadás. 1 .
Petr Hájek, Tomas Feglar, Jan Rauch, David Coufal. A GUHA módszer, adat-előfeldolgozás és bányászat // Adatbányászati alkalmazások adatbázis-támogatás. - Springer, 2004. - ISBN 978-3-540-22479-2 .
Geoffrey Webb. A tanulói modellezés gépi tanulási megközelítése // Proceedings of the Third Australian Joint Conference on Artificial Intelligence (AI 89). – 1989.
Pang-Ning Tan, Vipin Kumar, Jaideep Srivastava. A megfelelő objektív mérőszám kiválasztása asszociációs elemzéshez // Információs rendszerek. - 2004. - T. 29 , sz. 4 .
Shaheen M., Shahbaz M., Guergachi A. Context Based Positive and Negative Spatio Temporal Association Rule Mining // Elsevier Knowledge-Based Systems. — 2013.
Jan Rauch. Logikai számítások a tudásfeltáráshoz adatbázisokban // Proceedings of the First European Symposium on Principles of Data Mining and Knowledge Discovery. — Springer, 1997.
Petr Hájek, Tomáš Havranek. A hipotézisalkotás gépesítése: Egy általános elmélet matematikai alapjai . - Springer-Verlag, 1978. - ISBN 3-540-08738-9 .
Geoffrey I. Webb. online hozzáférés OPUS: An Efficient Admissible Algorithm for Unordered Search // Journal of Artificial Intelligence Research 3. - Menlo Park, CA: AAAI Press, 1995.
Roberto J. Bayardo Jr., Rakesh Agrawal, Dimitrios Gunopulos. Kényszeralapú szabálybányászat nagy, sűrű adatbázisokban // Data Mining and Knowledge Discovery. - 2000. - T. 4 , sz. 2 . - doi : 10.1023/A:1009895914772 .
Webb GI, Butler S., Newlands D. On Detecting Differences Between Groups // KDD'03 Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . – 2003.
Tim Menzies, Ying Hu. Adatbányászat nagyon elfoglalt emberek számára // IEEE számítógép. - 2003. - október.
Andrew KC Wong, Yang Wang. Magasrendű mintafelderítés diszkrét értékű adatokból // IEEE Transactions on Knowledge and Data Engineering (TKDE). – 1997.
Fabrizio Angiulli, Giovambattista Ianni, Luigi Palopoli. A kategorikus és kvantitatív asszociációs szabályok előidézésének összetettségéről // Elméleti számítástechnika. - 2003. - T. 314 , sz. 1-2 . - doi : 10.1016/j.tcs.2003.12.017 .
Ansaf Salleb-Aouissi, Christel Vrain, Cyril Nortet. QuantMiner: Genetic Algorithm for Mining Quantitative Association Rules // International Joint Conference on Artificial Intelligence (IJCAI). – 2007.
Mohammed J. Zaki. SPADE: Hatékony algoritmus a gyakori szekvenciák bányászásához // Machine Learning Journal. - 2001. - Kiadás. 42 .
Geoffrey I. Webb. A társulási szabályok hatékony keresése // Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2000) Boston, MA, New York, NY / Raghu Ramakrishnan, Sal Stolfo. - A Számítógépek Szövetsége, 2000.
Mohammed Javeed Zaki, Srinivasan Parthasarathy, M. Ogihara, Wei Li. Új algoritmusok az asszociációs szabályok gyors felfedezéséhez // KDD. – 1997.
Arthur Zimek, Ira Assent, Jilles Vreeken. Gyakori mintabányászati algoritmusok adatfürtözéshez. - 2014. - doi : 10.1007/978-3-319-07821-2_16 .
King R.D., Srinivasan A., Dehaspe L. Warmr: adatbányászati eszköz kémiai adatokhoz. // J Comput Aided Mol Des. - 2001. - február ( 15. évf. , 2. szám ). — PMID 11272703 .
Geoffrey I. Webb. Jelentős minták felfedezése // Gépi tanulás. - Hollandia: Springer, 2007. - T. 68 , no. 1 .
Aristides Gionis, Heikki Mannila, Taneli Mielikäinen, Panayiotis Tsaparas. Adatbányászati eredmények értékelése csere-véletlenszerűsítéssel // ACM-tranzakciók az adatokból való tudásfeltárással (TKDD). - 2007. - december ( 1. köt. 3. szám ). Cikkszám. tizennégy
Jinze Liu, Susan Paulsen, Xing Sun, Wei Wang, Andrew Nobel, Jin Prins. Közelítő gyakori tételhalmazok bányászata zaj jelenlétében: Algoritmus és elemzés. // A 2006-os SIAM International Conference on Data Mining konferencia anyaga . – 2006.
Mohammed Javeed Zaki, Srinivasan Parthasarathy, Mitsunori Ogihara, Wei Li. Párhuzamos algoritmusok az asszociációs szabályok felfedezéséhez // Adatbányászat és tudásfeltárás. - 1997. - 1. évf. , szám. 4 .
Deng ZH, Lv SL Gyakori elemkészletek gyors bányászata csomópontkészletek segítségével // Expert Systems with Applications. - 2014. - T. 41 , sz. 10 . — S. 4505–4512 .
Deng ZH, Wang Z., Jiang J. Új algoritmus a gyakori tételkészletek gyors bányászásához N-listák segítségével // SCIENCE CHINA Information Sciences. - 2012. - T. 55 , sz. 9 . Az eredetiből archiválva : 2013. december 19.

Deng ZH, Wang Z. Új gyors függőleges módszer a gyakori minták bányászatára // International Journal of Computational Intelligence Systems. - 2010. - 3. évf. , szám. 6 .

Bhalodiya D., Patel KM, Patel C. Hatékony módszer a gyakori minták megtalálására dinamikus programozási megközelítéssel // NIRMA EGYETEMI NEMZETKÖZI TECHNIKAI KONFERENCIA, NUiCONE-2013 NOVEMBER 28-30. — 2013.
Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 6. fejezet Asszociációs elemzés: Alapfogalmak és algoritmusok // Bevezetés az adatbányászatba. — Addison-Wesley , 2005. — ISBN 0-321-32136-7 .
Jian Pei, Jiawei Han, Laks VS Lakshmanan. Bányászat gyakori elemkészletek konvertálható kényszerekkel // Proceedings of the 17th International Conference on Data Engineering, 2001. április 2–6., Heidelberg, Németország. – 2001.
Rakesh Agrawal, Ramakrishnan Srikant. Gyors algoritmusok bányászati társulási szabályokhoz nagy adatbázisokban // Proceedings of the 20th International Conference on Very Large Data Bases (VLDB) Santiago, Chile, September / Jorge B.Bocca; Matthias Jark; Carlo Zaniolo. - 1994. Archiválva : 2015. február 25. a Wayback Machine -nál
Zaki MJ Scalable algoritmusok asszociációs bányászathoz // IEEE Transactions on Knowledge and Data Engineering. - 2000. - T. 12 , sz. 3 . - doi : 10.1109/69.846291 .

Bibliográfia

A társulási szabályokról szóló kiterjedt bibliográfiát JM Luna készítette
M. Hahsler jegyzett bibliográfiája az egyesületi szabályokról
Statsoft Electronic Statistics Textbook: Association Rules (hivatkozás nem érhető el) a Dell Software -től

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-közép módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-Net Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG