Véletlenszerű erdő módszer

A véletlen erdő módszer Leo Breiman [1] [2] és Adele Cutler által javasolt gépi tanulási algoritmus ., amely döntési fákból álló bizottság (együttes) használatából áll . Az algoritmus két fő ötletet egyesít: a Breiman zsákolási módszert és a véletlen altér módszerét .javasolta Tin Kam Ho. Az algoritmust osztályozási, regressziós és klaszterezési problémák esetén használják. A fő ötlet az, hogy nagy számú döntési fát használjunk , amelyek mindegyike önmagában nagyon alacsony minőségű osztályozást ad, de nagy számuk miatt az eredmény jó.

Osztályozó tanulási algoritmus

Legyen a tanító halmaz N mintából, a jellemzőtér dimenziója M , és az m paraméter (általában osztályozási feladatokban ) a tanuláshoz hiányos jellemzőszámként adható meg. $m\kb. {\sqrt {M}}$

Az együttes fák felépítésének legáltalánosabb módja - a zsákolás ( eng. bagging , az eng. bootstrap aggregation rövidítése) - a következőképpen történik:

Generáljunk egy véletlenszerűen ismétlődő méretű részmintát a betanítási mintából. Egyes minták kétszer vagy többször is beleesnek, míg átlagosan (nagyon körülbelül , ahol a természetes logaritmus alapja ) a minták nem szerepelnek a halmazban, vagy nincsenek kiválasztva ( angolul out-of-bag ). $N$ ${\displaystyle N(1-1/N)^{N))$ $N$ $N/e$ $e$
Készítsünk egy döntési fát , amely osztályozza ennek a részmintának a mintáit, és a fa következő csomópontjának létrehozása során kiválasztunk egy olyan tulajdonsághalmazt, amely alapján a felosztás történik (nem minden M jellemzőből , de csak a m véletlenszerűen kiválasztottak közül). Ezen m jellemzők közül a legjobbak kiválasztása többféleképpen történhet. Breiman eredeti módszere a Gini-kritériumot használja, amelyet a CART döntési fa algoritmusában is használnak . Az algoritmus egyes megvalósításaiban ehelyett az információszerzési kritériumot használják . [3]
A fát addig építik, amíg az almintavétel teljesen ki nem merül, és nem vetik alá metszési eljárásnak ( eng. pruning - ágak levágása), ellentétben az olyan algoritmusok döntési fáival, mint a CART vagy a C4.5 .

Az objektumok besorolása szavazással történik: a bizottság minden fája a besorolandó objektumot valamelyik osztályba rendeli, és az az osztály nyer, amelyikre a legtöbb fa szavazott.

A fák optimális számát úgy választjuk meg, hogy az osztályozó hibája minimális legyen a vizsgálati mintán. Ha hiányzik, a hibabecslés minimálisra csökken a készletben nem szereplő mintákon.

A változók fontosságának felmérése

A fent leírt módszerekkel nyert véletlenszerű erdők természetesen felhasználhatók a változók fontosságának értékelésére a regressziós és osztályozási problémákban . Az ilyen becslések következő módját írta le Breiman.

Az első lépés egy változó fontosságának értékeléséhez egy gyakorlóhalmazban az, hogy egy véletlenszerű erdőt képezzünk ezen a halmazon. A modellépítés során a képzési halmaz minden eleméhez egy úgynevezett out-of-bag hiba kerül rögzítésre. ${\mathcal {D}}_{n}=\{(X_{i},Y_{i})\}_{i=1}^{n}$ (nem kiválasztott tételek hiba). Ezután minden entitásnál ezt a hibát a rendszer a teljes véletlenszerű erdőre átlagolja.

A -edik paraméter fontosságának értékelése érdekében a betanítás után a -edik paraméter értékeit összekeverik a betanítási halmaz összes rekordjához, és újra kiszámítják az out-of-bag hibát. A paraméter fontosságát úgy becsüljük meg, hogy az értékek keverése előtt és után az összes fa esetében az out-of-bag hibaarányok különbségét átlagoljuk. Ebben az esetben az ilyen hibák értékeit a szórásra normalizálják . $j$ $j$

Azok a mintaparaméterek, amelyek nagyobb értékeket produkálnak, fontosabbnak tekinthetők a képzési készlet számára. A módszernek van egy lehetséges hátránya - a nagyszámú kategorikus változók esetében a módszer hajlamos az ilyen változókat fontosabbnak tekinteni. Az értékek részleges keverése ebben az esetben csökkentheti ennek a hatásnak a hatását. [4] [5] A korrelált paraméterek csoportjai közül, amelyek fontossága azonosnak bizonyul, a kisebb csoportokat választjuk ki. [6]

Előnyök

Az adatok hatékony feldolgozásának képessége nagyszámú szolgáltatás és osztály segítségével.
Érzéketlenség a jellemzőértékek skálázására (és általában bármilyen monoton transzformációra).
Mind a folyamatos, mind a diszkrét jellemzőket egyformán jól dolgozzák fel. Vannak módszerek fák létrehozására hiányzó jellemzőértékekkel rendelkező adatokból.
Léteznek módszerek az egyes jellemzők jelentőségének becslésére egy modellben.
A modell általánosító képességének belső értékelése (teszt nem kiválasztott mintákon).
Magas párhuzamosíthatóság és skálázhatóság .

Hátrányok

A kapott modellek nagy mérete. A modell tárolásához memória szükséges , ahol a fák száma. $O(K)$ $K$

Használata tudományos közleményekben

Az algoritmust tudományos közleményekben használják, például a Wikipédia -cikkek minőségének értékelésére [7] [8] [9] .

Jegyzetek

↑ Breiman, Leo . Véletlenszerű erdők // Gépi tanulás : folyóirat. - 2001. - Vol. 45 , sz. 1 . - 5-32 . o . - doi : 10.1023/A:1010933404324 . (angol) (Hozzáférés dátuma: 2009. június 7.)
↑ Algoritmus leírása Leo Breiman honlapján Archiválva : 2008. június 22. (angol) (Hozzáférés dátuma: 2009. június 7.)
↑ Az Apache Mahoutban használt faépítési eljárás leírása archiválva 2012. május 13-án a Wayback Machine -nél ( Hozzáférés : 2009. június 7.)
↑ Deng, H.; Runger, G.; Tuv, E. (2011). A többértékű attribútumok és megoldások fontossági torzítása . A 21. International Conference on Artificial Neural Networks (ICANN) anyaga. pp. 293-300.
↑ Altmann A., Tolosi L., Sander O., Lengauer T. Permutációs fontosság: a korrigált jellemző fontossági mértéke (angol) // Bioinformatika : folyóirat. - 2010. - doi : 10.1093/bioinformatika/btq134 .
↑ Tolosi L., Lengauer T. Osztályozás korrelált jellemzőkkel: a jellemzők rangsorolásának és megoldásainak megbízhatatlansága. (angol) // Bioinformatika: folyóirat. - 2011. - doi : 10.1093/bioinformatika/btr300 .
↑ Węcel K., Lewoniewski W. Az attribútumok minőségének modellezése a Wikipédia információs dobozaiban // Lecture Notes in Business Information Processing : folyóirat. - 2015. - december 2. ( 228. köt. ). - P. 308-320 . - doi : 10.1007/978-3-319-26762-3_27 .
↑ Lewoniewski W., Węcel K., Abramowicz W. A Wikipédia-cikkek minősége és jelentősége különböző nyelveken // Információs és szoftvertechnológiák. ICIST 2016. Communications in Computer and Information Science: folyóirat. - 2016. - szeptember 22. ( 639. köt. ). - P. 613-624 . - doi : 10.1007/978-3-319-46254-7_50 .
↑ Warncke-Wang M., Cosley D., Riedl J. Mondjon el többet: Egy használható minőségi modell a wikipédiához // WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration : Journal. - 2013. - doi : 10.1145/2491055.2491063 .

Irodalom

Hastie, T., Tibshirani R., Friedman J. 15. fejezet. Véletlenszerű erdők // A statisztikai tanulás elemei: adatbányászat, következtetés és előrejelzés . — 2. kiadás. - Springer-Verlag, 2009. - 746 p. - ISBN 978-0-387-84857-0 . .

Linkek

Megvalósítások

A Breiman és Cutler szerzői megvalósítása a Fortran 77 -ben
Az R randomForest csomagja az eredeti szerzői kód hordozott változata az R-ben
Az R pártcsomagja az algoritmus egy módosítását tartalmazza
Az algoritmus módosításának megvalósítása az alglib.sources.ru oldalon
FastRandomForest
Apache Mahout archiválva : 2015. április 2. a Wayback Machine -nál .

Gépi tanulás és adatbányászat
Feladatok	Osztályozási feladat Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellegyüttesek Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-háló Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG