A naiv Bayes-osztályozó egy egyszerű valószínűségi osztályozó , amely a Bayes-tétel alkalmazásán alapul, szigorú (naiv) függetlenségi feltevések mellett .
A valószínűségi modell pontos természetétől függően a Naive Bayes osztályozók nagyon hatékonyan taníthatók. Sok gyakorlati alkalmazás használja a maximum likelihood módszert a naiv bayes modellek paramétereinek becslésére ; más szóval, naiv bayesi modellel dolgozhatunk anélkül, hogy hinnénk a bayesi valószínűségben és bayesi módszerek alkalmazása nélkül.
Naiv megjelenésük és kétségtelenül nagyon leegyszerűsített kifejezéseik ellenére a Naive Bayes osztályozók gyakran sokkal jobban teljesítenek, mint a neurális hálózatok sok összetett valós élethelyzetben.
A naiv Bayes osztályozó előnye a betanításhoz, paraméterbecsléshez és osztályozáshoz szükséges kis adatmennyiség.
Az osztályozó valószínűségi modellje feltételes modell
túl függő osztályváltozó kevés eredménnyel vagy osztállyal , kevés változótól függő . A probléma az, hogy amikor a tulajdonságok száma nagyon nagy, vagy ha egy tulajdonság sok értéket tud felvenni, akkor lehetetlenné válik egy ilyen modell felépítése valószínűségi táblákra. Ezért a modellt újrafogalmazzuk, hogy könnyebben feldolgozható legyen.
Bayes tételét felhasználva írjuk
A gyakorlatban ennek a törtnek csak a számlálója érdekes, mivel a nevező nem függ attól, és a tulajdonságok értékei adottak, így a nevező állandó.
A számláló ekvivalens a modell együttes valószínűségével
amely a következőképpen írható át a feltételes valószínűség definícióinak ismételt alkalmazásával :
és így tovább. Most már használhatjuk a feltételes függetlenség "naiv" feltételezéseit : tegyük fel, hogy minden tulajdonság feltételesen független bármely más tulajdonságtól a . Azt jelenti:
így a közös modell a következőképpen fejezhető ki:
Ez azt jelenti, hogy a függetlenség feltételezése mellett az osztályváltozó feltételes eloszlása a következőképpen fejezhető ki:
ahol csak a -tól függő léptéktényező , azaz egy állandó, ha a változók értéke ismert.
A modell összes paramétere a betanítási adatkészletből származó relatív gyakoriságokkal közelíthető. Ezek a valószínűségek maximális valószínűségi becslései. A folytonos tulajdonságokat általában a normál eloszláson keresztül értékelik. A statisztikák kiszámítása a matematikai elvárás és a variancia – a számtani átlag, illetve a szórás.
Ha az adott osztály és tulajdonság érték soha nem fordul elő együtt a képzési halmazban, akkor a valószínűség alapú pontszám nulla lesz. Ez probléma, mivel szorzáskor a nulla becslés más valószínűségekre vonatkozó információ elvesztését eredményezi. Ezért célszerű minden valószínűségi becslést kis mértékben módosítani, hogy egyetlen valószínűség se legyen szigorúan nulla.
A naiv Bayes osztályozó a modellt döntési szabállyal kombinálja. Az egyik általános szabály a legvalószínűbb hipotézis kiválasztása; az utólagos döntési szabály ( MAP ) néven ismert. A megfelelő osztályozó a következőképpen definiált függvény:
Tekintsünk egy egyszerű példát egy naiv Bayes-osztályozó alkalmazására a dokumentumok tartalmuk szerinti osztályozásának problémájára, nevezetesen az e- mailek két osztályba - spam ( ) és nem levélszemét ( ) - osztályozására .
Feltételezzük, hogy a dokumentumok több dokumentumosztályból vannak kiválasztva, amelyeket szavak halmazával reprezentálhatunk annak (független) valószínűségével, hogy egy adott dokumentum i -edik szava egy C osztályú dokumentumban fordul elő :
(Ennél a problémánál tegyük fel, hogy egy szó előfordulásának valószínűsége egy dokumentumban független a dokumentum hosszától, és minden dokumentum azonos hosszúságú.)
Ekkor a valószínűség egy adott D dokumentumra és C osztályra
A kérdés, amire szeretnénk választ adni, az, hogy "mi a valószínűsége annak, hogy egy adott D dokumentum a C osztályba tartozik ?". Más szóval, mivel egyenlő ?
Bayes tétele szerint
Tegyük fel, hogy csak két osztályunk van: S és ¬S ( pl. spam és nem levélszemét). Akkor
Az egyiket a másikkal elosztva megkapjuk a valószínűségi arányt
vagy (a log-likelihoodhoz )
A tényleges valószínűség abból a megfigyelésből számítható ki, hogy . Ehhez a valószínűségi függvényből valószínűségi teret kell képezni
, aholVégül a dokumentum osztályozása a log-likelihood és valamilyen h küszöbérték (pl. h=0) összehasonlításával történhet. Van spamünk, ha
.Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|