Naiv Bayes osztályozó

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. augusztus 2-án felülvizsgált verziótól ; az ellenőrzések 6 szerkesztést igényelnek .

A naiv Bayes-osztályozó  egy egyszerű valószínűségi osztályozó , amely a Bayes-tétel alkalmazásán alapul, szigorú (naiv) függetlenségi feltevések mellett .

A valószínűségi modell pontos természetétől függően a Naive Bayes osztályozók nagyon hatékonyan taníthatók. Sok gyakorlati alkalmazás használja a maximum likelihood módszert a naiv bayes modellek paramétereinek becslésére ; más szóval, naiv bayesi modellel dolgozhatunk anélkül, hogy hinnénk a bayesi valószínűségben és bayesi módszerek alkalmazása nélkül.

Naiv megjelenésük és kétségtelenül nagyon leegyszerűsített kifejezéseik ellenére a Naive Bayes osztályozók gyakran sokkal jobban teljesítenek, mint a neurális hálózatok sok összetett valós élethelyzetben.

A naiv Bayes osztályozó előnye a betanításhoz, paraméterbecsléshez és osztályozáshoz szükséges kis adatmennyiség.

Naiv Bayes osztályozó modell

Az osztályozó valószínűségi modellje feltételes modell

túl függő osztályváltozó kevés eredménnyel vagy osztállyal , kevés változótól függő . A probléma az, hogy amikor a tulajdonságok száma nagyon nagy, vagy ha egy tulajdonság sok értéket tud felvenni, akkor lehetetlenné válik egy ilyen modell felépítése valószínűségi táblákra. Ezért a modellt újrafogalmazzuk, hogy könnyebben feldolgozható legyen.

Bayes tételét felhasználva írjuk

A gyakorlatban ennek a törtnek csak a számlálója érdekes, mivel a nevező nem függ attól, és a tulajdonságok értékei adottak, így a nevező állandó.

A számláló ekvivalens a modell együttes valószínűségével

amely a következőképpen írható át a feltételes valószínűség definícióinak ismételt alkalmazásával :

és így tovább. Most már használhatjuk a feltételes függetlenség "naiv" feltételezéseit : tegyük fel, hogy minden tulajdonság feltételesen független bármely más tulajdonságtól a . Azt jelenti:

így a közös modell a következőképpen fejezhető ki:

Ez azt jelenti, hogy a függetlenség feltételezése mellett az osztályváltozó feltételes eloszlása ​​a következőképpen fejezhető ki:

ahol  csak a -tól függő léptéktényező , azaz egy állandó, ha a változók értéke ismert.

Paraméterbecslés

A modell összes paramétere a betanítási adatkészletből származó relatív gyakoriságokkal közelíthető. Ezek a valószínűségek maximális valószínűségi becslései. A folytonos tulajdonságokat általában a normál eloszláson keresztül értékelik. A statisztikák kiszámítása a matematikai elvárás és a variancia – a számtani átlag, illetve a szórás.

Ha az adott osztály és tulajdonság érték soha nem fordul elő együtt a képzési halmazban, akkor a valószínűség alapú pontszám nulla lesz. Ez probléma, mivel szorzáskor a nulla becslés más valószínűségekre vonatkozó információ elvesztését eredményezi. Ezért célszerű minden valószínűségi becslést kis mértékben módosítani, hogy egyetlen valószínűség se legyen szigorúan nulla.

Osztályozó felépítése valószínűségi modell alapján

A naiv Bayes osztályozó a modellt döntési szabállyal kombinálja. Az egyik általános szabály a legvalószínűbb hipotézis kiválasztása; az utólagos döntési szabály ( MAP ) néven ismert. A megfelelő osztályozó a következőképpen definiált függvény:

Példa: spamszűrés

Tekintsünk egy egyszerű példát egy naiv Bayes-osztályozó alkalmazására a dokumentumok tartalmuk szerinti osztályozásának problémájára, nevezetesen az e- mailek két osztályba - spam ( ) és nem levélszemét ( ) - osztályozására .

Feltételezzük, hogy a dokumentumok több dokumentumosztályból vannak kiválasztva, amelyeket szavak halmazával reprezentálhatunk annak (független) valószínűségével, hogy egy adott dokumentum i -edik szava egy C osztályú dokumentumban fordul elő :

(Ennél a problémánál tegyük fel, hogy egy szó előfordulásának valószínűsége egy dokumentumban független a dokumentum hosszától, és minden dokumentum azonos hosszúságú.)

Ekkor a valószínűség egy adott D dokumentumra és C osztályra

A kérdés, amire szeretnénk választ adni, az, hogy "mi a valószínűsége annak, hogy egy adott D dokumentum a C osztályba tartozik ?". Más szóval, mivel egyenlő ?

Bayes tétele szerint

Tegyük fel, hogy csak két osztályunk van: S és ¬S ( pl. spam és nem levélszemét). Akkor

Az egyiket a másikkal elosztva megkapjuk a valószínűségi arányt

vagy (a log-likelihoodhoz )

A tényleges valószínűség abból a megfigyelésből számítható ki, hogy . Ehhez a valószínűségi függvényből valószínűségi teret kell képezni

, ahol

Végül a dokumentum osztályozása a log-likelihood és valamilyen h küszöbérték (pl. h=0) összehasonlításával történhet. Van spamünk, ha

.

Lásd még

Linkek

Szoftver termékek