A dokumentumminősítés az információkeresés egyik feladata , amely abból áll, hogy egy dokumentumot a dokumentum tartalma alapján több kategória valamelyikébe rendelünk. Ez a dokumentumnyelvészet egyik feladata .
Az osztályozás elvégezhető teljesen manuálisan, vagy automatikusan egy kézzel készített szabálykészlet használatával, vagy automatikusan gépi tanulási módszerek használatával .
A szövegbesorolást meg kell különböztetni a klaszterezéstől , ez utóbbi esetben a szövegek is csoportosításra kerülnek bizonyos kritériumok szerint, de nincsenek előre meghatározott kategóriák.
A szövegosztályozás problémájának három megközelítése létezik [1] .
Először is, az osztályozás nem mindig számítógéppel történik. Például egy hagyományos könyvtárban a tárgysorokat a könyvtáros manuálisan rendeli hozzá a könyvekhez. Az ilyen kézi osztályozás költséges, és nem alkalmazható olyan esetekben, amikor nagyszámú dokumentum nagy sebességű osztályozása szükséges.
Egy másik megközelítés olyan szabályok megírása , amelyek alapján a szöveg egy vagy másik kategóriába sorolható. Az egyik szabály például így nézhet ki: "ha a szöveg tartalmazza a derivált és az egyenlet szavakat , akkor kategorizálja a matematika kategóriába ". A témakörben jártas és a reguláris kifejezések írásában jártas szakértő összeállíthat egy szabálykészletet, amelyet azután automatikusan alkalmaz a beérkező dokumentumokra, hogy besorolja azokat. Ez a megközelítés jobb, mint az előző, mivel az osztályozási folyamat automatizált, így a feldolgozott dokumentumok száma gyakorlatilag korlátlan. Ezenkívül a szabályok manuális felállítása jobb osztályozási pontosságot biztosít, mint a gépi tanulás (lásd alább). A szabályok naprakész kialakítása és karbantartása (ha például az ország mindenkori elnökének nevét használjuk a hírek minősítésére, akkor a megfelelő szabályt időről időre módosítani kell) azonban folyamatos szakemberi erőfeszítést igényel.
Végül a harmadik megközelítés a gépi tanuláson alapul . Ebben a megközelítésben egy szabályrendszer, vagy általánosabban egy szöveges osztályozó döntési kritériuma automatikusan kiszámításra kerül a betanítási adatokból (más szóval, az osztályozó betanításra kerül). A képzési adatok számos jó mintadokumentum az egyes osztályokból. A gépi tanulás továbbra is igényt tart a kézi jelölésre (a jelölés kifejezés arra a folyamatra utal, hogy osztályt rendelünk egy dokumentumhoz). De a jelölés könnyebb feladat, mint a szabályok írása. Ezenkívül a jelölés a rendszer normál használati módjában is elvégezhető. Például egy e-mail program képes lehet az üzeneteket spamként megjelölni, így képezve egy osztályozó oktatókészletet – egy spamszűrőt. Így a gépi tanuláson alapuló szövegosztályozás a felügyelt tanulás példája , ahol a tanár egy olyan személy, aki osztálykészletet határoz meg, és felcímkézi a képzési halmazt.
Sok kategória (osztályok, címkék) létezik .
Sok dokumentum van .
Ismeretlen célfüggvény .
Olyan osztályozót kell építeni, amely a lehető legközelebb áll a -hoz .
Van néhány kezdeti jelölődokumentum-gyűjtemény, amelynek értékei ismertek . Általában "képzési" és "tesztelési" részekre oszlik. Az első az osztályozó képzésére szolgál, a második pedig a munkája minőségének független ellenőrzésére szolgál.
Az osztályozó pontos választ vagy hasonlósági fokot adhat .
A Naive Bayes egy valószínűségi tanulási módszer. Annak a valószínűsége, hogy a d dokumentum a c osztályba kerül, így van írva . Mivel az osztályozás célja az adott dokumentumhoz legmegfelelőbb osztály megtalálása, ezért a Naive Bayes osztályozásnál a legvalószínűbb c m osztály megtalálása a feladat.
Ennek a valószínűségnek az értékét nem lehet közvetlenül kiszámítani, mivel ehhez az szükséges, hogy a képzési készlet tartalmazza az összes (vagy majdnem az összes) lehetséges osztály- és dokumentumkombinációt. A Bayes-képlet használatával azonban átírhatjuk a kifejezést
ahol a nevezőt elhagyjuk, mivel nem függ c -től , és ezért nem befolyásolja a maximum meghatározását; P(c) annak a valószínűsége, hogy a c osztályt találjuk , függetlenül a kérdéses dokumentumtól; P(d|c) - annak valószínűsége, hogy a c osztályú dokumentumok között találkozunk a d dokumentummal .
A gyakorlóhalmaz segítségével a P(c) valószínűség a következőképpen becsülhető meg
ahol a c osztály dokumentumainak száma , N a képzési halmaz összes dokumentumának száma. Itt egy másik előjelet használunk a valószínűségre, mivel a tanító halmaz csak becsülni tudja a valószínűséget, de nem találja meg a pontos értékét.
Annak a valószínűségének becsléséhez , ahol a d dokumentumból származó tag a dokumentumban lévő kifejezések teljes száma (az ismétlődéseket is beleértve), egyszerűsítő feltevéseket kell bevezetni (1) a feltételek feltételes függetlenségére vonatkozóan, és (2) a kifejezések pozícióinak függetlensége. Más szóval először is figyelmen kívül hagyjuk azt a tényt, hogy egy természetes nyelvű szövegben egy szó megjelenése gyakran szorosan összefügg más szavak megjelenésével (például valószínűbb, hogy az integrál szó ugyanabban a szövegben fordul elő a szóegyenlettel , mint a baktérium ) szóval, másodszor pedig, hogy a szöveg különböző pozícióinál eltérő a valószínűsége annak, hogy ugyanazt a szót találjuk. E durva leegyszerűsítések miatt nevezik a vizsgált természetes nyelvi modellt naivnak (mindazonáltal az osztályozási feladatban meglehetősen hatékony). Tehát a feltevések tükrében, a független események valószínűségének szorzására vonatkozó szabályt alkalmazva írhatunk
A valószínűségek becslése a képzési készlet segítségével lesz
hol van a t kifejezés előfordulások száma az összes c osztályú dokumentumban (és bármely pozícióban - itt lényegében a második egyszerűsítő feltevést használjuk, különben ezeket a valószínűségeket a dokumentum minden pozíciójára ki kellene számítani, amit nem lehet megtenni kellően pontosan a képzési adatok ritkasága miatt - nehéz elvárni, hogy minden kifejezés minden pozícióban elegendő számú alkalommal forduljon elő); a c osztály dokumentumaiban lévő kifejezések teljes száma . A számolás során minden ismétlődő előfordulást figyelembe veszünk.
Miután az osztályozó "kiképzése" megtörtént, azaz az értékek és az értékek megtalálhatók , megtalálhatja a dokumentumosztályt
Az utolsó képletben a nagyszámú tényező miatti alsó túlcsordulás elkerülése érdekében a gyakorlatban a szorzat helyett a logaritmusok összegét szokták használni. A logaritmus nem befolyásolja a maximum meghatározását, mivel a logaritmus monoton növekvő függvény. Ezért a legtöbb megvalósításban az utolsó képlet helyett
Ennek a képletnek egyszerű az értelmezése. Nagyobb az esélye annak, hogy egy dokumentumot gyakran előforduló osztályba soroljanak be, és a kifejezés ennek megfelelően járul hozzá a végösszeghez. Minél nagyobbak az értékek , annál fontosabb a t kifejezés a c osztály azonosítására , és ennek megfelelően annál jelentősebb a hozzájárulásuk a teljes összeghez.