Az adatok előfeldolgozása az adatbányászati folyamat lényeges lépése . A " szemét be, szemét ki " kifejezés különösen az adatbányászati és gépi tanulási projektekre vonatkozik . Itt azt kell érteni, hogy még a legkifinomultabb elemzés sem lesz hasznos, ha kétes adatokat veszünk alapul [1] .
Az adatgyűjtési módszerek gyakran rosszul ellenőrzöttek. Ez érvénytelen értékeket (például: -100-zal egyenlő jövedelem), lehetetlen adatkombinációkat (például: "férfi terhesség alatt"), hiányzó értékeket és így tovább eredményez. Az ilyen jellegű problémákkal szemben nem védett adatok elemzése helytelen következtetésekhez vezethet. Az elemzés során az adatok minősége a legfontosabb [2] . Az adatok előfeldolgozása gyakran egy gépi tanulási projekt fontos szakaszává válik . Ez különösen igaz a számítási biológiai folyamatokra [3] .
A gép betanítása során nagy mennyiségű felesleges információ, „ zajos ” és megbízhatatlan adat esetén az ismeretek kinyerése megnehezül. Az adatok előkészítésének és szűrésének szakasza sokáig tarthat. Az adatok előkészítése magában foglalja:
és egyéb adatkezelés.
Az adat-előfeldolgozás eredménye a végső betanító készlet .
Az alábbiakban röviden ismertetjük az adat-előfeldolgozási szakaszban használt módszereket.
Adat | |
---|---|
|