Adatok előfeldolgozása

Az adatok előfeldolgozása az adatbányászati ​​folyamat lényeges lépése . A " szemét be, szemét ki " kifejezés különösen az adatbányászati ​​és gépi tanulási projektekre vonatkozik . Itt azt kell érteni, hogy még a legkifinomultabb elemzés sem lesz hasznos, ha kétes adatokat veszünk alapul [1] .

Szükségesség

Az adatgyűjtési módszerek gyakran rosszul ellenőrzöttek. Ez érvénytelen értékeket (például: -100-zal egyenlő jövedelem), lehetetlen adatkombinációkat (például: "férfi terhesség alatt"), hiányzó értékeket és így tovább eredményez. Az ilyen jellegű problémákkal szemben nem védett adatok elemzése helytelen következtetésekhez vezethet. Az elemzés során az adatok minősége a legfontosabb [2] . Az adatok előfeldolgozása gyakran egy gépi tanulási projekt fontos szakaszává válik . Ez különösen igaz a számítási biológiai folyamatokra [3] .

A gép betanítása során nagy mennyiségű felesleges információ, „ zajos ” és megbízhatatlan adat esetén az ismeretek kinyerése megnehezül. Az adatok előkészítésének és szűrésének szakasza sokáig tarthat. Az adatok előkészítése magában foglalja:

és egyéb adatkezelés.

Az adat-előfeldolgozás eredménye a végső betanító készlet .

Módszerek

Az alábbiakban röviden ismertetjük az adat-előfeldolgozási szakaszban használt módszereket.

Lásd még

Jegyzetek

  1. Charles Whelan. Meztelen statisztika. — 2. kiadás. - Moszkva: Mann, Ivanov és Ferber, 2017. - S. 152-153. — 341 p. - ISBN 978-5-00100-823-1 .
  2. Pyle, 1999 .
  3. Chicco, 2017 , p. 1-17.
  4. Wu, 2013 .

Irodalom

Linkek