Adatok előfeldolgozása

Az adatok előfeldolgozása az adatbányászati folyamat lényeges lépése . A " szemét be, szemét ki " kifejezés különösen az adatbányászati és gépi tanulási projektekre vonatkozik . Itt azt kell érteni, hogy még a legkifinomultabb elemzés sem lesz hasznos, ha kétes adatokat veszünk alapul [1] .

Szükségesség

Az adatgyűjtési módszerek gyakran rosszul ellenőrzöttek. Ez érvénytelen értékeket (például: -100-zal egyenlő jövedelem), lehetetlen adatkombinációkat (például: "férfi terhesség alatt"), hiányzó értékeket és így tovább eredményez. Az ilyen jellegű problémákkal szemben nem védett adatok elemzése helytelen következtetésekhez vezethet. Az elemzés során az adatok minősége a legfontosabb [2] . Az adatok előfeldolgozása gyakran egy gépi tanulási projekt fontos szakaszává válik . Ez különösen igaz a számítási biológiai folyamatokra [3] .

A gép betanítása során nagy mennyiségű felesleges információ, „ zajos ” és megbízhatatlan adat esetén az ismeretek kinyerése megnehezül. Az adatok előkészítésének és szűrésének szakasza sokáig tarthat. Az adatok előkészítése magában foglalja:

tisztítás
másolatok kiválasztása
normalizálás
adatátalakítás
jellemző kivonás
funkció kiválasztása

és egyéb adatkezelés.

Az adat-előfeldolgozás eredménye a végső betanító készlet .

Módszerek

Az alábbiakban röviden ismertetjük az adat-előfeldolgozási szakaszban használt módszereket.

Az adattisztítás az adathalmazban lévő hibás rekordok észlelésére, javítására vagy eltávolítására szolgál [4] ;
Az adatnormalizálás a független változók vagy adatjellemzők értéktartományának szabványosítására szolgál (például a [0, 1] vagy [-1, +1] intervallumokra való csökkentés);
Az adatátalakítás arra szolgál, hogy az adatokat a közönség által elvárt formátumba hozza;
A jellemzők kinyerése arra szolgál, hogy a bemeneti adatokat olyan jellemzőkké alakítsák át, amelyeket jól reprezentálnak;
Az adattömörítés a numerikus adatok javított, rendezett és egyszerűsített formára való konvertálására szolgál. Ez segít csökkenteni az adatok mennyiségét és/vagy méretét.

Lásd még

Adattisztítás
adatok szerkesztése
Adattömörítés
Elsődleges adatfeldolgozás

Jegyzetek

↑ Charles Whelan. Meztelen statisztika. — 2. kiadás. - Moszkva: Mann, Ivanov és Ferber, 2017. - S. 152-153. — 341 p. - ISBN 978-5-00100-823-1 .
↑ Pyle, 1999 .
↑ Chicco, 2017 , p. 1-17.
↑ Wu, 2013 .

Irodalom

Dorian Pyle. Adatok előkészítése adatbányászathoz . - Los Altos, Kalifornia : Morgan Kaufmann Publishers, 1999.
Wu S. Áttekintés a durva garanciális adatokról és elemzésekről // Reliability Engineering and System. - 2013. - Kiadás. 114 . - doi : 10.1016/j.ress.2012.12.021 .
Chicco D. Tíz gyorstipp a gépi tanuláshoz a számítógépes biológiában // BioData Mining. - 2017. - december ( 10. évf. , 35. szám ). - doi : 10.1186/s13040-017-0155-3 . — PMID 29234465 .

Linkek

Online Data Processing Compendium archiválva 2022. március 27-én a Wayback Machine -nél

Adat

Adatelemzés
Adatrégészet
Adattisztítás
Adatgyűjtés
Adattömörítés
Adatsérülés
Adatkezelés
Adatromlás
adatszerkesztés
adatgazdálkodás
Adatformátum vezérlése
Adatfúzió
Adatintegráció
Információs integritás
Adattár
Adatvesztés
Adatkezelés
Adatmigrálás
adatbányászat
Adatok előfeldolgozása
Adatok mentése
Adatvédelem
Adat visszanyerés
Adattömörítés
Adattárolás
Adat minőség
adattudomány
kaparás
Adattisztítás
Adat védelem
adatelemző
Memória eszköz
Adatellenőrzés
Adattár
Elsődleges adatfeldolgozás