Az adattudomány ( angolul data science ; néha datalogy - datalogy [1] ) a számítástechnika egy része , amely az adatok digitális formában történő elemzésének , feldolgozásának és bemutatásának problémáit vizsgálja. Kombinálja az adatok feldolgozásának módszereit nagy volumenű és magas szintű párhuzamosság mellett, statisztikai módszereket , adatbányászati módszereket és mesterséges intelligencia alkalmazásokat az adatokkal való munkavégzéshez, valamint az adatbázisok tervezésének és fejlesztésének módszereit .
Akadémiai diszciplínának [2] tekintett, és a 2010-es évek eleje óta, nagyrészt a „ big data ” [3] fogalmának elterjedése miatt , - és gyakorlati ágazatközi tevékenységi területként, sőt a specializáció. of a sciencedata [4] [5] .
Egy dedikált diszciplína kialakulásának kezdetének 1966 - ot tekintik , amikor megalakult a Tudományos és Technológiai Adatok Bizottsága (CODATA) [6] , és az adattudomány kifejezés első bevezetése Peter Naur 2009. évi könyvére vonatkozik . 1974-ben, amelyben az adattudományt kifejezetten tudományágként határozta meg, amely a digitális adatok életciklusát tanulmányozza – a megjelenéstől az átalakulásig, hogy a tudás más területein is bemutathassák [7] (van a vélemény, hogy Naur az „adattudomány” kifejezést használta az 1960-as évek végén [8] ).
A diszciplínát jelölő kifejezés azonban csak az 1990-es években vált széles körben használatossá [9] [6] , és csak a 2000-es évek elején vált általánosan elfogadottá, elsősorban a Bell Labs statisztikusának, William Cleveland cikkének köszönhetően (2012-től). a Purdue Egyetem statisztika professzora ), amelyben a statisztikai kutatás technikai szempontjainak fejlesztésére vonatkozó tervet tett közzé, és az adattudományt külön akadémiai diszciplínaként jelölte meg, amelyben ezeket a technikai szempontokat kell koncentrálni [10] [11] .
A Tudományos és Technológiai Adatok Bizottsága 2002-ben elindította a CODATA Data Science Journal kiadását, amelynek címe tartalmazza a tudományág nevét, 2003 januárjában pedig a The Journal of Data Science of Columbia University első száma. megjelent .
Az adattudomány iránti széleskörű érdeklődés további növekedése a „ big data ” paradigma megjelenésére utal, amely a nagy volumenű és sokszínű adatok feldolgozásának új technológiai lehetőségeire fókuszál, többek között a 2000-es években az adattudományban kifejlesztett módszerek alkalmazásával. 2011 óta O'Reilly egy sor jelentős adattudományi konferenciát tart – a Strata [12] , az EMC 2011 óta tart éves adattudományi csúcstalálkozót [13] . A McKinsey 2011-ben 2018-ra 440-490 ezer új szakember iránti keresletet jósolt az Egyesült Államokban, akik „mélyen elemző képességekkel rendelkeznek a big data kezelésében” , és 50–60 százalékos hiány lesz az ilyen szakemberekből, miközben fenntartja az oktatási trendeket [14] , ben Ezzel az előrejelzéssel kapcsolatban nagymértékben felerősödött az érdeklődés a tantervek létrehozása iránt [15] .
2012-ben az adattudós szakmát a modern világ egyik legvonzóbb ( eng. szexi ) és legígéretesebbjeként tartják számon, az érvelés szerint az ilyen szakemberek a versenyelőnyök megszerzésének lehetősége miatt kulcsszerepet fognak játszani a szervezetekben. az adatok elemzésével, gyors feldolgozásával és mintázatainak kinyerésével, elsősorban a technológiai iparágakban [16] [5] .
A 2013-as tanév óta a Dundee Egyetem , az Aucklandi Egyetem , a Dél-Kaliforniai Egyetem mesterképzést indított adattudományi területen, az Imperial College London üzleti iskolája pedig a „Masters of Science in Data Science and Management" ( MSc Data Science & Management ) [17] . Ugyanebben az évben a Washingtoni Egyetem , a Kaliforniai Egyetem Berkeley -ben és a New York-i Egyetem 37,8 millió dolláros támogatást kapott az adattudomány fejlesztésére, amely öt éven keresztül többek között tanterveket készít és lehetőségeket teremt egy akadémikus számára. karrier a területen [18] .
Az adattudományi szakmai tevékenység fő gyakorlati célja az adatok mintázatainak feltárása [19] , az adatokból az ismeretek általánosított formában történő kinyerése [20] . Az ezen a területen végzett tevékenységekhez szükséges készségek magyarázatára gyakran használják a Venn-diagramot [21] , amelyben a szakember által igényelt készségek az általános tantárgyi tapasztalat ( angol szubsztantív szakértelem ), az információs gyakorlati tapasztalatok metszéspontjában jelennek meg . technológia ( hackelési készségek ) és tudás- matematikai statisztika [22] .
A tudomány ismeretelméleti sajátosságaként az eredmények gyakorlati alkalmazhatóságának, azaz az előrejelzések sikerességének elsőbbségét jelzi az oksági viszonyukkal szemben, míg a hagyományos kutatási területeken elengedhetetlen a jelenség természetének magyarázata [23]. . Összehasonlítva a klasszikus statisztikával , amelynek módszerein az adattudomány nagymértékben alapul, a digitális információ rendkívül nagy heterogén tömbjeinek tanulmányozását, valamint a feldolgozásukat biztosító információs technológiákkal való elválaszthatatlan kapcsolatot feltételezi [24] . Összehasonlítva a tervezéssel és az adatbázisokkal végzett munkával kapcsolatos tevékenységekkel, ahol feltételezzük, hogy a tárgykör kapcsolatát tükröző adatmodell előzetes tervezése, majd a betöltött adatok viszonylag egyszerű (aritmetikai) módszerekkel történő vizsgálata, Az adattudomány a matematikai statisztika, a mesterséges intelligencia és a gépi tanulás apparátusára támaszkodik, gyakran anélkül, hogy először betöltené az adatokat a modellbe. Az elemzői szakmához képest, amelynek fő célja a jelenségek felhalmozott adatokon alapuló leírása viszonylag egyszerű felhasználói eszközökkel (például táblázatokkal vagy Business Intelligence osztályeszközökkel ), az adattudós profilja kevésbé kívánja meg a tématerületek tartalmát, de mélyebb ismereteket igényel a matematikai statisztikában, a gépi tanulásban, a programozásban és általában magasabb iskolai végzettségben ( mesterképzésben , tudományban kandidátusban , Ph.D -ben a bachelorokhoz és a specialistákhoz képest ) [25] .
A Courserán közzétett Washingtoni Egyetem Bevezetés az adattudományba kurzusa a következő részekből áll [26] :
Az Imperial College London adattudományi és menedzsment mesterképzési programjának adattudományi blokkja tartalmaz egy előkészítő kurzust az Advanced Statistics számára . A következő tudományágak közvetlenül szerepelnek az adattudományi kurzusban:
Az adattudomány és a menedzsment alapjai kurzusok után a program egy alkalmazott kurzust biztosít, két irányzatra bontva, a kockázatkezelés , a vagyonkezelés és a származékos pénzügyi eszközök a pénzügyi és technológiai áramkörbe, a nagy adathalmazok feldolgozása pedig a tanácsadásba . stream , hálózatelemzés, ökonometriai elemzés, alkalmazások a szolgáltatásokban és tanácsadásban, energiaügyben , egészségügyben , politikában . [17]
A University of Dundee program a " big data "-ra helyezi a hangsúlyt, elsősorban a "táblázatfeldolgozással" szemben, és az adatbányászatra , az adatbázis- és tárolási modellezésre , a statisztikákra , valamint az SQL , MDX , R , Erlang , Java nyelvekre összpontosít . a program , a Hadoop és a NoSQL eszközök [27] .