Adattudomány

Az adattudomány ( angolul  data science ; néha datalogy  - datalogy [1] ) a számítástechnika egy része , amely az adatok digitális formában történő elemzésének , feldolgozásának és bemutatásának problémáit vizsgálja. Kombinálja az adatok feldolgozásának módszereit nagy volumenű és magas szintű párhuzamosság mellett, statisztikai módszereket , adatbányászati ​​módszereket és mesterséges intelligencia alkalmazásokat az adatokkal való munkavégzéshez, valamint az adatbázisok tervezésének és fejlesztésének módszereit .

Akadémiai diszciplínának [2] tekintett, és a 2010-es évek eleje óta, nagyrészt a „ big data[3] fogalmának elterjedése miatt , - és gyakorlati ágazatközi tevékenységi területként, sőt a specializáció. of  a sciencedata  [4] [5] .

Történelem

Egy dedikált diszciplína kialakulásának kezdetének 1966 - ot tekintik , amikor megalakult a Tudományos és Technológiai Adatok Bizottsága (CODATA) [6] , és az adattudomány kifejezés első bevezetése Peter Naur 2009. évi könyvére vonatkozik . 1974-ben, amelyben az adattudományt kifejezetten tudományágként határozta meg, amely a digitális adatok életciklusát tanulmányozza – a megjelenéstől az átalakulásig, hogy a tudás más területein is bemutathassák [7] (van a vélemény, hogy Naur az „adattudomány” kifejezést használta az 1960-as évek végén [8] ).

A diszciplínát jelölő kifejezés azonban csak az 1990-es években vált széles körben használatossá [9] [6] , és csak a 2000-es évek elején vált általánosan elfogadottá, elsősorban a Bell Labs statisztikusának, William Cleveland cikkének köszönhetően (2012-től). a Purdue Egyetem statisztika professzora ), amelyben a statisztikai kutatás technikai szempontjainak fejlesztésére vonatkozó tervet tett közzé, és az adattudományt külön akadémiai diszciplínaként jelölte meg, amelyben ezeket a technikai szempontokat kell koncentrálni [10] [11] .

A Tudományos és Technológiai Adatok Bizottsága 2002-ben elindította a CODATA Data Science Journal kiadását, amelynek címe tartalmazza a tudományág nevét, 2003 januárjában pedig a The Journal of Data Science of Columbia University első száma. megjelent .

Az adattudomány iránti széleskörű érdeklődés további növekedése a „ big data ” paradigma megjelenésére utal, amely a nagy volumenű és sokszínű adatok feldolgozásának új technológiai lehetőségeire fókuszál, többek között a 2000-es években az adattudományban kifejlesztett módszerek alkalmazásával. 2011 óta O'Reilly egy sor jelentős adattudományi konferenciát tart – a Strata [12] , az EMC 2011 óta tart éves adattudományi csúcstalálkozót [13] . A McKinsey 2011-ben 2018-ra 440-490 ezer új szakember iránti keresletet jósolt az Egyesült Államokban, akik „mélyen elemző képességekkel rendelkeznek a big data kezelésében” , és 50–60 százalékos hiány lesz az ilyen szakemberekből, miközben fenntartja az oktatási trendeket [14] , ben Ezzel az előrejelzéssel kapcsolatban nagymértékben felerősödött az érdeklődés a tantervek létrehozása iránt [15] .

2012-ben az adattudós szakmát a modern világ egyik legvonzóbb ( eng.  szexi ) és legígéretesebbjeként tartják számon, az érvelés szerint az ilyen szakemberek a versenyelőnyök megszerzésének lehetősége miatt kulcsszerepet fognak játszani a szervezetekben. az adatok elemzésével, gyors feldolgozásával és mintázatainak kinyerésével, elsősorban a technológiai iparágakban [16] [5] .

A 2013-as tanév óta a Dundee Egyetem , az Aucklandi Egyetem , a Dél-Kaliforniai Egyetem mesterképzést indított adattudományi területen, az Imperial College London üzleti iskolája pedig  a „Masters of Science in Data Science and Management" ( MSc  Data Science & Management ) [17] . Ugyanebben az évben a Washingtoni Egyetem , a Kaliforniai Egyetem Berkeley -ben és a New York-i Egyetem 37,8 millió dolláros támogatást kapott az adattudomány fejlesztésére, amely öt éven keresztül többek között tanterveket készít és lehetőségeket teremt egy akadémikus számára. karrier a területen [18] .

Tartalom

Az adattudományi szakmai tevékenység fő gyakorlati célja az adatok mintázatainak feltárása [19] , az adatokból az ismeretek általánosított formában történő kinyerése [20] . Az ezen a területen végzett tevékenységekhez szükséges készségek magyarázatára gyakran használják a Venn-diagramot [21] , amelyben a szakember által igényelt készségek az általános tantárgyi tapasztalat ( angol  szubsztantív szakértelem ), az információs gyakorlati tapasztalatok metszéspontjában jelennek meg . technológia ( hackelési készségek ) és tudás- matematikai statisztika [22] .

A tudomány ismeretelméleti sajátosságaként az eredmények gyakorlati alkalmazhatóságának, azaz az előrejelzések sikerességének elsőbbségét jelzi az oksági viszonyukkal szemben, míg a hagyományos kutatási területeken elengedhetetlen a jelenség természetének magyarázata [23]. . Összehasonlítva a klasszikus statisztikával , amelynek módszerein az adattudomány nagymértékben alapul, a digitális információ rendkívül nagy heterogén tömbjeinek tanulmányozását, valamint a feldolgozásukat biztosító információs technológiákkal való elválaszthatatlan kapcsolatot feltételezi [24] . Összehasonlítva a tervezéssel és az adatbázisokkal végzett munkával kapcsolatos tevékenységekkel, ahol feltételezzük, hogy a tárgykör kapcsolatát tükröző adatmodell előzetes tervezése, majd a betöltött adatok viszonylag egyszerű (aritmetikai) módszerekkel történő vizsgálata, Az adattudomány a matematikai statisztika, a mesterséges intelligencia és a gépi tanulás apparátusára támaszkodik, gyakran anélkül, hogy először betöltené az adatokat a modellbe. Az elemzői szakmához képest, amelynek fő célja a jelenségek felhalmozott adatokon alapuló leírása viszonylag egyszerű felhasználói eszközökkel (például táblázatokkal vagy Business Intelligence osztályeszközökkel ), az adattudós profilja kevésbé kívánja meg a tématerületek tartalmát, de mélyebb ismereteket igényel a matematikai statisztikában, a gépi tanulásban, a programozásban és általában magasabb iskolai végzettségben ( mesterképzésben , tudományban kandidátusban , Ph.D -ben a bachelorokhoz és a specialistákhoz képest ) [25] .

Akadémiai programok

A Courserán közzétett Washingtoni Egyetem Bevezetés az adattudományba kurzusa a következő részekből áll [26] :

Az Imperial College London adattudományi és menedzsment mesterképzési programjának adattudományi blokkja tartalmaz egy előkészítő kurzust az Advanced Statistics számára .  A következő tudományágak közvetlenül szerepelnek az adattudományi kurzusban:

Az adattudomány és a menedzsment alapjai kurzusok után a program egy alkalmazott kurzust biztosít, két irányzatra bontva, a kockázatkezelés , a vagyonkezelés és a származékos pénzügyi eszközök a pénzügyi és technológiai áramkörbe, a nagy adathalmazok  feldolgozása pedig a tanácsadásba . stream , hálózatelemzés, ökonometriai elemzés, alkalmazások a szolgáltatásokban és tanácsadásban, energiaügyben , egészségügyben , politikában . [17] 

A University of Dundee program a " big data "-ra helyezi a hangsúlyt, elsősorban a "táblázatfeldolgozással" szemben, és az adatbányászatra , az adatbázis- és tárolási modellezésre , a statisztikákra , valamint az SQL , MDX , R , Erlang , Java nyelvekre összpontosít . a program , a Hadoop és a NoSQL eszközök [27] .

Jegyzetek

  1. Press, 2012 , Az „adattudomány” kifejezés (a „Datalógiával együtt”)….
  2. Smith, 2006 .
  3. Dhar, 2013 .
  4. Davenport, 2012 .
  5. 1 2 Press, 2012 .
  6. 12. Smith , 2006 , p. 164.
  7. Naur, 1974 : "Az adattudomány az adatok kezelésének tudománya, ha egyszer már létrejöttek, míg az adatok és az általuk képviselt viszony más területekre és tudományokra van delegálva".
  8. Press, 2012 , Az „adattudomány” kifejezést (a „datalógiával együtt”) Peter Naur javasolta először az 1960-as évek végén.
  9. Zhuravleva, 2012 , „F. D. Smith szerint az adattudománynak 1990-ig nem volt neve, de 1966-ban kezdett fejlődni, amikor a Nemzetközi Tudományos Tanács tudományos és technológiai adatokkal foglalkozó interdiszciplináris bizottsága megalakult.”
  10. Cleveland, 2001 .
  11. Press, 2012 , Az „adattudomány” kifejezést… William S. Cleveland javasolta 2001-ben, mint új akadémiai diszciplínát, kiterjesztve a statisztika területét az „adatokkal történő számítástechnika fejlődésére”.
  12. Korábbi O'Reilly konferenciák  archívuma . O'Reilly Media (2012). Letöltve: 2013. január 2. archiválva az eredetiből: 2013. január 26..
  13. Simon Piff. Jegyzetek az adattudományi csúcstalálkozóról: Making Sense of Big Data  (angol)  (a link nem érhető el) . Dokumentum egy pillantásra . IDC (2012. július 1.). Hozzáférés dátuma: 2012. december 8. Az eredetiből archiválva : 2013. január 26.
  14. Manyika, James et al. Big data: Az innováció, a verseny és a termelékenység következő határa  (angol) (PDF). McKinsey Global Institute, 2011. június . McKinsey (2011. augusztus 9.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. december 11..
  15. Steven Overly. Ahogy a big data elemzők iránti kereslet növekszik, az iskolák rohannak a végzett hallgatókhoz, akik rendelkeznek a szükséges ismeretekkel  (angolul) . Washington Post (2013. szeptember 16.). – „Ezt az igényt a McKinsey Global Institute 2011. júniusi jelentésében fogalmazták meg.” Letöltve: 2013. december 31. Az eredetiből archiválva : 2016. március 13..
  16. Davenport, 2012 , "Goldman jó példa a szervezetek új kulcsszereplőjére: az "adattudósra". Ez egy magas rangú szakember, aki képzett és kíváncsi arra, hogy felfedezéseket tegyen a nagy adatok világában".
  17. 1 2 MSc Data Science & Management  . üzleti iskola . Imperial College (2013. január 1.). Hozzáférés dátuma: 2013. január 18. Az eredetiből archiválva : 2013. január 29.
  18. ↑ Az UW, Berkeley, NYU együttműködik egy 37,8 millió dolláros adattudományi kezdeményezésen  . Washingtoni Egyetem (2013. november 12.). Hozzáférés dátuma: 2013. december 31. Az eredetiből archiválva : 2013. december 25.
  19. Zsukov, 2013 , p. 5.
  20. Dhar, 2013 , Az adattudomány a tudás adatokból történő általánosítható kinyerésének tanulmányozása.
  21. Először Drew Conway adta ki 2010- ben
  22. Zsukov, 2013 .
  23. Dhar, 2013 , Egy általános episztemikus követelmény annak megítélésében, hogy az új tudás felhasználható-e a döntéshozatalhoz, a prediktív ereje, nem csak a múlt magyarázatának képessége.
  24. Dhar, 2013 , A rövid válasz az, hogy az adattudomány különbözik a statisztikától <…> több fontos dologban is <…> Kezdjük, a nyersanyag, az „adat”, az adattudomány része, egyre heterogénebb és strukturálatlanabb – szöveg, képek, videók – gyakran olyan hálózatokból származnak, amelyek entitásaik között összetett kapcsolatokkal rendelkeznek <…> a legtöbb ember és számítógép által manapság generált adat számítógépek általi fogyasztásra szolgál; vagyis a számítógépek egyre inkább egymás helyett végeznek háttérmunkát és automatikusan hoznak döntéseket. Ez a skálázhatóság a döntéshozatalban az új tudás létrehozásának alapanyagául szolgáló big data miatt vált lehetővé.
  25. Zsukov, 2013 , p. nyolc.
  26. Bill Howe. Bevezetés az adattudományba . Coursera (2012. december 8.). Letöltve: 2012. december 8. Az eredetiből archiválva : 2012. november 5..
  27. Adattudományi MSc  (eng.)  (elérhetetlen link) . Számítástechnikai Iskola . Dundee Egyetem (2013. január 1.). „Az adattudós az a személy, aki kiválóan képes kezelni és elemezni az adatokat, különösen a nagy adathalmazokat, amelyek nem illeszthetők be könnyen táblázatos struktúrákba (úgynevezett „Big Data”).” Hozzáférés dátuma: 2013. január 18. Az eredetiből archiválva : 2013. január 22.

Irodalom