Nagy adat

A big data ( angolul big data , [ ˈbɪɡ ˈdeɪtə ]) a strukturált és strukturálatlan, hatalmas volumenű és igen változatos adatok megjelölése, amelyeket a 2000 -es évek végén megjelent, vízszintesen skálázható szoftvereszközökkel hatékonyan dolgoznak fel, és a hagyományos adatbázis-kezelő rendszerek , ill. üzleti osztályú megoldások [1] [2] [3] .

Tágabb értelemben a „big data”-ról olyan társadalmi-gazdasági jelenségről beszélünk, amely a hatalmas mennyiségű adat elemzésére alkalmas technológiai lehetőségek megjelenésével jár együtt, bizonyos problématerületeken – a teljes globális adatmennyiség, és az ebből eredő átalakulási következmények . 4] .

A big data meghatározó jellemzőiként hagyományosan „három V-t” különböztetnek meg: térfogat ( angolul volume , a fizikai térfogat nagyságának értelmében), sebesség ( sebesség a növekedési ütem és a nagy sebesség szükségessége értelmében egyaránt ). feldolgozás és eredmények megszerzése), diverzitás ( változatosság , különböző típusú strukturált és félig strukturált adatok egyidejű feldolgozásának lehetősége értelmében) [5] [6] ; különféle változatai és értelmezései jelentek meg .

Információtechnológiai szempontból a megközelítések és eszközök készletébe kezdetben a határozatlan szerkezetű adatok tömeges párhuzamos feldolgozása tartozott, elsősorban a NoSQL kategóriájú adatbázis-kezelő rendszerek, a MapReduce algoritmusok és az ezeket megvalósító Hadoop projekt szoftver keretrendszerei és könyvtárai. [7] . A jövőben számos információtechnológiai megoldást kezdtek tulajdonítani a big data technológiák sorozatának, amelyek valamilyen szinten hasonló képességeket biztosítanak az extra nagy adattömbök feldolgozásához.

Történelem

A „big data” kifejezés széles körben elterjedt bevezetése Clifford Lynchhez , a Nature folyóirat szerkesztőjéhez köthető, aki 2008. szeptember 3- ra különszámot készített azzal a témával , hogy „Hogyan befolyásolhatják az olyan technológiák, amelyek lehetőséget nyitnak a nagy adatokkal való munkavégzésre. a tudomány jövője?" , amely a feldolgozott adatok mennyiségének és változatosságának robbanásszerű növekedésének jelenségéről, valamint a technológiai kilátásokról gyűjtött anyagokat a "mennyiségről a minőség felé" valószínû ugrás paradigmájában; a kifejezést a „big oil” , a „big ore” metaforák analógiájával javasolták az üzleti angol nyelvű környezetben [9] [10] .

Annak ellenére, hogy a fogalom bevezetésre került az akadémiai környezetben, és mindenekelőtt a tudományos adatok gyarapodásának és sokszínűségének problémáját elemezték, 2009 óta a kifejezés széles körben elterjedt az üzleti sajtóban, 2010-re pedig a az első termékek és megoldások[ áramvonalas kifejezés ] kizárólag és közvetlenül a nagy adatfeldolgozás problémájára vonatkozik. 2011-re a szervezetek legnagyobb információs technológiai szolgáltatóinak többsége üzleti stratégiájában a big data fogalmát használja, köztük az IBM [11] , az Oracle [12] , a Microsoft [13] , a Hewlett-Packard [14] , az EMC [15] . , az információs technológiai piac fő elemzői pedig elkötelezett kutatásokat szentelnek a koncepciónak [5] [16] [17] [18] .

2011-ben a Gartner a big data-t az IT-infrastruktúra második számú trendjeként értékelte (a virtualizáció után , és az energiatakarékosságnál és -felügyeletnél is jelentősebb ) [19] . Ugyanakkor azt jósolták, hogy a big data technológiák bevezetése lenne a legnagyobb hatással az információtechnológiára a feldolgozóiparban , az egészségügyben , a kereskedelemben , a közigazgatásban , valamint azokon a területeken és iparágakban, ahol az egyes erőforrások mozgását rögzítik [20] .

2013 óta a big data-t mint akadémiai tárgyat tanulmányozzák a feltörekvő adattudományi [21] és számítástechnikai tudományok és mérnöki [22] egyetemi programokban .

2015-ben a Gartner kizárta a big data-t az új technológiai érettségi ciklusból, és leállította egy különálló big data technológiai érettségi ciklus kiadását, amelyet 2011-2014-ben adtak ki, arra hivatkozva, hogy a hype-ről a gyakorlati felhasználásra tértek át. A dedikált érettségi ciklusban megjelent technológiák nagyrészt speciális ciklusokba költöztek át a fejlett analitikában és adattudományban, BI- és adatelemzésben, vállalati információkezelésben, lakossági számítástechnikában , információs infrastruktúrában [23] .

VVV

A VVV jellemzőkészletet ( volucy , velocity, variation ) eredetileg a Meta Group fejlesztette ki 2001-ben, a big data ötletek kontextusán kívül, mint az információtechnológiai módszerek és eszközök bizonyos sorozata, az a koncepció növekvő népszerűsége kapcsán. központi adattárház a szervezetek számára, megállapították az adatkezelési kérdések egyenértékűségét mindhárom szempontból [24] . Ezt követően megjelentek az értelmezések „négy V-vel” ( igazság hozzáadva - megbízhatóság, az IBM promóciós anyagaiban [25] ), „öt V-vel” (ebben a verzióban az életképesség hozzáadásra került - életképesség , és érték - érték [26] ), és még „család V” is (minden mellett változékonyságot és vizualizációt is adtak hozzá [27] ). Az IDC a "negyedik V-t" értékként értelmezi a megfelelő mennyiségek megfelelő feltételek melletti feldolgozásának gazdasági megvalósíthatóságának fontossága szempontjából, ami az IDC big data meghatározásában is tükröződik [28] . Ezek a jelek minden esetben azt hangsúlyozzák, hogy a big data esetében nemcsak a fizikai mennyiség a meghatározó, hanem más kategóriák is, amelyek elengedhetetlenek az adatfeldolgozás és -elemzés feladatának összetettségének megértéséhez.

Források

A dolgok internetét és a közösségi médiát a big data klasszikus forrásaként ismerik el , és úgy gondolják, hogy a big data származhat vállalkozások és szervezetek belső információiból (információs környezetekben generált, de korábban nem tárolt vagy elemzett), a területekről. az orvostudomány és a bioinformatika , csillagászati megfigyelésekből [29] .

A big data forrásai például a [30] [31] folyamatosan beérkező adatok a mérőeszközökről, az RFID -kről származó események, a közösségi hálózatokról érkező üzenetfolyamok , a meteorológiai adatok , a Föld távérzékelési adatai, a mobilhálózatok előfizetőinek helyére vonatkozó adatfolyamok , eszközök audio és video felvételek . Várhatóan ezeknek a forrásoknak a kialakulása és széles körű elterjedésének megkezdése elindítja a big data technológiák elterjedését mind a kutatási tevékenységben, mind a kereskedelmi szektorban és a közigazgatásban.

Elemzési módszerek

A McKinsey -jelentésben [32] kiemelt nagyméretű adatokra alkalmazható elemzési módszerek és technikák :

az Adatbányászat osztály módszerei : asszociációs szabályok tanulása , osztályozás (az új adatok kategorizálására szolgáló módszerek a meglévő adatokra korábban alkalmazott elvek alapján), klaszteranalízis , regressziós elemzés ;
crowdsourcing - az adatok kategorizálása és gyarapítása az érintettek széles, határozatlan körének erőivel nyilvános ajánlat alapján, munkaviszony létesítése nélkül;
adatkeverés és -integráció ( angolul data fusion and integration ) - olyan technikák összessége, amelyek lehetővé teszik a különböző forrásokból származó heterogén adatok integrálását a mélyreható elemzés, a digitális jelfeldolgozás és a természetes nyelvi feldolgozás (beleértve a tónuselemzést ) lehetőségét. példák az ilyen technikákra, amelyek a módszerek ezen osztályát alkotják . );
gépi tanulás , beleértve a felügyelt és nem felügyelt tanulást , valamint az Ensemble learning -- statisztikai elemzés vagy gépi tanulás alapján épített modellek használata alapmodelleken alapuló összetett előrejelzések készítésére ( angol alkotói modellek , vö. a statisztikai mechanika statisztikai együttese );
mesterséges neurális hálózatok , hálózatelemzés , optimalizálás , beleértve a genetikai algoritmusokat is ;
minta felismerés ;
prediktív analitika ;
szimulációs modellezés ;
A térbeli elemzés olyan módszerek csoportja, amelyek topológiai , geometriai és földrajzi információkat használnak az adatokban;
A statisztikai elemzés , az A/B tesztelés és az idősorelemzés példaként szerepel a módszerekre ;
analitikai adatok megjelenítése - információk megjelenítése ábrák, diagramok formájában, interaktív funkciók és animáció segítségével, mind az eredmények elérése, mind a további elemzések bemeneti adataként történő felhasználása érdekében.

Technológia

Leggyakrabban a horizontális skálázhatóságot jelölik meg a big data feldolgozás alapelveként , amely biztosítja a több száz és több ezer számítási csomóponton elosztott adatok feldolgozását teljesítménycsökkenés nélkül; különösen ez az elv szerepel a NIST big data definíciójában [33] . Ugyanakkor a McKinsey a legtöbb elemző által figyelembe vett NoSQL, MapReduce, Hadoop, R technológiákon kívül Business Intelligence technológiákat és SQL nyelvet támogató relációs adatbázis-kezelő rendszereket is tartalmaz [34] a feldolgozási alkalmazhatóság összefüggésében. nagy adatok .

NoSQL

MapReduce

Hadoop

R

Hardver megoldások

Számos hardver és szoftverrendszer kínál előre konfigurált megoldásokat a nagy adatok feldolgozására: Aster MapReduce készülék ( Teradata vállalatok ), Oracle Big Data készülék , Greenplum készülék ( EMC vállalat , a felvásárolt Greenplum cég megoldásai alapján ). Ezeket a csomagokat telepítésre kész adatközponti szekrényekként szállítják, amelyek szervercsoportot és vezérlőszoftvert tartalmaznak a masszív párhuzamos feldolgozáshoz.

Hardvermegoldások lakossági számítástechnikához , elsősorban memórián belüli adatbázisokhoz és memórián belüli elemzésekhez, különösen a Hana hardver- és szoftverrendszerei (az SAP előre konfigurált hardver- és szoftvermegoldása ) és az Exalytics ( az Oracle Timesten relációs rendszerén alapuló komplexuma) által kínált rendszer és a többdimenziós Essbase ), néha big data megoldásoknak is nevezik [35] [36] , annak ellenére, hogy az ilyen feldolgozás kezdetben nem masszívan párhuzamos, és egy csomópont RAM mennyisége több terabájtra korlátozódik. .

Emellett néha a hagyományos relációs adatbázis-kezelő rendszereken alapuló hardver- és szoftverrendszereket - Netezza , Teradata , Exadata - néha big data megoldásként is emlegetik, mivel képesek terabájt és exabájt strukturált információ hatékony feldolgozására, megoldva a hatalmas mennyiségű strukturált adat gyors keresése és analitikai feldolgozása. Megjegyzendő, hogy az első masszívan párhuzamos hardver-szoftver megoldások nagyon nagy mennyiségű adat feldolgozására a Britton Lee voltak , amelyeket először 1983 -ban adtak ki, és a Teradata (amelyet 1984 -ben kezdtek gyártani , ráadásul 1990 -ben a Teradata felszívta Britton Lee -t). ) [37] .

A DAS hardvermegoldásokat - közvetlenül a csomópontokhoz kapcsolódó adattároló rendszereket - az SN architektúrában a feldolgozó csomópontok függetlensége mellett néha big data technológiáknak is nevezik. A nagy adathalmaz fogalmának megjelenéséhez köthető a 2010-es évek elején a DAS-megoldások iránti érdeklődés megugrása , miután a 2000-es években a NAS és SAN osztályú hálózati megoldások kiszorították őket [38] .

Jegyzetek

↑ Primesberger, 2011 : „A nagy adat a hálózatokon keresztül a processzorokba és tárolóeszközökbe áramló strukturált és strukturálatlan adatok mennyiségére, változatosságára és sebességére vonatkozik, valamint ezeknek az adatoknak a vállalkozások számára nyújtott üzleti tanácsokká való átalakítására.
↑ PwC, 2010 , A „big data” kifejezés azokra az esetleges exponenciális növekedésű adatkészletekre utal, amelyek túl nagyok, túl formázatlanok vagy túl strukturálatlanok ahhoz, hogy hagyományos módszerekkel elemezzék őket. 42.
↑ McKinsey, 2011 , „Big data” olyan adatkészletekre utal, amelyek mérete meghaladja a tipikus adatbázis-szoftver eszközök rögzítési, tárolási, kezelési és elemzési képességét, o. egy.
↑ Mayer-Schoenberger, 2014 .
↑ 12 Gartner , 2011 .
↑ Kanarakus, Chris. Big Data Machine . Hálózatok , 2011. 04. szám . Open Systems (2011. november 1.). - „... big data, mint „három V”: mennyiség („térfogat” – tárolt adatok petabájtja), sebesség („sebesség” – adatgyűjtés, átalakítás, betöltés, elemzés és lekérdezés valós időben) és változatosság („változatosság” ” - különböző típusú strukturált és félig strukturált adatok feldolgozása). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3.. (Orosz)
↑ PwC, 2010 , 2010 elejére a Hadoop, a MapReduce és a hozzájuk kapcsolódó nyílt forráskódú technológiák egy teljesen új jelenséget indítottak el, amelyet az O'Reilly Media, a The Economist és mások big data-nak nevezett el, o. 42.
↑ A világ technológiai kapacitása az információk tárolására, kommunikálására és kiszámítására . MartinHilbert.net . Letöltve: 2016. április 13. Az eredetiből archiválva : 2016. április 14.. (határozatlan)
↑ Chernyak, 2011 , A Big Data azon kevés címek egyike, amelyeknek teljesen megbízható születési dátuma van - 2008. szeptember 3., amikor megjelent a legrégebbi brit Nature tudományos folyóirat különszáma, amelynek célja, hogy választ találjon a következő kérdésre: Hogyan képesek olyan technológiákat használni, amelyek lehetővé teszik a nagy mennyiségű adat kezelését? […] Felismerve a közelgő változások mértékét, Clifford Lynch, a Nature szerkesztője egy különleges nevet javasolt az új Big Data paradigmának, amelyet olyan metaforák analógiájára választott, mint a Big Oil, Big Ore stb., nem annyira a mennyiséget tükrözve. valamiről, mennyire a mennyiség átmenete minőséggé.
↑ Példa a Big Oil metafora használatára (angolul) , vö. a "Big Ore" történetet , a "Big Oil" című filmet is
↑ Dubova, Natalya. Nagy konferencia a Big Dataról . Open Systems (2011. november 3.). "Az IBM Information on Demand fóruma, amely több mint 10 000 résztvevőt hozott össze, a Big Data elemzésére összpontosított." Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3.. (Orosz)
↑ Henschen, Doug. Az Oracle kiadja a NoSQL-adatbázist , elősegíti a Big Data terveket . Információs Hét (2011. október 24.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3..
↑ Finley, Klint. Steve Ballmer a Microsoft Big Data jövőjéről és még sok másról az eheti üzleti intelligencia összesítésében . ReadWriteWeb (2011. július 17.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3..
↑ Sah, Agam. A HP a személyi számítógépeket Big Data-ra cseréli . Open Systems (2011. augusztus 19.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3.. (határozatlan)
↑ Az EMC megpróbálja egységesíteni a Big Data Analyticset . Információs Hét (2011. szeptember 21.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3..
↑ Woo, Benjamin et al. Az IDC Worldwide Big Data taxonómiája . International Data Corporation (2011. október 1.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3..
↑ Evelson, Boris és Hopkins, Brian. Hogyan használják a Forrester-ügyfelek a Big Data -t ? Forrester Research (2011. szeptember 20.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3..
↑ McKinsey, 2011 .
↑ Thibodeau, Patrick. A Gartner 10 legnagyobb informatikai kihívása közé tartozik a baby boom korszakból való kilépés, a Big Data . Computerworld (2011. október 18.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3..
↑ Chernyak, 2011 , Szakértők, például a McKinsey Institute szerint a Big Data hatására a termelési szféra, az egészségügy, a kereskedelem, az adminisztráció és az egyéni mozgások nyomon követése megy át a legnagyobb átalakuláson.
↑ Adattudományi MSc . Számítástechnikai Iskola . Dundee Egyetem (2013. január 1.). „Az adattudós az a személy, aki kiválóan képes kezelni és elemezni az adatokat, különösen a nagy adathalmazokat, amelyek nem illeszthetők be könnyen táblázatos struktúrákba (úgynevezett „Big Data”).” Hozzáférés dátuma: 2013. január 18. Az eredetiből archiválva : 2013. január 22.
↑ Master of Science fokozat. A Harvard első számítástechnikai és mérnöki képzése egy intenzív évfolyam, amely a Master of Science fokozathoz vezet . Alkalmazott Számítástudományi Intézet . Harvard Egyetem (2013. január 1.). – „…A tudomány és technológia e korszakának számos meghatározó kérdése a „big data” és a gépi tanulásra fog összpontosítani. Ez a mesterképzés felkészíti a hallgatókat ezekre a kérdésekre…” Hozzáférés dátuma: 2013. január 18. Az eredetiből archiválva : 2013. január 22.
↑ Simon Sharwood. Felejtsd el a Big Data hype-ot , mondja a Gartner , miközben felgyorsítja a hype ciklust . A nyilvántartás (2015. augusztus 21.). Letöltve: 2017. február 19. Az eredetiből archiválva : 2017. február 20..
↑ Doug Laney. 3D adatkezelés : az adatmennyiség, sebesség és változatosság szabályozása . Meta Group (2001. február 6.). Hozzáférés dátuma: 2017. február 19. Az eredetiből archiválva : 2013. július 23.
↑ A Big Data négy V-je . IBM (2011). Hozzáférés időpontja: 2017. február 19. Az eredetiből archiválva : 2016. június 16.
↑ Neil Biehn. A Big Data hiányzó V-jei: életképesség és érték . Vezetékes (2013. május 1.). Letöltve: 2017. február 19. Az eredetiből archiválva : 2017. február 20..
↑ Eileen McNulty. A Big Data megértése : A hét V. Dataconomy (2014. május 22.). Letöltve: 2017. február 19. Az eredetiből archiválva : 2017. február 20..
↑ Chen et al., 2014 : „A nagy adatátviteli technológiák a technológiák és architektúrák új generációját írják le, amelyeket arra terveztek, hogy a nagy sebességű rögzítést, felderítést és/vagy adatgyűjtést lehetővé téve gazdaságosan kinyerjenek értéket sokféle adatból. elemzés”, p. négy.
↑ Chen et al., 2014 , p. 19-23.
↑ McKinsey, 2011 , pp. 7-8.
↑ Csernyak, 2011 .
↑ McKinsey, 2011 , pp. 27-31.
↑ Chen et al., 2014 : „Big data alatt azokat az adatokat értjük, amelyeknek az adatmennyisége, a gyűjtési sebesség vagy az adatábrázolás korlátozza a hagyományos relációs módszerek alkalmazásának lehetőségét a hatékony elemzés elvégzésére, vagy a fontos horizontális módszerekkel hatékonyan feldolgozható adatokat. zoom-technológiák”, 10. o. négy.
↑ McKinsey, 2011 , pp. 31-33.
↑ Chernyak, 2011 , A következő lépés az SAP HANA (High Performance Analytic Appliance) technológia lehet, melynek lényege, hogy a RAM-ban helyezzük el az adatokat elemzés céljából.
↑ Darrow, Barb. Az Oracle piacra dobja az Exalytics-t, a big data eszközt . GigaOM (2011. október 2.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3..
↑ Chernyak, 2011 , ... Britton-Lee volt az első, aki 1983-ban "adatbázismotort" hozott létre a Zilog Z80 processzorcsalád többprocesszoros konfigurációja alapján. Ezt követően a Britton-Lee-t megvásárolta a Teradata, amely 1984 óta gyárt MPP-architektúrájú számítógépeket döntéstámogató rendszerek és adattárházak számára.
↑ Leonyid Csernyak. A Big Data feltámasztja a DAS-t . "Computerworld Russia", 2011. évi 14. szám . Nyílt rendszerek (2011. május 5.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. szeptember 3.. (Orosz)

Irodalom

Min Chen, Shiwen Mao, Yin Zhang, Victor CM Leung. nagy adat. Kapcsolódó technológiák, kihívások és jövőbeli kilátások. - Spinger, 2014. - 100 p. - ISBN 978-3-319-06244-0 . - doi : 10.1007/978-3-319-06245-7 .
Victor Mayer-Schoenberger, Kenneth Cookier. Nagy adat. Forradalom, amely megváltoztatja életünket, munkánkat és gondolkodásunkat = Big Data. Forradalom, amely átalakítja életünket, munkánkat és gondolkodásunkat / per. angolról. Inna Gaydyuk. — M. : Mann, Ivanov, Ferber, 2014. — 240 p. - ISBN 987-5-91657-936-9.
Preimesberger, Chris Hadoop, Yahoo, „Big Data ” Brighten BI Future . EHét (2011. augusztus 15.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. május 17.
Leonyid Csernyak. Big Data – Új elmélet és gyakorlat // Nyílt rendszerek. DBMS . - 2011. - 10. sz . — ISSN 1028-7493 . (Orosz)
Alan Morrison és munkatársai : Big Data: hogyan nyerjünk ki belőle információkat . Technológiai előrejelzés. Negyedéves folyóirat, orosz kiadás, 2010. 3. szám . PricewaterhouseCoopers (2010. december 17.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. március 11. (Orosz)
A Gartner szerint a „Big Data” kihívás megoldása nem csak adatmennyiségek kezelését jelenti . Gartner (2011. június 27.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. május 17.
James Manyika et al. Big data: Az innováció, a verseny és a termelékenység következő határa (angol) (PDF). McKinsey Global Institute, 2011. június . McKinsey (2011. augusztus 9.). Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. december 11..

Linkek

Bibliográfiai katalógusokban
BNE : XX5324756 BNF : 16657853j GND : 4802620-7 J9U : 987007593186405171 LCCN : sh2012003227 NDL : 001147262 NKC : 836790