Hadoop

Apache Hadoop
Típusú keretrendszer
Szerző Doug vágás [d]
Fejlesztő Apache Software Foundation
Beírva Jáva
Operációs rendszer cross-platform és POSIX
Első kiadás 2006. április 1. [1]
Hardver platform Java virtuális gép
legújabb verzió
Engedély Apache License 2.0 és GNU GPL
Weboldal hadoop.apache.org
 Médiafájlok a Wikimedia Commons oldalon

A Hadoop  az Apache Software Foundation projektje , amely szabadon terjesztett segédprogramok , könyvtárak és keretrendszer a több száz és több ezer csomópontból álló fürtökön futó elosztott programok fejlesztésére és végrehajtására . Keresési és kontextuális mechanizmusok megvalósítására szolgál számos nagy terhelésű webhelyen, beleértve a Yahoo! és a Facebook [2] . Java nyelven a MapReduce számítási paradigma keretein belül fejlesztették ki , amely szerint az alkalmazás nagyszámú azonos elemi feladatra van felosztva, amelyek a fürt csomópontjain végrehajthatók, és természetesen a végeredményre redukálódnak.

2014-től a projekt négy modulból áll - Hadoop Common ( középső szoftver  - infrastrukturális szoftverkönyvtárak és segédprogramok, amelyeket más modulokhoz és kapcsolódó projektekhez használnak), HDFS ( elosztott fájlrendszer ) , YARN (feladatok ütemezésére és fürt kezelésére szolgáló rendszer) és Hadoop MapReduce (platform az elosztott MapReduce számítások programozására és végrehajtására), korábban a Hadoop számos más projektet is tartalmazott, amelyek függetlenné váltak az Apache Software Foundation projektrendszeren belül.

A „ big data ” egyik alaptechnológiájának tartják . A Hadoop körül a kapcsolódó projektek és technológiák teljes ökoszisztémája alakult ki, amelyek közül sokat kezdetben a projekt részeként fejlesztettek ki, majd később függetlenné váltak. A 2000-es évek második fele óta folyamatban van a technológia aktív kereskedelmi forgalomba hozatala , több vállalat teljes egészében a Hadoop és az ökoszisztéma műszaki támogatási szolgáltatások kereskedelmi disztribúcióinak létrehozására, valamint szinte az összes jelentősebb információs technológia létrehozására építi. A szervezetek szolgáltatói ilyen vagy olyan formában tartalmazzák a Hadoop-ot a termékstratégiákban és termékvonalakban.

Történelem

A fejlesztést 2005 elején Doug Cutting kezdeményezte azzal a  céllal, hogy elosztott számítástechnikai szoftver-infrastruktúrát építsenek ki a Nutch projekthez  , egy ingyenes Java szoftverkeresőhöz , ideológiai alapja a Google munkatársainak, Jeffrey Deannek és Sanjay Gemawatnak a publikációja volt [3]. a MapReduce [4] számítási koncepcióiról . Az új projekt az alapító játék elefántról kapta a nevét [5] .

2005 és 2006 között a Hadoop-ot két fejlesztő – Cutting és Mike Cafarella ( Mike Cafarella ) fejlesztette részmunkaidőben [4] , először a Nutch projekt, majd a Lucene projekt részeként . 2006 januárjában Cutting felkérést kapott a Yahoo - tól, hogy vezessen egy dedikált csapatot egy elosztott számítástechnikai infrastruktúra fejlesztésére, amely magában foglalja a Hadoop külön projektbe történő szétválasztását is. 2008 februárjában a Yahoo elindított egy 10 000 magos fürt keresőmotort , amelyet Hadoop hajtott.

2008 januárjában a Hadoop az Apache Software Foundation projektrendszer legfelső szintű projektje lesz . 2008 áprilisában a Hadoop megdöntötte a világteljesítmény-rekordot a szabványosított adatrendezési benchmark  terén, 1 TB-ot feldolgozva 209 másodperc alatt. egy 910 csomópontból álló klaszteren [6] . Ettől a pillanattól kezdve a Hadoopot széles körben használják a Yahoo-n kívül – a Last.fm , a Facebook , a The New York Times [7] implementálja a technológiát oldalaikon , és az adaptáció folyamatban van a Hadoop Amazon EC2 felhőkben való futtatásához .

2010 áprilisában a Google megadta az Apache Software Foundation-nek a MapReduce technológia használati jogát, három hónappal azután, hogy azt az Egyesült Államok Szabadalmi Hivatala megvédte , ezáltal tehermentesítette az esetleges szabadalmi igények megszervezését [8] .

2010 óta a Hadoop-ot többször is kulcsfontosságú „ big data ” technológiaként jellemezték, az előrejelzések szerint széles körben elterjedt masszívan párhuzamos adatfeldolgozásra, és a Cloudera mellett számos technológiai startup jelent meg, amelyek teljes mértékben a Hadoop kereskedelmi forgalomba hozatalára összpontosítanak. [9] [10] . 2010 folyamán a Hadoop több alprojektje - Avro , HBase , Hive , Pig , Zookeeper  - egymás után vált az Apache alapítvány legfelső szintű projektjévé, amely a Hadoop körüli ökoszisztéma kialakulásának kezdetét jelentette . 2011 márciusában a Hadoop elnyerte a Guardian Media Group éves innovációs díját , amelyen a technológia elnyerte a „ 21. századi svájci kés ” [11] elnevezést .

A 2013 őszén megjelent Hadoop 2.0 YARN modul megvalósítása jelentős ugrásként értékelhető, amely túlmutat a MapReduce paradigmán, és a technológiát egy univerzális megoldás szintjére helyezi az elosztott adatfeldolgozás megszervezésében [12] .

Hadoop Common

A Hadoop Common a Hadoop által támogatott fájlrendszerek kezelésére szolgáló könyvtárakat, valamint a szükséges infrastruktúra létrehozásához és az elosztott feldolgozás kezeléséhez szükséges szkripteket tartalmaz, amelyek kényelmére speciális, egyszerűsített parancssori értelmezőt ( FS shell , fájlrendszer shell ) hoztak létre, amely az operációs rendszerből indult. rendszerhéj a következő formátumú paranccsal: , ahol  egy interpreter parancs, és  az erőforrások listája a támogatott fájlrendszertípussal, például vagy . A legtöbb értelmező parancsot a megfelelő Unix parancsokkal analóg módon valósítjuk meg (például , , , , , , , , , , , ráadásul a hasonló Unix parancsok néhány billentyűje támogatott, például a , , rekurzív kulcsa ) , vannak a Hadoopra jellemző parancsok (például megszámolja az adott útvonalon lévő könyvtárak, fájlok és bájtok számát, kiüríti a lomtárat és módosítja az adott erőforrás replikációs tényezőjét).hdfs dfs -command URIcommandURIhdfs://example.com/file1file:///tmp/local/file2catchmodchownchgrpcpdulsmkdirmvrmtail-Rchmodchownchgrpcountexpungesetrep

HDFS

A HDFS ( Hadoop Distributed File System ) egy olyan fájlrendszer, amelyet nagy fájlok tárolására terveztek, blokkonként elosztva a számítási fürt csomópontjai között. A HDFS-ben lévő összes blokk (a fájl utolsó blokkját kivéve) azonos méretű, és minden blokk több csomópontra helyezhető, a blokk mérete és a replikációs tényező (a csomópontok száma, amelyekre az egyes blokkokat el kell helyezni) a következőben van megadva. a fájlszintű beállításokat. A replikációnak köszönhetően az elosztott rendszer stabilitása az egyes csomópontok meghibásodásával szemben biztosított. A fájlok csak egyszer írhatók HDFS-be (a módosítás nem támogatott), és egyszerre csak egy folyamat írhat egy fájlba. A fájlok elrendezése a névtérben hagyományos hierarchikus : van gyökérkönyvtár, a könyvtárak egymásba ágyazása támogatott, a fájlok és egyéb könyvtárak ugyanabban a könyvtárban helyezkedhetnek el.

A HDFS-példány telepítése egy központi névcsomópontot ( eng. name node ) biztosít, amely a fájlrendszer metaadatait és a blokkok elosztásával kapcsolatos metainformációkat tárolja, valamint egy sor adatcsomópontot ( eng. data node ), amelyek közvetlenül tárolják a fájlblokkokat. A név csomópont felelős a fájl- és könyvtárszintű műveletek feldolgozásáért - fájlok megnyitásáért és bezárásáért, könyvtárak manipulálásáért, az adatcsomópontok közvetlenül feldolgozzák az adatírási és -olvasási műveleteket. A névcsomópont és az adatcsomópontok webszerverekkel vannak ellátva, amelyek megjelenítik a csomópontok aktuális állapotát, és lehetővé teszik a fájlrendszer tartalmának megtekintését. Az adminisztrációs funkciók a parancssori felületről érhetők el.   

A HDFS a projekt szerves része, azonban a Hadoop támogatja a HDFS használata nélkül végzett munkát más elosztott fájlrendszerekkel, az Amazon S3 és a CloudStore támogatása a fő disztribúcióban van megvalósítva. Másrészt a HDFS nem csak MapReduce feladatok futtatására használható, hanem általános célú elosztott fájlrendszerként is, ezen belül egy elosztott NoSQL DBMS HBase van implementálva, és az Apache Mahout méretezhető. gépi tanulási rendszer fut a környezetében .

FONAL

A YARN ( angolul :  Yet Another Resource Negotiator  – „ egy másik erőforrás-közvetítő ”) egy modul, amely a 2.0-s verzióval (2013) jelent meg, és amely a fürterőforrások kezeléséért és a feladatok ütemezéséért felelős. Ha a korábbi kiadásokban ezt a funkciót a MapReduce modulba integrálták , ahol egyetlen komponenssel ( JobTracker ) valósították meg, akkor a YARN-ben van egy logikailag független démon  - az erőforrásütemező ( ResourceManager ), amely absztrahálja az összes számítási erőforrást. fürt, és kezeli azok ellátását az elosztott feldolgozó alkalmazásokhoz. Mind a MapReduce programok, mind bármely más elosztott alkalmazás, amely támogatja a megfelelő programozási felületeket, működhet a YARN vezérlése alatt; A YARN lehetőséget biztosít több különböző feladat párhuzamos végrehajtására a klaszteren belül és ezek elkülönítésére (a többbérlet elvei szerint ). Az elosztott alkalmazásfejlesztőknek egy speciális alkalmazáskezelési osztályt ( ApplicationMaster ) kell megvalósítaniuk, amely a feladatok koordinálásáért felel az erőforrás-ütemező által biztosított erőforrásokon belül; az erőforrás-ütemező felelős az alkalmazásvezérlő osztály példányainak létrehozásáért és a megfelelő hálózati protokollon keresztüli interakcióért.

A YARN fürt operációs rendszernek tekinthető abban az értelemben, hogy interfészként működik a fürt hardver erőforrásai és az olyan alkalmazások széles osztálya között, amelyek teljesítményét számítási feldolgozás végrehajtására használják [13] .

Hadoop MapReduce

A Hadoop MapReduce  egy szoftverkeretrendszer az elosztott számítástechnika programozására a MapReduce paradigmán belül . A Hadoop MapReduce alkalmazásfejlesztőjének olyan alapkezelőt kell megvalósítania, amely a fürt minden számítási csomópontján biztosítja a kezdeti kulcs-érték párok átalakítását kulcs-érték párok köztes halmazává (az interfészt megvalósító Mapperosztály a Map magasabb rendű függvényről nevezték el ), és a kezelőt, amely a párok köztes halmazát a végső, redukált halmazra redukálja ( fold , az interfészt megvalósító osztály ). A keretrendszer átadja a rendezett kimeneteket az alapkezelőkről a konvolúció bemenetére, a redukció három fázisból áll - keverés ( keverés , a kimenet kívánt szakaszának kiválasztása), rendezés ( rendezés , csoportosítás a forgalmazók kimeneteinek kulcsai szerint) további rendezés, amely akkor szükséges, ha a különböző atomi processzorok ugyanazokkal a kulcsokkal adják vissza a készleteket, ugyanakkor a rendezési szabályok ebben a fázisban programozottan beállíthatók, és a kulcsok belső szerkezetének bármely jellemzőjét felhasználhatják, és csökkenthetik önmagát ( lista hajtogatása ) - az eredményhalmaz megszerzése. Bizonyos típusú feldolgozásoknál nincs szükség a hajtásra, és a keretrendszer ebben az esetben az alapprocesszorok által kapott rendezett párok halmazát adja vissza. Reducer

A Hadoop MapReduce lehetővé teszi a feladatok létrehozását az alapkezelőkkel és a Java használata nélkül írt hajtogatással is: A Hadoop streaming segédprogramok lehetővé teszik bármely olyan futtatható fájl használatát , amely a szabványos operációs rendszer I/O-jával (például UNIX shell -segédprogramokkal) működik alapkezelőként és hajtásként. ), létezik egy SWIG - kompatibilis C++ Hadoop pipes API is . Ezenkívül a Hadoop-disztribúciók az elosztott feldolgozásban leggyakrabban használt különféle alapprocesszorok és összesítések megvalósítását is tartalmazzák.

A Hadoop MapReduce első verziói tartalmaztak egy feladatütemezőt ( JobTracker ), a 2.0-s verzió óta ez a funkció átkerült a YARN-be , és ettől a verziótól kezdve a Hadoop MapReduce modul a YARN tetején van megvalósítva. A programozási felületek többnyire megmaradtak, de nincs teljes visszamenőleges kompatibilitás (vagyis az API korábbi verzióihoz írt programok futtatásához , a YARN-ben való működéshez általában ezek módosítása vagy átalakítása szükséges , és csak bizonyos megkötésekkel visszamenőleges bináris kompatibilitási opciók lehetségesek [14] ).

Skálázhatóság

A Hadoop egyik fő célja kezdetben az volt, hogy vízszintes fürtméretezést biztosítson olcsó csomópontok hozzáadásával (tömegosztályú berendezések, angol  árucikk hardver ), anélkül, hogy nagy teljesítményű szervereket és drága tárolóhálózatokat kellett volna igénybe vennie . A több ezer csomópontból álló működő klaszterek megerősítik az ilyen rendszerek megvalósíthatóságát és költséghatékonyságát, például 2011-től nagy Hadoop-fürtök ismertek a Yahoo-n (több mint 4 ezer csomópont összesen 15 PB tárolókapacitással), Facebook (kb. 2 ezer csomópont 21 PB-nként) és az Ebay (700 csomópont 16 PB-nként) [15] . Úgy gondolják azonban, hogy a Hadoop rendszerek horizontális méretezhetősége korlátozott, a 2.0-s verzió előtti Hadoop esetében a lehetséges maximumot 4 ezer csomópontra becsülték, ha csomópontonként 10 MapReduce-feladatot használtak [16] . Ezt a korlátozást sok tekintetben elősegítette a MapReduce funkciók koncentrációja a feladatok életciklusának figyelésére, és úgy gondolják, hogy a Hadoop 2.0 YARN moduljába való eltávolításával és a decentralizációval - a megfigyelési funkciók egy részének elosztásával a feldolgozó csomópontokhoz – a vízszintes méretezhetőség megnőtt.

A Hadoop rendszerek másik korlátja a RAM mérete a névcsomóponton ( NameNode ), amely a teljes fürt névterét tárolja a disztribúció feldolgozása céljából, ráadásul a névcsomópont által feldolgozott fájlok teljes száma 100 millió [17] . Ennek a korlátozásnak a kiküszöbölése érdekében a jelenlegi architektúrában a teljes fürtre jellemző névcsomópont több független csomópontra történő szétosztása folyamatban van. Egy másik lehetőség ennek a korlátozásnak a leküzdésére az elosztott DBMS használata a HDFS-n felül, például a HBase , amelyben a fájlok és könyvtárak szerepét az alkalmazás szempontjából egy nagy adatbázistáblában lévő rekordok játsszák.

2011-től egy tipikus fürt épült fel egy foglalatos többmagos x86-64 csomópontokból, amelyek Linuxot futtattak , 3-12 lemezes tárolóeszközzel, amelyeket 1 Gb/s-os hálózat kapcsolt össze. Vannak irányzatok mind a csomópontok számítási teljesítményének csökkentésére és az alacsony fogyasztású processzorok használatára ( ARM , Intel Atom ) [18] , mind a nagy teljesítményű számítási csomópontok nagy sávszélességű hálózati megoldásokkal egyidejű alkalmazása ( InfiniBand az Oracle Big Data -ban Készülék , nagy teljesítményű 10 Gb/s Fibre Channel és Ethernet SAN FlexPod big data sablon konfigurációkban).

A Hadoop rendszerek méretezhetősége nagymértékben függ a feldolgozott adatok jellemzőitől, mindenekelőtt a belső struktúrájuktól és a szükséges információk kinyeréséhez szükséges jellemzőiktől, valamint a feldolgozási feladat összetettségétől, ami viszont megszabja a feldolgozás megszervezését. feldolgozási ciklusok, az atomi műveletek számítási intenzitása, és végső soron a párhuzamosság és a klaszterterhelés szintje. A Hadoop kézikönyv (az első verziók, 2.0 előtt) azt jelezte, hogy a párhuzamosság elfogadható szintje az alapprocesszorok 10-100 példányának használata fürtcsomópontonként, és olyan feladatoknál, amelyek nem igényelnek jelentős CPU-időt - akár 300-at is; A konvolúciók esetében optimálisnak tartották a csomópontok számának és a 0,95 és 1,75 közötti együttható szorzatának és a konstansnak a felhasználását mapred.tasktracker.reduce.tasks.maximum. Nagyobb együttható érték mellett a leggyorsabb csomópontok, miután befejezték a konvergencia első körét, korábban megkapják a köztes párok második részét feldolgozásra, így az együttható növelése túlterheli a klasztert, ugyanakkor hatékonyabb terheléselosztást biztosít . A YARN ehelyett konfigurációs állandókat használ, amelyek meghatározzák az erőforrás-ütemező számára elérhető RAM és virtuális processzormagok értékeit [19] , amelyek alapján meghatározzák a párhuzamosság szintjét.

Ökoszisztéma

Kommercializáció

A Hadoop 2008-as népszerűsítése, valamint a Yahoo és a Facebook Hadoop-klasztereinek felépítéséről szóló jelentések hátterében a Cloudera 2008 októberében jött létre Michael Olson, a Sleepycat (a Berkeley DB -t létrehozó cég ) korábbi vezérigazgatója vezetésével . a Hadoop-technológiák kereskedelmi forgalomba hozatala. 2009 szeptemberében a Hadoop fő fejlesztője, Doug Cutting a Clouderához költözött a Yahoo-tól, és ennek az átállásnak köszönhetően a kommentátorok a Clouderát "a Hadoop új szabványhordozójaként" írták le, annak ellenére, hogy a projekt nagy részét még mindig a vállalat alkalmazottai hozták létre. Facebook és Yahoo [20] . A MapR 2009-ben alakult azzal a céllal, hogy létrehozza a Hadoop disztribúció nagy teljesítményű verzióját, és azt saját szoftverként szállítsa. 2009 áprilisában az Amazon elindította az Elastic MapReduce felhőszolgáltatást , amely lehetővé teszi az előfizetők számára, hogy Hadoop-fürtöket hozzanak létre, és azokon időalapú feladatokat hajtsanak végre. Később alternatívaként az Amazon Elastic MapReduce előfizetői választhattak az Apache klasszikus disztribúciója és a MapR disztribúciói között.

2011-ben a Yahoo független vállalattá vált a Hadoop-ot fejlesztő és használó részlegből - Hortonworks , hamarosan az új cégnek sikerült megállapodást kötnie a Microsofttal a Hadoop disztribúció közös fejlesztéséről a Windows Azure és a Windows Server számára [21] . Ugyanebben az évben, amikor a Hadoop a big data egyik alapvető technológiájaként megjelent, gyakorlatilag az összes jelentős szervezetek technológiai szoftverszállítója beépítette a Hadoop technológiákat valamilyen formában stratégiájába és termékvonalába. Tehát az Oracle kiadta a Big Data készülék hardver-szoftver komplexumot (előre összeszerelve egy telekommunikációs szekrényben és előre konfigurált Hadoop-fürttel a Cloudera disztribúciós készletével) [22] , az IBM megalkotta a BigInsights terméket az Apache disztribúciós készleten [ 22]. 23] , az EMC licencelte a MapR-től a nagy teljesítményű Hadoop-jukat a közelmúltban felvásárolt Greenplum [24] termékeibe való integráláshoz (ezt az üzleti egységet később önálló Pivotal vállalattá bontották ki , és egy teljesen független Hadoop disztribúcióra költözött Apache kód alapján [25] ), a Teradata megállapodást kötött a Hortonworks-szel a Hadoop integrálására az Aster Big Analytics készülékbe [26] . 2013-ban az Intel létrehozta a Hadoop [27] saját disztribúcióját , egy évvel később felhagyva a fejlesztéssel a Cloudera megoldásaira, amelyben 18%-os részesedést szerzett [28] .

A Hadoop ökoszisztéma körüli szoftver- és szolgáltatáspiac volumene 2012-ben 540 millió dollárra becsülhető, 2017-re pedig 1,6 milliárd dolláros növekedést prognosztizálnak, a piacvezetők pedig a kaliforniai startupok , a Cloudera, a MapR és a Hortonworks [29] . Rajtuk kívül a Hadapt (amelyet 2014 júliusában vett át a Teradata [30] ), a Datameer , a Karmasphere és a Platfora is megjegyezték, hogy teljes üzletüket a Hadoop rendszereket analitikai képességeket biztosító termékek létrehozására építik [31] .

Kritika

Jegyzetek

  1. https://archive.apache.org/dist/hadoop/common/
  2. Vance, 2009 , A legnépszerűbb keresőmotorokat vezérli, és meghatározza a találatok mellett megjelenő hirdetéseket. Ez dönti el, hogy az emberek mit látnak a Yahoo honlapján, és megtalálja a rég nem látott barátokat a Facebookon.
  3. Dean, Jeffrey és Ghemawat, Sanjay. MapReduce: Egyszerűsített adatfeldolgozás nagy klasztereken  //  OSDI '04: 6. szimpózium az operációs rendszerek tervezéséről és megvalósításáról. - USENIX , 2004. - P. 137-149 . - doi : 10.1145/1327452.1327492 . Az eredetiből archiválva : 2011. december 14.
  4. 12 Vágás , Doug. Hadoop: egy rövid előzmény  (angol)  (a link nem érhető el) . Jehu! (2008. március 24.). Letöltve: 2011. december 25. Az eredetiből archiválva : 2012. március 11..
  5. Vance, 2009 , Doug Vágás a kitömött elefánttal, amely a Hadoop nevet inspirálta.
  6. White, 2013 , 2008 áprilisában a Hadoop megdöntötte a világrekordot, és a leggyorsabb rendszerré vált egy terabájtnyi adat rendezésére. A 910 csomópontos klaszteren futó Hadoop 209 másodperc alatt rendezett egy terabájtot, pp. 10-11.
  7. White, 2013 , ekkorra a Yahoo!-on kívül sok más cég is használta a Hadoopot, mint például a Last.fm, a Facebook és a New York Times, p. tíz.
  8. Metz, Cade A Google megáldja a Hadoopot a MapReduce szabadalmi licenccel  (eng.)  (a link nem érhető el) . A nyilvántartás (2010. április 27.). Letöltve: 2011. december 30. Az eredetiből archiválva : 2012. március 11..
  9. Metz, 2011 , De nagyon gyorsan nyilvánvalóvá vált, hogy a „Big Data” kezelésének képessége a legnagyobb probléma, amelyet az informatikai igazgatóknak meg kell oldaniuk… Világos volt, hogy a Hadoop segítségével akarták megoldani a problémát”.
  10. Morrison, Alan és társai Big Data: Hogyan nyerjünk ki információkat belőle (a hivatkozás nem elérhető) . Technológiai előrejelzés. Negyedéves folyóirat, orosz kiadás, 2010. 3. szám . PricewaterhouseCoopers (2010. december 17.). "2010 elejére a Hadoop, a MapReduce és a hozzájuk kapcsolódó nyílt forráskódú technológiák egy teljesen új jelenséget indítottak el, amelyet az O'Reilly Media, a The Economist és mások big data-nak neveztek el." Letöltve: 2011. november 12. Az eredetiből archiválva : 2012. március 11. 
  11. Winckler, Marie. Az Apache Hadoop nyerte a Media Guardian Innovation Awards fődíját  (angolul)  (a link nem érhető el) . The Guardian (2011. március 25.). – „A bírálóbizottság „a 21. század svájci bicskájának” minősítette Apache Hadoop az év újítója díjat, amiért képes volt megváltoztatni a médiainnovációk arculatát.” Letöltve: 2011. december 25. Az eredetiből archiválva : 2012. március 11..
  12. Serdar Yegulap. Hadoop 2: A nagy adatforgalom nagy előrelépést jelent .  A Hadoop 2.0 túlmutat a MapReduce-n, és általános keretrendszert hoz létre az elosztott adatfeldolgozó alkalmazásokhoz . infovilág . IDG (2013. október 16.) . Letöltve: 2014. január 1. Az eredetiből archiválva : 2013. december 16..
  13. Toby Wolpe. A Hortonworks alapítója: A YARN a Hadoop adatközponti operációs rendszere . A MapReduce vezetőjeként és a Hadoop részeként a kezdetektől fogva Arun Murthy elmondja véleményét a YARN fontosságáról a nyílt forráskódú projektekben és a vállalati  adatarchitektúrában . ZDNet (2013. október 31.) .  „Az volt a rendszer, hogy elvegye az alkalmazást a felhasználótól, és lefusson. Tehát ez egyfajta operációs rendszer"". Letöltve: 2014. január 1. Az eredetiből archiválva : 2014. január 2..
  14. Apache Hadoop MapReduce – Migráció az Apache Hadoop 1.x-ről az Apache Hadoop 2.x -re. Apache Software Foundation (2013. október 7.). Letöltve: 2014. január 1. Az eredetiből archiválva : 2014. január 2..
  15. Shvachko, 2011 ,Eredeti szöveg  (angol)[ showelrejt] A Yahoo állítólag számos fürtöt futtatott, amelyek 4000+ csomópontot tartalmaznak csomópontonként négy 1 TB-os meghajtóval, 15 PB teljes tárolókapacitással, 70 millió fájllal és 80 millió blokkkal, 50 GB NameNode kupac felhasználásával. A Facebook 2000 csomópontos raktárfürtje 21 PB teljes tárolókapacitást biztosít. Extrapolálva a bejelentett növekedési ütemet, a névterében már közel 200 millió objektum (fájlok + blokkok) kellene, hogy legyen, de egy hatalmas, 108 GB-os halom közel 400 millió objektum számára biztosít helyet. Az eBay 700 csomópontos fürtöt futtat. Mindegyik csomópont 24 TB helyi lemeztárral, 72 GB RAM-mal és 12 magos CPU-val rendelkezik. A klaszter teljes mérete 16 PB .
  16. Shvachko, 2011 , Az Apache Hadoop MapReduce keretrendszer állítólag elérte a méretezhetőségi korlátot: 40 000 kliens fut egyidejűleg a fürtön. Ez egy 4000 csomópontból álló fürtnek felel meg, csomópontonként 10 MapReduce-klienssel – a Hadoop terminológiájában slottal.
  17. Shvachko, 2011 , A több ezer kliens metaadat-kéréseinek hatékony feldolgozása érdekében a NameNode a teljes névteret a memóriában tartja. A NameNode számára lefoglalt RAM mennyisége korlátozza a fürt méretét <…> A névtér jelenlegi korlátja 100 millió fájl.
  18. Derek Harris. Nagy adatok a mikroszervereken? Fogadj . Az eHarmony online társkereső szolgáltatás a SeaMicro speciális Intel Atom alapú szervereit használja Hadoop infrastruktúrájának alapjaként, bizonyítva, hogy a nagy adatátviteli alkalmazások, mint például a Hadoop, gyilkos alkalmazás lehet az alacsony fogyasztású mikroszerverek  számára . Gigaom (2011. június 13.) . Letöltve: 2014. január 4. Az eredetiből archiválva : 2013. december 22..
  19. yarn.nodemanager.resource.memory-mb és yarn.nodemanager.resource.cpu-vcoresennek megfelelően a YARN konfigurációs fájlban
  20. Ügyes, Alex. A Hadoop készítője a Cloudera (angol) oldalra megy  (lefelé mutató link) . SD Times (2009. október 9.). "Már egy ideje azt mondom, hogy a Cloudera az a cég, amelynek a Hadoop szalaghirdetése szilárdan a kezében van, annak ellenére, hogy a Yahoo és a Facebook is rengeteg kóddal járul hozzá a projekthez." Letöltve: 2011. december 25. Az eredetiből archiválva : 2012. március 11.. 
  21. Mary Jo Foley. A Hortonworks a Hadoop big-data platform bétaverzióját szállítja Windows rendszerhez . A Hortonworks Data Platform for Windows teljesen nyílt forráskódú verziója, amely a Microsoft közreműködésével készült, elérhető a bétatesztelők számára.  (angol) . ZDNet (2013. február 17.) .  - "2011-ben a Microsoft bejelentette, hogy a Hortonworks-szel együttműködve létrehozza a Hadoop big data keretrendszer Windows Azure és Windows Server implementációit." Letöltve: 2014. január 2. Az eredetiből archiválva : 2014. január 3..
  22. Timothy Prickett Morgan. Az Oracle saját NoSQL-t és Hadoop-ot dob ​​fel .  Egy rendkívül magabiztos Ellison ül a Big Data elefántra . A nyilvántartás (2011. október 3.) .  – „Az Oracle-nél nincs hiány az egóból, amint azt a nem túl alázatos nevű Big Data Appliance nevű vállalat OpenWorld bejelentése mögött megbúvó bizalom bizonyítja.” Letöltve: 2014. január 2. Az eredetiből archiválva : 2017. július 7.
  23. Doug Henschen. Az IBM legyőzi az Oracle-t és a Microsoftot nagy adatugrással . A Hadoop-alapú InfoSphere BigInsights platform élesben indul a SmartCloud infrastruktúrán, megelőzve az Oracle-t és a Microsoftot a  piacon . Információs hét (2011-14-10) . Letöltve: 2014. január 2. Az eredetiből archiválva : 2014. január 3..
  24. Derek Harris. Startup MapR támogatja az EMC Hadoop erőfeszítését . A kaliforniai MapR tárolóindítás, amely nagy teljesítményű alternatívát kínál a Hadoop Distributed File System számára, az EMC hamarosan megjelenő Greenplum HD Enterprise Edition Hadoop  disztribúciójának tárolási összetevőjeként szolgál majd . Gigaom (2011. május 25.) . Hozzáférés dátuma: 2014. január 2. Az eredetiből archiválva : 2014. január 2.
  25. Timothy Pricket Morgan. A kulcsfontosságú hajók a névadó Hadoop disztrót a tömegek számára .  Egy érdeklődő HAWQ lovagol a big data elefánton . A nyilvántartás (2013. július 17.) .  „Miután néhány évvel ezelőtt felvásárolta a Greenplum párhuzamos adatbázist és a kapcsolódó adattárház-berendezéseket, az EMC a MapR Technologies társasággal csatlakozott, hogy átnevezze a Hadoop saját változatát, hogy elkészítse Greenplum HD változatát. De a Pivotal HD 1.0 disztribúcióval az EMC és a VMware spinoff visszakerült a nyílt forráskódú Apache Hadoophoz." Letöltve: 2014. január 2. Az eredetiből archiválva : 2014. január 3..
  26. Jaikumar Vijayan. A Teradata együttműködik a Hortonworks-szel a Hadoop-on .  Két cég csatlakozik termékek és megvalósítási szolgáltatások fejlesztésére . Computerworld (2012. február 21.) . Letöltve: 2014. január 2. Az eredetiből archiválva : 2014. január 3..
  27. Stacey Higginbotham. Cloudera ki? Az Intel bemutatja saját Hadoop disztribúcióját . Az Intel a Hadoop saját verziójával beszáll a nyílt forráskódú szoftverek üzletébe. Számos induló vállalkozáshoz és az EMC Greenplumhoz csatlakozik a big  data disztribúciójának felépítésében . Gigaom (2013. február 26.) . Letöltve: 2014. január 3. Az eredetiből archiválva : 2014. január 2..
  28. Harris, Dereck Intel feladja Hadoop disztribúcióját, és milliókat helyez a  Cloudera mögé . Gigaom (2014. március 27.). Letöltve: 2014. április 1. Az eredetiből archiválva : 2014. március 30.
  29. John Furier. A Hadoop Pure-Play üzleti modellek  magyarázata . Forbes (2013. december 19.). Letöltve: 2014. január 2. Az eredetiből archiválva : 2014. január 3..
  30. Doug Henschen. A Teradata felvásárolja a Hadapt, Revelytixet a Big Data Boostért . A Teradata adat-előkészítési, adatkezelési és adatelemzési képességekkel egészíti ki azáltal, hogy két jelentős független vállalatot vásárol a big data arénában . Információs hét (2014. július 22.) . Letöltve: 2014. november 1. Az eredetiből archiválva : 2014. november 1..
  31. Doug Henschen. 13 Big Data Vendors, akikre figyelni kell 2013-ban . Az Amazontól a Splunkig, íme egy pillantás a big data innovátorokra, akik most a Hadoop, a NoSQL és a big data elemzését a következő szintre emelik . Információs hét (2012. december 10.) .  – „A Hadapt a relációs elemzést hozza a Hadoopba <…> A Hadapt jó társaságban van, a Cloudera (Impala), a Datameer, a Karmasphere, a Platfora és mások különféle módokon dolgoznak, hogy megfeleljenek ugyanazon analytics-on-Hadoop kihívásnak.” Letöltve: 2014. január 2. Az eredetiből archiválva : 2014. január 3..

Irodalom

Linkek