Apache Spark

Apache Spark

Típusú	keretrendszer , gépi tanulást támogató keretrendszer [d] és számítási felhő
Szerző	Matei Zakharia [d]
Fejlesztő	Apache Software Foundation
Beírva	Scala [2] [1] , Java [1] , Python [1] , R [1] , SQL [1] és Java Database Connectivity [1]
Operációs rendszer	Microsoft Windows , Linux és macOS
Első kiadás	2014. május 30. és 2014. március 1. [1]
Hardver platform	Java virtuális gép
legújabb verzió	3.3.0 ( 2022. június 16. ) [3]
Olvasható fájlformátumok	JSON [4] , CSV [4] , szövegfájl [4] , Apache Parquet [d] [4] , Optimized Row Columnar [d] [5] és Apache Avro [d] [6]
Generált fájlformátumok	CSV [5] , JSON [5] , Apache Parquet [d] [5] , Text File [5] , Optimized Row Columnar [d] [5] és Apache Avro [d] [6]
Engedély	Apache License 2.0 és BSD
Weboldal	spark.apache.org _
Médiafájlok a Wikimedia Commons oldalon

Az Apache Spark (az angol spark - spark, flash szóból) egy nyílt forráskódú keretrendszer a strukturálatlan és félig strukturált adatok elosztott feldolgozására , amely a projektek Hadoop ökoszisztémájának része . Ellentétben a Hadoop magból származó klasszikus processzorral, amely a kétszintű MapReduce koncepciót valósítja meg a közbenső adatok meghajtókon való tárolásával, a Spark a memórián belüli számítási paradigmában működik - az adatokat a RAM -ban dolgozza fel , aminek köszönhetően jelentős mennyiségű adatot kaphat. sebességnövekedés egyes problémaosztályok esetében [7] , különösen a memóriába betöltött felhasználói adatokhoz való többszöri hozzáférés lehetősége teszi vonzóvá a könyvtárat a gépi tanulási algoritmusok számára [8] .

A projekt API -kat biztosít a Java , Scala , Python , R programokhoz . Eredetileg Scalában írták, azóta jelentős mennyiségű Java kódot adtak hozzá, hogy lehetővé tegye a programok közvetlen Java nyelven történő írását. Egy magból és több bővítményből áll, mint például a Spark SQL (lehetővé teszi SQL -lekérdezések végrehajtását az adatokon), a Spark Streaming (adatfolyam-feldolgozási kiegészítő), a Spark MLlib (gépi tanulási könyvtárak készlete), a GraphX. (elosztott gráffeldolgozásra tervezték). Működhet YARN -t futtató Hadoop-fürtkörnyezetben és Hadoop alapkomponensek nélkül is, számos elosztott tárolórendszert támogat - HDFS , OpenStack Swift , NoSQL -DBMS Cassandra , Amazon S3 .

A fő szerző Matei Zaharia román-kanadai informatikus , aki 2009-ben kezdett el dolgozni a projekten, a Kaliforniai Egyetem Berkeley -ben végzős hallgatójaként . 2010-ben a projekt BSD licenc alatt jelent meg , 2013-ban átkerült az Apache Alapítványhoz és átkerült az Apache 2.0 licencbe , 2014-ben pedig Apache felső szintű projektként fogadták el. 2022-ben a projekt megkapta az éves SIGMOD díjat Systems kategóriában [9] .

Jegyzetek

↑ 1 2 3 4 5 6 7 https://projects.apache.org/json/projects/spark.json
↑ Az apache-spark nyílt forráskódú projekt az Open Hubon: Nyelvek oldala – 2006.
↑ Kiadás 3.3.0 – 2022.
↑ 1 2 3 4 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
↑ 1 2 3 4 5 6 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
↑ 1 2 https://spark.apache.org/docs/latest/sql-data-sources-avro.html
↑ Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL és Rich Analytics at Scale (angolul) : napló. - 2013. - június. Az eredetiből archiválva : 2017. augusztus 9.
↑ Matei Zaharia. Spark: In-Memory Cluster Computing iteratív és interaktív alkalmazásokhoz . Archiválva : 2016. június 15. a Wayback Machine -nál
↑ 2022 SIGMOD Systems Award . ACM (2022. május 10.). Letöltve: 2022. május 27. Az eredetiből archiválva : 2022. június 15. (határozatlan)

Irodalom

H. Karau, E. Konwinski, P. Wendell, M. Zachariah. Tanulási szikra. Lightning Data Analysis = Learning Spark: Lightning-Fast Big Data Analytics (O'Reilly, 2015). - DMK Press , 2015. - 304 p. — ISBN 978-5-97060-323-9 .
S. Riza, W. Leatherson, S. Owen, D. Wills. Spark szakembereknek: Modern Big Data Processing Patterns = Advanced Analytics with Spark. Az adatokból való tanulás mintái (O'Reilly, 2015). - Péter , 2017. - 272 p. - ISBN 978-5-496-02401-3 .
Warren R., Karau H. Hatékony szikra. Méretezés és optimalizálás = High Performance Spark. Az Apache Spark méretezésének és optimalizálásának bevált gyakorlatai. - Péter, 2018. - 352 p. — ISBN 978-5-4461-0705-6 .

Linkek

spark.apache.org - Apache Spark hivatalos webhelye

Tematikus oldalak	nyitott hub

Apache Software Foundation

Legfelső szintű projektek

Alprojektek

Apache Commons	BCEL BSF JCS
Apache Lucene	Luce Java Lucene4c Lucy_ Solr
ApacheDB	Derby Nyomaték DdlUtils_ OJB JDO

Apache

tengely
tengely_
CXF
WS-
EWS
JaxMe
jUDDI
Kandula_
Mirae_
Muse
Feliratkozás
Sandesha_
Scout
SZAPPAN
Szinapszis
TSIK
Toszkána
Woden
WSIF
WSRF
WSS4J
XML-RPC

Egyéb projektek

Fejlesztő projektek ( inkubátor )

XAP
River
OpenEJB
JPA megnyitása
Graffito
Toszkána
Log4Net
Henger
Felix
Abdera_
CeltiXfire_
FtpServer_
Heraldika
Ivy_
Juice
Kabuki_
Lokahi
Lucene.Net
mod_ftp
NMaven
Óda
stdcxx
Woden
WSRP4J
Yoko_
WADI
Qpid
TripleSoup_
UIMA
Adobe Flex

Leszerelt projektek ( tetőtér )

AxKit
Méhkas
Kaktusz_
ECS_
Excalibur
Harmónia
HiveMind_
iBATIS
Jakarta
ORO
Regexp
Agyagpala
Dia
Taglibs

Licenc: Apache licenc