Apache Spark
Apache Spark |
---|
|
Típusú |
keretrendszer , gépi tanulást támogató keretrendszer [d] és számítási felhő |
Szerző |
Matei Zakharia [d] |
Fejlesztő |
Apache Software Foundation |
Beírva |
Scala [2] [1] , Java [1] , Python [1] , R [1] , SQL [1] és Java Database Connectivity [1] |
Operációs rendszer |
Microsoft Windows , Linux és macOS |
Első kiadás |
2014. május 30. és 2014. március 1. [1] |
Hardver platform |
Java virtuális gép |
legújabb verzió |
|
Olvasható fájlformátumok |
JSON [4] , CSV [4] , szövegfájl [4] , Apache Parquet [d] [4] , Optimized Row Columnar [d] [5] és Apache Avro [d] [6] |
Generált fájlformátumok |
CSV [5] , JSON [5] , Apache Parquet [d] [5] , Text File [5] , Optimized Row Columnar [d] [5] és Apache Avro [d] [6] |
Engedély |
Apache License 2.0 és BSD |
Weboldal |
spark.apache.org _ |
Médiafájlok a Wikimedia Commons oldalon |
Az Apache Spark (az angol spark - spark, flash szóból) egy nyílt forráskódú keretrendszer a strukturálatlan és félig strukturált adatok elosztott feldolgozására , amely a projektek Hadoop ökoszisztémájának része . Ellentétben a Hadoop magból származó klasszikus processzorral, amely a kétszintű MapReduce koncepciót valósítja meg a közbenső adatok meghajtókon való tárolásával, a Spark a memórián belüli számítási paradigmában működik - az adatokat a RAM -ban dolgozza fel , aminek köszönhetően jelentős mennyiségű adatot kaphat. sebességnövekedés egyes problémaosztályok esetében [7] , különösen a memóriába betöltött felhasználói adatokhoz való többszöri hozzáférés lehetősége teszi vonzóvá a könyvtárat a gépi tanulási algoritmusok számára [8] .
A projekt API -kat biztosít a Java , Scala , Python , R programokhoz . Eredetileg Scalában írták, azóta jelentős mennyiségű Java kódot adtak hozzá, hogy lehetővé tegye a programok közvetlen Java nyelven történő írását. Egy magból és több bővítményből áll, mint például a Spark SQL (lehetővé teszi SQL -lekérdezések végrehajtását az adatokon), a Spark Streaming (adatfolyam-feldolgozási kiegészítő), a Spark MLlib (gépi tanulási könyvtárak készlete), a GraphX. (elosztott gráffeldolgozásra tervezték). Működhet YARN -t futtató Hadoop-fürtkörnyezetben és Hadoop alapkomponensek nélkül is, számos elosztott tárolórendszert támogat - HDFS , OpenStack Swift , NoSQL -DBMS Cassandra , Amazon S3 .
A fő szerző Matei Zaharia román-kanadai informatikus , aki 2009-ben kezdett el dolgozni a projekten, a Kaliforniai Egyetem Berkeley -ben végzős hallgatójaként . 2010-ben a projekt BSD licenc alatt jelent meg , 2013-ban átkerült az Apache Alapítványhoz és átkerült az Apache 2.0 licencbe , 2014-ben pedig Apache felső szintű projektként fogadták el. 2022-ben a projekt megkapta az éves SIGMOD díjat Systems kategóriában [9] .
Jegyzetek
- ↑ 1 2 3 4 5 6 7 https://projects.apache.org/json/projects/spark.json
- ↑ Az apache-spark nyílt forráskódú projekt az Open Hubon: Nyelvek oldala – 2006.
- ↑ Kiadás 3.3.0 – 2022.
- ↑ 1 2 3 4 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
- ↑ 1 2 3 4 5 6 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
- ↑ 1 2 https://spark.apache.org/docs/latest/sql-data-sources-avro.html
- ↑ Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL és Rich Analytics at Scale (angolul) : napló. - 2013. - június. Az eredetiből archiválva : 2017. augusztus 9.
- ↑ Matei Zaharia. Spark: In-Memory Cluster Computing iteratív és interaktív alkalmazásokhoz . Archiválva : 2016. június 15. a Wayback Machine -nál
- ↑ 2022 SIGMOD Systems Award . ACM (2022. május 10.). Letöltve: 2022. május 27. Az eredetiből archiválva : 2022. június 15. (határozatlan)
Irodalom
- H. Karau, E. Konwinski, P. Wendell, M. Zachariah. Tanulási szikra. Lightning Data Analysis = Learning Spark: Lightning-Fast Big Data Analytics (O'Reilly, 2015). - DMK Press , 2015. - 304 p. — ISBN 978-5-97060-323-9 .
- S. Riza, W. Leatherson, S. Owen, D. Wills. Spark szakembereknek: Modern Big Data Processing Patterns = Advanced Analytics with Spark. Az adatokból való tanulás mintái (O'Reilly, 2015). - Péter , 2017. - 272 p. - ISBN 978-5-496-02401-3 .
- Warren R., Karau H. Hatékony szikra. Méretezés és optimalizálás = High Performance Spark. Az Apache Spark méretezésének és optimalizálásának bevált gyakorlatai. - Péter, 2018. - 352 p. — ISBN 978-5-4461-0705-6 .
Linkek
Tematikus oldalak |
|
---|
Apache Software Foundation |
---|
Legfelső szintű projektek |
|
---|
Alprojektek | |
---|
Apache |
- tengely
- tengely_
- CXF
- WS-
- EWS
- JaxMe
- jUDDI
- Kandula_
- Mirae_
- Muse
- Feliratkozás
- Sandesha_
- Scout
- SZAPPAN
- Szinapszis
- TSIK
- Toszkána
- Woden
- WSIF
- WSRF
- WSS4J
- XML-RPC
|
---|
Egyéb projektek |
|
---|
Fejlesztő projektek ( inkubátor ) |
- XAP
- River
- OpenEJB
- JPA megnyitása
- Graffito
- Toszkána
- Log4Net
- Henger
- Felix
- Abdera_
- CeltiXfire_
- FtpServer_
- Heraldika
- Ivy_
- Juice
- Kabuki_
- Lokahi
- Lucene.Net
- mod_ftp
- NMaven
- Óda
- stdcxx
- Woden
- WSRP4J
- Yoko_
- WADI
- Qpid
- TripleSoup_
- UIMA
- Adobe Flex
|
---|
Leszerelt projektek ( tetőtér ) |
|
---|
|