Apache Spark

Apache Spark
Típusú keretrendszer , gépi tanulást támogató keretrendszer [d] és számítási felhő
Szerző Matei Zakharia [d]
Fejlesztő Apache Software Foundation
Beírva Scala [2] [1] , Java [1] , Python [1] , R [1] , SQL [1] és Java Database Connectivity [1]
Operációs rendszer Microsoft Windows , Linux és macOS
Első kiadás 2014. május 30. és 2014. március 1. [1]
Hardver platform Java virtuális gép
legújabb verzió
Olvasható fájlformátumok JSON [4] , CSV [4] , szövegfájl [4] , Apache Parquet [d] [4] , Optimized Row Columnar [d] [5] és Apache Avro [d] [6]
Generált fájlformátumok CSV [5] , JSON [5] , Apache Parquet [d] [5] , Text File [5] , Optimized Row Columnar [d] [5] és Apache Avro [d] [6]
Engedély Apache License 2.0 és BSD
Weboldal spark.apache.org
 Médiafájlok a Wikimedia Commons oldalon

Az Apache Spark (az angol  spark  - spark, flash szóból) egy nyílt forráskódú keretrendszer a strukturálatlan és félig strukturált adatok elosztott feldolgozására , amely a projektek Hadoop ökoszisztémájának része . Ellentétben a Hadoop magból származó klasszikus processzorral, amely a kétszintű MapReduce koncepciót valósítja meg a közbenső adatok meghajtókon való tárolásával, a Spark a memórián belüli számítási paradigmában működik - az adatokat a RAM -ban dolgozza fel , aminek köszönhetően jelentős mennyiségű adatot kaphat. sebességnövekedés egyes problémaosztályok esetében [7] , különösen a memóriába betöltött felhasználói adatokhoz való többszöri hozzáférés lehetősége teszi vonzóvá a könyvtárat a gépi tanulási algoritmusok számára [8] .  

A projekt API -kat biztosít a Java , Scala , Python , R programokhoz . Eredetileg Scalában írták, azóta jelentős mennyiségű Java kódot adtak hozzá, hogy lehetővé tegye a programok közvetlen Java nyelven történő írását. Egy magból és több bővítményből áll, mint például a Spark SQL (lehetővé teszi SQL -lekérdezések végrehajtását az adatokon), a Spark Streaming (adatfolyam-feldolgozási kiegészítő), a Spark MLlib (gépi tanulási könyvtárak készlete), a GraphX. (elosztott gráffeldolgozásra tervezték). Működhet YARN -t futtató Hadoop-fürtkörnyezetben és Hadoop alapkomponensek nélkül is, számos elosztott tárolórendszert támogat - HDFS , OpenStack Swift , NoSQL -DBMS Cassandra , Amazon S3 .

A fő szerző Matei Zaharia román-kanadai informatikus , aki 2009-ben kezdett el dolgozni a projekten, a Kaliforniai Egyetem Berkeley -ben végzős hallgatójaként .  2010-ben a projekt BSD licenc alatt jelent meg , 2013-ban átkerült az Apache Alapítványhoz és átkerült az Apache 2.0 licencbe , 2014-ben pedig Apache felső szintű projektként fogadták el. 2022-ben a projekt megkapta az éves SIGMOD díjat Systems kategóriában [9] .

Jegyzetek

  1. 1 2 3 4 5 6 7 https://projects.apache.org/json/projects/spark.json
  2. Az apache-spark nyílt forráskódú projekt az Open Hubon: Nyelvek oldala – 2006.
  3. Kiadás 3.3.0 – 2022.
  4. 1 2 3 4 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
  5. 1 2 3 4 5 6 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
  6. 1 2 https://spark.apache.org/docs/latest/sql-data-sources-avro.html
  7. Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL és Rich Analytics at Scale  (angolul)  : napló. - 2013. - június. Az eredetiből archiválva : 2017. augusztus 9.
  8. Matei Zaharia. Spark: In-Memory Cluster Computing iteratív és interaktív alkalmazásokhoz . Archiválva : 2016. június 15. a Wayback Machine -nál
  9. 2022 SIGMOD Systems Award . ACM (2022. május 10.). Letöltve: 2022. május 27. Az eredetiből archiválva : 2022. június 15.

Irodalom

Linkek