O Apache Flink é um framework de código aberto para stream processing e processamento em lote desenvolvido pela Apache Software Foundation. O principal componente do Apache Flink é uma engine para processamento de streams distribuída usando o paradigma de dataflow, escrito em Scala e Java.[2][3] O Flink executa programas data-flow arbitrários com paralelismo de dados e pipelines.[4] O fato de usar pipelines também faz do Flink um motor para processamento em lotes.[5][6] O Flink também suporta a execução de modelos iterativos.[7]

Apache Flink
Logótipo
Apache Flink
Desenvolvedor Apache Software Foundation
Plataforma Multiplataforma
Modelo do desenvolvimento Software Livre
Lançamento maio de 2011; há 12 anos
Versão estável 2.8.0 (1.19.0[1] Edit this on Wikidata)
Escrito em Scala, Java
Sistema operacional Multi-plataforma
Gênero(s) Stream processing, processamento em lote
Licença Apache License 2.0
Página oficial flink.apache.org

A engine do Flink provê baixa latência e alta disponibilidade,[8] com suporte a tolerância a falhas.[9] Programas para o Flink podem ser escritos em Java, Scala,[10] Python,[11] e SQL[12] sendo automaticamente compilados e otimizados[13] em programas data-flow para serem executados em cluster ou na nuvem.[14]

O Flink não providencia um sistema para armazenamento dos dados, mas providencia fontes de dados e conectores para sistemas como o Kinesis da AWS, Apache Kafka, HDFS, Apache Cassandra, e Elastic Search.[15]

Referências

  1. «Release 1.19.0». 15 março 2024. Consultado em 19 março 2024 
  2. «Apache Flink: Scalable Batch and Stream Data Processing». apache.org 
  3. «apache/flink». GitHub. 29 de janeiro de 2022 
  4. Alexander Alexandrov, Rico Bergmann, Stephan Ewen, Johann-Christoph Freytag, Fabian Hueske, Arvid Heise, Odej Kao, Marcus Leich, Ulf Leser, Volker Markl, Felix Naumann, Mathias Peters, Astrid Rheinländer, Matthias J. Sax, Sebastian Schelter, Mareike Höger, Kostas Tzoumas, and Daniel Warneke. 2014. The Stratosphere platform for big data analytics. The VLDB Journal 23, 6 (December 2014), 939-964. DOI
  5. Ian Pointer (7 de maio de 2015). «Apache Flink: New Hadoop contender squares off against Spark». InfoWorld 
  6. «On Apache Flink. Interview with Volker Markl.». odbms.org 
  7. Stephan Ewen, Kostas Tzoumas, Moritz Kaufmann, and Volker Markl. 2012. Spinning fast iterative data flows. Proc. VLDB Endow. 5, 11 (July 2012), 1268-1279. DOI
  8. «Benchmarking Streaming Computation Engines at Yahoo!». Yahoo Engineering. Consultado em 23 de fevereiro de 2017 
  9. Carbone, Paris; Fóra, Gyula; Ewen, Stephan; Haridi, Seif; Tzoumas, Kostas (29 de junho de 2015). «Lightweight Asynchronous Snapshots for Distributed Dataflows». arXiv:1506.08603  [cs.DC] 
  10. «Apache Flink 1.2.0 Documentation: Flink DataStream API Programming Guide». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017 
  11. «Apache Flink 1.2.0 Documentation: Python Programming Guide». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017 
  12. «Apache Flink 1.2.0 Documentation: Table and SQL». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017 
  13. Fabian Hueske, Mathias Peters, Matthias J. Sax, Astrid Rheinländer, Rico Bergmann, Aljoscha Krettek, and Kostas Tzoumas. 2012. Opening the black boxes in data flow optimization. Proc. VLDB Endow. 5, 11 (July 2012), 1256-1267. DOI
  14. Daniel Warneke and Odej Kao. 2009. Nephele: efficient parallel data processing in the cloud. In Proceedings of the 2nd Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS '09). ACM, New York, NY, USA, Article 8, 10 pages. DOI
  15. «Apache Flink 1.2.0 Documentation: Streaming Connectors». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017