Data Lake

Um data lake ou lago de dados é um sistema ou repositório de dados armazenados em seu formato natural / bruto,[1] geralmente objetos blobs ou arquivos. Um data lake geralmente é um armazenamento único de todos os dados corporativos, incluindo cópias brutas dos dados do sistema de origem e dados transformados usados para tarefas como relatórios, visualização, análise avançada e aprendizado de máquina . Um data lake pode incluir dados estruturados de bancos de dados relacionais (linhas e colunas), dados semiestruturados ( CSV, logs, XML, JSON ), dados não estruturados (emails, documentos, PDFs) e dados binários (imagens, áudio, vídeo).[2]

Um data swamp ou pântano de dados é um lago de dados deteriorado e não gerenciado, inacessível aos usuários pretendidos ou que fornece pouco valor.[3]

PassadoEditar

James Dixon, então diretor de tecnologia da Pentaho, supostamente cunhou o termo[4] para dar contraste com o data mart, que é um repositório menor de atributos interessantes derivados de dados brutos.[5] Ao promover data lake, ele argumentou que os data marts têm vários problemas inerentes, como a silagem de informações . A PricewaterhouseCoopers disse que os data lake podem "acabar com os silos de dados".[6] Em seu estudo sobre lagos de dados, eles observaram que as empresas estavam "começando a extrair e colocar dados para análise em um único repositório baseado no Hadoop". Hortonworks, Google, Oracle, Microsoft, Zaloni, Teradata, Impetus Technologies, Cloudera e Amazon agora possuem ofertas de data lake.[7]

ExemplosEditar

Muitas empresas usam serviços de armazenamento em nuvem, como o Azure Data Lake e Amazon S3, ou um sistema de arquivos distribuído, como o Apache Hadoop .[8] Há um interesse acadêmico gradual no conceito de lagos de dados. Por exemplo, o Personal DataLake da Cardiff University é um novo tipo de data lake que visa gerenciar o big data de usuários individuais, fornecendo um ponto único de coleta, organização e compartilhamento de dados pessoais.[9][10] A versão anterior do data lake (Hadoop 1.0) tinha recursos limitados com seu processamento orientado a lotes ( MapReduce ) e era o único paradigma de processamento associado a ele. Interagir com o data lake significava que era necessário ter conhecimento em Java com ferramentas de redução de mapa e de nível superior, como Apache Pig, Apache Spark e Apache Hive (que por si só eram orientados a lotes).

CríticaEditar

Em junho de 2015, David Needle caracterizou "os chamados lagos de dados" como "uma das maneiras mais controversas de gerenciar big data ".[11] A PricewaterhouseCoopers também teve o cuidado de observar em suas pesquisas que nem todas as iniciativas de data lake são bem-sucedidas. Eles descrevem as empresas que constroem data lakes bem-sucedidos, amadurecendo gradualmente seu lago ao descobrir quais dados e metadados são importantes para a organização. Outra crítica é que o conceito é nebuloso e arbitrário. Refere-se a qualquer ferramenta ou prática de gerenciamento de dados que não se encaixe na arquitetura tradicional do armazém de dados . O data lake foi referido como uma tecnologia específica. O data lake foi rotulado como um reservatório de dados brutos ou um hub para descarga de ETL. O data lake foi definido como um hub central para análise de autoatendimento. O conceito de data lake foi sobrecarregado de significados, o que coloca em dúvida a utilidade do termo.[12]

Embora sejam necessárias as críticas aos lagos de dados, em muitos casos elas são excessivamente amplas e podem ser aplicadas a qualquer empreendimento tecnológico em geral e a projetos de dados especificamente. Por exemplo, o termo “data warehouse” atualmente sofre da mesma definição opaca e alterada que um data lake. Também se pode dizer que nem todos os esforços de armazenamento de dados foram bem-sucedidos. Em resposta a várias críticas, McKinsey observou[13] que o data lake deve ser visto como um modelo de serviço para agregar valor comercial à empresa, não um resultado de tecnologia.

ReferênciasEditar

  1. The growing importance of big data quality
  2. «Top Five Differences between DataWarehouses and Data Lakes». Blue-Granite.com 
  3. «3 keys to keep your data lake from becoming a data swamp». CIO (em inglês) 
  4. «Big data requires a big architecture». Tech. Forbes 
  5. Dixon, James. «Pentaho, Hadoop, and Data Lakes». James. If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples. 
  6. Data lakes and the promise of unsiloed data (pdf) (Relatório). Technology Forecast: Rethinking integration 
  7. «Why Companies are Jumping into Data Lakes». blog.equinox.com 
  8. Tuulos, Ville. «Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances» 
  9. Walker, Coral; Alrehamy, Hassan (2015). «Personal Data Lake with Data Gravity Pull». 2015 IEEE Fifth International Conference on Big Data and Cloud Computing. [S.l.: s.n.] pp. 160–167. ISBN 978-1-4673-7183-4. doi:10.1109/BDCloud.2015.62 
  10. https://www.researchgate.net/publication/283053696_Personal_Data_Lake_With_Data_Gravity_Pull
  11. «Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques». Enterprise Apps. eWeek. Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes. 
  12. «Are Data Lakes Fake News?». Sonra 
  13. «A smarter way to jump into data lakes». McKinsey