“Construa um Data Lake!” tornou-se um conselho padrão para organizações com grandes quantidades de dados para armazenar.

Como os Data Lakes oferecem um local conveniente e centralizado que pode abrigar dados de todos os tipos, eles geralmente parecem uma solução óbvia para empresas que precisam compartilhar diferentes tipos de dados com várias partes interessadas.

Eles podem ser, mas apenas quando são projetados e gerenciados de forma otimizada. Os Data Lakes também podem apresentar desafios significativos, que são críticos para entender antes de comprometer as informações da sua empresa em um.

Veja a seguir sete desafios críticos de Data Lake que as organizações precisam enfrentar para aproveitar ao máximo suas arquiteturas.

Data-Lake-pic.width-358
– Thinkstock / Billpen A1

O que é um Data Lake?

Antes de mergulhar nos desafios do Data Lake, vamos defini-los brevemente.

Um Data Lake é um repositório centralizado para armazenar dados de todos os tipos e em qualquer escala. O objetivo principal de um Data Lake é permitir que as organizações peguem os ativos de dados diferentes que possuem – como vários bancos de dados, documentos, arquivos de mídia e assim por diante – e os alojem em um lugar central onde qualquer pessoa que precise acessá-los possa facilmente fazê-lo.

É isso que os Data Lakes devem fazer, em teoria. Na prática, vários desafios podem prejudicar sua eficácia. 1.

1 - Riscos de cibersegurança do Data Lake

Quando os usuários preenchem todos os seus dados em um único local sem gerenciar recursos de segurança, os dados geralmente correm o risco de serem manipulados pelos agentes de ameaça.

Uma violação de dados direcionada ao Data Lake pode significar que usuários externos obtêm acesso aos ativos de dados gerenciados pela empresa. A menos que você implemente controles rígidos de segurança cibernética, seu Data Lake se torna um alvo preferencial para ataques.

2 - Os desafios de compliance dos Data Lakes

Armazenar dados em um local central simplifica a compliance no sentido de que você sabe onde seus dados residem, embora também crie desafios. Se você armazenar muitos tipos diferentes de dados em seu Data Lake, diferentes ativos podem estar sujeitos a diferentes padrões de compliance.

Os dados que contêm informações pessoalmente idênticas (PII), por exemplo, devem ser gerenciados de forma diferente de outros tipos de dados para cumprir leis como DPA, GDPR e HIPAA.

Embora um Data Lake não impeça que você aplique controles de segurança granulares a diferentes ativos de dados, ele também não facilita – e pode dificultar caso suas ferramentas de segurança e compliance não forem capazes de aplicar políticas diferentes a diferentes ativos de dados em um repositório centralizado.

3 - Dores de cabeça de integração de dados

Colocar seus dados em um local central para criar um Data Lake é uma coisa, mas conectá-los a vários aplicativos e à força de trabalho que precisa de acesso é outra.

Até que você desenvolva as integrações de dados necessárias – e a menos que você as mantenha atualizadas – seu Data Lake terá pouco valor.

Criar integrações de dados leva tempo, esforço e experiência, e os usuários às vezes subestimam o quão difícil é criar integrações de dados bem-sucedidas. Certifique-se e priorize a estratégia de integração de dados como parte do seu processo geral.

4 - Riscos de desempenho dos dados

Embora os Data Lakes possam teoricamente acomodar qualquer volume de dados, na prática o desempenho geralmente sofre à medida que aumentam.

Quanto mais dados você tiver em seu Data Lake, mais difícil será garantir que os dados se movam rapidamente, que você possa executar consultas rápidas em ativos de dados e assim por diante.

Lidar com esses riscos requer atenção cuidadosa à infraestrutura que hospeda seu Data Lake, que precisa ser escalado à medida que os dados são dimensionados para garantir o desempenho adequado. Otimizar a maneira como os dados são armazenados também é importante para manter o desempenho ideal.

5 - Ponto único de falha

Colocar seus dados em um Data Lake significa criar um único ponto de falha. Se a infraestrutura que hospeda sua instalação falhar, seus dados ficarão indisponíveis.

Backups e replicações podem ajudar nesse sentido. No entanto, eles são apenas uma solução parcial porque os dados de backup podem não ser coordenados com os dados de produção e ambas as opções adicionarão custos adicionais. Além disso, leva tempo para restaurar dados de backups, especialmente se você não tiver um plano de recuperação de dados bem projetado e as ferramentas certas para implementá-lo.

6 - Desafios da qualidade dos dados

Manter o controle da qualidade dos dados pode ser um desafio quando você tem muitos tipos de dados diferentes armazenados em um Data Lake.

Para otimizar o desempenho dos dados e a utilização da infraestrutura, convém executar tarefas como a eliminação da duplicação de dados.

Lembre-se de que a vasta escala de um Data Lake, combinada com a natureza em constante mudança dos dados internos, torna isso complicado se você não tiver ferramentas e processos adequados de qualidade de dados.

7 - Desafios do gerenciamento de Data Lake

Os Data Lakes são um tipo exclusivo de arquitetura de dados. Eles são diferentes de bancos de dados, sistemas de arquivos, sistemas de armazenamento de objetos e outras abordagens para armazenar informações.

Como resultado, os engenheiros de dados que não têm experiência com Data Lakes podem ter dificuldades para projetá-los e gerenciá-los de forma otimizada.

Nem toda organização tem uma equipe de dados pronta para aproveitar ao máximo um Data Lake. As empresas devem garantir que sua força de trabalho de TI seja adepta tanto de sistemas legados quanto de novas tecnologias.

GettyImages-1329831690.width-358
– Getty Images

Obtendo mais dos Data Lakes

Os Data Lakes podem ser uma ótima maneira de consolidar grandes quantidades de dados e torná-los facilmente acessíveis, mas apenas se forem cuidadosamente planejados, implementados e gerenciados.

Sem abordar desafios como a necessidade de proteções de segurança cibernética e controles de qualidade de dados e abordar riscos como a possibilidade de que sua infraestrutura de Data Lake possa falhar, as empresas podem ter dificuldades para obter valor total dessas instalações.

Conclusão: crie um Data Lake se sua empresa tiver determinado que é a melhor maneira de armazenar dados. Mas você não pode simplesmente despejar seus dados em um Data Lake e achar que está tudo pronto.

Há um trabalho árduo necessário para navegar pelos muitos desafios descritos acima que podem minar o valor dos Data Lakes.