Por Kausik Chaudhuri, director de innovación de Lemongrass Consulting


"¡Construya un lago de datos!" se ha convertido en uno de los consejos estándar para organizaciones con grandes cantidades de datos para almacenar.

Como los lagos de datos ofrecen una ubicación conveniente y centralizada que puede albergar datos de todo tipo, a menudo parecen una solución obvia para las empresas que necesitan compartir tipos dispares de datos con múltiples partes interesadas.

Pueden serlo, pero sólo cuando están diseñados y gestionados de manera óptima. Los lagos de datos también pueden presentar desafíos importantes, cuya comprensión es fundamental antes de enviar la información de su empresa a un lago de datos.

A continuación se presentan siete desafíos clave del lago de datos que las organizaciones deben abordar para aprovechar al máximo las arquitecturas del lago de datos.

data lake pic
– Thinkstock / Billpen A1

¿Qué es un lago de datos?

Antes de profundizar en los desafíos de los lagos de datos, definamos brevemente los lagos de datos.

Un lago de datos es un repositorio centralizado para almacenar datos de todo tipo y a cualquier escala. El propósito principal de un lago de datos es permitir a las organizaciones tomar los distintos activos de datos que poseen (como varias bases de datos, documentos, archivos multimedia, etc.) y alojarlos en un lugar central donde cualquiera que necesite acceder a ellos pueda hacerlo fácilmente.

Esto es lo que, en teoría, deben hacer los lagos de datos. En la práctica, varios desafíos pueden obstaculizar la eficacia de los lagos de datos.

1. Riesgos de ciberseguridad del lago de datos

Cuando los usuarios llenan todos sus datos en una sola ubicación sin administrar las funciones de seguridad, los datos a menudo corren el riesgo de que los manipulen los actores de amenazas.

Una filtración de datos dirigida al lago de datos puede significar que usuarios externos obtengan acceso a los activos de datos que administra la empresa. A menos que implemente controles estrictos de ciberseguridad, su lago de datos se convierte en un objetivo principal de ataque.

2. Los desafíos de cumplimiento de los lagos de datos

Almacenar datos en una ubicación central simplifica el cumplimiento en el sentido de que usted sabe dónde residen sus datos, aunque también crea desafíos de cumplimiento. Si almacena muchos tipos diferentes de datos en su lago, diferentes activos pueden estar sujetos a diferentes estándares de cumplimiento.

Los datos que contienen información personalmente idéntica (PII), por ejemplo, deben gestionarse de manera diferente a otros tipos de datos para cumplir con leyes como DPA, GDPR o HIPAA.

Si bien un lago de datos no le impedirá aplicar controles de seguridad granulares a diferentes activos de datos, tampoco lo hace más fácil, y puede hacerlo más difícil si sus herramientas de seguridad y cumplimiento no son capaces de aplicar diferentes políticas a diferentes activos de datos dentro de un repositorio centralizado.

3. Dolores de cabeza por la integración de datos

Colocar sus datos en una ubicación central para crear un lago de datos es una cosa, pero conectarlos a varias aplicaciones y a la fuerza laboral que necesita acceso es otra.

Hasta que desarrolle las integraciones de datos necesarias (y a menos que las mantenga actualizadas), su lago de datos ofrecerá poco valor.

Crear integraciones de datos requiere tiempo, esfuerzo y experiencia, y los usuarios a veces subestiman lo difícil que es crear integraciones de datos exitosas. Asegúrese de priorizar la estrategia de integración de datos como parte de su proceso general.

4. Riesgos de rendimiento de los datos

Si bien, en teoría, los lagos de datos pueden acomodar cualquier volumen de datos, en la práctica el rendimiento a menudo se ve afectado a medida que aumentan de escala.

Cuantos más datos tenga en su lago, más difícil será garantizar que los datos se muevan rápidamente, que pueda ejecutar consultas rápidas sobre los activos de datos, etc.

Abordar estos riesgos requiere una cuidadosa atención a la infraestructura que aloja su lago de datos, que debe escalar a medida que los datos escalan para garantizar un rendimiento adecuado. Optimizar la forma en que se almacenan los datos también es importante para mantener un rendimiento óptimo.

5. Punto único de falla

Colocar sus datos en un lago de datos significa crear un único punto de falla. Si la infraestructura que alberga su lago falla, sus datos dejarán de estar disponibles.

Las copias de seguridad y las replicaciones pueden ayudar en este sentido. Sin embargo, son sólo una solución parcial porque es posible que los datos de respaldo no se coordinen con los datos de producción y ambas opciones agregarán costos adicionales. Además, se necesita tiempo para restaurar los datos a partir de copias de seguridad, especialmente si no se cuenta con un plan de recuperación de datos bien diseñado y las herramientas adecuadas para implementarlo.

6. Desafíos de la calidad de los datos

Mantener el control de la calidad de los datos puede resultar complicado cuando se tienen muchos tipos de datos diferentes almacenados en un lago de datos.

Para optimizar el rendimiento de los datos y la utilización de la infraestructura, querrá realizar tareas como la deduplicación de datos.

Recuerde que la gran escala de un lago de datos, combinada con la naturaleza en constante cambio de los datos que contiene, hace que esto sea engorroso si no se cuenta con herramientas y procesos de calidad de datos adecuados.

7. Desafíos de la gestión del lago de datos

Los lagos de datos son un tipo único de arquitectura de datos. Son diferentes de las bases de datos, los sistemas de archivos, los sistemas de almacenamiento de objetos y otros enfoques para almacenar información.

Como resultado, los ingenieros de datos que no tienen experiencia con lagos de datos pueden tener dificultades para diseñarlos y administrarlos de manera óptima.

No todas las organizaciones cuentan con un equipo de datos disponible que esté listo para aprovechar al máximo un lago de datos. Las empresas deben asegurarse de que su fuerza laboral de TI sea experta tanto en sistemas heredados como en nuevas tecnologías.

GettyImages-1329831690.original
– GettyImages

Conseguir más de los lagos de datos

Los lagos de datos pueden ser una excelente manera de consolidar grandes cantidades de datos y hacerlos fácilmente accesibles, pero solo si se planifican, implementan y administran cuidadosamente.

Sin abordar desafíos como la necesidad de protecciones de ciberseguridad y controles de calidad de datos y abordar riesgos como la posibilidad de que la infraestructura de su lago de datos pueda fallar, las empresas pueden tener dificultades para obtener el valor total de los lagos de datos.

El resultado final: por supuesto, cree un lago de datos si su empresa ha determinado que es la mejor manera de almacenar datos. Pero no puedes simplemente volcar tus datos en un lago de datos y dar por terminado el día.

Es necesario trabajar duro para superar los numerosos desafíos descritos anteriormente que pueden socavar el valor de los lagos de datos.