¿Qué es Data Lake? Es arquitectura

Tabla de contenido:

Anonim

¿Qué es Data Lake?

Un lago de datos es un repositorio de almacenamiento que puede almacenar una gran cantidad de datos estructurados, semiestructurados y no estructurados. Es un lugar para almacenar todo tipo de datos en su formato nativo sin límites fijos en el tamaño de la cuenta o el archivo. Ofrece una gran cantidad de datos para aumentar el rendimiento analítico y la integración nativa.

Data Lake es como un gran contenedor que es muy similar a los lagos y ríos reales. Al igual que en un lago, hay varios afluentes entrando, un lago de datos tiene datos estructurados, datos no estructurados, de máquina a máquina, registros que fluyen en tiempo real.

Data Lake democratiza los datos y es una forma rentable de almacenar todos los datos de una organización para su posterior procesamiento. El analista de investigación puede centrarse en encontrar patrones de significado en los datos y no en los datos en sí.

A diferencia de una casa de Dataware jerárquica donde los datos se almacenan en Archivos y Carpetas, Data Lake tiene una arquitectura plana. Cada elemento de datos en un lago de datos recibe un identificador único y se etiqueta con un conjunto de información de metadatos.

En este tutorial, aprenderá:

  • ¿Qué es Data Lake?
  • ¿Por qué Data Lake?
  • Arquitectura de lago de datos
  • Conceptos clave de Data Lake
  • Etapas de madurez de Data Lake
  • Mejores prácticas para la implementación de Data Lake:
  • Diferencia entre Data Lakes y Data warehouse
  • Beneficios y riesgos de usar Data Lake:

¿Por qué Data Lake?

El principal objetivo de la creación de un lago de datos es ofrecer una vista sin refinar de los datos a los científicos de datos.

Las razones para usar Data Lake son:

  • Con la aparición de motores de almacenamiento como Hadoop, el almacenamiento de información dispar se ha vuelto fácil. No es necesario modelar datos en un esquema empresarial con un lago de datos.
  • Con el aumento del volumen de datos, la calidad de los datos y los metadatos, la calidad de los análisis también aumenta.
  • Data Lake ofrece agilidad empresarial
  • El aprendizaje automático y la inteligencia artificial se pueden utilizar para realizar predicciones rentables.
  • Ofrece una ventaja competitiva a la organización implementadora.
  • No hay una estructura de silos de datos. Data Lake ofrece una vista de 360 ​​grados de los clientes y hace que el análisis sea más sólido.

Arquitectura de lago de datos

La figura muestra la arquitectura de un lago de datos empresariales. Los niveles inferiores representan datos que en su mayoría están en reposo, mientras que los niveles superiores muestran datos transaccionales en tiempo real. Estos datos fluyen a través del sistema con poca o ninguna latencia. Los siguientes son niveles importantes en la arquitectura de Data Lake:

  1. Nivel de ingestión : los niveles del lado izquierdo representan las fuentes de datos. Los datos se pueden cargar en el lago de datos en lotes o en tiempo real
  2. Nivel de conocimientos : los niveles de la derecha representan el lado de la investigación donde se utilizan los conocimientos del sistema. Se pueden utilizar consultas SQL, NoSQL o incluso Excel para el análisis de datos.
  3. HDFS es una solución rentable para datos estructurados y no estructurados. Es una zona de aterrizaje para todos los datos que están en reposo en el sistema.
  4. El nivel de destilación toma datos de la llanta de almacenamiento y los convierte en datos estructurados para un análisis más fácil.
  5. El nivel de procesamiento ejecuta algoritmos analíticos y consultas de usuarios con diferentes lotes interactivos en tiempo real para generar datos estructurados para facilitar el análisis.
  6. El nivel de operaciones unificadas gobierna la administración y el monitoreo del sistema. Incluye auditoría y gestión de la competencia, gestión de datos, gestión del flujo de trabajo.

Conceptos clave de Data Lake

A continuación se presentan conceptos clave de Data Lake que es necesario comprender para comprender completamente la arquitectura de Data Lake

Ingestión de datos

La ingestión de datos permite a los conectores obtener datos de diferentes fuentes de datos y cargarlos en el lago de datos.

La ingestión de datos admite:

  • Todo tipo de datos estructurados, semiestructurados y no estructurados.
  • Múltiples ingestiones como por lotes, en tiempo real, carga única.
  • Muchos tipos de fuentes de datos como bases de datos, servidores web, correos electrónicos, IoT y FTP.

Almacenamiento de datos

El almacenamiento de datos debe ser escalable, ofrecer un almacenamiento rentable y permitir un acceso rápido a la exploración de datos. Debe admitir varios formatos de datos.

Dato de governancia

La gobernanza de datos es un proceso de gestión de la disponibilidad, la usabilidad, la seguridad y la integridad de los datos utilizados en una organización.

Seguridad

La seguridad debe implementarse en cada capa del lago de datos. Comienza con almacenamiento, desenterrar y consumir. La necesidad básica es detener el acceso de usuarios no autorizados. Debe admitir diferentes herramientas para acceder a los datos con una GUI y paneles de control fáciles de navegar.

La autenticación, la contabilidad, la autorización y la protección de datos son algunas características importantes de la seguridad del lago de datos.

Calidad de los datos:

La calidad de los datos es un componente esencial de la arquitectura de Data Lake. Los datos se utilizan para calcular el valor comercial exacto. La extracción de conocimientos a partir de datos de baja calidad conducirá a conocimientos de mala calidad.

Descubrimiento de datos

El descubrimiento de datos es otra etapa importante antes de que pueda comenzar a preparar datos o análisis. En esta etapa, la técnica de etiquetado se utiliza para expresar la comprensión de los datos, organizando e interpretando los datos ingeridos en el lago de datos.

Auditoría de datos

Dos tareas principales de auditoría de datos son el seguimiento de los cambios en el conjunto de datos clave.

  1. Seguimiento de cambios en elementos importantes del conjunto de datos
  2. Captura cómo / cuándo / y quién cambia a estos elementos.

La auditoría de datos ayuda a evaluar el riesgo y el cumplimiento.

Linaje de datos

Este componente se ocupa de los orígenes de los datos. Se trata principalmente de dónde se mueve a lo largo del tiempo y qué le sucede. Facilita la corrección de errores en un proceso de análisis de datos desde el origen hasta el destino.

Exploración de datos

Es la etapa inicial del análisis de datos. Ayuda a identificar el conjunto de datos correcto antes de iniciar la exploración de datos.

Todos los componentes dados deben trabajar juntos para jugar un papel importante en la construcción de Data Lake, evolucionar y explorar fácilmente el entorno.

Etapas de madurez de Data Lake

La definición de las etapas de madurez de Data Lake difiere de un libro de texto a otro. Aunque el quid sigue siendo el mismo. Después de la madurez, la definición de la etapa es desde el punto de vista del profano.

Etapa 1: Manejar e ingerir datos a escala

Esta primera etapa de la madurez de los datos implica mejorar la capacidad de transformar y analizar datos. Aquí, los propietarios de empresas deben encontrar las herramientas de acuerdo con sus habilidades para obtener más datos y crear aplicaciones analíticas.

Etapa 2: Desarrollar el músculo analítico

Esta es una segunda etapa que implica mejorar la capacidad de transformar y analizar datos. En esta etapa, las empresas utilizan la herramienta más adecuada a sus habilidades. Empiezan a adquirir más datos y a crear aplicaciones. Aquí, las capacidades del almacén de datos empresarial y el lago de datos se utilizan juntas.

Etapa 3: EDW y Data Lake funcionan al unísono

Este paso implica poner datos y análisis en manos de tantas personas como sea posible. En esta etapa, el lago de datos y el almacén de datos de la empresa comienzan a funcionar juntos. Ambos desempeñan su papel en la analítica

Etapa 4: capacidad empresarial en el lago

En esta etapa de madurez del lago de datos, se agregan capacidades empresariales al lago de datos. Adopción de la gobernanza de la información, las capacidades de gestión del ciclo de vida de la información y la gestión de metadatos. Sin embargo, muy pocas organizaciones pueden alcanzar este nivel de madurez, pero este recuento aumentará en el futuro.

Mejores prácticas para la implementación de Data Lake:

  • Los componentes arquitectónicos, su interacción y los productos identificados deben admitir tipos de datos nativos
  • El diseño de Data Lake debe basarse en lo que está disponible en lugar de lo que se requiere. El esquema y el requisito de datos no se definen hasta que se consulta
  • El diseño debe estar guiado por componentes desechables integrados con la API de servicio.
  • El descubrimiento, la ingestión, el almacenamiento, la administración, la calidad, la transformación y la visualización de datos deben gestionarse de forma independiente.
  • La arquitectura de Data Lake debe adaptarse a una industria específica. Debe garantizar que las capacidades necesarias para ese dominio sean una parte inherente del diseño.
  • Es importante una incorporación más rápida de las fuentes de datos recién descubiertas
  • Data Lake ayuda a la gestión personalizada para extraer el máximo valor
  • El lago de datos debe admitir las técnicas y métodos de gestión de datos empresariales existentes.

Desafíos de construir un lago de datos:

  • En Data Lake, el volumen de datos es mayor, por lo que el proceso debe depender más de la administración programática
  • Es difícil lidiar con datos escasos, incompletos y volátiles.
  • El alcance más amplio del conjunto de datos y la fuente necesita una mayor gobernanza y soporte de datos

Diferencia entre Data Lakes y Data warehouse

Parámetros Lagos de datos Almacén de datos
Datos Los lagos de datos almacenan todo. El almacén de datos se centra solo en los procesos comerciales.
Procesando Los datos están principalmente sin procesar Datos altamente procesados.
Tipo de datos Puede ser desestructurado, semiestructurado y estructurado. Es principalmente en forma y estructura tabular.
Tarea Comparta la administración de datos Optimizado para la recuperación de datos
Agilidad Altamente ágil, configure y reconfigure según sea necesario. En comparación con Data Lake, es menos ágil y tiene una configuración fija.
Usuarios Data Lake es utilizado principalmente por Data Scientist Los profesionales de negocios utilizan ampliamente el almacén de datos
Almacenamiento Diseño de lagos de datos para almacenamiento de bajo costo. Se utilizan costosos almacenamiento que brindan tiempos de respuesta rápidos
Seguridad Ofrece menos control. Permite un mejor control de los datos.
Reemplazo de EDW El lago de datos puede ser fuente de EDW Complementario a EDW (no reemplazo)
Esquema Esquema al leer (sin esquemas predefinidos) Esquema al escribir (esquemas predefinidos)
Procesamiento de datos Ayuda a la ingesta rápida de nuevos datos. Lleva mucho tiempo introducir contenido nuevo.
Granularidad de datos Datos con bajo nivel de detalle o granularidad. Datos en el nivel de detalle resumido o agregado.
Instrumentos Puede usar código abierto / herramientas como Hadoop / Map Reduce Mayormente herramientas comerciales.

Beneficios y riesgos de usar Data Lake:

A continuación, se muestran algunos de los principales beneficios de utilizar un lago de datos:

  • Ayuda completamente con la ionización del producto y el análisis avanzado
  • Ofrece escalabilidad y flexibilidad rentables
  • Ofrece valor a partir de tipos de datos ilimitados
  • Reduce el costo de propiedad a largo plazo
  • Permite el almacenamiento económico de archivos
  • Rápidamente adaptable a los cambios
  • La principal ventaja del lago de datos es la centralización de diferentes fuentes de contenido.
  • Los usuarios, de varios departamentos, pueden estar dispersos por todo el mundo y pueden tener acceso flexible a los datos.

Riesgo de usar Data Lake:

  • Después de un tiempo, Data Lake puede perder relevancia e impulso
  • Existe un riesgo mayor involucrado al diseñar Data Lake
  • Los datos no estructurados pueden conducir a Chao no gobernado, datos inutilizables, herramientas complejas y dispares, colaboración en toda la empresa, unificado, coherente y común
  • También aumenta los costos de almacenamiento y computación
  • No hay forma de obtener información de otras personas que han trabajado con los datos porque no hay una descripción del linaje de los hallazgos de los analistas anteriores.
  • El mayor riesgo de los lagos de datos es la seguridad y el control de acceso. A veces, los datos se pueden colocar en un lago sin ningún tipo de supervisión, ya que algunos de los datos pueden tener una necesidad regulatoria y de privacidad.

Resumen:

  • Un lago de datos es un repositorio de almacenamiento que puede almacenar una gran cantidad de datos estructurados, semiestructurados y no estructurados.
  • El principal objetivo de la creación de un lago de datos es ofrecer una vista sin refinar de los datos a los científicos de datos.
  • El nivel de operaciones unificadas, el nivel de procesamiento, el nivel de destilación y HDFS son capas importantes de la arquitectura de Data Lake
  • La ingestión de datos, el almacenamiento de datos, la calidad de los datos, la auditoría de datos, la exploración de datos y el descubrimiento de datos son algunos componentes importantes de la arquitectura de Data Lake.
  • El diseño de Data Lake debe basarse en lo que está disponible en lugar de lo que se requiere.
  • Data Lake reduce el costo de propiedad a largo plazo y permite el almacenamiento económico de archivos
  • El mayor riesgo de los lagos de datos es la seguridad y el control de acceso. A veces, los datos se pueden colocar en un lago sin ningún tipo de supervisión, ya que algunos de los datos pueden tener necesidad de privacidad y reglamentación.