Arquitectura, conceptos y componentes del almacén de datos

Tabla de contenido:

Anonim

Conceptos de almacenamiento de datos

El concepto básico de un almacén de datos es facilitar una versión única de la verdad a una empresa para la toma de decisiones y la previsión. Un almacén de datos es un sistema de información que contiene datos históricos y conmutativos de una o varias fuentes. Los conceptos de almacenamiento de datos simplifican el proceso de informes y análisis de las organizaciones.

Características del almacén de datos

Los conceptos de almacenamiento de datos tienen las siguientes características:

  • Orientado al sujeto
  • Integrado
  • Variante de tiempo
  • No volátil

Orientado al sujeto

Un almacén de datos está orientado al tema, ya que ofrece información sobre un tema en lugar de las operaciones en curso de las empresas. Estos temas pueden ser ventas, marketing, distribuciones, etc.

Un almacén de datos nunca se centra en las operaciones en curso. En cambio, puso énfasis en el modelado y análisis de datos para la toma de decisiones . También proporciona una vista simple y concisa sobre el tema específico al excluir datos que no son útiles para respaldar el proceso de decisión.

Integrado

En Data Warehouse, la integración significa el establecimiento de una unidad de medida común para todos los datos similares de la base de datos diferente. Los datos también deben almacenarse en el Datawarehouse de manera común y universalmente aceptable.

Un almacén de datos se desarrolla integrando datos de diversas fuentes como un mainframe, bases de datos relacionales, archivos planos, etc. Además, debe mantener convenciones de nomenclatura, formato y codificación consistentes.

Esta integración ayuda a un análisis eficaz de los datos. Debe garantizarse la coherencia en las convenciones de nomenclatura, las medidas de atributos, la estructura de codificación, etc. Considere el siguiente ejemplo:

En el ejemplo anterior, hay tres aplicaciones diferentes etiquetadas como A, B y C. La información almacenada en estas aplicaciones es Sexo, Fecha y Saldo. Sin embargo, los datos de cada aplicación se almacenan de forma diferente.

  • En la aplicación Un campo de género almacena valores lógicos como M o F
  • En la aplicación B, el campo de género es un valor numérico,
  • En la aplicación de la Aplicación C, el campo de género se almacena en forma de valor de carácter.
  • Lo mismo ocurre con la fecha y el saldo.

Sin embargo, después del proceso de transformación y limpieza, todos estos datos se almacenan en un formato común en el almacén de datos.

Variante de tiempo

El horizonte temporal del almacén de datos es bastante amplio en comparación con los sistemas operativos. Los datos recopilados en un almacén de datos se reconocen con un período particular y ofrecen información desde el punto de vista histórico. Contiene un elemento de tiempo, explícita o implícitamente.

Uno de esos lugares donde los datos de Datawarehouse muestran la variación del tiempo es en la estructura de la clave de registro. Cada clave primaria contenida con el DW debe tener implícita o explícitamente un elemento de tiempo. Como el día, la semana, el mes, etc.

Otro aspecto de la variación de tiempo es que una vez que los datos se insertan en el almacén, no se pueden actualizar ni modificar.

No volátil

El almacén de datos también es no volátil, lo que significa que los datos anteriores no se borran cuando se ingresan nuevos datos.

Los datos son de solo lectura y se actualizan periódicamente. Esto también ayuda a analizar datos históricos y comprender qué y cuándo sucedió. No requiere procesos de transacción, recuperación y mecanismos de control de concurrencia.

Las actividades como eliminar, actualizar e insertar que se realizan en un entorno de aplicación operativa se omiten en el entorno de almacenamiento de datos. Solo dos tipos de operaciones de datos realizadas en el almacenamiento de datos son

  1. Carga de datos
  2. Acceso a los datos

A continuación, se muestran algunas diferencias importantes entre la aplicación y el almacén de datos

Aplicación operativa Almacén de datos
El programa complejo debe codificarse para garantizar que los procesos de actualización de datos mantengan una alta integridad del producto final. Este tipo de problemas no ocurre porque no se realiza la actualización de datos.
Los datos se colocan en forma normalizada para garantizar una redundancia mínima. Los datos no se almacenan en forma normalizada.
La tecnología necesaria para soportar problemas de transacciones, recuperación de datos, reversión y resolución, ya que su punto muerto es bastante complejo. Ofrece relativa simplicidad en tecnología.

Arquitectura de almacenamiento de datos

La arquitectura del almacén de datos es compleja ya que es un sistema de información que contiene datos históricos y conmutativos de múltiples fuentes. Hay 3 enfoques para construir capas de almacenamiento de datos: nivel único, dos niveles y tres niveles. Esta arquitectura de 3 niveles de Data Warehouse se explica a continuación.

Arquitectura de un solo nivel

El objetivo de una sola capa es minimizar la cantidad de datos almacenados. Este objetivo es eliminar la redundancia de datos. Esta arquitectura no se utiliza con frecuencia en la práctica.

Arquitectura de dos niveles

La arquitectura de dos capas es una de las capas del almacén de datos que separa las fuentes disponibles físicamente y el almacén de datos. Esta arquitectura no es ampliable y tampoco admite una gran cantidad de usuarios finales. También tiene problemas de conectividad debido a las limitaciones de la red.

Arquitectura de almacenamiento de datos de tres niveles

Esta es la arquitectura de almacenamiento de datos más utilizada.

Consiste en los niveles superior, medio e inferior.

  1. Nivel inferior: la base de datos de los servidores de Datawarehouse como nivel inferior. Suele ser un sistema de base de datos relacional. Los datos se limpian, transforman y cargan en esta capa utilizando herramientas de back-end.
  2. Nivel intermedio: el nivel intermedio en el almacén de datos es un servidor OLAP que se implementa utilizando el modelo ROLAP o MOLAP. Para un usuario, este nivel de aplicación presenta una vista resumida de la base de datos. Esta capa también actúa como mediadora entre el usuario final y la base de datos.
  3. Nivel superior : el nivel superior es una capa de cliente de front-end. El nivel superior son las herramientas y la API que conecta y obtiene datos del almacén de datos. Pueden ser herramientas de consulta, herramientas de informes, herramientas de consulta gestionadas, herramientas de análisis y herramientas de minería de datos.

Componentes del almacén de datos

Aprenderemos sobre los componentes de Datawarehouse y la arquitectura de Data Warehouse con diagrama como se muestra a continuación:

Arquitectura de almacenamiento de datos

El almacén de datos se basa en un servidor RDBMS que es un repositorio de información central que está rodeado por algunos componentes clave de almacenamiento de datos para hacer que todo el entorno sea funcional, manejable y accesible.

Hay principalmente cinco componentes de almacenamiento de datos:

Base de datos de almacenamiento de datos

La base de datos central es la base del entorno de almacenamiento de datos. Esta base de datos está implementada en la tecnología RDBMS. Sin embargo, este tipo de implementación está limitado por el hecho de que el sistema RDBMS tradicional está optimizado para el procesamiento de bases de datos transaccionales y no para el almacenamiento de datos. Por ejemplo, las consultas ad-hoc, las combinaciones de varias tablas y los agregados consumen muchos recursos y ralentizan el rendimiento.

Por lo tanto, se utilizan enfoques alternativos a la base de datos que se enumeran a continuación:

  • En un almacén de datos, las bases de datos relacionales se implementan en paralelo para permitir la escalabilidad. Las bases de datos relacionales paralelas también permiten la memoria compartida o el modelo de nada compartido en varias configuraciones de multiprocesador o procesadores masivamente paralelos.
  • Se utilizan nuevas estructuras de índice para omitir el escaneo de tablas relacionales y mejorar la velocidad.
  • Uso de bases de datos multidimensionales (MDDB) para superar las limitaciones que se imponen debido a los modelos de almacenamiento de datos relacionales. Ejemplo: Essbase de Oracle.

Herramientas de abastecimiento, adquisición, limpieza y transformación (ETL)

Las herramientas de origen, transformación y migración de datos se utilizan para realizar todas las conversiones, resúmenes y todos los cambios necesarios para transformar los datos en un formato unificado en el almacén de datos. También se denominan herramientas de extracción, transformación y carga (ETL).

Su funcionalidad incluye:

  • Anonimice los datos según las estipulaciones reglamentarias.
  • Eliminando la carga de datos no deseados en bases de datos operativas en el almacén de datos.
  • Busque y reemplace nombres y definiciones comunes para datos provenientes de diferentes fuentes.
  • Calcular resúmenes y datos derivados
  • En caso de que falten datos, complételos con los valores predeterminados.
  • Datos repetidos deduplicados que llegan de múltiples fuentes de datos.

Estas herramientas de extracción, transformación y carga pueden generar trabajos cron, trabajos en segundo plano, programas Cobol, scripts de shell, etc. que actualizan regularmente los datos en el almacén de datos. Estas herramientas también son útiles para mantener los metadatos.

Estas herramientas ETL tienen que hacer frente a los desafíos de la heterogeneidad de bases de datos y datos.

Metadatos

El nombre Meta Data sugiere algunos conceptos de almacenamiento de datos tecnológicos de alto nivel. Sin embargo, es bastante sencillo. Los metadatos son datos sobre los datos que definen el almacén de datos. Se utiliza para construir, mantener y administrar el almacén de datos.

En la arquitectura de almacenamiento de datos, los metadatos desempeñan un papel importante, ya que especifican la fuente, el uso, los valores y las características de los datos del almacenamiento de datos. También define cómo se pueden modificar y procesar los datos. Está estrechamente relacionado con el almacén de datos.

Por ejemplo, una línea en la base de datos de ventas puede contener:

4030 KJ732 299.90

Este es un dato sin sentido hasta que consultamos el Meta que nos dice que fue

  • Número de modelo: 4030
  • ID de agente de ventas: KJ732
  • Monto total de ventas de $ 299.90

Por lo tanto, los metadatos son ingredientes esenciales en la transformación de datos en conocimiento.

Los metadatos ayudan a responder las siguientes preguntas

  • ¿Qué tablas, atributos y claves contiene el almacén de datos?
  • ¿De dónde provienen los datos?
  • ¿Cuántas veces se recargan los datos?
  • ¿Qué transformaciones se aplicaron con la limpieza?

Los metadatos se pueden clasificar en las siguientes categorías:

  1. Metadatos técnicos : este tipo de metadatos contiene información sobre el almacén que utilizan los diseñadores y administradores del almacén de datos.
  2. Metadatos comerciales: este tipo de metadatos contiene detalles que brindan a los usuarios finales una forma fácil de comprender la información almacenada en el almacén de datos.

Herramientas de consulta

Uno de los principales objetos del almacenamiento de datos es proporcionar información a las empresas para que tomen decisiones estratégicas. Las herramientas de consulta permiten a los usuarios interactuar con el sistema de almacenamiento de datos.

Estas herramientas se dividen en cuatro categorías diferentes:

  1. Herramientas de consulta y generación de informes
  2. Herramientas de desarrollo de aplicaciones
  3. Herramientas de minería de datos
  4. Herramientas OLAP

1. Herramientas de consulta e informes:

Las herramientas de consulta e informes se pueden dividir en

  • Herramientas de informes
  • Herramientas de consulta gestionadas

Herramientas de informes:

Las herramientas de informes se pueden dividir en herramientas de informes de producción y escritor de informes de escritorio.

  1. Redactores de informes: este tipo de herramienta de informes son herramientas diseñadas para los usuarios finales para su análisis.
  2. Informes de producción: este tipo de herramientas permite a las organizaciones generar informes operativos regulares. También admite trabajos por lotes de gran volumen, como la impresión y el cálculo. Algunas herramientas de informes populares son Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Herramientas de consulta gestionadas:

Este tipo de herramientas de acceso ayuda a los usuarios finales a resolver problemas en la base de datos y SQL y la estructura de la base de datos insertando una metacapa entre los usuarios y la base de datos.

2. Herramientas de desarrollo de aplicaciones:

A veces, las herramientas gráficas y analíticas integradas no satisfacen las necesidades analíticas de una organización. En tales casos, los informes personalizados se desarrollan utilizando herramientas de desarrollo de aplicaciones.

3. Herramientas de minería de datos:

La minería de datos es un proceso para descubrir nuevas correlaciones, patrones y tendencias significativas mediante la extracción de grandes cantidades de datos. Se utilizan herramientas de minería de datos para que este proceso sea automático.

4. Herramientas OLAP:

Estas herramientas se basan en conceptos de una base de datos multidimensional. Permite a los usuarios analizar los datos utilizando vistas multidimensionales complejas y elaboradas.

Arquitectura de bus de almacenamiento de datos

El bus del almacén de datos determina el flujo de datos en su almacén. El flujo de datos en un almacén de datos se puede clasificar como flujo de entrada, flujo ascendente, flujo descendente, flujo de salida y metaflujo.

Al diseñar un bus de datos, es necesario tener en cuenta las dimensiones compartidas, los hechos en los mercados de datos.

Data marts

Un data mart es una capa de acceso que se utiliza para enviar datos a los usuarios. Se presenta como una opción para almacenes de datos de gran tamaño, ya que su construcción requiere menos tiempo y dinero. Sin embargo, no existe una definición estándar de un mercado de datos que difiera de una persona a otra.

En pocas palabras, Data Mart es una subsidiaria de un almacén de datos. La despensa de datos se utiliza para la partición de datos que se crea para el grupo específico de usuarios.

Los mercados de datos se pueden crear en la misma base de datos que el Datawarehouse o en una base de datos físicamente separada.

Mejores prácticas de arquitectura de almacenamiento de datos

Para diseñar la arquitectura del almacén de datos, debe seguir las siguientes prácticas recomendadas:

  • Utilice modelos de almacenamiento de datos que están optimizados para la recuperación de información, que puede ser el modo dimensional, el enfoque desnormalizado o híbrido.
  • Elija el enfoque de diseño adecuado como enfoque de arriba hacia abajo y de abajo hacia arriba en el almacén de datos
  • Necesita asegurarse de que los datos se procesen de forma rápida y precisa. Al mismo tiempo, debe adoptar un enfoque que consolide los datos en una única versión de la verdad.
  • Diseñe cuidadosamente el proceso de adquisición y limpieza de datos para el almacén de datos.
  • Diseñar una arquitectura de metadatos que permita compartir metadatos entre componentes de Data Warehouse.
  • Considere implementar un modelo ODS cuando la necesidad de recuperación de información esté cerca de la base de la pirámide de abstracción de datos o cuando se requiera acceder a múltiples fuentes operativas.
  • Uno debe asegurarse de que el modelo de datos esté integrado y no solo consolidado. En ese caso, debe considerar el modelo de datos 3NF. También es ideal para adquirir ETL y herramientas de limpieza de datos.

Resumen:

  • El almacén de datos es un sistema de información que contiene datos históricos y conmutativos de una o varias fuentes. Estas fuentes pueden ser Data Warehouse tradicional, Cloud Data Warehouse o Virtual Data Warehouse.
  • Un almacén de datos está orientado al tema, ya que ofrece información sobre el tema en lugar de las operaciones en curso de la organización.
  • En Data Warehouse, la integración significa el establecimiento de una unidad de medida común para todos los datos similares de las diferentes bases de datos.
  • El almacén de datos también es no volátil, lo que significa que los datos anteriores no se borran cuando se ingresan nuevos datos.
  • Un Datawarehouse es una variante temporal, ya que los datos en un DW tienen una vida útil alta.
  • Hay principalmente 5 componentes de la arquitectura de almacenamiento de datos: 1) Base de datos 2) Herramientas ETL 3) Metadatos 4) Herramientas de consulta 5) DataMarts
  • Estas son cuatro categorías principales de herramientas de consulta: 1. Consulta e informes, herramientas 2. Herramientas de desarrollo de aplicaciones, 3. Herramientas de minería de datos 4. Herramientas OLAP
  • Las herramientas de obtención, transformación y migración de datos se utilizan para realizar todas las conversiones y resúmenes.
  • En la arquitectura de almacenamiento de datos, los metadatos desempeñan un papel importante, ya que especifican la fuente, el uso, los valores y las características de los datos del almacenamiento de datos.