¿Qué es la reconciliación de datos? Definición, Proceso, Herramientas

Tabla de contenido:

Anonim

¿Qué es la reconciliación de datos?

La reconciliación de datos (DR) se define como un proceso de verificación de datos durante la migración de datos. En este proceso, los datos de destino se comparan con los datos de origen para garantizar que la arquitectura de migración esté transfiriendo datos. La validación y reconciliación de datos (DVR) significa una tecnología que utiliza modelos matemáticos para procesar información.

En este tutorial, aprenderá,

  • ¿Qué es la reconciliación de datos?
  • ¿Por qué es importante la reconciliación de datos?
  • Terminología asociada con la reconciliación de datos
  • Historia de la reconciliación de datos
  • Proceso de conciliación de datos
  • Mejores prácticas de uso de la reconciliación de datos
  • Herramientas de conciliación de datos

¿Por qué es importante la reconciliación de datos?

En el proceso de migración de datos, es posible que se cometan errores en la lógica de mapeo y transformación. Problemas como fallas en el tiempo de ejecución, como interrupciones de la red o transacciones rotas, pueden dañar los datos.

Este tipo de errores puede hacer que los datos queden en un estado no válido. Estos pueden crear una variedad de problemas como:

  • Registros faltantes
  • Valores faltantes
  • Valores incorrectos
  • Registros duplicados
  • Valores mal formateados
  • Relaciones rotas entre tablas o sistemas

A continuación, se incluyen razones importantes para utilizar el proceso de conciliación de datos:

  • El uso de la Reconciliación de datos lo ayuda a extraer información precisa y confiable sobre el estado del proceso de la industria a partir de los datos de medición sin procesar.
  • También le ayuda a producir un único conjunto consistente de datos que representan la operación de proceso más probable.
  • También genera información inexacta y problemas con el servicio al cliente.
  • La reconciliación de datos también es importante para la integración del control empresarial.

Aparte de lo anterior, existen muchas ventajas / ventajas de la conciliación de datos.

Terminología asociada con la reconciliación de datos

Error grave Errores brutos en las mediciones. Refleja solo errores de sesgo, fallas de instrumentos o picos de ruido anormales si está utilizando solo un período de promedio de tiempo corto.
Observabilidad El análisis de observabilidad puede brindarle detalles sobre qué variables se pueden determinar para un conjunto dado de restricciones y un conjunto de medidas.
Diferencia La varianza es una medida de la variabilidad de un sensor.
Redundancia Le ayuda a determinar qué medidas deben estimarse a partir de otras variables utilizando las ecuaciones de restricción.

Historia de la reconciliación de datos

A continuación, se muestran hitos esenciales de la historia de la reconciliación de datos.

  • DVR (validación y reconciliación de datos) comenzó a principios de la década de 1960. Tenía como objetivo cerrar los balances de materiales en la producción donde las mediciones brutas estaban disponibles para todas las variables.
  • A fines de la década de 1960, todas las variables no medidas se consideraron en el proceso de conciliación de datos.
  • La dinámica de estado cuasi-estacionario para el filtrado y la estimación de parámetros paralelos a lo largo del tiempo fueron introducidas en 1977 por Stanley y Mah.
  • El DVR dinámico se desarrolló como un modelo de optimización no lineal emitido por Liebman en el año 1992

Proceso de conciliación de datos

Los tipos de métodos de conciliación de datos son:

Conciliación de datos maestros

La conciliación de datos maestros es una técnica para conciliar solo los datos maestros entre el origen y el destino. Los datos maestros son en su mayoría invariables o de naturaleza que cambia lentamente, y no se realiza ninguna operación de agregación en el conjunto de datos.

Algunos ejemplos comunes de conciliación de datos maestros son:

  • Número total de filas
  • Cliente total en origen y destino
  • Número total de elementos en origen y destino
  • Recuento total de filas según la condición dada
  • Número de usuarios activos
  • Número de usuarios inactivos, etc.

Precisión de la actividad

  • Debe asegurarse de que las transacciones sean válidas y de que su propósito sea correcto.
  • Necesita verificar si las transacciones se han autorizado correctamente.

Conciliación de datos transaccionales

Los datos transaccionales constituyen la base de los informes de BI. Por lo tanto, cualquier discrepancia en los datos transaccionales puede afectar directamente la confiabilidad del informe y todo el sistema de BI en general.

El método de conciliación de datos transaccionales se utiliza en términos de la suma total, lo que evita cualquier desajuste causado por cambiar la granularidad de las dimensiones calificadas.

Algunos ejemplos de medidas utilizadas para la conciliación de datos transaccionales deben ser:

  1. Suma de los ingresos totales calculados a partir de la fuente y el destino
  2. Suma de todo el artículo vendido, calculado a partir de origen y destino, etc.

Reconciliación de datos automatizada:

En un gran sistema de gestión de almacenamiento de datos, es conveniente automatizar el proceso de conciliación de datos convirtiéndolo en parte integral de la carga de datos. Le permite mantener tablas de metadatos de carga independientes. Además, la conciliación automatizada mantendrá a todos los interesados ​​informados sobre la validez de los informes.

Mejores prácticas de uso de la reconciliación de datos

  • El proceso de conciliación de datos debe tener como objetivo corregir los errores de medición.
  • Los errores brutos deben ser cero para que el proceso de conciliación de datos sea eficiente.
  • El enfoque estándar de la reconciliación de datos se ha basado en recuentos de registros simples para realizar un seguimiento de si el número objetivo de registros se ha migrado o no.
  • La solución de migración de datos ofrece capacidades de conciliación similares y funcionalidad de creación de prototipos de datos que ofrece pruebas de conciliación de datos de volumen completo.

Herramientas de conciliación de datos

1) OpenRefine

OpenRefine, que anteriormente se conocía como Google Refine, es un marco útil de reconciliación de bases de datos. Le permite limpiar y transferir datos desordenados.

Enlace de descarga: https://openrefine.org/

2) Claridad TIBCO

Esta herramienta de conciliación de datos ofrece servicios de software a pedido desde la web en forma de software como servicio. Permite a los usuarios validar los datos y limpiarlos. Proporciona funciones completas de prueba de reconciliación. Ampliamente utilizado en el proceso ETL.

Enlace de descarga: https://clarity.cloud.tibco.com/landing/index.html

3) Winpure

Winpure es un software de limpieza de datos asequible y preciso. Le permite limpiar una gran cantidad de datos, eliminar duplicados, corregir y estandarizar para diseñar el conjunto de datos final.

Enlace de descarga: https://winpure.com/

Resumen

  • La validación y reconciliación de datos (DVR) es una tecnología que utiliza modelos matemáticos para procesar información.
  • El uso de la reconciliación de datos lo ayuda a extraer información precisa y confiable sobre el estado del proceso de la industria a partir de datos de medición sin procesar.
  • Error bruto, observabilidad, varianza y redundancia son términos importantes que se utilizan en el proceso de conciliación de datos.
  • La validación y reconciliación de datos comenzó a principios de la década de 1960.
  • Tres tipos de métodos de conciliación de datos son 1) Conciliación de datos maestros 2) Conciliación de datos transaccionales 3) Conciliación de datos automatizada
  • Los errores brutos deben ser cero para que el proceso de conciliación de datos sea eficiente.
  • Algunas herramientas importantes de conciliación de datos son: 1) OpenRefine 2) TIBCO 3) Winpure
  • Este método se utiliza ampliamente en la supervisión del rendimiento y los procesos en la industria química, nuclear o de refinación de petróleo.