Las 25 preguntas principales de la entrevista de prueba ETL y amp; Respuestas

Anonim

Las siguientes son preguntas frecuentes en entrevistas para principiantes y probadores y desarrolladores de ETL con mucha experiencia.

1) ¿Qué es ETL?

En la arquitectura de almacenamiento de datos, ETL es un componente importante que gestiona los datos de cualquier proceso empresarial. ETL son las siglas de Extract, Transform and Load . Extraer realiza el proceso de leer datos de una base de datos. Transform convierte los datos en un formato que podría ser apropiado para informes y análisis. Mientras, load realiza el proceso de escribir los datos en la base de datos de destino.

2) Explique qué incluyen las operaciones de prueba ETL.

Las pruebas ETL incluyen

  • Verifique si los datos se están transformando correctamente de acuerdo con los requisitos comerciales
  • Verifique que los datos proyectados se carguen en el almacén de datos sin truncamiento ni pérdida de datos.
  • Asegúrese de que la aplicación ETL notifique datos no válidos y los reemplace con valores predeterminados
  • Asegúrese de que los datos se carguen en el marco de tiempo esperado para mejorar la escalabilidad y el rendimiento.

3) Mencione cuáles son los tipos de aplicaciones de almacenamiento de datos y cuál es la diferencia entre la minería de datos y el almacenamiento de datos.

Los tipos de aplicaciones de almacenamiento de datos son

  • Procesamiento de información
  • Procesamiento analítico
  • Procesamiento de datos

La minería de datos se puede definir como el proceso de extraer información predictiva oculta de grandes bases de datos e interpretar los datos, mientras que el almacenamiento de datos puede hacer uso de una mina de datos para el procesamiento analítico de los datos de una manera más rápida. El almacenamiento de datos es el proceso de agregar datos de múltiples fuentes en un repositorio común.

4) ¿Cuáles son las diversas herramientas que se utilizan en ETL?

  • Flujo de decisiones de Cognos
  • Generador de almacenes de Oracle
  • Business Objects XI
  • Almacén comercial SAS
  • Servidor SAS Enterprise ETL

5) ¿Qué es un hecho? ¿Cuáles son los tipos de hechos?

Es un componente central de un modelo multidimensional que contiene las medidas a analizar. Los hechos están relacionados con las dimensiones.

Los tipos de hechos son

  • Hechos aditivos
  • Hechos de semi-aditivos
  • Hechos no aditivos

6) Explica qué son los cubos y los cubos OLAP.

Los cubos son unidades de procesamiento de datos compuestas por tablas de hechos y dimensiones del almacén de datos. Proporciona análisis multidimensional.

OLAP significa procesamiento de análisis en línea, y el cubo OLAP almacena grandes datos en forma multidimensional para fines de informes. Consiste en hechos llamados medidas categorizadas por dimensiones.

7) Explique qué es el nivel de rastreo y cuáles son los tipos.

El nivel de seguimiento es la cantidad de datos almacenados en los archivos de registro. El nivel de rastreo se puede clasificar en dos Normal y Detallado. El nivel normal explica el nivel de seguimiento de manera detallada, mientras que el detallado explica los niveles de seguimiento en todas y cada una de las filas.

8) Explique qué es Grano de hechos.

El hecho de grano se puede definir como el nivel en el que se almacena la información de hecho. También se conoce como granularidad de hechos

9) Explique qué es un esquema de hechos sin hechos y qué es Medidas.

Una tabla de hechos sin medidas se conoce como tabla de hechos sin hechos. Puede ver el número de eventos que ocurren. Por ejemplo, se utiliza para registrar un evento como el recuento de empleados en una empresa.

Los datos numéricos basados ​​en columnas en una tabla de hechos se conocen como Medidas

10) Explica qué es la transformación.

Una transformación es un objeto de repositorio que genera, modifica o pasa datos. Las transformaciones son de dos tipos, activa y pasiva.

11) ¿Explica el uso de la transformación de búsqueda?

La transformación de búsqueda es útil para

  • Obtener un valor relacionado de una tabla usando un valor de columna
  • Actualizar la tabla de dimensiones que cambia lentamente
  • Verifique si los registros ya existen en la tabla

12) Explique qué son las particiones, las particiones hash y las particiones por turnos.

Para mejorar el rendimiento, las transacciones se subdividen, esto se denomina Partición. El particionamiento permite a Informatica Server crear múltiples conexiones a varias fuentes

Los tipos de particiones son

Partición Round-Robin:

  • Por informatica, los datos se distribuyen uniformemente entre todas las particiones.
  • En cada partición donde el número de filas a procesar es aproximadamente el mismo, esta partición es aplicable

Partición hash:

  • Con el fin de particionar claves para agrupar datos entre particiones, el servidor de Informatica aplica una función hash
  • Se utiliza cuando se garantiza que los grupos de procesos de filas con la misma clave de partición en la misma partición deben asegurarse

13) Mencione cuál es la ventaja de utilizar DataReader Destination Adapter.

La ventaja de usar DataReader Destination Adapter es que llena un conjunto de registros ADO (consta de registros y columnas) en la memoria y expone los datos de la tarea DataFlow implementando la interfaz DataReader, para que otra aplicación pueda consumir los datos.

14) Usando SSIS (Servicio de integración de SQL Server), ¿cuáles son las posibles formas de actualizar la tabla?

Para actualizar la tabla usando SSIS, las formas posibles son:

  • Usa un comando SQL
  • Utilice una mesa de preparación
  • Usar caché
  • Usar la tarea de secuencia de comandos
  • Use el nombre completo de la base de datos para actualizar si se usa MSSQL

15) En caso de que tenga una fuente que no sea OLEDB (base de datos de vinculación e incrustación de objetos) para la búsqueda, ¿qué haría?

En caso de que tenga una fuente que no sea OLEBD para la búsqueda, entonces debe usar Cache para cargar datos y usarla como fuente

16) ¿En qué caso utiliza caché dinámico y caché estático en transformaciones conectadas y desconectadas?

  • La caché dinámica se usa cuando tiene que actualizar la tabla maestra y cambiar lentamente las dimensiones (SCD) tipo 1
  • Para archivos planos se utiliza caché estática

17) Explique cuáles son las diferencias entre búsqueda no conectada y conectada.

Búsqueda conectada

Búsqueda no conectada

  • La búsqueda conectada participa en el mapeo

- Se usa cuando se usa la función de búsqueda en lugar de una transformación de expresión durante el mapeo

  • Se pueden devolver varios valores

- Solo devuelve un puerto de salida

  • Se puede conectar a otras transformaciones y devuelve un valor.
  • Otra transformación no se puede conectar
  • La caché estática o dinámica se puede utilizar para la búsqueda conectada
  • Desconectado como solo caché estático
  • La búsqueda conectada admite valores predeterminados definidos por el usuario
  • La búsqueda no conectada no admite valores predeterminados definidos por el usuario
  • En Connected Lookup, se pueden devolver varias columnas desde la misma fila o insertarlas en la caché de búsqueda dinámica
  • La búsqueda no conectada designa un puerto de retorno y devuelve una columna de cada fila

18) Explique qué es la vista de fuente de datos.

Una vista de la fuente de datos permite definir el esquema relacional que se utilizará en las bases de datos de los servicios de análisis. En lugar de hacerlo directamente a partir de objetos de fuente de datos, las dimensiones y los cubos se crean a partir de vistas de fuente de datos.

19) Explique cuál es la diferencia entre las herramientas OLAP y las herramientas ETL.

La diferencia entre ETL y la herramienta OLAP es que

La herramienta ETL está diseñada para extraer datos de los sistemas heredados y cargarlos en una base de datos específica con algún proceso de limpieza de datos.

Ejemplo: etapa de datos, Informatica, etc.

Mientras que OLAP está diseñado para fines de informes en los datos OLAP disponibles en el modelo multidireccional.

Ejemplo: Business Objects, Cognos, etc.

20) ¿Cómo se pueden extraer datos de SAP con Informatica?

  • Con la opción de conexión eléctrica, extrae datos de SAP utilizando informatica
  • Instalar y configurar la herramienta PowerConnect
  • Importe la fuente al analizador de fuentes. Entre Informatica y SAP Powerconnect actúa como una puerta de enlace. El siguiente paso es generar el código ABAP para el mapeo, luego solo informatica puede extraer datos de SAP
  • Para conectar e importar fuentes de sistemas externos se utiliza Power Connect

21) Mencione cuál es la diferencia entre Power Mart y Power Center.

Centro de poder

Power Mart

  • Supongamos que procesa un gran volumen de datos
  • Suponga que procesa un volumen de datos bajo
  • Es compatible con fuentes ERP como SAP, people soft, etc.
  • No es compatible con fuentes ERP
  • Es compatible con el repositorio local y global.
  • Es compatible con el repositorio local.
  • Convierte repositorio local en global
  • No tiene ninguna especificación para convertir un repositorio local en global

22) Explique qué es el área de preparación y cuál es el propósito de un área de preparación.

La preparación de datos es un área en la que se guardan los datos temporalmente en el servidor de almacenamiento de datos. La puesta en escena de datos incluye los siguientes pasos

  • Extracción de datos de origen y transformación de datos (reestructuración)
  • Transformación de datos (limpieza de datos, transformación de valor)
  • Asignaciones de claves sustitutas

23) ¿Qué es el esquema de bus?

Para que los diversos procesos comerciales identifiquen las dimensiones comunes, se utiliza el esquema BUS. Viene con dimensiones conformadas junto con una definición estandarizada de información.

24) Explique qué es la depuración de datos.

La depuración de datos es un proceso de eliminación de datos del almacén de datos. Elimina filas similares a datos basura con valores nulos o espacios adicionales.

25) Explique qué son los objetos de esquema.

Los objetos de esquema son la estructura lógica que se refiere directamente a los datos de la base de datos. Los objetos de esquema incluyen tablas, vistas, sinónimos de secuencia, índices, clústeres, paquetes de funciones y enlaces de bases de datos

26) Explique estos términos ¿Sesión, Worklet, Mapplet y Workflow?

  • Mapplet: organiza o crea conjuntos de transformación
  • Worklet: Representa un conjunto específico de tareas asignadas
  • Flujo de trabajo: es un conjunto de instrucciones que le indican al servidor cómo ejecutar tareas.
  • Sesión: es un conjunto de parámetros que le dice al servidor cómo mover los datos de las fuentes al destino

Descarga gratuita del PDF: Preguntas y respuestas de la entrevista de prueba ETL