Las 62 principales preguntas de la entrevista para ingenieros de datos y amp; Respuestas

Aquí se encuentran preguntas frecuentes de entrevistas para ingenieros de datos para principiantes y candidatos experimentados para obtener el trabajo adecuado.

1) Explicar la ingeniería de datos.

La ingeniería de datos es un término utilizado en big data. Se centra en la aplicación de la recopilación de datos y la investigación. Los datos generados a partir de varias fuentes son solo datos sin procesar. La ingeniería de datos ayuda a convertir estos datos sin procesar en información útil.

2) ¿Qué es el modelado de datos?

El modelado de datos es el método de documentar el diseño de software complejo como un diagrama para que cualquiera pueda entenderlo fácilmente. Es una representación conceptual de objetos de datos que están asociados entre varios objetos de datos y las reglas.

3) Enumere varios tipos de esquemas de diseño en el modelado de datos

Existen principalmente dos tipos de esquemas en el modelado de datos: 1) esquema de estrella y 2) esquema de copo de nieve.

4) Distinguir entre datos estructurados y no estructurados

A continuación se muestra una diferencia entre datos estructurados y no estructurados:

Parámetro	Datos estructurados	Datos no estructurados
Almacenamiento	DBMS	Estructuras de archivos no administradas
Estándar	ADO.net, ODBC y SQL	STMP, XML, CSV y SMS
Herramienta de integración	ELT (extraer, transformar, cargar)	Entrada de datos manual o procesamiento por lotes que incluye códigos
escalada	El escalado del esquema es difícil	Escalar es muy fácil.

5) Explique todos los componentes de una aplicación Hadoop

Los siguientes son los componentes de la aplicación Hadoop:

Hadoop Common: es un conjunto común de utilidades y bibliotecas que utiliza Hadoop.
HDFS: esta aplicación de Hadoop se relaciona con el sistema de archivos en el que se almacenan los datos de Hadoop. Es un sistema de archivos distribuido que tiene un gran ancho de banda.
Hadoop MapReduce: Se basa en el algoritmo para la provisión de procesamiento de datos a gran escala.
Hadoop YARN: se utiliza para la gestión de recursos dentro del clúster de Hadoop. También se puede utilizar para la programación de tareas para los usuarios.

6) ¿Qué es NameNode?

Es la pieza central de HDFS. Almacena datos de HDFS y rastrea varios archivos en los clústeres. Aquí, los datos reales no se almacenan. Los datos se almacenan en DataNodes.

7) Definir la transmisión de Hadoop

Es una utilidad que permite la creación del mapa y reduce trabajos y los envía a un clúster específico.

8) ¿Cuál es la forma completa de HDFS?

HDFS son las siglas de Hadoop Distributed File System.

9) Definir bloque y escáner de bloques en HDFS

Los bloques son la unidad más pequeña de un archivo de datos. Hadoop divide automáticamente archivos grandes en partes pequeñas.

Block Scanner verifica la lista de bloques que se presentan en un DataNode.

10) ¿Cuáles son los pasos que ocurren cuando Block Scanner detecta un bloque de datos dañado?

Los siguientes son los pasos que ocurren cuando Block Scanner encuentra un bloque de datos dañado:

1) En primer lugar, cuando Block Scanner encuentra un bloque de datos dañado, DataNode informa a NameNode

2) NameNode inicia el proceso de creación de una nueva réplica utilizando una réplica del bloque dañado.

3) El recuento de réplicas de las réplicas correctas intenta coincidir con el factor de réplica. Si la coincidencia se encuentra, el bloque de datos dañado no se eliminará.

11) Nombra dos mensajes que NameNode recibe de DataNode.

Hay dos mensajes que NameNode obtiene de DataNode. Son 1) Informe de bloque y 2) Latido.

12) ¿Enumerar varios archivos de configuración XML en Hadoop?

Hay cinco archivos de configuración XML en Hadoop:

Sitio mapeado
Sitio central
Sitio HDFS
Sitio de hilo

13) ¿Cuáles son las cuatro V de big data?

Cuatro V de big data son:

Velocidad
Variedad
Volumen
Veracidad

14) Explica las características de Hadoop

Las características importantes de Hadoop son:

Es un marco de código abierto que está disponible de forma gratuita.
Hadoop es compatible con muchos tipos de hardware y es fácil acceder al nuevo hardware dentro de un nodo específico.
Hadoop admite un procesamiento de datos distribuido más rápido.
Almacena los datos en el clúster, que es independiente del resto de operaciones.
Hadoop permite crear 3 réplicas para cada bloque con diferentes nodos.

15) Explica los principales métodos de Reductor.

setup (): se utiliza para configurar parámetros como el tamaño de los datos de entrada y la caché distribuida.
cleanup (): este método se utiliza para limpiar archivos temporales.
reduce (): es un corazón del reductor que se llama una vez por tecla con la tarea reducida asociada

16) ¿Cuál es la abreviatura de COSHH?

La abreviatura de COSHH es Programa basado en clasificación y optimización para sistemas Hadoop heterogéneos.

17) Explica el esquema de estrella

El esquema en estrella o el esquema de unión en estrella es el tipo más simple de esquema de almacenamiento de datos. Se le conoce como esquema de estrella porque su estructura es como una estrella. En el esquema de estrella, el centro de la estrella puede tener una tabla de hechos y una tabla de dimensiones múltiples asociadas. Este esquema se utiliza para consultar grandes conjuntos de datos.

18) ¿Cómo implementar una solución de big data?

Siga los siguientes pasos para implementar una solución de big data.

1) Integre datos utilizando fuentes de datos como RDBMS, SAP, MySQL, Salesforce

2) Almacene los datos extraídos en la base de datos NoSQL o HDFS.

3) Implemente una solución de big data utilizando marcos de procesamiento como Pig, Spark y MapReduce.

19) Explica FSCK

Verificación del sistema de archivos o FSCK es un comando utilizado por HDFS. El comando FSCK se usa para verificar inconsistencias y problemas en el archivo.

20) Explica el esquema del copo de nieve

Un esquema de copo de nieve es una extensión de un esquema de estrella y agrega dimensiones adicionales. Se llama copo de nieve porque su diagrama se parece a un copo de nieve. Las tablas de dimensiones están normalizadas, lo que divide los datos en tablas adicionales.

21) Distinguir entre esquema de estrella y copo de nieve

Estrella	Esquema SnowFlake
Las jerarquías de dimensiones se almacenan en una tabla dimensional.	Cada jerarquía se almacena en tablas independientes.
Las posibilidades de redundancia de datos son altas	Las posibilidades de redundancia de datos son bajas.
Tiene un diseño de base de datos muy simple	Tiene un diseño de base de datos complejo
Proporcionar una forma más rápida de procesamiento de cubos	El procesamiento de cubos es lento debido a la compleja combinación.

22) Explicar el sistema de archivos distribuido de Hadoop

Hadoop funciona con sistemas de archivos distribuidos escalables como S3, HFTP FS, FS y HDFS. El sistema de archivos distribuido de Hadoop se crea en el sistema de archivos de Google. Este sistema de archivos está diseñado de manera que pueda ejecutarse fácilmente en un gran grupo del sistema informático.

23) Explica las principales responsabilidades de un ingeniero de datos.

Los ingenieros de datos tienen muchas responsabilidades. Gestionan el sistema de origen de datos. Los ingenieros de datos simplifican la estructura de datos compleja y evitan la duplicación de datos. Muchas veces también proporcionan ELT y transformación de datos.

24) ¿Cuál es la forma completa de YARN?

La forma completa de YARN es otro negociador de recursos.

25) Enumere varios modos en Hadoop

Los modos en Hadoop son 1) Modo autónomo 2) Modo pseudo distribuido 3) Modo completamente distribuido.

26) ¿Cómo lograr la seguridad en Hadoop?

Realice los siguientes pasos para lograr la seguridad en Hadoop:

1) El primer paso es asegurar el canal de autenticación del cliente al servidor. Proporcionar sello de tiempo al cliente.

2) En el segundo paso, el cliente utiliza el sello de tiempo recibido para solicitar a TGS un ticket de servicio.

3) En el último paso, el cliente usa el ticket de servicio para la auto-autenticación en un servidor específico.

27) ¿Qué es Heartbeat en Hadoop?

En Hadoop, NameNode y DataNode se comunican entre sí. Heartbeat es la señal enviada por DataNode a NameNode de forma regular para mostrar su presencia.

28) Distinga entre NAS y DAS en Hadoop

NAS	DAS
La capacidad de almacenamiento es de 10 ⁹ a 10 ¹² en bytes.	La capacidad de almacenamiento es 10 ⁹ en bytes.
El costo de administración por GB es moderado.	El costo de administración por GB es alto.
Transmita datos mediante Ethernet o TCP / IP.	Transmitir datos mediante IDE / SCSI

29) Enumere los campos o idiomas importantes utilizados por el ingeniero de datos

A continuación, se muestran algunos campos o idiomas utilizados por el ingeniero de datos:

Probabilidad y álgebra lineal
Aprendizaje automático
Análisis de tendencias y regresión
Bases de datos Hive QL y SQL

30) ¿Qué es Big Data?

Es una gran cantidad de datos estructurados y no estructurados, que no se pueden procesar fácilmente con los métodos tradicionales de almacenamiento de datos. Los ingenieros de datos están utilizando Hadoop para administrar big data.

31) ¿Qué es la programación FIFO?

Es un algoritmo de programación de trabajos de Hadoop. En esta programación FIFO, un reportero selecciona trabajos de una cola de trabajos, el trabajo más antiguo primero.

32) Mencione los números de puerto predeterminados en los que el rastreador de tareas, NameNode y el rastreador de trabajos se ejecutan en Hadoop

Los números de puerto predeterminados en los que el rastreador de tareas, NameNode y el rastreador de trabajos se ejecutan en Hadoop son los siguientes:

El rastreador de tareas se ejecuta en el puerto 50060
NameNode se ejecuta en el puerto 50070
Job Tracker se ejecuta en el puerto 50030

33) Cómo deshabilitar el escáner de bloques en el nodo de datos HDFS

Para deshabilitar Block Scanner en HDFS Data Node, establezca dfs.datanode.scan.period.hours en 0.

34) ¿Cómo definir la distancia entre dos nodos en Hadoop?

La distancia es igual a la suma de la distancia a los nodos más cercanos. El método getDistance () se utiliza para calcular la distancia entre dos nodos.

35) ¿Por qué utilizar hardware básico en Hadoop?

El hardware básico es fácil de obtener y asequible. Es un sistema compatible con Windows, MS-DOS o Linux.

36) Definir el factor de replicación en HDFS

El factor de replicación es el número total de réplicas de un archivo en el sistema.

37) ¿Qué datos se almacenan en NameNode?

Namenode almacena los metadatos para HDFS, como información de bloque e información de espacio de nombres.

38) ¿A qué te refieres con Rack Awareness?

En el clúster Haddop, Namenode usa Datanode para mejorar el tráfico de red mientras lee o escribe cualquier archivo que esté más cerca del rack cercano a la solicitud de lectura o escritura. Namenode mantiene la identificación del rack de cada DataNode para obtener la información del rack. Este concepto se denomina Rack Awareness en Hadoop.

39) ¿Cuáles son las funciones del NameNode secundario?

A continuación se muestran las funciones del nodo de nombre secundario:

FsImage que almacena una copia del archivo EditLog y FsImage.
Bloqueo de NameNode: si el NameNode falla, entonces se puede usar la FsImage del NameNode secundario para recrear el NameNode.
Punto de control: lo utiliza el NameNode secundario para confirmar que los datos no están dañados en HDFS.
Actualización: actualiza automáticamente el archivo EditLog y FsImage. Ayuda a mantener actualizado el archivo FsImage en el NameNode secundario.

40) ¿Qué sucede cuando NameNode está inactivo y el usuario envía un nuevo trabajo?

NameNode es el único punto de falla en Hadoop, por lo que el usuario no puede enviar un nuevo trabajo que no se puede ejecutar. Si NameNode está inactivo, el trabajo puede fallar, debido a que este usuario debe esperar a que NameNode se reinicie antes de ejecutar cualquier trabajo.

41) ¿Cuáles son las fases básicas del reductor en Hadoop?

Hay tres fases básicas de un reductor en Hadoop:

1. Shuffle: Aquí, Reducer copia la salida de Mapper.

2. Ordenar: En orden, Hadoop ordena la entrada a Reducer usando la misma tecla.

3. Reducir: en esta fase, los valores de salida asociados con una clave se reducen para consolidar los datos en la salida final.

42) ¿Por qué Hadoop usa el objeto Context?

El marco de Hadoop usa el objeto Context con la clase Mapper para interactuar con el sistema restante. El objeto de contexto obtiene los detalles de configuración del sistema y el trabajo en su constructor.

Usamos el objeto Context para pasar la información en los métodos setup (), cleanup () y map (). Este objeto pone a disposición información vital durante las operaciones del mapa.

43) Definir Combinador en Hadoop

Es un paso opcional entre Mapa y Reducir. Combiner toma el resultado de la función Map, crea pares de valores clave y los envía a Hadoop Reducer. La tarea de Combiner es resumir el resultado final de Map en registros de resumen con una clave idéntica.

44) ¿Cuál es el factor de replicación predeterminado disponible en HDFS? ¿Qué indica?

El factor de replicación predeterminado disponible en HDFS es tres. El factor de replicación predeterminado indica que habrá tres réplicas de cada dato.

45) ¿A qué te refieres con Data Locality en Hadoop?

En un sistema de Big Data, el tamaño de los datos es enorme y es por eso que no tiene sentido mover datos a través de la red. Ahora, Hadoop intenta acercar la computación a los datos. De esta manera, los datos permanecen locales en la ubicación almacenada.

46) Definir equilibrador en HDFS

En HDFS, el equilibrador es un elemento administrativo que utiliza el personal de administración para reequilibrar los datos entre los nodos de datos y mueve los bloques de nodos sobreutilizados a subutilizados.

47) Explica el modo seguro en HDFS

Es un modo de solo lectura de NameNode en un clúster. Inicialmente, NameNode está en modo seguro. Evita escribir en el sistema de archivos en modo seguro. En este momento, recopila datos y estadísticas de todos los DataNodes.

48) ¿Cuál es la importancia de la caché distribuida en Apache Hadoop?

Hadoop tiene una función de utilidad útil denominada caché distribuida que mejora el rendimiento de los trabajos al almacenar en caché los archivos utilizados por las aplicaciones. Una aplicación puede especificar un archivo para la caché usando la configuración de JobConf.

El framework Hadoop hace una réplica de estos archivos a los nodos en los que se debe ejecutar una tarea. Esto se hace antes de que comience la ejecución de la tarea. Caché distribuida admite la distribución de archivos de solo lectura, así como archivos zip y jars.

49) ¿Qué es Metastore en Hive?

Almacena el esquema y la ubicación de la tabla de Hive.

La tabla de Hive define, asignaciones y metadatos que se almacenan en Metastore. Esto se puede almacenar en RDBMS compatible con JPOX.

50) ¿Qué significa SerDe en Hive?

SerDe es un nombre corto para serializador o deserializador. En Hive, SerDe permite leer datos de una tabla y escribir en un campo específico en cualquier formato que desee.

51) Lista de componentes disponibles en el modelo de datos de Hive

Existen los siguientes componentes en el modelo de datos de Hive:

Mesas
Particiones
Cubos

52) Explica el uso de Hive en el ecosistema de Hadoop.

Hive proporciona una interfaz para administrar los datos almacenados en el ecosistema de Hadoop. Hive se utiliza para mapear y trabajar con tablas HBase. Las consultas de Hive se convierten en trabajos de MapReduce para ocultar la complejidad asociada con la creación y ejecución de trabajos de MapReduce.

53) Listar varios tipos / colecciones de datos complejos que son compatibles con Hive

Hive admite los siguientes tipos de datos complejos:

Mapa
Estructura
Formación
Unión

54) Explique cómo se usa el archivo .hiverc en Hive.

En Hive, .hiverc es el archivo de inicialización. Este archivo se carga inicialmente cuando iniciamos la interfaz de línea de comandos (CLI) para Hive. Podemos establecer los valores iniciales de los parámetros en el archivo .hiverc.

55) ¿Es posible crear más de una tabla en Hive para un solo archivo de datos?

Sí, podemos crear más de un esquema de tabla para un archivo de datos. Hive guarda el esquema en Hive Metastore. Según este esquema, podemos recuperar resultados diferentes de los mismos datos.

56) Explica las diferentes implementaciones de SerDe disponibles en Hive

Hay muchas implementaciones de SerDe disponibles en Hive. También puede escribir su propia implementación SerDe personalizada. A continuación se muestran algunas implementaciones famosas de SerDe:

OpenCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) Lista de funciones de generación de tablas disponibles en Hive

A continuación se muestra una lista de funciones generadoras de tablas:

Explotar (matriz)
JSON_tuple ()
Apilar()
Explotar (mapa)

58) ¿Qué es una tabla sesgada en Hive?

Una tabla sesgada es una tabla que contiene valores de columna con mayor frecuencia. En Hive, cuando especificamos una tabla como SKEWED durante la creación, los valores sesgados se escriben en archivos separados y los valores restantes van a otro archivo.

59) Enumere los objetos creados por la declaración de creación en MySQL.

Los objetos creados por la declaración de creación en MySQL son los siguientes:

Base de datos
Índice
Mesa
Usuario
Procedimiento
Desencadenar
Evento
Vista
Función

60) ¿Cómo ver la estructura de la base de datos en MySQL?

Para ver la estructura de la base de datos en MySQL, puede usar

Comando DESCRIBE. La sintaxis de este comando es DESCRIBE Table name ;.

61) ¿Cómo buscar una cadena específica en la columna de la tabla MySQL?

Utilice el operador regex para buscar una cadena en la columna MySQL. Aquí, también podemos definir varios tipos de expresión regular y buscar el uso de expresiones regulares.

62) Explique cómo el análisis de datos y los macrodatos pueden aumentar los ingresos de la empresa.

A continuación, se muestran las formas en que el análisis de datos y los macrodatos pueden aumentar los ingresos de la empresa:

Utilice los datos de manera eficiente para asegurarse de que el negocio crezca.
Incrementar el valor del cliente.
Volviendo analítico para mejorar las previsiones de niveles de personal.
Reducir el costo de producción de las organizaciones.