Las 30 preguntas principales de la entrevista de Hbase y amp; Respuestas

Anonim

Descargar PDF

Las siguientes son preguntas frecuentes en entrevistas para principiantes y desarrolladores de HBase con mucha experiencia.

1) Explique qué es Hbase.

Hbase es un sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre HDFS (Hadoop Distribute File System). Hbase no es un almacén de datos relacional y no admite un lenguaje de consulta estructurado como SQL.

En Hbase, un nodo maestro regula el clúster y los servidores de la región para almacenar partes de las tablas y opera el trabajo sobre los datos.

2) Explique por qué utilizar Hbase.

  • Sistema de almacenamiento de alta capacidad
  • Diseño distribuido para atender mesas grandes.
  • Tiendas orientadas a columnas
  • Horizontalmente escalable
  • Alto rendimiento y disponibilidad
  • El objetivo básico de Hbase son millones de columnas, miles de versiones y miles de millones de filas.
  • A diferencia de HDFS (Hadoop Distribute File System), admite operaciones CRUD aleatorias en tiempo real

3) Mencione cuáles son los componentes clave de Hbase.

  • Zookeeper: hace el trabajo de coordinación entre el cliente y Hbase Maser
  • Hbase Master: Hbase Master supervisa el servidor de región
  • RegionServer: RegionServer supervisa la región
  • Región: Contiene en el almacén de datos de memoria (MemStore) y Hfile.
  • Tablas de catálogo: las tablas de catálogo constan de ROOT y META

4) Explica en qué consiste Hbase.

  • Hbase consta de un conjunto de tablas
  • Y cada tabla contiene filas y columnas como una base de datos tradicional
  • Cada tabla debe contener un elemento definido como clave principal
  • La columna Hbase denota un atributo de un objeto

5) Mencione cuántos comandos operativos hay en Hbase.

El comando operativo en Hbases es de cinco tipos

  • Obtener
  • Poner
  • Borrar
  • Escanear
  • Incremento

6) Explique qué es WAL y Hlog en Hbase.

WAL (Write Ahead Log) es similar al registro BIN de MySQL; registra todos los cambios que ocurren en los datos. Es un archivo de secuencia estándar de Hadoop y almacena HLogkey's. Estas claves constan de un número secuencial y de datos reales y se utilizan para reproducir datos que aún no se conservan después de un fallo del servidor. Entonces, en efectivo de la falla del servidor, WAL funciona como una línea de vida y recupera los datos perdidos.

7) ¿Cuándo debería utilizar Hbase?

  • El tamaño de los datos es enorme: cuando tiene toneladas y millones de registros para operar
  • Rediseño completo: cuando está moviendo RDBMS a Hbase, lo considera como un rediseño completo y luego simplemente cambiando los puertos
  • Comandos sin SQL: tiene varias características como transacciones; combinaciones internas, columnas escritas, etc.
  • Inversión en infraestructura: necesita tener suficiente clúster para que Hbase sea realmente útil

8) En Hbase, ¿qué son las familias de columnas?

Las familias de columnas comprenden la unidad básica de almacenamiento físico en Hbase a la que se aplican características como compresiones.

9) Explique qué es la clave de fila.

La clave de fila la define la aplicación. Como la clave combinada está prefijada por la clave de fila, permite que la aplicación defina el orden de clasificación deseado. También permite la agrupación lógica de celdas y se asegura de que todas las celdas con la misma clave de fila estén ubicadas en el mismo servidor.

10) ¿Explica la eliminación en Hbase? Mencione cuáles son los tres tipos de marcadores de lápidas en Hbase.

Cuando elimina la celda en Hbase, los datos no se eliminan realmente, pero se establece un marcador de lápida, lo que hace que las celdas eliminadas sean invisibles. Las Hbase eliminadas en realidad se eliminan durante las compactaciones.

Hay tres tipos de marcadores de lápidas:

  • Marcador de eliminación de versión: para la eliminación, marca una única versión de una columna
  • Marcador de eliminación de columna: para eliminar, marca todas las versiones de una columna
  • Marcador de eliminación de familia: para la eliminación, marca todas las columnas de una familia de columnas

11) Explique cómo Hbase realmente elimina una fila.

En Hbase, todo lo que escriba se almacenará de la RAM al disco, estas escrituras de disco son inmutables salvo la compactación. Durante el proceso de eliminación en Hbase, el proceso de compactación principal elimina el marcador, mientras que las compactaciones menores no lo hacen. En las eliminaciones normales, el resultado es un marcador de eliminación de desecho; estos datos de eliminación que representan se eliminan durante la compactación.

Además, si elimina datos y agrega más datos, pero con una marca de tiempo anterior a la marca de tiempo de desecho, es posible que se enmascaren más Gets con el marcador de eliminación / desecho y, por lo tanto, no recibirá el valor insertado hasta después de la compactación principal.

12) Explique qué sucede si modifica el tamaño de bloque de una familia de columnas en una base de datos ya ocupada.

Cuando modifica el tamaño de bloque de la familia de columnas, los datos nuevos ocupan el tamaño de bloque nuevo mientras que los datos antiguos permanecen dentro del tamaño de bloque antiguo. Durante la compactación de datos, los datos antiguos tomarán el nuevo tamaño de bloque. Los archivos nuevos a medida que se vacían, tienen un nuevo tamaño de bloque, mientras que los datos existentes se seguirán leyendo correctamente. Todos los datos deben transformarse al nuevo tamaño de bloque, después de la siguiente compactación importante.

13) ¿Mencione la diferencia entre Hbase y Relational Database?

Hbase Base de datos relacional
  • Es sin esquema
  • Es un almacén de datos orientado a columnas.
  • Se utiliza para almacenar datos desnormalizados.
  • Contiene tablas escasamente pobladas
  • El particionamiento automatizado se realiza en Hbase
  • Es una base de datos basada en esquemas
  • Es un almacén de datos orientado a filas.
  • Se utiliza para almacenar datos normalizados.
  • Contiene tablas delgadas
  • No existe tal disposición o soporte integrado para la partición.

14) ¿Qué es la clase HBaseFsck?

Hay un nombre de herramienta llamado back está disponible en HBase, que es implementado por la clase HBaseFsck. Ofrece varios modificadores de línea de comandos que influyen en su comportamiento.

15) ¿Cuáles son las principales estructuras clave de HBase?

La clave de fila y la clave de columna son las dos estructuras clave más importantes que se utilizan en HBase

16) Discuta cómo puede usar filtros en Apache HBase

Filtros en HBase Shell. Se introdujo en Apache HBase 0.92, que le ayuda a realizar el filtrado del lado del servidor para acceder a HBase a través del shell de HBase o de ahorro.

17) Estructura de sintaxis de soporte de HBase como SQL, ¿sí o no?

No, desafortunadamente, la compatibilidad con SQL para HBase no está disponible actualmente. Sin embargo, al utilizar Apache Phoenix, podemos recuperar datos de HBase mediante consultas SQL.

18) ¿Cuál es el significado de compactación en HBase?

En el momento de las escrituras entrantes intensas, es imposible lograr un rendimiento óptimo teniendo un archivo por almacén. HBase le ayuda a combinar todos estos archivos H para reducir la cantidad de semillas de disco para cada lectura. Este proceso se conoce como Compactación en HBase.

19) ¿Cómo implementará las combinaciones en HBase?

HBase, no admite uniones directamente, pero utiliza trabajos de MapReduce. Las consultas de unión se pueden implementar recuperando datos con la ayuda de diferentes tablas de HBase.

20) Explique JMX sobre HBSE

Java Management Extensions o JMX es un estado de exportación de las aplicaciones Java que es el estándar para ellos.

21) ¿Cuál es el uso de MasterServer?

El servidor maestro también le ayuda a asignar una región al servidor de la región. También le ayuda a manejar el equilibrio de carga que usamos MasterServer.

22) Definir el término ahorro

Apache Thrift está escrito en C ++. Proporciona compiladores de esquemas para varios lenguajes de programación como C ++, Perl, PHP, Python, Ruby y más.

23) ¿Por qué utilizar la clase HColumnDescriptor?

Los detalles relacionados con la familia de columnas, como la configuración de compresión, el número de versiones, se almacenan en HColumnDescriptor.

24) ¿Qué es una célula en HBase?

Una celda en HBase es la unidad más pequeña de una tabla Hbase. Le ayuda a almacenar datos en forma de tupla {fila, columna, versión}

25) ¿Qué es un filtro Bloom?

HBase es compatible con Bloom Filter y le ayuda a mejorar el rendimiento general del clúster. Un filtro de floración HBase es un mecanismo de uso eficiente del espacio para probar si un archivo H incluye cierta celda de fila o columna de fila.

26) ¿Cuénteme sobre los tipos de operaciones HBase?

Resp. Dos tipos de operaciones HBase son:

  • Leer operación
  • Operación de escritura

27) ¿Cuál es el uso de HBase HMaster?

Las principales responsabilidades de un maestro son:

  1. Coordinando los servidores de la región
  2. Funciones de administrador

28) ¿Qué técnica puede utilizar en HBase para acceder a HFile directamente sin la ayuda de HBase?

Para acceder a HFile directamente sin usar HBase, usamos el método HFile.main ().

29) ¿El servidor de la región se ubicará en todos los DataNodes?

Sí, los servidores de región se ejecutan en los mismos servidores que un DataNodes

30) Nombre el filtro que acepta el tamaño de la página como parámetro en HBase

Un filtro llamado PageFilter acepta el tamaño de la página como parámetro.

Este documento ha sido elaborado con las herramientas de conversión de HTML instantáneo.