Las 50 preguntas y respuestas principales de las entrevistas sobre ciencia de datos

Anonim

A continuación, se incluyen preguntas frecuentes en entrevistas de trabajo para principiantes y científicos de datos con experiencia.

1. ¿Qué es la ciencia de datos?

La ciencia de datos es una combinación de algoritmos, herramientas y técnicas de aprendizaje automático que le ayuda a encontrar patrones ocultos comunes a partir de los datos sin procesar dados.

2. ¿Qué es la regresión logística en la ciencia de datos?

La regresión logística también se denomina modelo logit. Es un método para pronosticar el resultado binario a partir de una combinación lineal de variables predictoras.

3. Nombre tres tipos de sesgos que pueden ocurrir durante el muestreo.

En el proceso de muestreo, existen tres tipos de sesgos, que son:

  • Sesgo de selección
  • Sesgo de cobertura insuficiente
  • Sesgo de supervivencia

4. Analizar el algoritmo del árbol de decisiones

Un árbol de decisiones es un popular algoritmo de aprendizaje automático supervisado. Se utiliza principalmente para regresión y clasificación. Permite desglosar un conjunto de datos en subconjuntos más pequeños. El árbol de decisiones puede manejar datos tanto categóricos como numéricos.

5. ¿Qué es probabilidad previa y verosimilitud?

La probabilidad previa es la proporción de la variable dependiente en el conjunto de datos, mientras que la probabilidad es la probabilidad de clasificar a un observador dado en presencia de alguna otra variable.

6. ¿Explica los sistemas de recomendación?

Es una subclase de técnicas de filtrado de información. Le ayuda a predecir las preferencias o valoraciones que los usuarios probablemente le darán a un producto.

7. Nombra tres desventajas de usar un modelo lineal.

Tres desventajas del modelo lineal son:

  • El supuesto de linealidad de los errores.
  • No puede usar este modelo para resultados binarios o de conteo
  • Hay muchos problemas de sobreajuste que no puede resolver.

8. ¿Por qué necesita realizar un remuestreo?

El remuestreo se realiza en los siguientes casos:

  • Estimar la precisión de las estadísticas de la muestra extrayendo al azar con reemplazo de un conjunto de puntos de datos o usando como subconjuntos de datos accesibles
  • Sustitución de etiquetas en puntos de datos al realizar las pruebas necesarias
  • Validación de modelos mediante el uso de subconjuntos aleatorios

9. Enumere las bibliotecas en Python que se utilizan para el análisis de datos y los cálculos científicos.

  • Ciencia
  • Pandas
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. ¿Qué es el análisis de potencia?

El análisis de potencia es una parte integral del diseño experimental. Le ayuda a determinar el tamaño de la muestra que se requiere para descubrir el efecto de un tamaño dado a partir de una causa con un nivel específico de seguridad. También le permite implementar una probabilidad particular en una restricción de tamaño de muestra.

11. Explique el filtrado colaborativo

El filtrado colaborativo se utiliza para buscar patrones correctos mediante la colaboración de puntos de vista, múltiples fuentes de datos y varios agentes.

12. ¿Qué es el sesgo?

El sesgo es un error introducido en su modelo debido a la simplificación excesiva de un algoritmo de aprendizaje automático. "Puede llevar a un desajuste.

13. ¿Hablar de 'Naive' en un algoritmo Naive Bayes?

El modelo del algoritmo Naive Bayes se basa en el teorema de Bayes. Describe la probabilidad de un evento. Se basa en el conocimiento previo de las condiciones que podrían estar relacionadas con ese evento específico.

14. ¿Qué es una regresión lineal?

La regresión lineal es un método de programación estadística en el que la puntuación de una variable 'A' se predice a partir de la puntuación de una segunda variable 'B'. B se conoce como la variable predictora y A como la variable de criterio.

15. Indique la diferencia entre el valor esperado y el valor medio.

No hay muchas diferencias, pero ambos términos se utilizan en contextos diferentes. Generalmente se hace referencia al valor medio cuando se habla de una distribución de probabilidad, mientras que al valor esperado se hace referencia en el contexto de una variable aleatoria.

16. ¿Cuál es el objetivo de realizar pruebas A / B?

Las pruebas AB se utilizan para realizar experimentos aleatorios con dos variables, A y B. El objetivo de este método de prueba es descubrir cambios en una página web para maximizar o aumentar el resultado de una estrategia.

17. ¿Qué es Ensemble Learning?

El conjunto es un método para combinar un conjunto diverso de alumnos para improvisar sobre la estabilidad y el poder predictivo del modelo. Hay dos tipos de métodos de aprendizaje de Ensemble:

Harpillera

El método de empaquetado le ayuda a implementar aprendices similares en poblaciones de muestra pequeñas. Le ayuda a hacer predicciones más cercanas.

Impulsando

El impulso es un método iterativo que le permite ajustar el peso de una observación según la última clasificación. El impulso disminuye el error de sesgo y le ayuda a construir modelos predictivos sólidos.

18. Explique el valor propio y el vector propio

Los vectores propios sirven para comprender las transformaciones lineales. Los científicos de datos deben calcular los vectores propios para una matriz de covarianza o correlación. Los valores propios son las direcciones a lo largo del uso de actos de transformación lineal específicos comprimiendo, volteando o estirando.

19. Defina el término validación cruzada

La validación cruzada es una técnica de validación para evaluar cómo se generalizarán los resultados del análisis estadístico para un conjunto de datos independiente. Este método se utiliza en entornos en los que se pronostica el objetivo y es necesario estimar la precisión con la que se logrará un modelo.

20. Explique los pasos para un proyecto de análisis de datos.

Los siguientes son pasos importantes involucrados en un proyecto de análisis:

  • Comprender el problema empresarial
  • Explore los datos y estúdialos detenidamente.
  • Prepare los datos para el modelado encontrando valores perdidos y transformando variables.
  • Comience a ejecutar el modelo y analice el resultado de Big Data.
  • Valide el modelo con un nuevo conjunto de datos.
  • Implemente el modelo y realice un seguimiento del resultado para analizar el rendimiento del modelo durante un período específico.

21. Discutir las redes neuronales artificiales

Las redes neuronales artificiales (ANN) son un conjunto especial de algoritmos que han revolucionado el aprendizaje automático. Le ayuda a adaptarse según los cambios de entrada. Entonces, la red genera el mejor resultado posible sin rediseñar los criterios de salida.

22. ¿Qué es la propagación hacia atrás?

La retropropagación es la esencia del entrenamiento de redes neuronales. Es el método de ajustar los pesos de una red neuronal dependiendo de la tasa de error obtenida en la época anterior. El ajuste adecuado de la ayuda a reducir las tasas de error y hacer que el modelo sea confiable aumentando su generalización.

23. ¿Qué es un bosque aleatorio?

El bosque aleatorio es un método de aprendizaje automático que le ayuda a realizar todo tipo de tareas de regresión y clasificación. También se utiliza para tratar valores perdidos y valores atípicos.

24. ¿Cuál es la importancia de tener un sesgo de selección?

El sesgo de selección ocurre cuando no se logra una aleatorización específica al seleccionar individuos, grupos o datos para analizar. Sugiere que la muestra dada no representa exactamente la población que se pretendía analizar.

25. ¿Qué es el método de agrupamiento de K-medias?

La agrupación de K-medias es un método de aprendizaje no supervisado importante. Es la técnica de clasificar datos utilizando un determinado conjunto de clústeres que se denomina K clústeres. Se implementa para agrupar para descubrir la similitud en los datos.

26. Explique la diferencia entre ciencia de datos y análisis de datos.

Los científicos de datos necesitan dividir los datos para extraer información valiosa que un analista de datos puede aplicar a escenarios comerciales del mundo real. La principal diferencia entre los dos es que los científicos de datos tienen más conocimientos técnicos que los analistas de negocios. Además, no necesitan comprender el negocio necesario para la visualización de datos.

27. Explique el valor p.

Cuando realiza una prueba de hipótesis en estadística, un valor p le permite determinar la solidez de sus resultados. Es un número numérico entre 0 y 1. Basado en el valor, le ayudará a indicar la fuerza del resultado específico.

28. Defina el término aprendizaje profundo

El aprendizaje profundo es un subtipo de aprendizaje automático. Se trata de algoritmos inspirados en la estructura llamada redes neuronales artificiales (ANN).

29. Explique el método para recopilar y analizar datos para usar las redes sociales para predecir las condiciones climáticas.

Puede recopilar datos de redes sociales utilizando Facebook, Twitter, API de Instagram. Por ejemplo, para el tweeter, podemos construir una función a partir de cada tweet, como la fecha del tweet, los retweets, la lista de seguidores, etc. Luego, puede usar un modelo de series de tiempo multivariante para predecir las condiciones climáticas.

30. ¿Cuándo necesita actualizar el algoritmo en ciencia de datos?

Necesita actualizar un algoritmo en la siguiente situación:

  • Quiere que su modelo de datos evolucione como flujos de datos utilizando la infraestructura
  • La fuente de datos subyacente está cambiando

    Si es no estacionaria

31. ¿Qué es la distribución normal?

Una distribución normal es un conjunto de una variable continua que se extiende a lo largo de una curva normal o en forma de campana. Puede considerarlo como una distribución de probabilidad continua que es útil en estadística. Es útil analizar las variables y sus relaciones cuando utilizamos la curva de distribución normal.

32. ¿Qué idioma es mejor para el análisis de texto? R o Python?

Python será más adecuado para el análisis de texto, ya que consta de una rica biblioteca conocida como pandas. Le permite utilizar estructuras y herramientas de análisis de datos de alto nivel, mientras que R no ofrece esta función.

33. Explicar los beneficios de utilizar estadísticas por científicos de datos

Las estadísticas ayudan a los científicos de datos a tener una mejor idea de las expectativas del cliente. Utilizando el método estadístico, los científicos de datos pueden obtener conocimientos sobre el interés, el comportamiento, el compromiso, la retención del consumidor, etc. También le ayuda a construir modelos de datos poderosos para validar ciertas inferencias y predicciones.

34. Nombra varios tipos de marcos de aprendizaje profundo

  • Pytorch
  • Kit de herramientas cognitivas de Microsoft
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35.Explica el codificador automático

Los codificadores automáticos son redes de aprendizaje. Le ayuda a transformar entradas en salidas con menos errores. Esto significa que obtendrá la salida lo más cerca posible de la entrada.

36. Definir la máquina de Boltzmann

Las máquinas de Boltzmann son un algoritmo de aprendizaje simple. Le ayuda a descubrir aquellas características que representan regularidades complejas en los datos de entrenamiento. Este algoritmo le permite optimizar los pesos y la cantidad para el problema dado.

37. Explique por qué la limpieza de datos es esencial y qué método utiliza para mantener los datos limpios.

Los datos sucios a menudo conducen a un interior incorrecto, lo que puede dañar las perspectivas de cualquier organización. Por ejemplo, si desea ejecutar una campaña de marketing dirigida. Sin embargo, nuestros datos le dicen incorrectamente que un producto específico tendrá demanda entre su público objetivo; la campaña fracasará.

38. ¿Qué es distribución asimétrica y distribución uniforme?

La distribución sesgada ocurre cuando los datos se distribuyen en cualquier lado de la parcela, mientras que la distribución uniforme se identifica cuando los datos se distribuyen es igual en el rango.

39. ¿Cuándo se produce un desajuste en un modelo estático?

El desajuste se produce cuando un modelo estadístico o un algoritmo de aprendizaje automático no puede capturar la tendencia subyacente de los datos.

40. ¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es un mecanismo de aprendizaje sobre cómo asignar situaciones a acciones. El resultado final debería ayudarlo a aumentar la señal de recompensa binaria. En este método, no se le dice al alumno qué acción tomar, sino que debe descubrir qué acción ofrece una recompensa máxima. Como este método se basa en el mecanismo de recompensa / penalización.

41. Nombre los algoritmos de uso común.

Los cuatro algoritmos más utilizados por los científicos de datos son:

  • Regresión lineal
  • Regresión logística
  • Bosque aleatorio
  • KNN

42. ¿Qué es precisión?

La precisión es la métrica de error más utilizada en un mecanismo de clasificación. Su rango es de 0 a 1, donde 1 representa el 100%

43. ¿Qué es un análisis univariado?

Un análisis que se aplica a ningún atributo a la vez se conoce como análisis univariado. El diagrama de caja es un modelo univariado ampliamente utilizado.

44. ¿Cómo supera los desafíos a sus hallazgos?

Para superar los desafíos de mi búsqueda, es necesario fomentar la discusión, demostrar liderazgo y respetar las diferentes opciones.

45. Explicar la técnica de muestreo por conglomerados en ciencia de datos.

Se utiliza un método de muestreo por conglomerados cuando es difícil estudiar la población objetivo distribuida y no se puede aplicar un muestreo aleatorio simple.

46. ​​Indique la diferencia entre un conjunto de validación y un conjunto de prueba.

Un conjunto de validación considerado principalmente como parte del conjunto de entrenamiento, ya que se utiliza para la selección de parámetros, lo que le ayuda a evitar el sobreajuste del modelo que se está construyendo.

Mientras que un conjunto de pruebas se usa para probar o evaluar el rendimiento de un modelo de aprendizaje automático entrenado.

47. Explica el término Fórmula de probabilidad binomial.

"La distribución binomial contiene las probabilidades de cada éxito posible en N ensayos para eventos independientes que tienen una probabilidad de que ocurra π".

48. ¿Qué es un retiro?

Un retiro es una relación entre la tasa positiva verdadera y la tasa positiva real. Va de 0 a 1.

49. Discutir la distribución normal

Distribución normal igualmente distribuida como tal, la media, la mediana y la moda son iguales.

50. Mientras trabaja en un conjunto de datos, ¿cómo puede seleccionar variables importantes? Explique

Puede utilizar los siguientes métodos de selección de variables:

  • Elimine las variables correlacionadas antes de seleccionar variables importantes
  • Utilice regresión lineal y seleccione variables que dependan de esos valores de p.
  • Usar selección hacia atrás, hacia adelante y selección por pasos
  • Utilice Xgboost, Random Forest y grafique el gráfico de importancia de las variables.
  • Mida la ganancia de información para el conjunto de características dado y seleccione las n características principales en consecuencia.

51. ¿Es posible capturar la correlación entre variable continua y categórica?

Sí, podemos utilizar la técnica de análisis de covarianza para capturar la asociación entre variables continuas y categóricas.

52. ¿Tratar una variable categórica como una variable continua daría como resultado un mejor modelo predictivo?

Sí, el valor categórico debe considerarse como una variable continua solo cuando la variable es de naturaleza ordinal. Entonces es un mejor modelo predictivo.