¿Qué es el lenguaje de programación R? Introducción & Conceptos básicos de R

Tabla de contenido:

Anonim

¿Qué es R Software?

R es un lenguaje de programación y software libre desarrollado por Ross Ihaka y Robert Gentleman en 1993. R posee un extenso catálogo de métodos estadísticos y gráficos. Incluye algoritmos de aprendizaje automático, regresión lineal, series de tiempo, inferencia estadística, por nombrar algunos. La mayoría de las bibliotecas R están escritas en R, pero para tareas computacionales pesadas, se prefieren los códigos C, C ++ y Fortran.

R no solo está confiado por académicos, sino que muchas grandes empresas también utilizan el lenguaje de programación R, incluidos Uber, Google, Airbnb, Facebook, etc.

El análisis de datos con R se realiza en una serie de pasos; programar, transformar, descubrir, modelar y comunicar los resultados

  • Programa : R es una herramienta de programación clara y accesible
  • Transform : R se compone de una colección de bibliotecas diseñadas específicamente para la ciencia de datos.
  • Descubrir : investigar los datos, perfeccionar su hipótesis y analizarlos
  • Modelo : R proporciona una amplia gama de herramientas para capturar el modelo correcto para sus datos.
  • Comuníquese : integre códigos, gráficos y resultados en un informe con R Markdown o cree aplicaciones Shiny para compartir con el mundo

En este tutorial de introducción aprenderá R

  • ¿Para qué se usa R?
  • R por industria
  • Paquete R
  • Comunicarse con R
  • ¿Por qué usar R?
  • ¿Deberías elegir R?
  • ¿Es R difícil?

¿Para qué se usa R?

  • Inferencia estadística
  • Análisis de los datos
  • Algoritmo de aprendizaje automático

R por industria

Si analizamos el uso de R por industria, vemos que los académicos son lo primero. R es un lenguaje para hacer estadística. R es la primera opción en la industria de la salud, seguida del gobierno y la consultoría.

Paquete R

Los usos principales de R son y siempre serán la estadística, la visualización y el aprendizaje automático. La siguiente imagen muestra qué paquete R recibió más preguntas en Stack Overflow. En el top 10, la mayoría de ellos están relacionados con el flujo de trabajo de un científico de datos: preparación de datos y comunicación de resultados.

Todas las bibliotecas de R, casi 12k, se almacenan en CRAN. CRAN es un código abierto y gratuito. Puede descargar y utilizar las numerosas bibliotecas para realizar el aprendizaje automático o el análisis de series de tiempo.

Comunicarse con R

R tiene varias formas de presentar y compartir trabajos, ya sea a través de un documento de rebajas o una aplicación brillante. Todo se puede alojar en Rpub, GitHub o en el sitio web de la empresa.

A continuación se muestra un ejemplo de una presentación alojada en Rpub

Rstudio acepta rebajas para escribir un documento. Puede exportar los documentos en diferentes formatos:

  • Documento:
    • HTML
    • PDF / Látex
    • Palabra
  • Presentación
    • HTML
    • Proyector de PDF

Rstudio tiene una gran herramienta para crear una aplicación fácilmente. A continuación se muestra un ejemplo de aplicación con los datos del Banco Mundial.

¿Por qué usar R?

La ciencia de datos está dando forma a la forma en que las empresas gestionan sus negocios. Sin duda, mantenerse alejado de la Inteligencia Artificial y la Máquina llevará a la empresa al fracaso. La gran pregunta es ¿qué herramienta / lenguaje debería utilizar?

Son multitud de herramientas disponibles en el mercado para realizar análisis de datos. Aprender un nuevo idioma requiere una inversión de tiempo. La siguiente imagen muestra la curva de aprendizaje en comparación con la capacidad empresarial que ofrece un idioma. La relación negativa implica que no hay almuerzo gratis. Si desea brindar la mejor perspectiva a partir de los datos, debe dedicar un tiempo a aprender la herramienta adecuada, que es R.

En la parte superior izquierda del gráfico, puede ver Excel y PowerBI. Estas dos herramientas son fáciles de aprender, pero no ofrecen una capacidad comercial sobresaliente, especialmente en términos de modelado. En el medio, puede ver Python y SAS. SAS es una herramienta dedicada para ejecutar un análisis estadístico para empresas, pero no es gratuita. SAS es un software de hacer clic y ejecutar. Python, sin embargo, es un lenguaje con una curva de aprendizaje monótona. Python es una herramienta fantástica para implementar el aprendizaje automático y la inteligencia artificial, pero carece de funciones de comunicación. Con una curva de aprendizaje idéntica, R es un buen equilibrio entre la implementación y el análisis de datos.

En lo que respecta a la visualización de datos (DataViz), probablemente haya oído hablar de Tableau. Tableau es, sin duda, una gran herramienta para descubrir patrones a través de gráficos y tablas. Además, aprender a usar Tableau no requiere mucho tiempo. Un gran problema con la visualización de datos es que podría terminar nunca encontrando un patrón o simplemente crear muchos gráficos inútiles. Tableau es una buena herramienta para la visualización rápida de datos o Business Intelligence. Cuando se trata de estadísticas y herramienta de toma de decisiones, R es más apropiado.

Stack Overflow es una gran comunidad de lenguajes de programación. Si tiene un problema de codificación o necesita comprender un modelo, Stack Overflow está aquí para ayudarlo. A lo largo del año, el porcentaje de visitas a preguntas ha aumentado considerablemente para R en comparación con los otros idiomas. Por supuesto, esta tendencia está altamente correlacionada con la era en auge de la ciencia de datos, pero refleja la demanda del lenguaje R para la ciencia de datos.

En ciencia de datos, hay dos herramientas que compiten entre sí. R y Python son probablemente el lenguaje de programación que define la ciencia de datos.

¿Deberías elegir R?

El científico de datos puede usar dos herramientas excelentes: R y Python. Es posible que no tenga tiempo para aprender ambos, especialmente si comienza a aprender ciencia de datos. Aprendizaje de algoritmos y modelado estadísticoes mucho más importante que aprender un lenguaje de programación. Un lenguaje de programación es una herramienta para calcular y comunicar su descubrimiento. La tarea más importante en la ciencia de datos es la forma en que maneja los datos: importación, limpieza, preparación, ingeniería de características, selección de características. Este debería ser tu enfoque principal. Si está tratando de aprender R y Python al mismo tiempo sin una base sólida en estadísticas, es completamente estúpido. Los científicos de datos no son programadores. Su trabajo es comprender los datos, manipularlos y exponer el mejor enfoque. Si estás pensando en qué idioma aprender, veamos qué idioma es el más apropiado para ti.

El público principal de la ciencia de datos es el profesional empresarial. En el negocio, una gran implicación es la comunicación. Hay muchas formas de comunicarse: informe, aplicación web, panel de control. Necesita una herramienta que haga todo esto en conjunto.

¿Es R difícil?

Hace años, R era un idioma difícil de dominar. El lenguaje era confuso y no estaba tan estructurado como las otras herramientas de programación. Para superar este importante problema, Hadley Wickham desarrolló una colección de paquetes denominada tidyverse. La regla del juego cambió para mejor. La manipulación de datos se vuelve trivial e intuitiva. Crear un gráfico ya no era tan difícil.

Los mejores algoritmos para el aprendizaje automático se pueden implementar con R. Paquetes como Keras y TensorFlow permiten crear una técnica de aprendizaje automático de alta gama. R también tiene un paquete para realizar Xgboost, uno de los mejores algoritmos para la competencia de Kaggle.

R puede comunicarse con el otro idioma. Es posible llamar a Python, Java, C ++ en R. El mundo del big data también es accesible para R. Puedes conectar R con diferentes bases de datos como Spark o Hadoop.

Finalmente, R ha evolucionado y ha permitido que la operación de paralelización acelere el cálculo. De hecho, R fue criticado por usar solo una CPU a la vez. El paquete paralelo le permite realizar tareas en diferentes núcleos de la máquina.

Resumen

En pocas palabras, R es una gran herramienta para explorar e investigar los datos. Con R se realizan análisis elaborados como agrupación en clústeres, correlación y reducción de datos. Esta es la parte más crucial, sin una buena ingeniería de funciones y modelo, la implementación del aprendizaje automático no dará resultados significativos.