Escribe al autor
You can use this page to email Ruben Sanchez Sancho about Ciencia de Datos con R.
Sobre este libro
La Ciencia de Datos es una disciplina apasionante que permite analizar datos para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas. El objetivo principal de "Ciencia de Datos con R" es ayudarte a aprender las herramientas mas importantes en R que te permitirán abordar un proyecto típico en Ciencia de Datos.
Después de seguir este libro, dispondrás de los útiles necesarios para afrontar una amplia variedad de tareas en el análisis de datos, usando las mejores partes de R.
Definitivamente, se trata del libro en español más completo y exhaustivo que encontrarás sobre análisis de datos con R. Perfectamente organizado y metódico, introduce todos los temas de forma sencilla, gradual y 100% práctica.
Hay que mencionar, además que usa el mismo material desarrollado como parte del curso en Ciencia de Datos con R de la plataforma Udemy
¿Que Aprenderás con Este Libro?
El objetivo de este libro es proporcionarte unos fundamentos sólidos en la gran mayoría de herramientas. Nuestro modelo de herramientas necesarias en un proyecto típico de Ciencia de Datos es el que se muestra en la siguiente figura:
https://i.imgur.com/DO2BKK7.png
¿Cómo Está Organizado Este Libro?
El libro está organizado de acuerdo con las herramientas necesarias en un proyecto típico de Ciencia de Datos, en el orden en que las usaremos en nuestros análisis de datos.
Programación en R
En la primera parte del libro, aprenderemos el lenguaje de programación R:
- La Sintaxis de R.
- Estructuras de Datos en R.
- Estructuras de Control en R.
- Funciones en R.
- Paquetes en R.
Importar Datos en R
En la segunda parte del libro trataremos las dos tareas de la fase de importar datos y que pasamos a analizar a continuación:
En primer lugar, veremos como importar nuestros datos a R. Con esto queremos decir, que nos encontraremos datos almacenados en archivos, bases de datos, o en una API web, y el objetivo de esta tarea será cargar los datos en un dataframe.
Una vez hemos importado nuestros datos, la siguiente tarea será tidy nuestros datos. El objetivo de esta tarea es almacenar nuestros datos en un formato consistente en el que coincida la semántica del conjunto de datos con el medio en que están almacenados. En resumen, nuestros datos estarán en formato tidy cuando, cada variable se encuentre en una columna y cada observación en su propia fila.
Exploración de Datos
En la tercera parte del libro trataremos las tareas de la fase de exploración de nuestros datos, conocido en inglés como data wrangling.
En primer lugar, una tarea común es transformar nuestros datos. Transformar nuestros datos incluye filtrar las observaciones de nuestro interés (como por ejemplo, todo la gente en una ciudad, o todos los datos del último año), creación de nuevas variables resultado del cálculo de funciones de variables existentes (como por ejemplo, calcular la velocidad con el espacio y el tiempo) y, calcular un conjunto de indicadores estadísticos en un resumen (como medias o desviaciones típicas).
Después, visualizaremos y modelaremos nuestros datos. En este curso únicamente trataremos la visualización.
La visualización es fundamental en la actividad humana. Un visualización bien hecha nos muestra cosas que no esperábamos, o nos conduce a formularnos nuevas cuestiones en nuestros datos. Además, puede indicarnos que no estamos formulando las cuestiones correctas, o que necesitamos recoger nuevos datos.
Comunicar los Resultados
El último paso en la ciencia de datos es la comunicación, una parte absolutamente crítica en un proyecto de análisis de datos. Indiscutiblemente, no importa lo bien que hayamos modelado o visualizado nuestros datos, si posteriormente no somos capaces de comunicar nuestros resultados con los demás.
Sobre el autor
@https://twitter.com/rsanchezs76
Ingeniero Técnico en Informática de Gestión
Master en Data Science