Intro
En este tutorial vamos a cubrir lo siguiente:
Qué es R y qué es RStudio
Cómo programar en R
Qué son los packages
1 ¿Qué es R y qué es RStudio?
R es un lenguaje de programación (como muchos que probablemente ya conozcas: C++, Python, Java, etc). Apareció en 1993 por primera vez y fue desarrollado específicamente para ser usado en aplicaciones de estadística y análisis de datos.
RStudio es un integrated development environment (IDE). Es un programa que nos ayuda a interactuar con R. Si R fuera el motor de un carro, RStudio sería el tablero.
1.1 ¿Cómo instalo R y RStudio?
Para instalar ambos, sólo necesitas seguir los siguientes pasos (es importante que lo hagas en el orden que se indica):
Instalar R:
Ve a https://cloud.r-project.org/ y selecciona la versión que corresponda con el sistema operativo que estés usando (Windows, Linux o MacOS)
Instalar RStudio:
Ve a https://www.rstudio.com/products/rstudio/download/ y baja la versión que prefieras (la versión gratuita es suficiente para lo que vamos a cubrir en este blog).
Una vez instalado RStudio, aparecerá un ícono como este en tu escritorio o barra de tareas, según le indiques al instalador:
2 ¿Cómo programo en R?
R es un lenguaje interpretado. Esto quiere decir que, en vez de seleccionar cosas con el mouse y picar botones como en Excel, le vamos a decir a R qué es lo que queremos que haga escribiendo las instrucciones en RStudio. Aunque no necesitan ser expertos programando para poder utilizar R, vamos a cubrir algunas cosas básicas de programación conforme avancemos con los tutoriales para que quede claro cómo estamos usando R para llevar a cabo el análisis que cubramos en cada sesión.
Es importante notar que este no será un blog teórico sobre ciencias computacionales o programación, sólo vamos a cubrir lo estrictamente necesario para poder entender lo que estemos haciendo en cada tutorial.
2.1 Conceptos básicos de programación
No es necesario memorizarse lo siguiente. Conforme avancemos con los tutoriales va a ser obvio cómo funciona cada cosa, así que no se preocupen. Para ayudar en los ejemplos, siempre que esté hablando de código que puedan correr en R usaré este_tipo_de_letra
. La mejor manera en la que se aprenden los temas siguientes, en mi opinión, es la práctica. Mientras más programen, más van a entender como funciona R.
Suficiente preámbulo, empecemos entonces por lo básico:
Conceptos básicos:
Consola: donde escribimos los comandos que queremos que R ejecute.
Programa/script: el archivo que contiene el conjunto de instrucciones que vamos a ejecutar con R.
Correr: cuando R ejecute nuestros comandos, decimos que estamos corriendo nuestro programa o script.
Objetos: donde R almacena los valores que genera el programa.
Data types: integers (números enteros como
-1
,0
, o1
), doubles/numerics (números decimales como3.14
o2.72
), logicals (objetos booleanos, sólo pueden serTRUE
(cierto) oFALSE
(falso)) y characters/strings (texto como“a”
,“b”
,“hola”
,“buenos días”
o“Voy a ir al OXXO, ¿quieres algo?”
).
Vectores: una serie de valores. Se crean utilizando la función
c()
, que quiere decir “combinar” o “concatenar”. Por ejemplo,c(1, 2, 5, 10)
crearía un vector con esos 4 números enteros.Factores: los datos categóricos generalmente son representados como factores en R. También podemos usar strings para representar datos categóricos.
Data frames: tablas bidimensionales de información, donde cada nueva línea es una nueva observación y cada columna es una variable. Esto es similar a lo que ya estás acostumbrado a usar en Excel.
Condicionales:
Igualdad:
==
se usa para comprobar si dos expresiones son similares (e.g. si a R le pregunto1 + 2 == 3
, me responderáTRUE
).Álgebra booleana: los operadores booleanos en R son
<
(menor que),>
(mayor que),<=
(menor o igual que),>=
(mayor o igual que) y!=
(diferente de) (e.g.1 + 4 < 3
resulta enFALSE
puesto que 5 es mayor que 3).Operadores lógicos:
&
se usa para representar “y”,|
se usa para representar “o” (e.g.(1 + 2 == 3) & (2 * 3 < 5)
resulta enFALSE
puesto que la segunda expresión es falsa, pero(1 + 2 == 3) | (2 * 3 < 5)
resulta enTRUE
puesto que por lo menos una de las dos condiciones es cierta).
Funciones: las funciones son un conjunto de instrucciones que realizan una tarea específica en R. Por ejemplo,
seq()
crea un vector de elementos consecutivos según los parametros que nosotros le indiquemos (e.g.seq(from = 1, to = 5)
resulta en un vector que contiene los elementos(1, 2, 3, 4, 5)
.
La lista anterior no es una lista exhaustiva de todo lo que verán en su viaje aprendiendo R, pero es suficiente para empezar.
2.2 Tips para aprender a programar
Aprender a programar es como aprender un nuevo idioma. Al principio es muy confuso, pero con la práctica se va haciendo cada vez más y más fácil.
Les comparto algunos tips que me han ayudado a aprender a programar:
Las computadoras no son inteligentes: recuerda siempre que las computadoras sólo pueden hacer lo que tú les digas que hagan. Las computadoras no pueden suponer. Si tu instrucción es ambigua, el programa fallará.
Alguien seguramente ya hizo lo que estás queriendo hacer: parte de aprender a programar es aprender a buscar información por ti mismo. Si estás atorado con un problema o algún mensaje de error que no entiendes, búscalo en Google. Nunca he tenido alguna duda o visto algún error para el que no haya encontrado la solución en Google. Copiar código de alguien más de stackoverflow y modificarlo es parte del día a día de todo programador.
La mejor manera de aprender es haciendo: evita caer en la trampa de los cursos en línea. Hacer muchos cursos de programación sólo te convierte en… mejor alumno de cursos de programación. Para ser un mejor programador hay que crear cosas. Empieza por algún proyecto que quieras hacer y empieza a googlear para que puedas hacerlo. Te garantizo que aprenderás mucho más de esta manera que haciendo 40 MOOCs.
Practicar es clave: la única manera de mejorar en cualquier cosa es practicando y lo mismo aplica para programar.
3 ¿Qué son los packages?
Los packages a R son como las apps a tu smartphone. Los paquetes en R son colecciones de funciones y datos que nos permiten hacer más de lo que se puede con R básico. Existen paquetes que simplifican el modelado de datos, la visualización de datos, recolección de datos de internet, etc. Similar a las aplicaciones que tienes en tu teléfono, la mayoría de los paquetes que usaremos en los tutoriales siguientes no vienen instaladas en R por default. Antes de cubrir como instalar y usar estos paquetes, veamos rápidamente como funciona RStudio.
3.1 La interfaz de RStudio
Al abrir RStudio por primera vez, verás algo como lo siguiente:
La interfaz se separa en 3 grandes bloques:
Consola: aquí vamos a escribir los comandos que queremos que R corra.
Ambiente: aquí estarán los objetos que genere nuestro programa.
Archivos: aquí podemos explorar nuestros directorios y manipular archivos según sea necesario.
3.2 Cómo instalar paquetes en RStudio
Cómo ya dije antes, existen muchos paquetes que cumplen diferentes propósitos en R. Empecemos por instalar un paquete que incluye otros 8 paquetes muy utilizados para data science en R: tidyverse
.
Lo que hay que hacer es:
Abrir RStudio
Ir a la consola
Escribir lo siguiente:
install.packages(“tidyverse”)
Presionar Enter
RStudio bajará e instalará varios paquetes de su repositorio central, el CRAN, y verán algo como lo siguiente en su consola:
Yo ya lo tenía instalado en mi computadora entonces sólo bajo algunas actualizaciones, pero si es la primera vez que usan RStudio seguramente verán más archivos siendo descargados e instalados.
Por esta vez es todo, nos vemos en el siguiente tutorial para cubrir como descargar datos financieros con R. Sólo cubriremos lo estrictamente necesario para completar el objetivo de cada tutorial, así que si quieren aprender un poco más de programación en general en R les recomiendo este curso gratis en línea: https://rladiessydney.org/courses/ryouwithme/
Hay que descargar el R base primero?