You are on page 1of 7

Laboratorio No.

6
Análisis Bivariado y Análisis de Correlación.
Nombre: Anthony Freire Castro.
Profesora: Ec. Diana Barrezueta Figueroa, M.
Jinetes Profesionales de Toros.
Aproximadamente 1200 jinetes de toros de todo el mundo son miembros de los Jinetes Profesionales
de Toros – JPT (Professional Bull Riders - PBR). Ellos compiten en más de 300 eventos de jinetes de
toros afiliados a JPT por año. Según la tradición americana, el jinete debe mantenerse encima del toro
mientras éste corcovea durante 8 segundos completos. Este conjunto de datos incluye información
sobre los mejores jinetes del 2013. Estos rankings se basan en un sistema que otorga puntos por montar
a toros en eventos durante la temporada.

Pregunta de Investigación.
¿Para la temporada 2013, hay una relación lineal entre la frecuencia con la que un jinete se ubica entre
los 10 mejores (Top Ten) y el número de veces que logra mantenerse los 8 segundos completos encima
del toro?
1a. Cuántas observaciones hay en el dataset?
59 observaciones.
1b. Cuántos de los 10 primeros jinetes en el dataset han sido profesionales por 10 años o más?
3
1c. De los 15 mejores jinetes del 2015, ¿cuántas montas (rides) logró completar el jinete que tuvo
un menor número de intentos (buck-outs) en el 2014?
Buck-outs =1
Rides= 0
2a. Qué variable nos indica el número de veces que el jinete se ubicó entre los 10 mejores al final
de la temporada 2013? El nombre de la variable según el dataset es: Top10_13
2b. ¿Qué tipo de variable es?
Cuantitativa o numérica.
2c. ¿Qué variable nos indica el número de veces que el jinete logró mantenerse encima del toro
por 8 segundos completos en el 2013? El nombre de la variable en el dataset es: Rides13:
2d. ¿Qué tipo de variable es?
Cuantitativa o numérica.

1
Reflexione sobre el Método
¿Qué método debemos usar para el análisis y por qué?
3. Vamos a usar correlación para responder la pregunta de laboratorio. ¿Por qué?
▫ Tenemos dos variables categóricas que pueden estar relacionadas.
▫ Queremos explorar la relación lineal entre dos variables cuantitativas.
▫ Queremos determinar cómo un jinete de toros profesional logra llegar a la lista de los 10
mejores.
▫ Queremos describir la distribución de una variable cuantitativa.
4. Deberíamos generar un diagrama de dispersión de estas dos variables antes de continuar con
el análisis. ¿Por qué?
▫ Necesitamos observar la forma de la distribución.
▫ Es buena idea asegurarse de que la información es cuantitativa por medio de un gráfico.
▫ Queremos confirmar que la relación es lineal
▫ Necesitamos identificar cuántos casos hay en el conjunto de datos.
ANÁLISIS
Pasos para el Análisis:

1. Crear un subconjunto que contenga solo jinetes que hayan participado en por lo menos 1 evento en
2013.
2. Crear un diagrama de dispersión de las dos variables de interés.

3. Revisar si la relación es linear, trazar una línea de tendencia a manera de guía.


4. Si la relación es lineal, calcule el coeficiente de correlación.
5. Examine los valores extremos.
6. Interprete lo que la correlación indica sobre la relación lineal entre esas variables.

Aquí están los códigos a utilizar:


#subconjunto que contenga solo jinetes que hayan participado en por lo menos 1 evento en
2013
new_bull <- bull[bull$Events13 > 0 ,]
# Visualizar y describir la primera variable de interés
hist(new_bull$Rides13)
fivenum(new_bull$Rides13)
mean(new_bull$Rides13)
sd(new_bull$Rides13)
# Visualizar y describir la segunda variable de interés
hist(new_bull$Top10_13)
fivenum(new_bull$Top10_13)
mean(new_bull$Top10_13)
sd(new_bull$Top10_13)
# Crear un diagrama de dispersión
plot(new_bull$Rides13,new_bull$Top10_13)

2
# Añadir la linea de tendencia
abline(lm(new_bull$Top10_13~new_bull$Rides13))
# Calcular el coeficiente de correlación
cor(new_bull$Rides13,new_bull$Top10_13)
# Crear una matriz de correlación
vars <- c("Top10_13", "Rides13")
cor(new_bull[,vars])

RESPALDO.

3
4
1. Cuáles casos se seleccionarán al ejecutar esta línea de código?
new_bull <- bull[bull$Events13 > 0 ,]
▫ Jinetes que han completado 0 eventos en 2013
▫ Jinetes que han completado por lo menos 0 eventos en 2013
▫ Jinetes que han completado más de 0 eventos en 2013
2. Qué aparece en el diagrama de dispersión que se genera con esta línea de código?
plot(new_bull$Rides13, new_bull$Top10_13)
▫ Habrá un único punto por cada jinete.
▫ Habrán dos puntos por cada jinete (uno por variable)
3. Cual valor no es un resultado posible de la siguiente línea de código?
cor(new_bull$Rides13, new_bull$Top10_13)
▫ 0.75
▫ -1.02
▫ 0.61
▫ -0.04
4. Una matriz de correlación te permite calcular múltiples coeficientes de correlación a la vez. Aquí
sólo estamos pidiendo la correlación entre Rides13 y Top10_13. Si quisieras incluir otras variables
también, ¿cómo lo harías?
# Crear una matriz de correlación
vars <-c ("Top10_13", "Rides13")
cor(new_bull[,vars])
▫ Eliminar la línea cor(new_bull[,vars]), porque la correlación sólo puede darse entre dos
variables.
▫ Añadir los nombres de las variables al objeto "vars".
▫ No se puede hacer eso. Tendrías que ejecutar matrices de correlación separadas para cada par
de variables.

5
El gráfico siguiente se generó usando estos códigos:
bull<-BullRiders
plot(bull$Events12, bull$BuckOuts12)
abline(lm(bull$Events12~bull$BuckOuts12))

5. En el diagrama de dispersión de arriba por qué la línea de tendencia no parece pasar por el centro
de la dispersión de los puntos?
▫ Las variables "Events" y "BuckOuts" deberían intercambiarse en el comando abline.
▫ La "O" debería llevar mayúsculas en la variable "BuckOuts".
▫ El gráfico se creó con dos variables que son categóricas.
▫ La línea de tendencia pasa a través del diagrama con precisión.

¿Qué nos dicen el histograma y las estadísticas descriptivas sobre la distribución de la variable
Rides13?
1a. En promedio, ¿cuántas montas (rides) tiene un jinete de toros en el año 2013? (Reporte la mediana
porque el histograma no es simétrico)
19
1b. Estos jinetes lograron estar entre los 10 mejores un promedio (mediana) de 6 veces en 2013.
¿Que nos muestra el histograma?
2a. La relación parece ser relación lineal fuerte y positiva entre el número de montas (rides) de 8
segundos que un jinete de toros completó y el total de veces que logró estar en el Top 10 después de la
temporada 2013
2b. Se observa que los jinetes que aparecen con frecuencia entre los 10 mejores tienden a tener un
elevado número de montas (rides) exitosas.
3a. La correlación redondeada a tres decimales entre el número de veces que aparece entre los 10
mejores y el número de montas (rides) exitosas en 2013 es r =0.916

6
3b. Cuántas veces aparece este valor en la matriz de correlación? 2
4. En el diagrama de dispersión, vemos un punto con un residual bastante grande. Este jinete tenía 22
montas (rides) pero solamente se ubicó entre los 10 mejores dos veces. El punto para este jinete cae
encima / debajo de la línea de tendencia. Si sus valores siguieran la línea de tendencia, el debería haber
sido ubicado entre los 10 mejores cerca de 6 veces
Use este código para identificar al jinete:
#identifique un registro en específico
which(new_bull$Top10_13==2 & new_bull$Rides13==22)
5. ¿Después de mirar la información para este jinete, podrías explicar por qué se lo ha ubicado en el
Top 10 tan pocas veces?
▫ El jinete pesa más de 200 libras, así que es muy pesado.
▫ Sólo tenía 12 montas (rides) así que no era tan competitivo como para estar en el Top 10.
▫ No participó en ningún evento durante la temporada 2013.
▫ Su porcentaje de montas (rides) fue sólo del 33%, lo cual no era suficientemente alto para
ubicarlo en el Top 10.

Escriba su Conclusión
Hay una relación lineal fuerte y positiva/negativa entre el número de montas (rides) de 8 segundos que
un jinete de toros completó y el total de veces que logró estar en el Top 10 después de la temporada
2013, (r =0.916). El promedio del número de montas (rides) para estos jinetes fue de alrededor de 19.
No hay valores extremos significativos. Un jinete se ubicó solamente en dos ocasiones en el top-10, a
pesar de tener un número de montas mayor al promedio. Al revisar más de cerca, podemos observar
que no tenía una elevada participación en algún evento durante la temporada 2013 lo cual podría
explicar sus pocas apariciones dentro del Top 10.

You might also like