You are on page 1of 35

Qu es el anlisis de

correlacin lineal ?

Es una herramienta estadstica que podemos


usar para describir el grado de relacin
lineal entre las variables.
Variable Variable
Independiente Tipos de Variables Dependiente
(X) (Y)
(determinstica, es aleatoria
decir no aleatoria.)

Ejemplos

X: Nmero de llamadas telefnicas realizadas por un vendedor


promocionando un producto.
Y: Unidades vendidas por el vendedor.

X: Tiempo que dedica un estudiante a una materia.


Y : Evaluacin que obtiene el estudiante en la materia.
Ejercicio Modelo
En una ciudad de Canad, las personas al comprar casas se interesan
por el precio del costo de la calefaccin. Se ha determinado que un grupo
de factores pueden estar relacionados con el costo ( en dlares):
Temperatura exterior. (Grados Fahrenheit)
Aislante trmico en el desvn. (en pulgadas)
Antigedad del calefactor.
rea de la sala principal del apartamento. (en metros cuadrados).

Un cliente le ha preguntado a un vendedor:


Si usted me brinda la informacin de las variables anteriores de un
apartamento, cmo puedo saber yo aproximadamente cuanto pagar en
calefaccin?. Cuan confiable ser la informacin que usted me brinde?
Pasos en el Anlisis de Correlacin

1. Determinar cul es la variable dependiente. Y: Costo.


2. Seleccionar una muestra de tamao n de ambas variables X e Y, con lo
que se obtienen n pares de observaciones
(x1 , y1) , (x2 , y2) (xn , yn).

En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se


midieron todas las variables independientes para cada uno de ellos.
3. Mostrar la relacin en un diagrama de dispersin: Grfico de X vs. Y.
Se aprecia de manera descriptiva el sentido y la intensidad de relacin
entre las variables.

Se realizaran los 4 grficos que corresponden a cada una de las variables


independientes consideradas.
Relacin Inversa
fuerte
Relacin Inversa
dbil
Relacin Directa
moderada
Relacin directa
fuerte
aunque se
aprecia una
tendencia no
lineal
4. Calcular un coeficiente de correlacin lineal r a partir de la muestra,
como aproximacin de la verdadera relacin lineal (rho) entre las
variables.
n xy x y
r
n x 2
x 2
n y 2
y 2

1 r 1
Interpretacin:
1. El valor absoluto de r indica la fuerza de la relacin entre Y y X.
2. El signo la direccin de la relacin (directa o inversamente proporcional)
(tener cuidado con relaciones espreas)
r=1 correlacin positiva perfecta.
r = -1 correlacin negativa perfecta.
r=0 no hay relacin lineal entre Y y X.
Si hay presencia de varias variables independientes, entonces podemos
agrupar todas las correlaciones en la Matriz de Correlaciones.
Costo Temp Aislante Antigedad
Costo 1.00

Temp -.812 1.00

Aislante -.257 -.103 1.00


Antigedad .537 -.486 .064 1.00

Tamao .991 -.831 -.253 .482 1.000

Interpretacin de las Correlaciones lineales e Identificacin de las


Variables independientes con mayor correlacin lineal.
Temperatura.
Una correlacin de -0,812 indica alta correlacin, inversamente proporcional:
A mayor Temperatura exterior, menor el costo en calefaccin y viceversa .

Aislante.
La correlacin de 0,257 es baja, as que no existe relacin lineal entre las
variables.
Antigedad.
Una correlacin de 0,512; es moderada, directamente proporcional, a mayor
antigedad del calefactor, mayor costo y viceversa.
Tamao de la sala principal.
Una correlacin de 0,991; es alta y directamente proporcional: A mayor tamao
de la sala, mayor costo de la calefaccin
5. Prueba de Hiptesis para analizar si las correlaciones son
significativamente diferentes de cero.

H0 : 0

H1 : 0
Las correlaciones que son significativas aparecen reflejados en el
clculo de la matriz de correlaciones
Costo Conclusin Parcial:
.444 critical value Seleccionamos
.05 (two-tail) a
Costo 1.000 las variables Temperatura
.561 critical y Tamao
value .01 (two-tail)
Temp -.812 para continuar el anlisis acerca del
Esto quiere decir que la correlacin de -,812 entre
Aislante -.257 Costo.
Temperatura y Costo y la de ,991 entre Tamao y
Antigedad .537 Costo es significativa si consideramos un nivel de
confianza del 99% ( = 0,01) si bajamos el nivel de
Tamao .991
confianza a un 95% ( = 0,05), tambin es
significativa la relacin de ,537 entre Antigedad y
Costo.
Qu es el anlisis
de regresin lineal ?

Es modelar la dependencia de la variable Y


de la variable X a travs de una recta
a. Clculo de la recta de regresin que expresa la relacin entre:
Temperatura y Costo.

Y 0 1X 0 y 1 parmetros ; error aleatorio.

0 y 1 son estimados a partir de la muestra


obteniendo la recta Y = a 0 + a 1X + e

Constante de
regresin Coeficiente de
regresin

Interpretacin de la pendiente:
Cunto cambia la variable dependiente Y, por cada unidad que vare la
variable independiente X.
Estimacin de los parmetros: Mtodo de los mnimos cuadrados.
La recta de regresin hace mnimos los cuadrados de las distancias verticales
desde cada punto de una observacin a la recta.
Yi es un valor observado real de la variable Y
Yi es un valor de la recta predicho por la ecuacin

i i min
(Y Y ) 2

min es el nmero ms pequeo que se puede


obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los
puntos y la recta.

Yi Yi
Los coeficientes a1 y a0 se obtienen mediante las expresiones
n xy x y
a1
n x x
2 2

a 0 y a1x
Aplicamos MegaStat para realizar el Anlisis de Regresin
Y marcamos en la nueva ventana las
MegaStat
opciones que aparecen en la pantalla
Correlation/Regresin siguiente que nos mostrarn todas las
salidas que son de nuestro inters para el
Regresin Anlisis anlisis de regresin
Salida

r 0.659
Adjusted r 0.640
r -0.812
Std. Error 63.553
20 observations
1 predictor variable
Costo is the dependent variable
Salida
Recta de regresin estimada
388,8020 - 4,9342X
Y
Esta es la ecuacin de la recta de regresin pintada en el diagrama
de dispersin, que fue mostrada anteriormente
Note que la pendiente -4.9342 tiene signo negativo, lo cual refleja que la
relacin es inversa, anlogo al signo del coeficiente de correlacin
(-.812).

El valor de la pendiente significa que por cada grado que descienda la


temperatura exterior habr un aumento promedio de 5 dlares en el
costo de la calefaccin.
b. Clculo del error estndar de la estimacin
Mide la variabilidad o dispersin de los valores observados alrededor
de la lnea de regresin.

Y Y
2

Se y sobre x
n - k -1
Si se trabaja con una recta, se puede calcular el error mediante

Se y sobre x
a 0 y a 1 xy
y 2

n2
En nuestro
Mientrasejemplo el error
ms grande seaestndar
el error de estimacin
estndar de la que se comete
estimacin, al usar
mayor serlala
recta para estimar
dispersin el puntos
de los costo esalrededor
de 63,553de$la lnea de regresin
c. Clculo del Coeficiente de Determinacin
Mide el poder explicativo del modelo de regresin, es decir, la
parte de la variacin de Y explicada por la variacin de X
El valor de r2 ha de estar entre 0 y 1, si r2 = 0,70 significa que el 70%
de la variacin de Y est explicada por las variaciones de X. Es
evidente que cuanto mayor sea r2, mayor poder explicativo tendr
nuestro modelo.
En nuestro ejemplo
Si analizamos el valor del coeficiente de determinacin r = 0.659,
apreciamos que aproximadamente el 66% de la variabilidad del
costo esta determinado por la variabilidad en la Temperatura
exterior.
d. Prueba de Hiptesis para analizar si la pendiente es significativa

H 0 : 1 0

H1 : 1 0
Para tomar una decisin podemos comparar el valor de un estadstico con
un percentil, o utilizar un criterio equivalente, usado en los paquetes de
Estadstica: Comparar el p-valor con el nivel de significacin
Regla de Decisin: Rechazar Ho si p <
En el ejemplo p = 1.41E-05 < 0.05, as que rechazamos H0 por lo que el
valor de la pendiente es significativamente diferente de cero.

Conclusin: La relacin entre la Temperatura Exterior y el Costo es


significativa.
e. Predicciones
e.1) Clculo de una prediccin puntual.
Suponga que se desea un estimador puntual del costo de un
apartamento, si la temperatura exterior es de 35 grados
Sol: Sustitucin del valor de x = 35, en la ecuacin de la recta para
obtener un valor y
y 8,8020 - 4,9342x
y 8,8020 - 4,9342 * 35
y 216,05
e.2) Clculo de un intervalo de Prediccin
Se desea calcular una estimacin por intervalo con un nivel del confianza
del 95% para el apartamento especfico en un da considerado con
temperatura de 35 grados. Aqu calculamos un intervalo de prediccin.
Y t1 / 2 (n 2) * S p Sp Se
1
1
x x 0
2

x
2
n 2
nx
e.3) Clculo del Intervalo de Confianza para el Costo Promedio de todos
los apartamentos, para una temperatura dada.
Se desea calcular una estimacin por Intervalo, del costo promedio de la
calefaccin de todos los apartamentos considerados en los que la
temperatura es de 35 grados. Aqu calculamos un intervalo de confianza.

Con el Uso del Programa MegaStat


Marcar en la ventana correspondiente a Anlisis de Regresin el valor de
prediccin de inters, en nuestro caso 35.
La salida obtenida con el programa es

Conclusiones
Nota: Observe que el tamao del intervalo de confianza (para todos los
apartamentos
e.1 El costo porcon temperaturade
la calefaccin exterior de 35 grados),
un apartamento es menor quede
con Temperatura el35
intervalo
grados esde deprediccin (para un solo apartamento con temperatura
216,105 dlares.
exterior de nivel
e.2 Con un 35 grados). Es de una
de confianza amplitud
del 95% mucho
el costo por menor, ya que habr
la calefaccin de un
mayor variacin
apartamento conen el estimadode
Temperatura del35costo
gradospara una entre
oscila observacin
79,234 yque para
352,976$
un grupo.
e.3 El costo promedio de la calefaccin de los apartamentos para una
temperatura de 35 grados se encuentra entre 186,000 246,211 $; con una
confianza del 95%.
Anlisis de las suposiciones realizadas para la recta de regresin
Debemos comprobar que se cumplen dos condiciones fundamentales:
a. Los residuos siguen una distribucin aproximadamente
Normal.
Para ello realizamos el grfico de Probabilidad Normal, obteniendo

Se aprecia que se ajustan


aproximadamente a la recta
x = y, por lo que puede
concluirse que los residuos
tienen una distribucin
aproximadamente normal.
b. La variabilidad de los residuos y - no vara en dependencia del
valor estimado
Esto lo apreciamos en el grfico de los residuos. En este caso nuestro valor
estimado , es el costo estimado

Efectivamente se observa un
comportamiento aleatorio de los
residuales
Con esto se concluye que todo el
anlisis de regresin efectuado hasta
el momento es valido.
Un anlisis anlogo podemos realizar para analizar la relacin entre el Tamao
de la sala principal y el costo del calefactor, dado que la correlacin obtenida
es alta: 0,991. Sin embargo el anlisis seria muy similar, excepto algo muy
importante que es el anlisis de los residuales.
Veamos los grficos
a. Grafico de Probabilidades
Normales
Se observa un comportamiento
anlogo al anterior, es decir los
residuales siguen una distribucin
normal.
b. Grfico de los valores estimados vs. Residuos.
Esto
En significa
este caso losque no ess
residuos
valido el variacin
muestran modelo de en
regresin realizado
dependencia de los valores
previamente.
estimados Las vemos
del costo,
consecuencias
que de no
valores muy pequeos
orealizar este
muy altos anlisis es
tienen
que las estimaciones
variabilidad mayor que los de
los estn
que coeficientes
alrededor dede
la un
regresin
costo pueden
de 200, nono
es decir ser
adecuados
hay y las
un comportamiento
predicciones pueden ser
aleatorio.
incorrectas.