You are on page 1of 11

Estadística

ANÁLISIS DE REGRESIÓN CORRELACIÓN LINEAL


SIMPLE

INTRODUCCIÓN

El análisis de regresión y correlación (Francis Galton-1877) es una herramienta estadística empleada


en el análisis de datos para determinar la relación entre variables y su predicción para la toma de
decisiones económicas y de negocios.

 Análisis de regresión. Técnicas estadísticas empleada para desarrollar una expresión cuantitativa
de la naturaleza básica de la relación existente entre dos o más variables y hacer predicciones.
 Análisis de correlación. Técnicas estadísticas empleadas para medir la intensidad de la relación
entre dos o más variables.

Diagrama de dispersión: Gráfica del conjunto de datos en un espacio n-dimensional. Es una manera
de explorar la relación entre las variables.

Y Y 
  
   
   
  
   
   
  
  X1
X X2

Modelos de regresión y correlación

 Simple: Cuando en el modelo sólo intervienen dos variables.


 Múltiple: Cuando en el modelo intervienen más de dos variables.
Análisis de regresión y correlación 2

MODELOS DE REGRESIÓN Y CORRELACIÓN SIMPLE

y y
y = a +b x

 Lineal
y=a-bx
x x
Creciente Decreciente

y y
x
y  ab y  ab x

 No lineal

x x

Modelo general de regresión lineal

Y = A + B1X1 + B2X2 + B3X3 + … + BnXn + 

donde, Y = Variable dependiente o variable desconocida a explicar


Xi =Variables independientes o variables conocidas explicativas o predictoras
A = Parámetro poblacional. Intercepto en Y cuando las Xi = 0.
B = Parámetro poblacional o pendiente del modelo de regresión que expresa el cambio
en Y por unidad de cambio en Xi.
 = (Épsilon). Error o perturbación aleatoria que ocurre cuando se usan variables
independientes para predecir la dependiente.

Supuestos del análisis de regresión lineal

La distribución de probabilidades de  determina el grado en que el modelo de regresión describe la


relación entre la variable dependiente Y y las independientes Xi.

1. La distribución de probabilidad de  es normal


2. La varianza de la distribución de  es constante para todos los valores de x.
3. La media de la distribución de  es cero.
 El valor medio de Y para un valor dado de X es: E(Y) = A + BX
4. Los valores de  son independientes entre sí. Esto significa que el valor de  asociado a un valor de y
no tiene influencia sobre los valores de  asociados a otros valores de y.
Análisis de regresión y correlación 3

MODELO DE REGRESIÓN LINEAL SIMPLE

Es la línea recta que mejor se ajusta a un conjunto de puntos o pares ordenados (x, y).

 Recta de regresión para la población: Y = A + BX


 Recta de regresión para la muestra: ŷ = a + b x

dónde: ŷ = Valor pronosticado de la variable dependiente y para un valor dado de x.


x = Variable independiente, conocida o predictora. Es el valor dado x.
a = Intercepto en y. Estimador del parámetro de la población A.
b = Pendiente de la recta. Estimador del parámetro B de la población.

ECUACIONES PARA ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO

Con los datos de la muestra se pueden estimar los parámetros A y B

y
(x, y) yˆ  a  bx
 
 
 E

 E = error = y  yˆ
 y = valor observado o real
ŷ = valor pronosticado
 
(x, y)

Método de mínimos cuadrados: Método empleado en la obtención de a y b al minimizar la suma de


los errores cuadrados, que ocurren cuando se pronostica la variable dependiente y.

E   y  ŷ 
2
2
Sea = = SCE (Suma de errores al cuadrado)

Objetivo: Minimizar SCE =  ( y  yˆ )   ( y  a  bx)


2 2

 dSCE d 2 SCE
 da  0, da
0
SCE es mínima sí  2
 dSCE  0, d SCE  0
 db db
Análisis de regresión y correlación 4

y
yˆ  a  bx
b
n xy   x y
n  x    x
2
2

b = pendiente

a = intercepto
a
 y  b  x =  y  b x
x n n n
a= y  bx

Ejemplo

El director de investigación de mercadeo de cierta compañía quiere saber, con base en la información
de los últimos 5 meses, si el volumen de ventas de la compañía se relaciona con la inversión
publicitaria.

Datos sobre publicidad y ventas:


Inversión publicitaria, x Ingresos por ventas, y
Mes (millones de $) ($*10 millones)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

Gráficos
Diagrama de dispersión Línea de regresión

4 4

3.5 3.5
Ventas

3 3
Ventas

2.5 2.5

2 2

1.5 1.5

1 1
0 1 2 3 4 5 0 1 2 3 4 5
Gasto en publicidad Gasto en publicidad

Cálculos preliminares para estimar la ecuación de regresión yˆ  a  bx


(y  y ) (y  y )2 (x x ) (x x )2
2
Mes y x x xy
1 1 1 1 1 1.0 1.0 2.0 4.0
2 1 2 4 2 1.0 1.0 1.0 1.0
3 2 3 9 6 0.0 0.0 0.0 0.0
4 2 4 16 8 0.0 0.0 1.0 1.0
5 4 5 25 20 2.0 4.0 2.0 4.0
Total  y = 10  x = 15  x2 = 55  xy = 37 SCT = 6 SCx = 10.0
Análisis de regresión y correlación 5

n xy   x  y  5  37  15  10 La línea de regresión por


b =
n x 2   x 
mínimos cuadrados:
5  55   15
2 2

35 yˆ  0.1  0.7 x
=  0.7
50
Predicción de Y

a
 y  b x =
10  0.7  15
sí x = 2.5:
n 5
10  10.5 =  0.1 + 0.7(2.5) = 1.65
=  0.1 ŷ
5

Valores observados o reales y vs valores pronosticados


Mes x y ŷ =  0.1 + 0.7 x E = y  ŷ (y  ŷ )2
1 1 1 0.6 0.4 0.16
2 2 1 1.3  0.3 0.09
3 3 2 2.0 0.0 0.00
4 4 2 2.7  0.7 0.49
5 5 4 3.4 0.6 0.36
Total 10 15 SCE = 1.1

Gráfico de residuales
Residuales E = y - y

E = (y – ŷ ) vs x 2

-1

-2

-3
0 1 2 3 4 5

Gasto en publicidad

ERROR ESTÁNDAR DE LA ESTIMACIÓN.

El error estándar de la estimación de y dado un valor x, S y x , es la medida de la dispersión de los


valores observados y alrededor de la línea de regresión.

Sy 
SCE

  y  yˆ 2

x
n2 n2
Análisis de regresión y correlación 6

Ejemplo
El error estándar de la regresión de las ventas y dada la inversión publicitaria x es:

  y  yˆ 
2
SCE 11
.
Sy   =
x
n2 n2 5 2
= 0.37 = 0.6055

COEFICIENTE DE CORRELACIÓN MUESTRAL, R

Es el coeficiente de regresión (pendiente de la recta) cuando las variables x y y se introducen en el


modelo en forma estandarizada. Es una medida de la relación entre x y y que no depende de las
unidades originales de las variables. Su valor está comprendido entre 1 y 1 y su signo coincide con el
de la pendiente b. Si r = 1 la correlación es perfecta y directa; si r = 1 la correlación es perfecta e
inversa.
 ( y  yˆ )
2
SumadeCuadradosdelError SCE
r  1  1  1
 ( y  y)
2
SumadeCuadradosTotal SCT

n xy   x  y 
n x  
r=
  x  n y 2   y 
2 2 2

Ejemplo
Coeficiente de correlación muestral entre las ventas y la inversión publicitaria x

r
 x y
n xy  5  37  15  10

n x   x n y   y 
= = 0.9037
2
2
2
2
5  55  (15) 5  26  (10) 
2 2

Este resultado indica que existe una relación alta y directa entre las ventas y la inversión publicitaria.

COEFICIENTE DE DETERMINACIÓN, R2

Es el cuadrado del coeficiente de correlación. Expresa el porcentaje o proporción de veces que la


variable dependiente y es explicada por la variable independiente x.

  y  yˆ 
2
Sumadecuadradosdelerror SCE
r 1
2
1 1
 y  y
2
Sumadecuadradostotal SCT
Análisis de regresión y correlación 7

Ejemplo
Coeficiente determinación para las ventas y la inversión publicitaria

  y  yˆ  = 1  11.  1  01833
2
SCE
r 1
2
1 .  0.8167 .
 y  y
2
SCT 6

Las ventas de la compañía dependen el 81.66% (R2) de las veces, de la inversión publicitaria y el
18.33% (1 - R2) de otros factores no considerados en el modelo.

INFERENCIAS ACERCA DEL MODELO

Intervalo de confianza del (1) para el valor medio de Y cuando x = xd

yˆ  t  Sy
( n 2 ),
2
ŷ = valor pronosticado de y dado un x.
t  = valor de t con (n2) grados de libertad que tiene a su derecha una probabilidad igual a /2.
 n  2 ,
2

1 ( xd  x ) 2
S yˆ = error estándar del pronóstico = S y x 
n  (x  x)2

Ejemplo
Intervalo de confianza del 95% para la venta media Y, cuando la inversión publicitaria es x = x d = $3.5
millones:  yˆ  t 3,0.025S y
1  35
.  3
2

yˆ  0.1  0.7 x  0.1  0.7(3.5)  2.35 S yˆ = 0.6055  = 0.6055 0.225  0.2872


5 10
yˆ  t 3;0.025S yˆ = 2.35  3.1820.2872 = 2.35  0.9139  intervalo: 1.436, 3.269

Este resultado indica que cuando la inversión publicitaria es $3.5 millones, se espera que el promedio
real de ventas esté entre $14.36 y 32.69 millones con una confiabilidad del 95%.

PRUEBA DE HIPÓTESIS PARA LA PENDIENTE B DE LA RECTA DE LA POBLACIÓN

Prueba estadística que determina si existe o no, relación lineal significativa entre las variables x y y.

Proceso:

 Plantear las hipótesis

H0: B = 0 = B0 No existe relación lineal entre las variable x y y


Ha: B < 0, B > 0, o B  0 Existe relación lineal entre las variable x y y

 Especificar el nivel de significación, 


Análisis de regresión y correlación 8

 Determinar la estadística de prueba: Se emplea la variable t de student con (n-2) grados de libertad.
b  B0
tC 
Sb
Sy x Sy x
Sb = error estándar de la pendiente de regresión = =
 (x  x) 2 ( x ) 2
x  n
2

 Determinar la región de rechazo de acuerdo a la hipótesis alternativa, Ha.


 Establecer la regla de decisión
 Calcular la estadística de prueba (tc) y la estadística teórica (tT)
 Conclusiones en términos del problema.

Ejemplo
Prueba de hipótesis para B, cambio en las ventas por unidad de gasto en publicidad x:

H0: B = 0 = B0 No existe relación lineal entre las ventas y la inversión publicitaria.


Ha: B > 0 Si existe relación lineal entre las ventas y la inversión publicitaria.

Nivel de significación:  = 5%
b  B0
Estadística de la prueba: tC  , con (n2) = 52 = 3 grados de libertad
Sb
Sy x Sy x 0.6055
Sb = = = = 0.1915
 (x  x) 2
( x) 2 15 2
x 2

n
55 
5

b  B0 0.7  0
tc = = = 3.656
Sb 01915
.

Región crítica: Región de aceptación Región de rechazo

Valor crítico, t 3;0.052.353

En la tabla, el valor de t con 3 grados de libertad que tiene a su derecha un área igual a 5% es 2.353

Decisión: dado que tc = 3.656 > tT = 2.353 se rechaza la hipótesis nula.


Conclusión: Se concluye con un nivel de significancia del 5% que existe una relación lineal (positiva)
entre la las ventas y la inversión publicitaria.
Análisis de regresión y correlación 9

CONTRASTE O PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN


POBLACIONAL, 

Ho:  = 0 = 0 No existe relación entre y y x


Ha:  > 0,  < 0,   0 Si existe relación entre y y x
(La hipótesis de que  = 0 es equivalente a B = 0. B = pendiente de la población)

Nivel de significación 
r  0
Estadística de la prueba: tc  con (n2) grados de libertad
Sr
1 r2
Sr  = error estándar de r
n2

Región de rechazo de acuerdo a la forma de la hipótesis alterna, Ha.

Decisión y conclusión en términos del problema.

Prueba de hipótesis para el coeficiente de correlación  entre las ventas y el gasto en publicidad:

Ho:  = 0 = 0 No existe relación entre las ventas y el gasto en publicidad.


Ha:  > 0 Si existe relación entre las ventas y el gasto en publicidad.

Nivel de significación  = 5%
r  0
Estadística de la prueba: tc  con n2 = 52 = 3 grados de libertad
Sr
1 r2 1  0.8166
Sr  = error estándar de r = = 0.24725
n2 5 2

0.9037  0
tc = = 3.655
0.24725

Para (n-2) = 3 grados de libertad, t3, 0.05 = 2.353.

Conclusiones: Como tc = 3.655 > tT = 2.353 se rechaza la hipótesis nula, concluyéndose al nivel del 5%
que si existe relación positiva entre las ventas y la inversión publicitaria.
Análisis de regresión y correlación 10

SOLUCIÓN CON STAGRAPHICS

Regression Analysis  Linear model: y = a + bx

Dependent variable: Ventas


Independent variable: Inversión publicitaria

Parameter Estimate Estándar T PValue


Error Statistic

Intercept 0.1 0.635085  0.15745 0.8849


Slope 0.7 0.191485 3.65563 0.0354

Analysis of Variance

Source Sum of Squares Df Mean Square FRatio PValue


Model 4.9 1 4.90 13.35 0.0354
Residual 1.1 3 0.37
Total 6.0 4

Correlation Coefficient = 0.903696


Rsquared = 81.6667 percent
Estándar Error of Est. = 0.60553

The StatAdvisor

The output shows the results of fitting a linear model to describe the relationship between Ventas and Inversión publicitaria. The equation
of the fitted model is

Ventas = 0.1 + 0.7 * Inversión publicitaria

Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between Ventas and inversión
publicitaria the 95% confidence level.

The RSquared statistic indicates that the model as fitted explains 81.6667% of the variability in Ventas. The correlation coefficient
equals 0.903696, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard
deviation of the residuals to be 0.60553. This value can be used to construct prediction limits for new observations by selecting the
Forecasts optionfrom the text menu.
Análisis de regresión y correlación 11

Ejemplo
temperaturas diferentes. Los datos se codificaron y registraron en el cuadro siguiente.

Azúcar transformada 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5
Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0

Con base en la salida adjunta generada por el paquete Statgraphics:


a) Escriba la ecuación de regresión.
b) ¿Cómo se interpreta el valor de la pendiente en términos del problema?
c ) ¿Cuál es la cantidad promedio de azúcar refinada que se produce cuando la temperatura es 1.75?
a) ¿Cuál es el valor del coeficiente de determinación y como se interpreta en términos del problema?

Salida generada por el paquete Statgraphics

Regression Analysis - Linear model : y= a+bx

Dependent variable: Azucar


Independent variable : Temperatura
Standar T Prob.
Parameter Estimate error Value Level

Intercept 6.41364 0.924638 6.93638 0.00007


Slope 1.80909 0.603167 2.99932 0.01497

Correlation Coefficient = 0.707026


R- squared = 49.99 percent
Stnd. Error of Est. = 0.632607

Francisco Fernando Fernández


fguerra@eafit.edu.co

You might also like