Regresion Lineal Simple

Estadística
ANÁLISIS DE REGRESIÓN CORRELACIÓN LINEAL

SIMPLE
INTRODUCCIÓN
El análisis de regresión y correlación (Francis Galton-1877) es una herramienta estadística empleada

en el análisis de datos para determinar la relación entre variables y su predicción para la toma de
decisiones económicas y de negocios.
 Análisis de regresión. Técnicas estadísticas empleada para desarrollar una expresión cuantitativa
de la naturaleza básica de la relación existente entre dos o más variables y hacer predicciones.
 Análisis de correlación. Técnicas estadísticas empleadas para medir la intensidad de la relación
entre dos o más variables.
Diagrama de dispersión: Gráfica del conjunto de datos en un espacio n-dimensional. Es una manera
de explorar la relación entre las variables.
Y Y 
  
   
   
  
   
   
  
  X1
X X2
Modelos de regresión y correlación
 Simple: Cuando en el modelo sólo intervienen dos variables.

 Múltiple: Cuando en el modelo intervienen más de dos variables.
Análisis de regresión y correlación 2
MODELOS DE REGRESIÓN Y CORRELACIÓN SIMPLE
y y
y = a +b x
 Lineal
y=a-bx
x x
Creciente Decreciente
y y
x
y  ab y  ab x
 No lineal
x x
Modelo general de regresión lineal
Y = A + B1X1 + B2X2 + B3X3 + … + BnXn + 
donde, Y = Variable dependiente o variable desconocida a explicar

Xi =Variables independientes o variables conocidas explicativas o predictoras
A = Parámetro poblacional. Intercepto en Y cuando las Xi = 0.
B = Parámetro poblacional o pendiente del modelo de regresión que expresa el cambio
en Y por unidad de cambio en Xi.
 = (Épsilon). Error o perturbación aleatoria que ocurre cuando se usan variables
independientes para predecir la dependiente.
Supuestos del análisis de regresión lineal
La distribución de probabilidades de  determina el grado en que el modelo de regresión describe la

relación entre la variable dependiente Y y las independientes Xi.
1. La distribución de probabilidad de  es normal

2. La varianza de la distribución de  es constante para todos los valores de x.
3. La media de la distribución de  es cero.
 El valor medio de Y para un valor dado de X es: E(Y) = A + BX
4. Los valores de  son independientes entre sí. Esto significa que el valor de  asociado a un valor de y
no tiene influencia sobre los valores de  asociados a otros valores de y.
MODELO DE REGRESIÓN LINEAL SIMPLE
Es la línea recta que mejor se ajusta a un conjunto de puntos o pares ordenados (x, y).
 Recta de regresión para la población: Y = A + BX

 Recta de regresión para la muestra: ŷ = a + b x
dónde: ŷ = Valor pronosticado de la variable dependiente y para un valor dado de x.

x = Variable independiente, conocida o predictora. Es el valor dado x.
a = Intercepto en y. Estimador del parámetro de la población A.
b = Pendiente de la recta. Estimador del parámetro B de la población.
ECUACIONES PARA ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
Con los datos de la muestra se pueden estimar los parámetros A y B
y
(x, y) yˆ  a  bx
 
 
 E
 E = error = y  yˆ
 y = valor observado o real
ŷ = valor pronosticado
 
(x, y)
Método de mínimos cuadrados: Método empleado en la obtención de a y b al minimizar la suma de

los errores cuadrados, que ocurren cuando se pronostica la variable dependiente y.
E   y  ŷ 
2
2
Sea = = SCE (Suma de errores al cuadrado)
Objetivo: Minimizar SCE =  ( y  yˆ )   ( y  a  bx)

2 2
 dSCE d 2 SCE
 da  0, da
0
SCE es mínima sí  2
 dSCE  0, d SCE  0
 db db
y
yˆ  a  bx
b
n xy   x y
n  x    x
2
2
b = pendiente
a = intercepto
a
 y  b  x =  y  b x
x n n n
a= y  bx
Ejemplo
El director de investigación de mercadeo de cierta compañía quiere saber, con base en la información
de los últimos 5 meses, si el volumen de ventas de la compañía se relaciona con la inversión
publicitaria.
Datos sobre publicidad y ventas:

Inversión publicitaria, x Ingresos por ventas, y
Mes (millones de $) ($*10 millones)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
Gráficos
Diagrama de dispersión Línea de regresión
4 4
3.5 3.5
Ventas
3 3
Ventas
2.5 2.5
2 2
1.5 1.5
1 1
0 1 2 3 4 5 0 1 2 3 4 5
Gasto en publicidad Gasto en publicidad
Cálculos preliminares para estimar la ecuación de regresión yˆ  a  bx

(y  y ) (y  y )2 (x x ) (x x )2
2
Mes y x x xy
1 1 1 1 1 1.0 1.0 2.0 4.0
2 1 2 4 2 1.0 1.0 1.0 1.0
3 2 3 9 6 0.0 0.0 0.0 0.0
4 2 4 16 8 0.0 0.0 1.0 1.0
5 4 5 25 20 2.0 4.0 2.0 4.0
Total  y = 10  x = 15  x2 = 55  xy = 37 SCT = 6 SCx = 10.0
n xy   x  y  5  37  15  10 La línea de regresión por

b =
n x 2   x 
mínimos cuadrados:
5  55   15
2 2
35 yˆ  0.1  0.7 x
=  0.7
50
Predicción de Y
a
 y  b x =
10  0.7  15
sí x = 2.5:
n 5
10  10.5 =  0.1 + 0.7(2.5) = 1.65
=  0.1 ŷ
5
Valores observados o reales y vs valores pronosticados

Mes x y ŷ =  0.1 + 0.7 x E = y  ŷ (y  ŷ )2
1 1 1 0.6 0.4 0.16
2 2 1 1.3  0.3 0.09
3 3 2 2.0 0.0 0.00
4 4 2 2.7  0.7 0.49
5 5 4 3.4 0.6 0.36
Total 10 15 SCE = 1.1
Gráfico de residuales
Residuales E = y - y
E = (y – ŷ ) vs x 2
-1
-2
-3
0 1 2 3 4 5
Gasto en publicidad
ERROR ESTÁNDAR DE LA ESTIMACIÓN.
El error estándar de la estimación de y dado un valor x, S y x , es la medida de la dispersión de los

valores observados y alrededor de la línea de regresión.
Sy 
SCE

  y  yˆ 2
x
n2 n2
Ejemplo
El error estándar de la regresión de las ventas y dada la inversión publicitaria x es:
  y  yˆ 
2
SCE 11
.
Sy   =
x
n2 n2 5 2
= 0.37 = 0.6055
COEFICIENTE DE CORRELACIÓN MUESTRAL, R
Es el coeficiente de regresión (pendiente de la recta) cuando las variables x y y se introducen en el

modelo en forma estandarizada. Es una medida de la relación entre x y y que no depende de las
unidades originales de las variables. Su valor está comprendido entre 1 y 1 y su signo coincide con el
de la pendiente b. Si r = 1 la correlación es perfecta y directa; si r = 1 la correlación es perfecta e
inversa.
 ( y  yˆ )
2
SumadeCuadradosdelError SCE
r  1  1  1
 ( y  y)
2
SumadeCuadradosTotal SCT
n xy   x  y 
n x  
r=
  x  n y 2   y 
2 2 2
Ejemplo
Coeficiente de correlación muestral entre las ventas y la inversión publicitaria x
r
 x y
n xy  5  37  15  10
n x   x n y   y 
= = 0.9037
2
2
2
2
5  55  (15) 5  26  (10) 
2 2
Este resultado indica que existe una relación alta y directa entre las ventas y la inversión publicitaria.
COEFICIENTE DE DETERMINACIÓN, R2
Es el cuadrado del coeficiente de correlación. Expresa el porcentaje o proporción de veces que la

variable dependiente y es explicada por la variable independiente x.
  y  yˆ 
2
Sumadecuadradosdelerror SCE
r 1
2
1 1
 y  y
2
Sumadecuadradostotal SCT
Ejemplo
Coeficiente determinación para las ventas y la inversión publicitaria
  y  yˆ  = 1  11.  1  01833
2
SCE
r 1
2
1 .  0.8167 .
 y  y
2
SCT 6
Las ventas de la compañía dependen el 81.66% (R2) de las veces, de la inversión publicitaria y el
18.33% (1 - R2) de otros factores no considerados en el modelo.
INFERENCIAS ACERCA DEL MODELO
Intervalo de confianza del (1) para el valor medio de Y cuando x = xd
yˆ  t  Sy
( n 2 ),
2
ŷ = valor pronosticado de y dado un x.
t  = valor de t con (n2) grados de libertad que tiene a su derecha una probabilidad igual a /2.
 n  2 ,
2
1 ( xd  x ) 2
S yˆ = error estándar del pronóstico = S y x 
n  (x  x)2
Ejemplo
Intervalo de confianza del 95% para la venta media Y, cuando la inversión publicitaria es x = x d = $3.5
millones:  yˆ  t 3,0.025S y
1  35
.  3
2
yˆ  0.1  0.7 x  0.1  0.7(3.5)  2.35 S yˆ = 0.6055  = 0.6055 0.225  0.2872

5 10
yˆ  t 3;0.025S yˆ = 2.35  3.1820.2872 = 2.35  0.9139  intervalo: 1.436, 3.269
Este resultado indica que cuando la inversión publicitaria es $3.5 millones, se espera que el promedio
real de ventas esté entre $14.36 y 32.69 millones con una confiabilidad del 95%.
PRUEBA DE HIPÓTESIS PARA LA PENDIENTE B DE LA RECTA DE LA POBLACIÓN
Prueba estadística que determina si existe o no, relación lineal significativa entre las variables x y y.
Proceso:
 Plantear las hipótesis
H0: B = 0 = B0 No existe relación lineal entre las variable x y y

Ha: B < 0, B > 0, o B  0 Existe relación lineal entre las variable x y y
 Especificar el nivel de significación, 

 Determinar la estadística de prueba: Se emplea la variable t de student con (n-2) grados de libertad.
b  B0
tC 
Sb
Sy x Sy x
Sb = error estándar de la pendiente de regresión = =
 (x  x) 2 ( x ) 2
x  n
2
 Determinar la región de rechazo de acuerdo a la hipótesis alternativa, Ha.

 Establecer la regla de decisión
 Calcular la estadística de prueba (tc) y la estadística teórica (tT)
 Conclusiones en términos del problema.
Ejemplo
Prueba de hipótesis para B, cambio en las ventas por unidad de gasto en publicidad x:
H0: B = 0 = B0 No existe relación lineal entre las ventas y la inversión publicitaria.

Ha: B > 0 Si existe relación lineal entre las ventas y la inversión publicitaria.
Nivel de significación:  = 5%
b  B0
Estadística de la prueba: tC  , con (n2) = 52 = 3 grados de libertad
Sb
Sy x Sy x 0.6055
Sb = = = = 0.1915
 (x  x) 2
( x) 2 15 2
x 2

n
55 
5
b  B0 0.7  0
tc = = = 3.656
Sb 01915
.
Región crítica: Región de aceptación Región de rechazo
Valor crítico, t 3;0.052.353
En la tabla, el valor de t con 3 grados de libertad que tiene a su derecha un área igual a 5% es 2.353
Decisión: dado que tc = 3.656 > tT = 2.353 se rechaza la hipótesis nula.

Conclusión: Se concluye con un nivel de significancia del 5% que existe una relación lineal (positiva)
entre la las ventas y la inversión publicitaria.
CONTRASTE O PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN

POBLACIONAL, 
Ho:  = 0 = 0 No existe relación entre y y x

Ha:  > 0,  < 0,   0 Si existe relación entre y y x
(La hipótesis de que  = 0 es equivalente a B = 0. B = pendiente de la población)
Nivel de significación 
r  0
Estadística de la prueba: tc  con (n2) grados de libertad
Sr
1 r2
Sr  = error estándar de r
n2
Región de rechazo de acuerdo a la forma de la hipótesis alterna, Ha.
Decisión y conclusión en términos del problema.
Prueba de hipótesis para el coeficiente de correlación  entre las ventas y el gasto en publicidad:
Ho:  = 0 = 0 No existe relación entre las ventas y el gasto en publicidad.

Ha:  > 0 Si existe relación entre las ventas y el gasto en publicidad.
Nivel de significación  = 5%
r  0
Estadística de la prueba: tc  con n2 = 52 = 3 grados de libertad
Sr
1 r2 1  0.8166
Sr  = error estándar de r = = 0.24725
n2 5 2
0.9037  0
tc = = 3.655
0.24725
Para (n-2) = 3 grados de libertad, t3, 0.05 = 2.353.
Conclusiones: Como tc = 3.655 > tT = 2.353 se rechaza la hipótesis nula, concluyéndose al nivel del 5%
que si existe relación positiva entre las ventas y la inversión publicitaria.
SOLUCIÓN CON STAGRAPHICS
Regression Analysis  Linear model: y = a + bx
Dependent variable: Ventas

Independent variable: Inversión publicitaria
Parameter Estimate Estándar T PValue

Error Statistic
Intercept 0.1 0.635085  0.15745 0.8849

Slope 0.7 0.191485 3.65563 0.0354
Analysis of Variance
Source Sum of Squares Df Mean Square FRatio PValue

Model 4.9 1 4.90 13.35 0.0354
Residual 1.1 3 0.37
Total 6.0 4
Correlation Coefficient = 0.903696

Rsquared = 81.6667 percent
Estándar Error of Est. = 0.60553
The StatAdvisor
The output shows the results of fitting a linear model to describe the relationship between Ventas and Inversión publicitaria. The equation
of the fitted model is
Ventas = 0.1 + 0.7 * Inversión publicitaria
Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between Ventas and inversión
publicitaria the 95% confidence level.
The RSquared statistic indicates that the model as fitted explains 81.6667% of the variability in Ventas. The correlation coefficient
equals 0.903696, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard
deviation of the residuals to be 0.60553. This value can be used to construct prediction limits for new observations by selecting the
Forecasts optionfrom the text menu.
Ejemplo
temperaturas diferentes. Los datos se codificaron y registraron en el cuadro siguiente.
Azúcar transformada 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5
Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
Con base en la salida adjunta generada por el paquete Statgraphics:

a) Escriba la ecuación de regresión.
b) ¿Cómo se interpreta el valor de la pendiente en términos del problema?
c ) ¿Cuál es la cantidad promedio de azúcar refinada que se produce cuando la temperatura es 1.75?
a) ¿Cuál es el valor del coeficiente de determinación y como se interpreta en términos del problema?
Salida generada por el paquete Statgraphics
Regression Analysis - Linear model : y= a+bx
Dependent variable: Azucar

Independent variable : Temperatura
Standar T Prob.
Parameter Estimate error Value Level
Intercept 6.41364 0.924638 6.93638 0.00007

Slope 1.80909 0.603167 2.99932 0.01497
Correlation Coefficient = 0.707026

R- squared = 49.99 percent
Stnd. Error of Est. = 0.632607
Francisco Fernando Fernández

fguerra@eafit.edu.co

Regresion Lineal Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion Lineal Simple

Uploaded by

Copyright:

Available Formats

Estadística

ANÁLISIS DE REGRESIÓN CORRELACIÓN LINEAL

El análisis de regresión y correlación (Francis Galton-1877) es una herramienta estadística empleada

Modelos de regresión y correlación

 Simple: Cuando en el modelo sólo intervienen dos variables.

MODELOS DE REGRESIÓN Y CORRELACIÓN SIMPLE

Modelo general de regresión lineal

Y = A + B1X1 + B2X2 + B3X3 + … + BnXn + 

donde, Y = Variable dependiente o variable desconocida a explicar

Supuestos del análisis de regresión lineal

La distribución de probabilidades de  determina el grado en que el modelo de regresión describe la

1. La distribución de probabilidad de  es normal

MODELO DE REGRESIÓN LINEAL SIMPLE

 Recta de regresión para la población: Y = A + BX

dónde: ŷ = Valor pronosticado de la variable dependiente y para un valor dado de x.

ECUACIONES PARA ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO

Con los datos de la muestra se pueden estimar los parámetros A y B

Método de mínimos cuadrados: Método empleado en la obtención de a y b al minimizar la suma de

Objetivo: Minimizar SCE =  ( y  yˆ )   ( y  a  bx)

Datos sobre publicidad y ventas:

Cálculos preliminares para estimar la ecuación de regresión yˆ  a  bx

n xy   x  y  5  37  15  10 La línea de regresión por

Valores observados o reales y vs valores pronosticados

ERROR ESTÁNDAR DE LA ESTIMACIÓN.

El error estándar de la estimación de y dado un valor x, S y x , es la medida de la dispersión de los

COEFICIENTE DE CORRELACIÓN MUESTRAL, R

Es el coeficiente de regresión (pendiente de la recta) cuando las variables x y y se introducen en el

Es el cuadrado del coeficiente de correlación. Expresa el porcentaje o proporción de veces que la

INFERENCIAS ACERCA DEL MODELO

Intervalo de confianza del (1) para el valor medio de Y cuando x = xd

yˆ  0.1  0.7 x  0.1  0.7(3.5)  2.35 S yˆ = 0.6055  = 0.6055 0.225  0.2872

PRUEBA DE HIPÓTESIS PARA LA PENDIENTE B DE LA RECTA DE LA POBLACIÓN

 Plantear las hipótesis

H0: B = 0 = B0 No existe relación lineal entre las variable x y y

 Especificar el nivel de significación, 

 Determinar la región de rechazo de acuerdo a la hipótesis alternativa, Ha.

H0: B = 0 = B0 No existe relación lineal entre las ventas y la inversión publicitaria.

Región crítica: Región de aceptación Región de rechazo

Valor crítico, t 3;0.052.353

Decisión: dado que tc = 3.656 > tT = 2.353 se rechaza la hipótesis nula.

CONTRASTE O PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN

Ho:  = 0 = 0 No existe relación entre y y x

Región de rechazo de acuerdo a la forma de la hipótesis alterna, Ha.

Decisión y conclusión en términos del problema.

Ho:  = 0 = 0 No existe relación entre las ventas y el gasto en publicidad.

Para (n-2) = 3 grados de libertad, t3, 0.05 = 2.353.

SOLUCIÓN CON STAGRAPHICS

Regression Analysis  Linear model: y = a + bx

Dependent variable: Ventas

Parameter Estimate Estándar T PValue

Intercept 0.1 0.635085  0.15745 0.8849

Source Sum of Squares Df Mean Square FRatio PValue

Correlation Coefficient = 0.903696

Ventas = 0.1 + 0.7 * Inversión publicitaria

Con base en la salida adjunta generada por el paquete Statgraphics:

Salida generada por el paquete Statgraphics

Regression Analysis - Linear model : y= a+bx

Dependent variable: Azucar

Intercept 6.41364 0.924638 6.93638 0.00007

Correlation Coefficient = 0.707026

Francisco Fernando Fernández

You might also like