Professional Documents
Culture Documents
Licenciatura en Matemticas
Estadstica II
4 semestre
Clave:
05142421/06142421
1
Estadstica II
Unidad 2. Regresin lineal simple
ndice
Unidad 2. Regresin lineal simple 3
Presentacin de la unidad 3
Propsitos de la unidad 3
Competencia especfica 4
Cierre de la unidad 28
Para saber ms 28
Fuentes de consulta 28
2
Estadstica II
Unidad 2. Regresin lineal simple
Presentacin de la unidad
El anlisis de regresin es una tcnica estadstica que se utiliza para estudiar las relaciones de
dependencia entre variables.
La relacin entre los gastos en publicidad y las ventas de una empresa, el cambio en el nivel de
colesterol cuando una persona cambia sus hbitos alimenticios, y si esto sucede los cambios
observados tambin dependen de factores como: sexo, edad o cantidad de ejercicio que realiza
la persona?
Se puede observar que en el primer caso los gastos en publicidad implican un cambio en los
gastos en ventas.
En el segundo caso, cambiar los hbitos alimenticios implica un cambio en el nivel de colesterol.
El objetivo del anlisis de regresin ser entender cmo cambia a medida de que va
tomando cada uno de los valores posibles dentro de su rango.
Propsitos de la unidad
3
Estadstica II
Unidad 2. Regresin lineal simple
Competencia especfica
Competencia especfica
Describir cada uno de los valores que toma de forma exacta a partir de la relacin que x e y
tienen es muy difcil, poco prctico y poco realista. Sin embargo, si se ven las cosas en trminos
de distribuciones, es decir, si nuestro inters se centra en determinar cmo cambia la
distribucin de y a medida que x vara, las cosas cambian, entonces se puede utilizar la
esperanza condicional para explicar la relacin de dependencia que existe. sta se define de la
siguiente forma:
E(y|X = x)(2.1)
Supone que en promedio lo valores y al fijar X = x estn descritos por una recta. Formalmente
se escribe como:
(| = ) = 0 + 1 (2.2)
= 0 + 1 (2.3)
Ahora bien, aunque exista una relacin lineal los datos no caen exactamente sobre una recta ya
que existen causas externas que en ocasiones no se pueden medir por lo que se debe de tomar
en cuenta un error aleatorio ( ) que ser calculado como la diferencia entre el valor observado
y el valor de prediccin, es decir:
4
Estadstica II
Unidad 2. Regresin lineal simple
= (0 + 1 )(2.4)
= 0 + 1 + (2.3)
Ejemplo 1
5
Estadstica II
Unidad 2. Regresin lineal simple
En la Grfica 2.1.a se observa con claridad que hay una relacin lineal entre la variable e .
La Grafica 2.1.b (siguiente grfica) muestra la relacin lineal mediante una lnea recta.
Propsito
Se llama modelo lineal porque los parmetros estn linealizados. Por ejemplo:
= (2.4)
6
Estadstica II
Unidad 2. Regresin lineal simple
ln = ln + ln
Sea
= ln , 0 = ln y = ln
= 0 + 1
Ecuacin del
Nombre del modelo Transformacin Modelo Linealizado
Modelo
Exponencial = 0 1 = ln = = ln 0 1
Doblemente
= 0 1 = = ln = 0 + 1
Logartmico
Hiperblico = 0 1 = = 1 = 0 + 1
Inverso = 1(0 + 1 ) = 1 = = 0 + 1
Para predecir el valor de usando el modelo linealizado hay que aplicar la inversa de la
transformacin correspondiente al mismo.
7
Estadstica II
Unidad 2. Regresin lineal simple
Figura 2.2.a
Figura 2.2.b
8
Estadstica II
Unidad 2. Regresin lineal simple
Supngase que se tienen pares de datos, los cuales se obtuvieron de manera experimental,
1 (1 , 1 ), 2 (2 , 2 ), , ( , )(2.5)
= 0 + 1 + = 1,2, , (2.6)
= 0 + 1 = 1,2, , (2.7)
= (2.8)
9
Estadstica II
Unidad 2. Regresin lineal simple
Lo que se quiere es que la suma de los cuadrados de las diferencias entre las observaciones
e sea mnima. Como criterio de optimizacin se tomar aquel procedimiento de estimacin
que minimice la suma de cuadrados de los residuos:
2 2
() = = ( [0 + 1 ])
=1 =1
()
= 2 [0 + 1 ] = 0
0 =1
()
= 2 ( [0 + 1 ]) = 0
1 =1
0 + 1 =1 = =1 (2.9)
0 =1 + 1 =1 2 = =1 (2.10)
0 = 1 (2.11)
1 = =1
2 2
(2.10)
=
10
Estadstica II
Unidad 2. Regresin lineal simple
Ejemplo 1
Una empresa que genera energa elctrica est interesada en desarrollar un modelo que
relacione la demanda en horas pico ( , en kw) con el consumo mensual total de energa
durante el mes ( , en kwh). Los datos de 50 consumidores residenciales se muestran en la
tabla:
11
Estadstica II
Unidad 2. Regresin lineal simple
Se observa que los datos aparentemente siguen un comportamiento lineal por lo que se
procede a ajustar un modelo de regresin lineal simple por mnimos cuadrados.
50
745525.2(501911.146.532)
1 = 2)
= 0.002481
231523963(501911.14
= 1.789559 + 0.002481
La pendiente es positiva lo que dice que el consumo de energa afecta de manera positiva la
demanda de energa y por cada unidad de consumo de energa la demanda crece en 0.002481.
La siguiente figura muestra la grfica de dispersin junto con la recta de regresin ajustada por
mnimos cuadrados.
12
Estadstica II
Unidad 2. Regresin lineal simple
Supn que se quiere conocer la demanda de energa cuando el consumo fue de 2500 kwh
(0 ). Este dato no se encontraba con los datos originales, pero se puede utilizar la recta de
regresin y predecir la nueva observacin de que se denotar por
0
Por lo tanto con un consumo de energa de 2500 kwh se espera una demanda de 7.992050 kw.
~(0 + 1 , 2 )
2
1 ( 0 1 )2
(0 , 1 , , ) = { }
2 2 2 2
=1
De donde:
2 2 )/2
( 0 1 )2
(0 , 1 , , ) = (2 { }
2 2
=1
13
Estadstica II
Unidad 2. Regresin lineal simple
1
ln (0 , 1 , , ) = ln(2 2 )
2
( 0 1 )2
2 2 2
=1
Para encontrar los estimadores mximo verosmil se aplican las derivadas parciales a la funcin
ln (0 , 1 , 2 , ) y se obtiene:
ln
= ( 0 1 ) = 0
0
=1
0 + 1 =1 = =1 (2.11)
ln
= ( 0 1 ) = 0
1
=1
0 =1 + 1 =1 2 = =1 (2.12)
ln ( 0 1 )2
= =0
2 3
=1
Observe que las ecuaciones (2.11) y (2.12) coinciden con las ecuaciones normales. Por lo
tanto, los estimadores mximo verosmil y los estimadores de mnimos cuadrados son los
mismos.
2
2
=1( 0 1 )
=
2
=1( )2 =1 2
= =
14
Estadstica II
Unidad 2. Regresin lineal simple
2
=1 2 2
= ~ (2)
2
A la cantidad =1 2 se llama cuadrado medio residual (MSE).La raz cuadrada de 2 se
le conoce como: error estndar de la regresin y tiene las mismas unidades que la variable
de respuesta.
1 2
0 ~ (0 , 2 [ + ])
2
1 ~ (1 , )
Donde:
= ( )2
=1
2
~(0,1) y ~()
= ~ ()
15
Estadstica II
Unidad 2. Regresin lineal simple
0 0
= ~(0,1)
1 2
2 [ + ]
0 0
0 = 1 2
~2 (2.13)
[ + ]
1 2 1 2
(0 ,2 [ + ] 0 0 + ,2 [ + ])
2 2
(1 ,2 1 1 + ,2 )
2 Sxx 2 Sxx
( 2) ( 2)
( 2 )
2,2 2
1
,2
2 2
Ejemplo 1
Con los datos del consumo de energa de la seccin 2.3 se calculan los intervalos a 95% de
0 , 1 y 2 . Se tienen los siguientes resultados:
confianza para
16
Estadstica II
Unidad 2. Regresin lineal simple
2 2
Para el intervalo de 2 se necesita el cuantil 0.05 = 0.025,48 buscando en la tabla de la
,502
2
Ji-cuadrada se observa que no se encuentra el cuantil exacto con 48 grados de libertad, as que se
2 2
toma el cuantil ms prximo, en este caso es 0.025,40 = 59.342 y 0.975,40 = 24.433
48 4.47123589 48 4.47123589
2
59.342 24.433
3.616651326 2 8.7839939
sos son los intervalos a 95% de confianza, se observa que ninguno cruza por el 0, as que se
puede suponer que los estimadores son significativos para el modelo.
Es importante poder dar una referencia sobre la validez de las nuevas predicciones, es por ello
que un intervalo de confianza es de utilidad.
1 (0 )2 1 (0 )2
(0 ,2 [1 + + ] 0 0 + ,2 [1 + + ])
2 2
17
Estadstica II
Unidad 2. Regresin lineal simple
Ejemplo 1
Con los datos del consumo de energa de la seccin 2.3 se calcula el intervalo de confianza a
95% de confianza para la nueva observacin 0 = 7.992059 cuando 0 = 2500
El intervalo es de gran amplitud, debido a que el intervalo de prediccin depende tanto del error
del modelo ajustado como del error asociado con observaciones futuras.
Hiptesis
0 : 0 = 0 1 : 0 0
Estadstica de prueba
0 0
0 =
1 2
[ +
]
Regla de decisin
Hiptesis:
0 : 1 = 0 1 : 1 0
Estadstica de prueba
1 1
0 =
S
xx
18
Estadstica II
Unidad 2. Regresin lineal simple
Regla de decisin
Figura 2.6a
Ejemplo 1
Con los datos del consumo de energa de la seccin 2.3 se prueban las hiptesis de los
parmetros con un nivel de significancia = 0.05.
Hiptesis
0 : 0 = 0 1 : 0 0
Estadstica de prueba
1.789559 0
0 = = 2.7503
1 3 652,456.1
4.47123589 [ + ]
50 48 901,158
19
Estadstica II
Unidad 2. Regresin lineal simple
Regla de decisin
Rechaza 0 si |0 | > 0.025,48 . Como 2.7503 > 2.0106 se rechaza 0 y por lo tanto 0 es
significativo para el modelo.
Hiptesis:
0 : 1 = 0 1 : 1 0
Estadstica de prueba
0.002481 0
0 = = 6649
4.47123589
48 901,158
Regla de decisin
Rechaza 0 si |0 | > 0.025,48 . Como 6649 > 2.0106 se rechaza 0 y por lo tanto 1 es
significativo para el modelo.
20
Estadstica II
Unidad 2. Regresin lineal simple
= +
0 : 1 = 0 1 : 1 0
1
0 = =
( 2)
Cuando las sumas de cuadrados se dividen entre sus grados de libertad se obtienen y
, cuadrado medio de la regresin y cuadrado medio del error respectivamente.
0 > 1,1,2
Ejemplo 1
21
Estadstica II
Unidad 2. Regresin lineal simple
Hiptesis
0 : 1 = 0 1 : 1 0
Regla de decisin:
Se debe buscar en tablas el cuantil de una 0.95,1,48 , como no se encuentra, se busca con
los grados de libertad ms prximos
0.95,1,50 = 4.034
Dado que 67.3201613 > 4.034 se rechaza 0 , por lo tanto existe evidencia estadstica para
suponer que 1 0.
Propsitos.
La cantidad
2 = 1
22
Estadstica II
Unidad 2. Regresin lineal simple
El estadstico 2 se debe usar con precaucin, porque siempre es posible conseguir que 2
sea grande agregando trminos suficientes al modelo. Por ejemplo, si no hay puntos repetidos
(ms de un valor de con el mismo valor de ), un polinomio de grado 1 producir un
2
puntos de datos. Cuando hay puntos repetidos, 2
ajuste perfecto, con = 1, de los
nunca puede ser exactamente igual a1, porque el modelo no puede explicar la variabilidad
relacionada con el error puro.
Ejemplo 1
214.619323
2 = 1 = 0.5838599
515.7382
23
Estadstica II
Unidad 2. Regresin lineal simple
Es importante hacer un chequeo de estos supuestos para que los resultados tengan validez
estadstica. No se verifica el supuesto ( ) = 0, porque por construccin =1
= 0.
Varianza constante
Para verificar este supuesto se construye una grfica de los residuos en funcin de los
valores correspondientes y . Si la grfica se parece a la de la figura 2.9a, indica que los
residuos se pueden encerrar en una banda horizontal, entonces no hay defectos obvios del
modelo. Las grficas de en funcin de y que se parezcan a cualquiera de los patrones de
las partes 2.90b a 2.9d son sntomas de deficiencias del modelo.
Figura 2.9
24
Estadstica II
Unidad 2. Regresin lineal simple
Residuos no correlacionados
Para poder observar si los residuos son no correlacionados se realiza una grfica de los
residuos en secuencia temporal para tener una idea si los errores en un perodo se
correlacionan con los de otros perodos. Si este supuesto no se cumple, los estimadores
pierden la eficiencia, tambin existe la posibilidad de que se sobre-estime el 2 y de que las
pruebas y dejen de ser validas, si se aplica, es probable que conduzcan a conclusiones
errneas. Se debe tener cuidado al realizar este tipo de grficas ya que cuando las
observaciones tienen cierto orden en particular, por ejemplo, si los datos fueron tomados en el
tiempo, si esto ocurre, entonces se pueden obtener grficas diferentes para diferentes rdenes.
La correlacin entre los errores del modelo en distintos perodos se llama autocorrelacin. Una
grfica como la figura a) indica una correlacin de los residuos, mientras que la figura b)
muestra no correlacin de los mismos, esto ltimo es lo que se desea.
Ejemplo 1
Para los datos del consumo de energa. Se procede hacer un anlisis grfico
Grficamente la distribucin de los residuos no aparenta ser la de una normal, pero se observa
25
Estadstica II
Unidad 2. Regresin lineal simple
En la grfica de tiempo con los residuos no se observa ningn patrn. Se considera que los
residuos no se encuentran correlacionados.
26
Estadstica II
Unidad 2. Regresin lineal simple
Propsito
Debes tener cuidado al realizar una transformacin, puedes lograr el mejor modelo
matemticamente, pero no obtener una buena interpretacin acerca de la relacin entre e .
2
= 1 (se utiliza cuando los datos
()[1 ()]
provienen de una binomial 0 1)
2 [()]2 = ln
2 [()]3 = 12
2 [()]4 = 1
27
Estadstica II
Unidad 2. Regresin lineal simple
Propsito
Aplicar los conocimientos adquiridos durante la unidad, empleando los mtodos de regresin
lineal.
Cierre de la unidad
Durante la unidad 2 has aprendido como relacionar mediante un modelo matemtico dos
variables que estn correlacionadas. Adems el modelo de regresin lineal simple tiene
propiedades estadsticas deseables ya que al estimar los parmetros mediante el mtodo de
mnimos cuadrados se obtienen aquellos estimadores que son los de mnima varianza, es decir,
los mejores estimadores. Si a esto se le aade el supuesto distribucional de normalidad se
puede hacer inferencia sobre los estimadores y sobre observaciones futuras, pues el plus de
ajustar un modelo matemtico es que se pueda predecir nuevos datos.
Para saber ms
Te sugiero la siguiente liga donde encontrars los cdigos en R para ajustar un modelo de
regresin lineal.
Fuentes de consulta
Neter, J., Wasserman, W. y Kunter, M.H. (1990) Applied Linear Statistical Models (3a ed.).
Boston: Irwin.
28