You are on page 1of 28

Estadstica II

Unidad 2. Regresin lineal simple

Licenciatura en Matemticas

Estadstica II

4 semestre

Unidad 2. Regresin lineal simple

Clave:
05142421/06142421

Universidad Abierta y a Distancia de Mxico

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

1
Estadstica II
Unidad 2. Regresin lineal simple

ndice
Unidad 2. Regresin lineal simple 3

Presentacin de la unidad 3

Propsitos de la unidad 3

Competencia especfica 4

2.1. Planteamiento del problema 4

Actividad 1. Conceptos bsicos 6

2.2. Supuestos del modelo 6

2.3. Estimacin de los parmetros 9

2.3.1. Estimacin por mnimos cuadrados ................................................................................................ 9

2.3.2. Teorema de Gauss Markov ............................................................................................................ 13

2.3.3. Mxima Verosimilitud ................................................................................................................... 13

2.4. Intervalos de confianza 15

2.5. Intervalo de prediccin 17

2.6. Pruebas de hiptesis 18

2.7. Anlisis de varianza 20

Actividad 2. Ajuste de una regresin lineal simple 22

2.8. Coeficiente de determinacin 22

2.9. Anlisis de residuales 23

Actividad 3. Comprobacin de supuestos en el anlisis de regresin lineal simple 27

2.10. Transformaciones estabilizadoras de varianza 27

Evidencia de aprendizaje. Ajuste de un anlisis de regresin lineal 27

Autorreflexiones Error! Marcador no de

Cierre de la unidad 28

Para saber ms 28

Fuentes de consulta 28

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

2
Estadstica II
Unidad 2. Regresin lineal simple

Unidad 2. Regresin lineal simple

Presentacin de la unidad

El anlisis de regresin es una tcnica estadstica que se utiliza para estudiar las relaciones de
dependencia entre variables.

Se puede usar la regresin para responder a preguntas como:

La relacin entre los gastos en publicidad y las ventas de una empresa, el cambio en el nivel de
colesterol cuando una persona cambia sus hbitos alimenticios, y si esto sucede los cambios
observados tambin dependen de factores como: sexo, edad o cantidad de ejercicio que realiza
la persona?

Se puede observar que en el primer caso los gastos en publicidad implican un cambio en los
gastos en ventas.

En el segundo caso, cambiar los hbitos alimenticios implica un cambio en el nivel de colesterol.

Se observa que hay dos tipos de variables:

: La variable independiente, predictora o regresora


: la variable dependiente o variable respuesta

El objetivo del anlisis de regresin ser entender cmo cambia a medida de que va
tomando cada uno de los valores posibles dentro de su rango.

Propsitos de la unidad

Mediante el estudio de esta unidad podrs:

Diferenciar entre una variable dependiente y una


variable independiente.

Construir una recta de regresin lineal simple.

Comprobar los supuestos del modelo de regresin


lineal simple.
Propsitos de la unidad

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

3
Estadstica II
Unidad 2. Regresin lineal simple

Competencia especfica

Ajustar modelos de dos variables correlacionadas para


predecir resultados de una poblacin mediante el anlisis de
regresin lineal simple

Competencia especfica

2.1. Planteamiento del problema

Describir cada uno de los valores que toma de forma exacta a partir de la relacin que x e y
tienen es muy difcil, poco prctico y poco realista. Sin embargo, si se ven las cosas en trminos
de distribuciones, es decir, si nuestro inters se centra en determinar cmo cambia la
distribucin de y a medida que x vara, las cosas cambian, entonces se puede utilizar la
esperanza condicional para explicar la relacin de dependencia que existe. sta se define de la
siguiente forma:

E(y|X = x)(2.1)

La ecuacin 2.1 se lee como: El promedio de los valores de y al fijar X = x

Supone que en promedio lo valores y al fijar X = x estn descritos por una recta. Formalmente
se escribe como:

(| = ) = 0 + 1 (2.2)

Donde 0 es la ordenada al origen y 1 es la pendiente de la recta. Se acostumbra a escribir la


ecuacin (2.2) nicamente como:

= 0 + 1 (2.3)

Ahora bien, aunque exista una relacin lineal los datos no caen exactamente sobre una recta ya
que existen causas externas que en ocasiones no se pueden medir por lo que se debe de tomar
en cuenta un error aleatorio ( ) que ser calculado como la diferencia entre el valor observado
y el valor de prediccin, es decir:

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

4
Estadstica II
Unidad 2. Regresin lineal simple

= (0 + 1 )(2.4)

Se supone que los errores tienen () = 0 y () = 2 desconocida, adems se suele


suponer que los errores no estn correlacionados o que tienen alguna distribucin simtrica, por
ejemplo, Normal. As un modelo ms plausible para los datos es:

= 0 + 1 + (2.3)

La ecuacin (2.3) se le llama Modelo de Regresin Lineal Simple. A los parmetros. 0 y 1


se suele llamar coeficientes de regresin. La pendiente 1 representa el cambio en la media
de la distribucin de producido por un cambio unitario en . Si el rango de valores incluye a
= 0, entonces la ordenada al origen 0, es la media de la distribucin de la respuesta
cuando = 0 y en este caso no tiene interpretacin.

Ejemplo 1

Un mdico registra los niveles de colesterol de 25 pacientes despus de un cambio en su


dieta. El mdico cree que el nivel de colesterol se relaciona con la dieta ingerida por los
pacientes, en particular con la cantidad de caloras que se ingieren diariamente. Las 25
observaciones se representan en una grfica llamada Diagrama de dispersin y tiene como
objetivo identificar la relacin entre el nivel de colesterol y la cantidad de caloras ingeridas.

Grfica 2.1.a Diagrama de dispersin

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

5
Estadstica II
Unidad 2. Regresin lineal simple

En la Grfica 2.1.a se observa con claridad que hay una relacin lineal entre la variable e .
La Grafica 2.1.b (siguiente grfica) muestra la relacin lineal mediante una lnea recta.

Grfica 2.1.b Relacin lineal mediante una lnea recta

Se puede ajustar el modelo: = 0 + 1

Con la variable regresora como la cantidad de caloras ingeridas en un da y la variable


regresora el nivel de colesterol del paciente.

Actividad 1. Conceptos bsicos

Propsito

Identificar las caractersticas principales de un modelo de regresin lineal, a travs de la


siguiente pregunta que responders dentro del foro.

2.2. Supuestos del modelo

Se llama modelo lineal porque los parmetros estn linealizados. Por ejemplo:

= (2.4)

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

6
Estadstica II
Unidad 2. Regresin lineal simple

No es lineal en los parmetros ya que es un exponente. En este caso se puede aplicar un


logaritmo y construir un modelo lineal

ln = ln + ln
Sea

= ln , 0 = ln y = ln

Entonces se tiene un nuevo modelo lineal:

= 0 + 1

al que ya se le puede aplicar un ajuste de regresin lineal.

Algunas transformaciones comunes para linealizar los parmetros son:

Ecuacin del
Nombre del modelo Transformacin Modelo Linealizado
Modelo

Exponencial = 0 1 = ln = = ln 0 1
Doblemente
= 0 1 = = ln = 0 + 1
Logartmico
Hiperblico = 0 1 = = 1 = 0 + 1
Inverso = 1(0 + 1 ) = 1 = = 0 + 1

Para predecir el valor de usando el modelo linealizado hay que aplicar la inversa de la
transformacin correspondiente al mismo.

De modo que el modelo no necesariamente es lineal en , de hecho, la variable regresora


puede ser cualquier transformacin como (). En la figura 2.2.a la variable s es
lineal con respecto a , aunque se pueden obtener comportamientos no lineales como el de la
figura 2.2.b donde la variable ln no es lineal con respecto a , pero los parmetros 0 y 1 lo
son.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

7
Estadstica II
Unidad 2. Regresin lineal simple

Figura 2.2.a

Figura 2.2.b

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

8
Estadstica II
Unidad 2. Regresin lineal simple

2.3. Estimacin de los parmetros

2.3.1. Estimacin por mnimos cuadrados

Supngase que se tienen pares de datos, los cuales se obtuvieron de manera experimental,

1 (1 , 1 ), 2 (2 , 2 ), , ( , )(2.5)

Donde la variable es una funcin de . Un examen de los puntos (2.5) en el plano


sugiere una relacin lineal por lo que se contar con los estimadores 0 y 1 . El valor de la
variable puede expresarse como:

= 0 + 1 + = 1,2, , (2.6)

Se considera que la ecuacin (2.3) es un modelo poblacional de regresin, mientras que la


ecuacin (2.5) es un modelo muestral de regresin, escrito en trminos de los pares de
datos ( , ). Los parmetros 0 y 1 son desconocidos y lineales y deben estimarse con los
datos de la muestra. De acuerdo con el modelo (2.6) un estimador de tendra la siguiente
expresin:

= 0 + 1 = 1,2, , (2.7)

A partir de (2.6) y (2.7) es posible concluir que:

= (2.8)

Donde es un estimador del error y se denomina residuo. Geomtricamente mide la


distancia vertical desde el punto ( , ) a la recta ajustada
como se muestra en la figura
2.3.

Figura 2.3.a Ilustracin de los residuales

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

9
Estadstica II
Unidad 2. Regresin lineal simple

Lo que se quiere es que la suma de los cuadrados de las diferencias entre las observaciones
e sea mnima. Como criterio de optimizacin se tomar aquel procedimiento de estimacin
que minimice la suma de cuadrados de los residuos:


2 2
() = = ( [0 + 1 ])
=1 =1

A () se le conoce como la suma de cuadrados de los errores y al procedimiento como el


Principio de Mnimos Cuadrados.

Para lograr la minimizacin de () se toma el criterio de la primera derivada. Los


estimadores por mnimos cuadrados deben satisfacer:


()
= 2 [0 + 1 ] = 0
0 =1


()
= 2 ( [0 + 1 ]) = 0
1 =1

Simplificando se obtienen las ecuaciones normales de mnimos cuadrados:

0 + 1 =1 = =1 (2.9)

0 =1 + 1 =1 2 = =1 (2.10)

Despejando se obtiene que los estimadores por mnimos cuadrados son:

0 = 1 (2.11)



1 = =1
2 2
(2.10)
=

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

10
Estadstica II
Unidad 2. Regresin lineal simple

Ejemplo 1

Una empresa que genera energa elctrica est interesada en desarrollar un modelo que
relacione la demanda en horas pico ( , en kw) con el consumo mensual total de energa
durante el mes ( , en kwh). Los datos de 50 consumidores residenciales se muestran en la
tabla:

Cliente x y Cliente x y Cliente x y


1 802 5.91 18 3308 8.35 35 1304 6.72
2 888 7.00 19 1263 3.90 36 2614 11.30
3 1865 8.10 20 2183 7.89 37 1551 2.70
4 3510 11.53 21 1450 4.10 38 1775 3.64
5 1338 2.00 22 3515 8.67 39 1248 4.73
6 1054 9.36 23 474 3.14 40 3454 9.50
7 392 1.88 24 1623 3.29 41 3396 11.35
8 2126 6.36 25 1048 3.50 42 1322 6.85
9 1659 3.70 26 3352 6.56 43 3547 12.23
10 457 3.56 27 3252 9.45 44 1711 5.21
11 3035 10.67 28 1874 5.71 45 1588 3.25
12 1764 5.28 29 652 4.12 46 1216 4.43
13 2105 7.43 30 2499 5.00 47 3430 13.29
14 2972 7.98 31 2178 4.78 48 1741 9.33
15 1021 5.00 32 2758 8.33 49 3096 14.94
16 1466 4.20 33 3026 10.00 50 457 0.99
17 807 6.88 34 391 2.51

El grfico de dispersin se muestra a continuacin:

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

11
Estadstica II
Unidad 2. Regresin lineal simple

Se observa que los datos aparentemente siguen un comportamiento lineal por lo que se
procede a ajustar un modelo de regresin lineal simple por mnimos cuadrados.

Para estimar los parmetros del modelo se calculan primero:

50

= 1911.14, = 6.532, = 745525.2, 2 = 231523963


=1 =1

Segn las ecuaciones (2.11) y (2.10)

745525.2(501911.146.532)
1 = 2)
= 0.002481
231523963(501911.14

0 = 6.532 (0.002481 1911.14) = 1.789559

El ajuste por mnimos cuadrados es:

= 1.789559 + 0.002481

La pendiente es positiva lo que dice que el consumo de energa afecta de manera positiva la
demanda de energa y por cada unidad de consumo de energa la demanda crece en 0.002481.

La siguiente figura muestra la grfica de dispersin junto con la recta de regresin ajustada por
mnimos cuadrados.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

12
Estadstica II
Unidad 2. Regresin lineal simple

Supn que se quiere conocer la demanda de energa cuando el consumo fue de 2500 kwh
(0 ). Este dato no se encontraba con los datos originales, pero se puede utilizar la recta de
regresin y predecir la nueva observacin de que se denotar por
0

0 = 1.789559 + 0.002481 2500


0 = 7.992059

Por lo tanto con un consumo de energa de 2500 kwh se espera una demanda de 7.992050 kw.

2.3.2. Teorema de Gauss Markov

Un resultado importante acerca de la calidad de los estimadores por mnimo cuadrados 0 y 1


es el Teorema de Gauss Markov, que establece que para el modelo de regresin lineal (2.6)
con las hiptesis () = 0 y () = 2 y con errores no correlacionados, los estimadores por
mnimos cuadrados son insesgados y tienen varianza mnima en comparacin con todos los
dems estimadores insesgados que sean combinaciones lineales de las .

2.3.3. Mxima Verosimilitud

Bajo la hiptesis de que ~(0, 2 ) se tiene que = 0 + 1 + tambin tiene


distribucin normal

~(0 + 1 , 2 )

La funcin de verosimilitud para es la siguiente:


2
1 ( 0 1 )2
(0 , 1 , , ) = { }
2 2 2 2
=1

De donde:

2 2 )/2
( 0 1 )2
(0 , 1 , , ) = (2 { }
2 2
=1

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

13
Estadstica II
Unidad 2. Regresin lineal simple

Aplicando la funcin logaritmo se tiene:


1
ln (0 , 1 , , ) = ln(2 2 )
2
( 0 1 )2
2 2 2
=1

Para encontrar los estimadores mximo verosmil se aplican las derivadas parciales a la funcin
ln (0 , 1 , 2 , ) y se obtiene:


ln
= ( 0 1 ) = 0
0
=1

0 + 1 =1 = =1 (2.11)


ln
= ( 0 1 ) = 0
1
=1

0 =1 + 1 =1 2 = =1 (2.12)

ln ( 0 1 )2
= =0
2 3
=1

Observe que las ecuaciones (2.11) y (2.12) coinciden con las ecuaciones normales. Por lo
tanto, los estimadores mximo verosmil y los estimadores de mnimos cuadrados son los
mismos.

La varianza del error, 2 , es un parmetro adicional desconocido, cuyo estimador mximo


verosmil es:

2
2
=1( 0 1 )
=

2
=1( )2 =1 2
= =

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

14
Estadstica II
Unidad 2. Regresin lineal simple

Este estimador no es insesgado. Sin embargo, es posible construir un estimado insesgado


como:

2
=1 2 2
= ~ (2)
2


A la cantidad =1 2 se llama cuadrado medio residual (MSE).La raz cuadrada de 2 se
le conoce como: error estndar de la regresin y tiene las mismas unidades que la variable
de respuesta.

2.4. Intervalos de confianza

Como los estimadores 0 y 1 pueden expresarse como combinaciones lineales de variables


normales, entonces se concluye que ambos tambin se distribuyen normalmente:

1 2
0 ~ (0 , 2 [ + ])

2
1 ~ (1 , )

Donde:

= ( )2
=1

Recuerda que si se tienen dos variables aleatorias y independientes tal que:

2
~(0,1) y ~()

Entonces la estadstica se distribuye con grados de libertad


= ~ ()


Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

15
Estadstica II
Unidad 2. Regresin lineal simple

Regresando a nuestro tema la estadstica

0 0
= ~(0,1)
1 2
2 [ + ]

En la mayora de las situaciones 2 es un parmetro desconocido. Si se sustituye por su


estimador insesgado, se obtiene:

0 0

0 = 1 2

~2 (2.13)
[ + ]

Con lo que se procede a obtener un intervalo del 1 % para 0 :

1 2 1 2
(0 ,2 [ + ] 0 0 + ,2 [ + ])
2 2

El cuantil de una distribucin t Student lo puedes encontrar en la pestaa Material de apoyo.

De la misma manera se construye un intervalo para la pendiente 1 al 1 % como:


(1 ,2 1 1 + ,2 )
2 Sxx 2 Sxx

Y un intervalo del 1 % de confianza para 2 es:

( 2) ( 2)
( 2 )
2,2 2
1
,2
2 2

Ejemplo 1

Con los datos del consumo de energa de la seccin 2.3 se calculan los intervalos a 95% de
0 , 1 y 2 . Se tienen los siguientes resultados:
confianza para

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

16
Estadstica II
Unidad 2. Regresin lineal simple

x 2 = 3 652,456.1 Sxx = 48 901,158 ni=1(yi yi )2 = 214.619323 MSE = 4.47123589

0.05,502 = 0.025,48 = 2.0106


2
Procedimiento

1.789559 2.0106 0.6506796 0 1.789559 + 2.0106 0.6506796


0.481302595 0 4.698900986

0.002481 2.0106 0.000302381 1 0.002481 + 2.0106 0.000302381


0.001873033 1 0.003088967

2 2
Para el intervalo de 2 se necesita el cuantil 0.05 = 0.025,48 buscando en la tabla de la
,502
2
Ji-cuadrada se observa que no se encuentra el cuantil exacto con 48 grados de libertad, as que se
2 2
toma el cuantil ms prximo, en este caso es 0.025,40 = 59.342 y 0.975,40 = 24.433

48 4.47123589 48 4.47123589
2
59.342 24.433

3.616651326 2 8.7839939

sos son los intervalos a 95% de confianza, se observa que ninguno cruza por el 0, as que se
puede suponer que los estimadores son significativos para el modelo.

2.5. Intervalo de prediccin

Es importante poder dar una referencia sobre la validez de las nuevas predicciones, es por ello
que un intervalo de confianza es de utilidad.

Un intervalo del 1 % de confianza es:

1 (0 )2 1 (0 )2
(0 ,2 [1 + + ] 0 0 + ,2 [1 + + ])
2 2

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

17
Estadstica II
Unidad 2. Regresin lineal simple

Ejemplo 1

Con los datos del consumo de energa de la seccin 2.3 se calcula el intervalo de confianza a
95% de confianza para la nueva observacin 0 = 7.992059 cuando 0 = 2500

7.992059 2.0106 2.1429806 0 7.992059 + 2.0106 2.1429806


3.683382154 0 12.30073585

El intervalo es de gran amplitud, debido a que el intervalo de prediccin depende tanto del error
del modelo ajustado como del error asociado con observaciones futuras.

2.6. Pruebas de hiptesis

Las mismas estadsticas (2.13) permiten probar hiptesis relativas a 0 de la forma:

Hiptesis

0 : 0 = 0 1 : 0 0

Estadstica de prueba

0 0
0 =
1 2
[ +
]
Regla de decisin

Rechaza 0 si |0 | > 2,2 . En caso de que 0 no se rechace, significa que el parmetro


0 no es significativo para el modelo, en tal caso, se puede omitir.

Al proceder con 1 como se hizo con 0 se tiene un resultado semejante:

Hiptesis:

0 : 1 = 0 1 : 1 0

Estadstica de prueba

1 1
0 =

S
xx

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

18
Estadstica II
Unidad 2. Regresin lineal simple

Regla de decisin

Rechaza 0 si |0 | > 2,2 . Esta hiptesis se relaciona con la significancia de la


regresin. Existe correlacin entre e en caso de no rechazar 0 . En cambio, no hay
correlacin entre la variable regresora y respuesta si 0 no se rechaza. Entonces, el mejor
estimador para cualquier es
la relacin no es lineal. Por lo tanto, sino se rechaza 0 ,
equivale a decir que no hay relacin lineal entre e . Vase la figura 2.6a

Figura 2.6a

Ejemplo 1

Con los datos del consumo de energa de la seccin 2.3 se prueban las hiptesis de los
parmetros con un nivel de significancia = 0.05.

Hiptesis
0 : 0 = 0 1 : 0 0

Estadstica de prueba

1.789559 0
0 = = 2.7503
1 3 652,456.1
4.47123589 [ + ]
50 48 901,158

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

19
Estadstica II
Unidad 2. Regresin lineal simple

Regla de decisin

Rechaza 0 si |0 | > 0.025,48 . Como 2.7503 > 2.0106 se rechaza 0 y por lo tanto 0 es
significativo para el modelo.

Ahora se prueba la significancia de la regresin

Hiptesis:

0 : 1 = 0 1 : 1 0

Estadstica de prueba

0.002481 0
0 = = 6649
4.47123589
48 901,158

Regla de decisin

Rechaza 0 si |0 | > 0.025,48 . Como 6649 > 2.0106 se rechaza 0 y por lo tanto 1 es
significativo para el modelo.

2.7. Anlisis de varianza

Otra forma de comprobar la significancia de la regresin es mediante un anlisis de varianza


que se basa en la particin de la variable respuesta. Se tiene que:

=1( )2 = =1( )2 + =1( )2 (2.14)


Donde:

=1( )2 Es la suma de cuadrados del total. Mide la variabilidad total en las


observaciones ()

=1( )2 Es la suma de cuadrados de la regresin () y mide la variabilidad


explicada por la lnea de regresin

=1( )2 Es la suma de cuadrados del error () y es la cantidad que queda sin


explicar por la lnea de regresin

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

20
Estadstica II
Unidad 2. Regresin lineal simple

De manera simblica se escribe la ecuacin (2.14) como:

= +

Para probar la significancia de la regresin, es decir, la hiptesis:

0 : 1 = 0 1 : 1 0

Se utiliza el estadstico de prueba

1
0 = =
( 2)

La estadstica 0 se expresa como el cociente de la suma de cuadrados explicada entre la


suma de cuadrados no explicada divididas a su vez entre sus respectivos grados de libertad
(1, 2) y tiene una distribucin 1,2 , que es una distribucin con 1 y 2 grados de
libertad. La tabla de los cuantiles puedes encontrarla en la seccin Material de apoyo.

Cuando las sumas de cuadrados se dividen entre sus grados de libertad se obtienen y
, cuadrado medio de la regresin y cuadrado medio del error respectivamente.

Los valores se presentan desagregados en una tabla de Anlisis de Varianza (ANOVA)

Tabla de Anlisis de varianza


Fuente de Suma de Grados de Cuadrado

variacin cuadrados libertad medio
Regresin 1 /
Error 2
Total 1

Se rechaza 0 a nivel de significancia si:

0 > 1,1,2

Ejemplo 1

Se probar la significancia de la regresin al nivel de significancia = 0.05 para el ejemplo


del consumo de energa de la seccin 2.3.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

21
Estadstica II
Unidad 2. Regresin lineal simple

Tabla de Anlisis de varianza


Fuente de Suma de Grados de Cuadrado

variacin cuadrados libertad medio
Regresin 301.00432 1 301.00432 67.3201613
Error 214.619323 48 4.471235895
Total 515.7382 49

Hiptesis

0 : 1 = 0 1 : 1 0

Regla de decisin:

Se debe buscar en tablas el cuantil de una 0.95,1,48 , como no se encuentra, se busca con
los grados de libertad ms prximos

0.95,1,50 = 4.034

Dado que 67.3201613 > 4.034 se rechaza 0 , por lo tanto existe evidencia estadstica para
suponer que 1 0.

Actividad 2. Ajuste de una regresin lineal simple

Propsitos.

Resolver un problema de regresin lineal simple, as como construir su grfica, ajustarla


mediante mnimos cuadrados, calcular el estadstico, construir tablas de anlisis de varianza
y prueba.

2.8. Coeficiente de determinacin

La cantidad


2 = 1

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

22
Estadstica II
Unidad 2. Regresin lineal simple

se llama coeficiente de determinacin. Como es una medida de variabilidad de sin


considerar el efecto de la variable regresora y es una media de la variabilidad de que
queda despus de haber tenido en consideracin a , 2 se llama con frecuencia, la
proporcin de la variacin explicada por el regresor .

Ya que 0 , entonces la estadstica tiene un rango de 0 2 1 . Los valores


cercanos a 1 implican que la mayor parte de la variabilidad de est explicada por el modelo
de regresin, esto es lo deseable cuando se ajusta un modelo de regresin.

El estadstico 2 se debe usar con precaucin, porque siempre es posible conseguir que 2
sea grande agregando trminos suficientes al modelo. Por ejemplo, si no hay puntos repetidos
(ms de un valor de con el mismo valor de ), un polinomio de grado 1 producir un
2
puntos de datos. Cuando hay puntos repetidos, 2
ajuste perfecto, con = 1, de los
nunca puede ser exactamente igual a1, porque el modelo no puede explicar la variabilidad
relacionada con el error puro.

Ejemplo 1

Nuevamente se toman los resultados de la seccin 2.3 se tiene:

214.619323
2 = 1 = 0.5838599
515.7382

Por lo tanto la variabilidad explicada por el modelo es de 58.39%. En realidad, el ajuste no es


muy bueno, se ha visto en las secciones anteriores que se acepta la significancia de la
regresin, es decir, 1 0, as que la demanda de energa es explicada por el consumo
mensual. Es posible que existan otras variables que estn afectando el consumo, que no se
mida y por eso no se est explicando una mayor variabilidad.

2.9. Anlisis de residuales

Para lograr hacer inferencia en el anlisis de regresin (intervalos de confianza, prueba de


hiptesis, ANOVA) se ha necesitado el supuesto distribucional y ste se consigue del hecho de
que los errores () tienen una distribucin normal con media 0 y varianza constante 2 y no
estn correlacionados entre ellos.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

23
Estadstica II
Unidad 2. Regresin lineal simple

Es importante hacer un chequeo de estos supuestos para que los resultados tengan validez

estadstica. No se verifica el supuesto ( ) = 0, porque por construccin =1
= 0.

Los errores () tienen una distribucin normal

Pequeas desviaciones respecto a la hiptesis de normalidad no afectan mucho al modelo,


pero una no normalidad grande es potencialmente ms seria, porque la inferencia estadstica a
travs de los estadsticos y los intervalos de confianza y de prediccin dependen del
supuesto de normalidad. Un mtodo sencillo para comprobar el supuesto es observar un
histograma de los residuos y esperar a que tome la forma de una campana. Tambin existen las
pruebas no paramtricas como la Kolmogorov-Smirnov, la prueba Ji-cuadrada de bondad y
ajuste y la prueba Anderson-Darling que se estudiaron en la unidad 1.

Varianza constante

Este supuesto se conoce como homocedasticidad y es el hecho de que la dispersin de la


desviacin estndar de los errores es la misma no importando que la curva crezca. Si este
supuesto no se cumple entonces los estimadores dejan de ser de varianza mnima entre todos
los estimadores lineales, que es lo que garantiza el Teorema de Gauss-Markov.

Para verificar este supuesto se construye una grfica de los residuos en funcin de los
valores correspondientes y . Si la grfica se parece a la de la figura 2.9a, indica que los
residuos se pueden encerrar en una banda horizontal, entonces no hay defectos obvios del
modelo. Las grficas de en funcin de y que se parezcan a cualquiera de los patrones de
las partes 2.90b a 2.9d son sntomas de deficiencias del modelo.

Figura 2.9

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

24
Estadstica II
Unidad 2. Regresin lineal simple

Residuos no correlacionados

Para poder observar si los residuos son no correlacionados se realiza una grfica de los
residuos en secuencia temporal para tener una idea si los errores en un perodo se
correlacionan con los de otros perodos. Si este supuesto no se cumple, los estimadores
pierden la eficiencia, tambin existe la posibilidad de que se sobre-estime el 2 y de que las
pruebas y dejen de ser validas, si se aplica, es probable que conduzcan a conclusiones
errneas. Se debe tener cuidado al realizar este tipo de grficas ya que cuando las
observaciones tienen cierto orden en particular, por ejemplo, si los datos fueron tomados en el
tiempo, si esto ocurre, entonces se pueden obtener grficas diferentes para diferentes rdenes.

La correlacin entre los errores del modelo en distintos perodos se llama autocorrelacin. Una
grfica como la figura a) indica una correlacin de los residuos, mientras que la figura b)
muestra no correlacin de los mismos, esto ltimo es lo que se desea.

Ejemplo 1

Para los datos del consumo de energa. Se procede hacer un anlisis grfico

Grficamente la distribucin de los residuos no aparenta ser la de una normal, pero se observa

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

25
Estadstica II
Unidad 2. Regresin lineal simple

centrada alrededor del cero.

No se observa un patrn de los


en funcin de y . Por lo que se considera que no se viola el
supuesto de varianza constante.

En la grfica de tiempo con los residuos no se observa ningn patrn. Se considera que los
residuos no se encuentran correlacionados.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

26
Estadstica II
Unidad 2. Regresin lineal simple

Actividad 3. Comprobacin de supuestos en el anlisis de regresin lineal


simple

Propsito

Comprobar supuestos en el anlisis de regresin lineal simple.

2.10. Transformaciones estabilizadoras de varianza

El supuesto de varianza constante es el ms difcil de conseguir. En estos casos es til realizar


transformaciones ya sea a la variable regresora o a la variable respuesta como puede ser
elevar a una potencia o una transformacin como un seno o un logaritmo.

Debes tener cuidado al realizar una transformacin, puedes lograr el mejor modelo
matemticamente, pero no obtener una buena interpretacin acerca de la relacin entre e .

A veces se puede recurrir a la experiencia o a consideraciones tericas para sugerir la


transformacin adecuada, el problema es que la mayora de las veces no se cuenta con esta
informacin.

Algunas transformaciones sugeridas son las siguientes:

Relacin entre y () Transformacin


2
= (sin transformacin)
= (es comn cuando los datos son de tipo
2 ()
Poisson, es decir, conteos)

2
= 1 (se utiliza cuando los datos
()[1 ()]
provienen de una binomial 0 1)
2 [()]2 = ln
2 [()]3 = 12
2 [()]4 = 1

El smbolo se lee proporcional

Evidencia de aprendizaje. Ajuste de un anlisis de regresin lineal

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

27
Estadstica II
Unidad 2. Regresin lineal simple

Propsito

Aplicar los conocimientos adquiridos durante la unidad, empleando los mtodos de regresin
lineal.

Cierre de la unidad

Durante la unidad 2 has aprendido como relacionar mediante un modelo matemtico dos
variables que estn correlacionadas. Adems el modelo de regresin lineal simple tiene
propiedades estadsticas deseables ya que al estimar los parmetros mediante el mtodo de
mnimos cuadrados se obtienen aquellos estimadores que son los de mnima varianza, es decir,
los mejores estimadores. Si a esto se le aade el supuesto distribucional de normalidad se
puede hacer inferencia sobre los estimadores y sobre observaciones futuras, pues el plus de
ajustar un modelo matemtico es que se pueda predecir nuevos datos.

En la Unidad 3 no slo se relacionan dos variables, se involucrarn ms de dos variables


regresoras.

Para saber ms

Te sugiero la siguiente liga donde encontrars los cdigos en R para ajustar un modelo de
regresin lineal.

Robert, I. K. (2012). Web log message. Recuperado de:


http://www.statmethods.net/stats/regression.html

Fuentes de consulta

Montgomery, D. C., Peck, E. A. y Vinning, G. G. (2001). Introduction to Linear Regression


Analysis (3a ed.). New York: John Wiley and Sons.

Neter, J., Wasserman, W. y Kunter, M.H. (1990) Applied Linear Statistical Models (3a ed.).
Boston: Irwin.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

28

You might also like