You are on page 1of 26

Regresin Lineal Simple

Estadstica Aplicada
UNSAM
Prcticas de Estadstica con R
Un modelo predictivo presenta

Homocedasticidad

Cuando la varianza del error de la variable endgena se


mantiene a lo largo de las observaciones. En otras palabras, la
varianza de los errores es constante.

No S
Anlisis de Regresin Lineal en R
lm (formula, data, subset, weights, na.action, method = "qr", model = T, x = F, y = F, qr = T,singular.ok = T, contrasts = NULL,
offset, ...)

Los argumentos que podemos pasar a la funcin expuesta anteriormente, son:

formula: Descripcin simblica del modelo a disear.


data: Un marco de datos o lista que contiene las variables en el modelo, es un parmetro opcional,. Si no se define este
parmetro, las variables se toman de formula, cuando se ejecuta la funcin lm().
subset: Un vector que especifica un subconjunto de las observaciones que se utilizar en el proceso de modelaje. Es un
parmetro opcional.
weights: Un vector de pesos para ser utilizado en el proceso de modelaje. Este parmetro es opcional y debe ser nulo o un
vector numrico. Si no es NULL, los mnimos cuadrados ponderados se utiliza con los pesos weights.
na.action: Le indica a la funcin lm() que hacer si se encuentra datos del tipo NaN.
method: Mtodo a usar en el modelaje.
model, x, y, qr: Parmetros lgicos. Si es TRUE los componentes correspondientes del ajuste (x, y o qr) es devuelto.
contrasts: Una lista opcional.
Ejemplo
La tabla de ms abajo, presenta los datos sobre el nmero de cambios de aceite al ao (x) y el costo de la
reparacin (y, en pesos) de una muestra aleatoria de 10 coches de una cierta marca y modelo:
X = 3. 5. 2. 3. 1. 4. 6. 4.
Y = 150. 150. 250. 200. 350. 200. 50. 125

Determinar:
a) Ajustar a un modelo de regresin lineal simple.
b) Cunto ser el costo de la reparacin si el nmero de cambio de aceite al ao es de 5? Utilizar la recta
ajustada.
c) Calcular el coeficiente de determinacin.
d) Probar si la regresin es significativa con un nivel de significacin de 0.01.
e) Probar la hiptesis H0: 0 = 0, que conclusiones se puede deducir? Utilizar a = 0.05.
f) Estimar los errores estndar de la pendiente y la ordenada en el origen.
Ejemplo
a) definir las variables x e y en R:
> x <- c(3, 5, 2, 3, 1, 4, 6, 4)
> y <- c(150, 150, 250, 200, 350, 200, 50, 125)
Si empleamos la funcin de modelaje de regresin lineal, teniendo en cuenta que la variable de respuesta o
dependiente es el costo de la repeticin (y):
> lm(y~x)
NOTA: El orden de posicionar las variables es de gran importancia, en este caso, como ya se ha comentado
anteriormente, la variable dependiente es el costo de repeticin (variable y), por lo que pretendemos una
ecuacin de regresin ajustada del tipo: y = b0 + b1x Donde: b0 y b1 = Valor numrico de los estimadores
0 y 1, R nos devolver por pantalla:
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept)..............x
....361.81...........-50.69
Ejemplo
En este punto, tenemos ya definido el modelo que mejor se ajusta a los datos ofrecidos por el problema, donde:
Intercept = b0, valor numrico del estimador 0.
x = b1, valor numrico del estimador 1.
Por lo tanto, nuestra recta ajustada es: y(x) = 361.81 - 50.69x
Para representar la recta ajustada:
> aceite <- seq(0:length(x))...........# Definimos el eje X
> costo <- 361.81-50.69*aceite.....# Ecuacin ajustada
> plot(x, y, pch="o", col=2)
> lines(costo, col=4)
Para realizar un estudio completo de anlisis de regresin, almacenaremos los datos ofrecidos por la funcin
lm() en la variable estudio:
> estudio <- lm(y~x)
Ejemplo
> coef(estudio)
(Intercept)............. x
..361.80556.. -50.69444
print() Devuelve un breve resumen del modelo.
> print(estudio)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept)..............x
....361.81...........-50.69
b) Una aplicacin de ajustar a un modelo de estas caractersticas es poder usarlo, posteriormente, para predecir
datos, para ello, R dispone a nuestra disposicin la funcin predict():
Ejemplo
> predict(estudio)
..........1.................. 2.................3.................4..................5...............6.....................7................8
209.72222....108.33333....260.41667....209.72222....311.11111....159.02778....57.63889....159.02778
Esta funcin consiste en obtener los posibles datos dados por el modelo teniendo en cuenta la variable
dependiente, con una peculiaridad, obtiene todas las posibles predicciones acorde a las posiciones de la variable
de prediccin (variable x).
Para responder este item, tenemos que saber que valor dar el modelo cuando x = 5, en este caso, dicho valor lo
encontramos en la posicin 2 de la tabla dada por el enunciado, por lo tanto, el valor previsto que ofrece el
modelo es: 108.3333, lo comprobamos:
y(5) = 361.81 - 50.695 = 108.36
Vemos que el resultado no es exactamente el mismo y esto es as porque la funcin predict() utiliza los
coeficientes del modelo con ms decimales, en este caso, los dados por la funcin coef(), la recta, teniendo en
cuenta estos valores, es:
y(5) = 361.80556 - 50.694445 = 108.33336 108.3333
Vemos que depende de la resolucin que definamos en R.
Ejemplo

Otra funcin importante y relacionada con predict(), es la residuals(), que nos devuelve el residuo por posicin
del modelo:
> residuals(estudio)
........... 1..................2..................3...................4..................5...................6...................7................8
-59.722222....41.666667....-10.416667....-9.722222....38.888889....40.972222....-7.638889....-34.027778
Lo comprobamos siguiendo el ejemplo de este apartado, para x = 5 (y = 150):
Residuo = 150 - 108.3333 = 41.6667
Vemos que coincide perfectamente con lo ofrecido por la funcin residuals(), teniendo en cuenta la resolucin
que tengamos definida.
c), d), e) y f)
La forma de obtener un estudio detallado del modelo de regresin, viene de la mano de la funcin summary():
> summary(estudio)
Call:
lm(formula = y ~ x)
Residuals:
...Min.......1Q......Median....3Q......Max
-59.72..-16.32...-8.68.....39.41...41.67
Coefficients:
......................Estimate....Std.Error....t value....Pr(>|t|)
(Intercept)...361.806.......36.482.......9.917.....6.07e-05 ***
x.................. -50.694.........9.581........-5.291....0.00185 **
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 40.65 on 6 degrees of freedom
Multiple R-squared: 0.8235,.....Adjusted R-squared: 0.7941
F-statistic:...28 on 1 and 6 DF, .p-value: 0.001845
Donde nos encontramos, en los item:
Residuals: Un resumen de los residuos obtenidos por el modelo.
Coefficients: Un cuadro muy interesante ya que en Estimate, obtenemos los valores de los estimadores, sus
errores estndar, y el valor del estadstico y p-valor para las pruebas de hiptesis de los estimadores.
Residual standard error: El valor del error estndar del residuo.
Multiple R-squared: Valor del coeficiente de determinacin.
Ajusted R-squared: Valor ajustado del coeficiente de determinacin.
Y como respuesta al c), el coeficiente de determinacin es 0.8235.
Para resolver el d), comprobar si es significativa la regresin, debemos comprobar si la pendiente es cero o no.
Para este estudio deberemos obtener el valor de un estadstico y mediante el estudio de la regin crtica o el p-
valor, dictaremos, si es significativo el estudio y modelo diseado.
Todo esto lo realiza R automticamente mediante el p-valor, para la pendiente, el parmetro t value nos ofrece
el valor del estadstico, en este caso: T = -5.291 y a continuacin, el valor del p-valor en el parmetro Pr(>|t|),
cuyo resultado es 0.00185 y viene con dos asteriscos (**).
Los asteriscos nos informa la frontera del valor de significacin para la cual es mayor que el p-valor, lo
comprobamos en el apartado Signif. codes.
En nuestro caso, el valor de significacin que nos ofrece el enunciado del problema es de 0.01, mayor que el p-
valor, por lo que rechazamos la hiptesis nula y aceptamos la alternativa, esto quiere decir que la pendiente no
es nula y por ende, la regresin es significativa.
Para resolver el e), debemos comprobar, mediante pruebas de hiptesis, si el valor de la ordenada es nula o no.
Empleamos un procedimiento similar cuando deducimos si la regresin es significativa en el item anterior, el
parmetro t value nos ofrece el valor del estadstico, en este caso: T = 9.917 y a continuacin, el valor del p-valor
en el parmetro Pr(>|t|), cuyo resultado es 0.0000607 y viene con tres asteriscos (***).
Los asteriscos nos informa la frontera del valor de significacin para la cual es mayor que el p-valor, lo
comprobamos en el apartado Signif. codes.
En nuestro caso, el valor de significacin que nos ofrece el enunciado del problema es de 0.05, mayor que el p-
valor, por lo que rechazamos la hiptesis nula y aceptamos la alternativa, esto quiere decir que existen
evidencias significativas de que el valor de la ordenada en el origen no es nulo.
Y para concluir, Apartado f), los errores estndar de la pendiente la ordenada en el origen vienen ofrecidos en la
columna Std. Error:

Error estndar de la Pendiente: 9.581


Error estndar de la Ordenada en el Origen: 36.482

You might also like