Professional Documents
Culture Documents
MÉTODOS STEPWISE
WWW.UNCONEJONEGRO.BLOGSPOT.COM
Contenido
1
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
1. Backward Elimination
Empezaremos explicando este método, que empieza tomando todas las variables.
Usaré unos datos en el minitab –pueden solicitarme la data, a mi correo o desde
www.unconejonegro.blogspot.com-
2
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Fijaremos un valor de entrada α=0.05 y uno de salida α=0.10. Esto nos servirá para los tres
algoritmos. La explicación del valor de entrada y de salida es sencilla, se trata de cuán grande
quieres que sea el área de tu región de rechazo (donde estarán tus variables significativas); por
ejemplo, en el caso del valor de entrada, nos da un 95% de confianza para afirmar que las
variables son significativas y que explican el modelo, mientras que en el caso del valor de salida
sólo nos da un 90% de confianza. Mientras más grande sean nuestros valores de salida, el nivel de
confianza se reducirá, análogamente con el caso del valor de entrada. Sucede lo mismo con los
valores F. Vamos a la gráfica:
Definimos
3
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Esta
Para el caso de usar los valores de F-IN o F-OUT, vamos a ver cómo es esto.
Usualmente se escoge un F=4. En nuestro caso, tenemos 3 grados de libertad para el cuadrado
medio de la regresión (CMR) y 70 grados de libertad para el cuadrado medio del error (CME).
Calculamos el área de la región de aceptación
4
Página
Vemos que el área de la región de aceptación para el F=4 –ya sea OUT o IN- es 0.98907475 u2
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Gráficamente sería:
1.2 Aplicación
Ahora, con estos conceptos, seguiremos el método backward elimination.
En el minitab, calcularemos el anova y la tabla de coeficientes para el modelo considerando todas
las variables
5
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
6
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
7
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Donde vemos que la estadística t asociada a la variable X3, cae en la región de aceptación. Esto
nos indica que la variable X3 no es significativa. También notamos que el p-valor es 55.9%, que
evidentemente nos sugiere que cae en la región de aceptación también. Acordémonos que
tenemos 3 grados de libertad para la regresión y 70, para el error; con esto calculamos α=0.011
para F=4.
Se elimina X3 pues es la única que cae en la región de aceptación. Si hubiese más estadísticas t,
escogeríamos la más pequeña entre las que caen en la región de aceptación.
8
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
En el paso 2, volveremos a hacer el mismo procedimiento, pero esta vez para el modelo reducido.
Con el minitab hacemos:
9
Página
Damos Aceptar
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Y obtendremos:
10
Vemos que los grados de libertad son, 2 para la regresión y 71 para el error, pues eliminamos una
variable. Con estos datos calcularemos la estadística t
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Graficándolo sería
Entonces, como ya no hay variables que se puedan eliminar, pues X1 y X2 son significativas, acá se
para el proceso y nos quedamos con el modelo
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Minitab nos brinda una opción para realizar este método –backward elimination-
automáticamente. Hace todos los pasos necesarios hasta conseguir un modelo que no elimine las
11
variables significativas.
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
En el panel que aparecerá, seleccionaremos las variables predictoras y la variable respuesta que
queremos que sean analizadas por el método backward elimination
12
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
En este panel seleccionaremos la tercera opción, Eliminación hacia atrás. Activamos la opción Usar
valores alfa y fijamos el valor de salida en 0.10
Podríamos usar los valores F, no hay problema en ello, pero esta vez, como ejemplo, usaré las
pruebas t –aunque ustedes pueden usar cualquiera-.
13
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Resumió todo el procedimiento anterior y nos dijo que sólo usó dos pasos y que el modelo, con un
90% de confianza, se reduce a
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Bueno, en adelante, para los otros métodos, las pruebas t y F son análogas. Veamos.
14
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
2.Fordward Selection
Este método empieza como un modelo de regresión simple, donde el criterio para seleccionar la
variable independiente de este modelo de regresión simple, es tomar aquella variable que tenga el
mayor valor de la estadística t, en valor absoluto –aunque también podríamos usar el valor F, pero
se los dejo como tarea =) -. Según esto, tendremos que calcular el modelo con todas sus variables
para poder saber qué variable tiene la mayor estadística t; nosotros ya lo calculamos en el método
backward elimination –página 7-
De este gráfico, vemos que la variable que presenta la mayor estadística t, en valor absoluto, es
X2. Entonces, empezaremos con el modelo de regresión simple
𝑌 = 𝛽0 + 𝛽2 𝑋2
15
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Seleccionamos X2 como variable independiente de nuestro modelo lineal simple y luego clicamos
en Resultados…
16
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Fijamos un valor de entrada, un 𝑡𝐼𝑁 con un α=0.05. Entonces nuestra estadística será:
𝑡𝐼𝑁 = 𝑡0.975 (72) = 1.993
Vemos que la variable que tiene la estadística, en valor absoluto, más alta después de X2 es X1
( |𝑡1 | = 2.66). Entonces, incluiremos esta variable en el modelo.
Nuestro modelo sería
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Con el matlab calcularemos el anova y la tabla de coeficientes
17
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Y obtendremos
18
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Como las 2 variables son significativas, seguimos agregando variables. Agregamos la última
variable, X3.
Entonces nuestro modelo sería 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3
Calculamos el anova y la tabla de coeficientes para este modelo:
19
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Vemos que la variable X3 es no significativa así que esa variable no entra, y nos quedamos con el
modelo:
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Bueno, como en el caso anterior, minitab resume todo esto en un par de clics. Veamos.
20
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Vamos a Métodos…
Activamos la casilla Usar valores alfa y usamos 0.5 como el valor alfa de entrada. Le damos
21
Y nos saldrá:
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Vemos los valores que nos salió anteriormente y que utilizó, como nosotros, dos pasos.
Seleccionó las variables X1 y X2 como variables independientes. En resumen obtuvimos el mismo
modelo.
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
22
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
3. Stepwise Selection
Este método de selección de variables es la combinación de los dos anteriores, pero partimos,
como en el método forward selection, desde un modelo de regresión simple, tomando como
variable independiente aquella que tenga la estadística t más alta. Ya vimos en los métodos
anteriores que la variable X2 es la seleccionada para empezar el método. Como dijimos al
principio, tomaremos 0.1 como el valor α de salida y 0.05 como el de entrada.
23
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
El resultado de la anova y tabla de coeficientes para el modelo de regresión simple del paso 1, lo
obtuvimos en el método anterior (ver pág. 16)
Tenemos
Regla de Decisión
Decisión
Primera Prueba Segunda Prueba
X2 𝑡𝐼𝑁 = 1.993 < |𝑡2 | = 9.32 𝑡𝑂𝑈𝑇 = 2.646 < |𝑡2 | = 9.32 Significativa
24
variable X1-junto a X2-, que ya vimos que es la segunda que tiene la mayor estadística t.
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Veamos, ya hicimos el cálculo del anova y de la tabla de coeficientes para este modelo, con X1 y
X2 como variables independientes (Ver pág. 18)
Tenemos
Regla de Decisión
Decisión
Primera Prueba Segunda Prueba
X1 𝑡𝐼𝑁 = 1.994 < |𝑡1 | = 3.97 𝑡𝑂𝑈𝑇 = 2.647 < |𝑡1 | = 3.97 Significativa
X2 𝑡𝐼𝑁 = 1.994 < |𝑡2 | = 9.61 𝑡𝑂𝑈𝑇 = 2.647 < |𝑡2 | = 9.61 Significativa
En este caso, las dos variables pasan las pruebas, entonces el modelo quedaría
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
25
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Tenemos
Regla de Decisión
Decisión
Primera Prueba Segunda Prueba
X1 𝑡𝐼𝑁 = 1.994 < |𝑡1 | = 2.66 𝑡𝑂𝑈𝑇 = 2.648 < |𝑡1 | = 2.66 Significativa
X2 𝑡𝐼𝑁 = 1.994 < |𝑡2 | = 8.39 𝑡𝑂𝑈𝑇 = 2.648 < |𝑡2 | = 8.39 Significativa
X3 𝑡𝐼𝑁 = 1.994 > |𝑡3 | = 0.59 𝑡𝑂𝑈𝑇 = 2.648 < |𝑡3 | = 0.59 No Significativa
Vemos que la variable X3 no pasa con ninguna prueba –aunque baste no pasar una prueba para
eliminarla-, por tanto es no significativa, y la eliminamos. En conclusión, usando los tres métodos
de selección Stepwise llegamos al mismo resultado. El modelo sería:
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Como en los casos anteriores, todo esto lo hubiésemos resuelto en un par de clics pues minitab
26
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
27
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com
Usaremos los valores alfa y seleccionamos la variable independiente escogida por tener el mayor
valor de la estadística t, en valor absoluto. Le damos en Aceptar, y en el panel anterior también.
Nos quedará
Vemos que hizo los dos pasos que hicimos, y que seleccionó X1 y X2 como variables predictoras.
Obtuvo los mismos resultados-como tenía que ser-. Y bueno, la conclusión es que el modelo,
según los métodos de selección de Stepwise, será:
𝑌 = 64.49 − 0.63𝑋1 + 0.88𝑋2
Acuérdense que también pudimos usar los valores F, sería análogo y quizá lo mismo si usas un F
28
adecuado. Bueno, se los dejo como tarea. Hasta un próximo post, y no olviden de visitar la web,
que está buenísima. ¡Recomiéndala!
Página
www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.