You are on page 1of 29

Selección de Variables

MÉTODOS STEPWISE

WWW.UNCONEJONEGRO.BLOGSPOT.COM

Trabajos Resueltos. Oracle, estadística y más.


Anthony A. Alarcón Moreno
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Contenido

Selección de Variables - Métodos Stepwise .................................2


1. Backward Elimination ...................................................................2
1.1 Conceptos previos .....................................................................2
1.2 Aplicación .....................................................................................5
2.Fordward Selection ...................................................................... 15
3. Stepwise Selection ....................................................................... 23

1
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Selección de Variables - Métodos Stepwise

Cuando, en un modelo de regresión lineal, disponemos de muchas variables explicativas, se hace


necesario seleccionar un conjunto de ellas, pues generalmente un subconjunto de variables dan
mejores predicciones que un modelo con todas las variables –en caso que el número de variables
predictoras sea grande (más de 10). Para seleccionar la cantidad de variables, nos podemos
plantear varios criterios, como reducir la varianza o aumentar el r cuadrado, así como generar
todos los modelos posibles.
Reduciendo la cantidad de variables regresoras lograremos también que nuestro modelo sea un
modelo parsimonioso –el modelo más simple que explica suficientemente bien los datos-.
En este trabajo vamos a ver, de manera práctica, los métodos de selección STEPWISE, cuyos
algoritmos son:
 Backward Elimination
 Forward Selection
 Stepwise Selection

1. Backward Elimination

1.1 Conceptos previos

Empezaremos explicando este método, que empieza tomando todas las variables.
Usaré unos datos en el minitab –pueden solicitarme la data, a mi correo o desde
www.unconejonegro.blogspot.com-

2
Página

El modelo estará dado por 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Fijaremos un valor de entrada α=0.05 y uno de salida α=0.10. Esto nos servirá para los tres
algoritmos. La explicación del valor de entrada y de salida es sencilla, se trata de cuán grande
quieres que sea el área de tu región de rechazo (donde estarán tus variables significativas); por
ejemplo, en el caso del valor de entrada, nos da un 95% de confianza para afirmar que las
variables son significativas y que explican el modelo, mientras que en el caso del valor de salida
sólo nos da un 90% de confianza. Mientras más grande sean nuestros valores de salida, el nivel de
confianza se reducirá, análogamente con el caso del valor de entrada. Sucede lo mismo con los
valores F. Vamos a la gráfica:

Definimos

3
Página

Para el caso que escojamos un valor de salida α=0.10

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Esta

Para el caso de usar los valores de F-IN o F-OUT, vamos a ver cómo es esto.

Usualmente se escoge un F=4. En nuestro caso, tenemos 3 grados de libertad para el cuadrado
medio de la regresión (CMR) y 70 grados de libertad para el cuadrado medio del error (CME).
Calculamos el área de la región de aceptación

4
Página

Vemos que el área de la región de aceptación para el F=4 –ya sea OUT o IN- es 0.98907475 u2

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Gráficamente sería:

1.2 Aplicación
Ahora, con estos conceptos, seguiremos el método backward elimination.
En el minitab, calcularemos el anova y la tabla de coeficientes para el modelo considerando todas
las variables

5
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Clicamos en Resultados… y seleccionamos la opción:

6
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Clicamos en Aceptar y luego, en el panel principal, también le damos en Aceptar

Y tendremos los resultados:

7
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Donde vemos que la estadística t asociada a la variable X3, cae en la región de aceptación. Esto
nos indica que la variable X3 no es significativa. También notamos que el p-valor es 55.9%, que
evidentemente nos sugiere que cae en la región de aceptación también. Acordémonos que
tenemos 3 grados de libertad para la regresión y 70, para el error; con esto calculamos α=0.011
para F=4.

Se elimina X3 pues es la única que cae en la región de aceptación. Si hubiese más estadísticas t,
escogeríamos la más pequeña entre las que caen en la región de aceptación.

Usando el p-valor, sería lo mismo.

8
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Vemos que cae en la región de aceptación, y es la única.

Ahora, como eliminamos X3, nuestro modelo quedaría así:

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

En el paso 2, volveremos a hacer el mismo procedimiento, pero esta vez para el modelo reducido.
Con el minitab hacemos:

Luego, seleccionamos solo las variables X1 y X2 como variables regresoras o independientes

9
Página

Damos Aceptar

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Y obtendremos:

10

Vemos que los grados de libertad son, 2 para la regresión y 71 para el error, pues eliminamos una
variable. Con estos datos calcularemos la estadística t
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Graficándolo sería

Entonces, como ya no hay variables que se puedan eliminar, pues X1 y X2 son significativas, acá se
para el proceso y nos quedamos con el modelo

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Minitab nos brinda una opción para realizar este método –backward elimination-
automáticamente. Hace todos los pasos necesarios hasta conseguir un modelo que no elimine las
11

variables significativas.
Página

Veamos, en el minitab vamos a la opción

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

En el panel que aparecerá, seleccionaremos las variables predictoras y la variable respuesta que
queremos que sean analizadas por el método backward elimination

12
Página

Luego, vamos a Métodos… y

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

En este panel seleccionaremos la tercera opción, Eliminación hacia atrás. Activamos la opción Usar
valores alfa y fijamos el valor de salida en 0.10

Podríamos usar los valores F, no hay problema en ello, pero esta vez, como ejemplo, usaré las
pruebas t –aunque ustedes pueden usar cualquiera-.

13
Página

Clicamos Aceptar y veremos:

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Resumió todo el procedimiento anterior y nos dijo que sólo usó dos pasos y que el modelo, con un
90% de confianza, se reduce a

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

Bueno, en adelante, para los otros métodos, las pruebas t y F son análogas. Veamos.

14
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

2.Fordward Selection
Este método empieza como un modelo de regresión simple, donde el criterio para seleccionar la
variable independiente de este modelo de regresión simple, es tomar aquella variable que tenga el
mayor valor de la estadística t, en valor absoluto –aunque también podríamos usar el valor F, pero
se los dejo como tarea =) -. Según esto, tendremos que calcular el modelo con todas sus variables
para poder saber qué variable tiene la mayor estadística t; nosotros ya lo calculamos en el método
backward elimination –página 7-

De este gráfico, vemos que la variable que presenta la mayor estadística t, en valor absoluto, es
X2. Entonces, empezaremos con el modelo de regresión simple

𝑌 = 𝛽0 + 𝛽2 𝑋2

Ahora, calcularemos el Anova y la tabla de coeficientes

15
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Seleccionamos X2 como variable independiente de nuestro modelo lineal simple y luego clicamos
en Resultados…

Activamos la segunda opción y clicamos Aceptar y también en el panel anterior.


Y tenemos:

16
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Fijamos un valor de entrada, un 𝑡𝐼𝑁 con un α=0.05. Entonces nuestra estadística será:
𝑡𝐼𝑁 = 𝑡0.975 (72) = 1.993

Con la regla de decisión


𝑡𝐼𝑁 = 𝑡0.975 (72) = 1.993 < |𝑡2 | = 9.32
Vemos que la variable X2 es significativa, por tanto seguimos con el siguiente paso –de no haber
sido significativa, se paraba y nos quedábamos con el modelo 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 .
De los resultados que obtuvimos en la tabla

Vemos que la variable que tiene la estadística, en valor absoluto, más alta después de X2 es X1
( |𝑡1 | = 2.66). Entonces, incluiremos esta variable en el modelo.
Nuestro modelo sería
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Con el matlab calcularemos el anova y la tabla de coeficientes
17
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

En el panel que aparecerá, seleccionamos, como predictores, las variables X1 y X2

Y obtendremos

18
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Luego, calcularemos la estadística 𝑡𝐼𝑁 = 𝑡0.975 (71) = 1.994

Usamos la regla de decisión

Regla de decisión Decisión


X1 𝑡𝐼𝑁 = 1.994 < |𝑡1 | = 3.97 Significativa
X2 𝑡𝐼𝑁 = 1.994 < |𝑡2 | = 9.61 Significativa

Como las 2 variables son significativas, seguimos agregando variables. Agregamos la última
variable, X3.
Entonces nuestro modelo sería 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3
Calculamos el anova y la tabla de coeficientes para este modelo:

19
Página

Así obtenemos el anova y la tabla de coeficientes

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Calculamos la estadística de entrada 𝑡𝐼𝑁 = 𝑡0.975 (70) = 1.994

Usamos la regla de decisión

Regla de Decisión Decisión


X1 𝑡𝐼𝑁 = 1.994 < |𝑡1 | = 2.66 Significativa
X2 𝑡𝐼𝑁 = 1.994 < |𝑡2 | = 8.39 Significativa
X3 𝑡𝐼𝑁 = 1.994 > |𝑡3 | = 0.59 No significativa

Vemos que la variable X3 es no significativa así que esa variable no entra, y nos quedamos con el
modelo:

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

Bueno, como en el caso anterior, minitab resume todo esto en un par de clics. Veamos.
20
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Vamos a Métodos…

Activamos la casilla Usar valores alfa y usamos 0.5 como el valor alfa de entrada. Le damos
21

Aceptar y en el panel anterior, también.


Página

Y nos saldrá:

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Vemos los valores que nos salió anteriormente y que utilizó, como nosotros, dos pasos.
Seleccionó las variables X1 y X2 como variables independientes. En resumen obtuvimos el mismo
modelo.

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

22
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

3. Stepwise Selection
Este método de selección de variables es la combinación de los dos anteriores, pero partimos,
como en el método forward selection, desde un modelo de regresión simple, tomando como
variable independiente aquella que tenga la estadística t más alta. Ya vimos en los métodos
anteriores que la variable X2 es la seleccionada para empezar el método. Como dijimos al
principio, tomaremos 0.1 como el valor α de salida y 0.05 como el de entrada.

23
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

El resultado de la anova y tabla de coeficientes para el modelo de regresión simple del paso 1, lo
obtuvimos en el método anterior (ver pág. 16)

Ahora, fijaremos 𝑡𝐼𝑁 y 𝑡𝑂𝑈𝑇

𝑡𝐼𝑁 = 𝑡0.975 (72) = 1.993

𝑡𝑂𝑈𝑇 = 𝑡0.95 (72) = 2.646

Tenemos

Regla de Decisión
Decisión
Primera Prueba Segunda Prueba
X2 𝑡𝐼𝑁 = 1.993 < |𝑡2 | = 9.32 𝑡𝑂𝑈𝑇 = 2.646 < |𝑡2 | = 9.32 Significativa
24

Si en algunas de las dos pruebas resultase no significativa, entonces la decisión es no significativa;


es decir, se elimina la variable. Como la variable X2 pasó, entonces incluiremos al modelo la
Página

variable X1-junto a X2-, que ya vimos que es la segunda que tiene la mayor estadística t.

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Veamos, ya hicimos el cálculo del anova y de la tabla de coeficientes para este modelo, con X1 y
X2 como variables independientes (Ver pág. 18)

Ahora, fijaremos 𝑡𝐼𝑁 y 𝑡𝑂𝑈𝑇


𝑡𝐼𝑁 = 𝑡0.975 (71) = 1.994

𝑡𝑂𝑈𝑇 = 𝑡0.95 (71) = 2.647

Tenemos
Regla de Decisión
Decisión
Primera Prueba Segunda Prueba
X1 𝑡𝐼𝑁 = 1.994 < |𝑡1 | = 3.97 𝑡𝑂𝑈𝑇 = 2.647 < |𝑡1 | = 3.97 Significativa
X2 𝑡𝐼𝑁 = 1.994 < |𝑡2 | = 9.61 𝑡𝑂𝑈𝑇 = 2.647 < |𝑡2 | = 9.61 Significativa

En este caso, las dos variables pasan las pruebas, entonces el modelo quedaría
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
25

Le añadiremos la última variable, y haremos la misma prueba para las 3.


Tenemos el anova y la tabla de coeficientes de los métodos anteriores (Ver pág. 20)
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Ahora, fijaremos 𝑡𝐼𝑁 y 𝑡𝑂𝑈𝑇


𝑡𝐼𝑁 = 𝑡0.975 (70) = 1.994

𝑡𝑂𝑈𝑇 = 𝑡0.95 (70) = 2.648

Tenemos
Regla de Decisión
Decisión
Primera Prueba Segunda Prueba
X1 𝑡𝐼𝑁 = 1.994 < |𝑡1 | = 2.66 𝑡𝑂𝑈𝑇 = 2.648 < |𝑡1 | = 2.66 Significativa
X2 𝑡𝐼𝑁 = 1.994 < |𝑡2 | = 8.39 𝑡𝑂𝑈𝑇 = 2.648 < |𝑡2 | = 8.39 Significativa
X3 𝑡𝐼𝑁 = 1.994 > |𝑡3 | = 0.59 𝑡𝑂𝑈𝑇 = 2.648 < |𝑡3 | = 0.59 No Significativa

Vemos que la variable X3 no pasa con ninguna prueba –aunque baste no pasar una prueba para
eliminarla-, por tanto es no significativa, y la eliminamos. En conclusión, usando los tres métodos
de selección Stepwise llegamos al mismo resultado. El modelo sería:
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Como en los casos anteriores, todo esto lo hubiésemos resuelto en un par de clics pues minitab
26

nos permite ahorrarnos el trabajo. Veamos


Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

27

Seleccionamos todas las variables y clicamos en Métodos…


Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno www.unconejonegro.blogspot.com

Usaremos los valores alfa y seleccionamos la variable independiente escogida por tener el mayor
valor de la estadística t, en valor absoluto. Le damos en Aceptar, y en el panel anterior también.
Nos quedará

Vemos que hizo los dos pasos que hicimos, y que seleccionó X1 y X2 como variables predictoras.
Obtuvo los mismos resultados-como tenía que ser-. Y bueno, la conclusión es que el modelo,
según los métodos de selección de Stepwise, será:
𝑌 = 64.49 − 0.63𝑋1 + 0.88𝑋2
Acuérdense que también pudimos usar los valores F, sería análogo y quizá lo mismo si usas un F
28

adecuado. Bueno, se los dejo como tarea. Hasta un próximo post, y no olviden de visitar la web,
que está buenísima. ¡Recomiéndala!
Página

www.unconejonegro.blogspot.com
Trabajos Resueltos. Oracle, Estadística y más.

You might also like