Análisis de Varianza

Análisis de varianz
Mayo, 2010
Qué es y para qué sirve el Análisis de Varianza
numéricos son significativamente distintos a los valores de o
dias de dos o más poblaciones son iguales.
muestra de cada población y calculando la media muestral y l

Los tres supuestos.
Pretenda medir la influencia que tiene en la venta
de un producto, la posición en que se exhibe.
ESTABLECIMIENTO NIVEL VENTAS
BAJO MEDIO ALTO
1 X
2 X
3 X
4 X
5 X
6 X
7 X
8 X
9 X
10 X
11 X
12 X
El análisis de varianza será útil en supuestos en los
que queramos analizar distintas situaciones o
alternativas de actuación y donde de alguna forma
podemos intervenir en la realización del experimento.
A diferencia de otros análisis donde las series
históricas son dadas y no podemos repetir la situación,
ni modificar alguna de las condiciones o variables
(pensemos en el P.I.B., inflación, etc.)
3º.¿Son estadísticamente significativas las diferencias obtenidas?
2º.¿Qué posicionamiento es más eficaz?
venta del mismo?.
1º.¿Tiene alguna influencia el posicionamiento del producto en la
Se pretende responder.
Varianza muestral.
qEs el promedio de las desviaciones elevadas al

cuadrado de la media del grupo.
∑ (X i – X )2
A N ZAn =– 1
Procedimiento :
1.Calcular la media muestral.
2.Restar la media de cada valor de la muestra.
3.Elevar al cuadrado cada una de las diferencias.
4.Sumar las diferencias elevadas al cuadrado.
5.Dividir entre n -1.
Explicación del análisis de varianza.
qSi las dos estimaciones son aproximadamente iguales,

esto tiende a confirmar H o
qSi una de las dos estimaciones es mucho mayor que la

otra, esto tiende a confirmar H 1
Se utilizan dos métodos un poco diferentes para estimar las

varianzas de la población:
qESTIMACIÓN INTERNA DE VARIANZA

(Sw2)
qESTIMACIÓN INTERMEDIANTE DE VARIANZA
(S b 2 )
Estimación interna de varianza.
 Sw2=S12+S22+S32+S42+…
+Sk2
 k
qEn la cual:
S 2=varianza de la varianza de una muestra
1
 S22=varianza de la varianza de dos muestras
 Sk2=varianza de la varianza de k muestras
 K= número de muestras


Estimación intermediante de varianza.
 Sb2
qObtener X, que es la media de los valores medios
de la muestra:
 X= 15.2+15.0+15.4+15.6 = 15.3
 4
qDeterminar las desviaciones elevadas al cuadrado,
sumarlas y dividirlas entre K-1:
(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2
= 0.067
 4-1
qComo cada muestra consta de 6 observaciones, n
=6 y la estimación de las varianzas de población
es:
 Sb2=nsx2= 6(0.067)= 0.402


Estimación intermediante de varianza.
 Sb2
qObtener X, que es la media de los valores medios
de la muestra:
 X= 15.2+15.0+15.4+15.6 = 15.3
 4
qDeterminar las desviaciones elevadas al cuadrado,
sumarlas y dividirlas entre K-1:
(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2
= 0.067
 4-1
qComo cada muestra consta de 6 observaciones, n
=6 y la estimación de las varianzas de población
es:
 Sb2=nsx2= 6(0.067)= 0.402


Estimaciones.
 Sw2

qEs la norma de comparación

qNo se afecta si Ho es verdadera o falsa

 Sb2

qAproximadamente igual a Sw2 cuando Ho es

verdadera.
qMayor que Sw2 cuando Ho es falsa

Distribución F.
Definición.
En muchas situaciones estamos interesados en probar si dos poblaciones
independientes tiene la misma variabilidad.
Con el fin de probar la igualdad de las varianzas de dos poblaciones

independientes, se ha diseñado un procedimiento estadístico, basado en el
cociente de los varianzas de muestra. Si se supone que los datos obtenido de
cada población están distribuidos normalmente, entonces el
cociente sigue una distribución denominada distribución F que recibe
su nombre al famoso estadístico Ronald Fisher.
Dependen de dos conjuntos de grados de libertad – los grados de libertad en el

numerador y en el denominador.
Donde:
n1 = tamaño de muestra en el grupo 1
n2 = tamaño de muestra en el grupo 2
n1 - 1 = grados de libertad en el grupo 1
n2 - 1 = grados de libertad en el grupo 2
= varianza de la muestra en el grupo 1
= varianza de la muestra en el grupo 2

Al probar la igualdad de dos varianzas se
pueden emplear pruebas de una cola o de dos
colas como se muestra a continuación .
Si deseamos determinar la variabilidad en la cantidad de
llenado de cajas de cereales en la planta A que en la planta B,
se puede establecer una prueba de cola de la siguiente manera:
Para este ejemplo el grupo 1 consta de cajas de

cereales llenadas en la planta A y el grupo 2
llenadas en la planta B , la región de rechazo está
ubicada en la cola de la distribución.
Tenemos un valor de significación de 0.01 con 24 y 19 grados de libertad
En este caso el valor de SA = 16.71 y SB = 14.20
Como 1.385 < 2.92, no se rechaza H0
El gerente concluirá que no es evidente la variabilidad en la

cantidad de cereal de llenado sea mayor en la planta A.
Ejemplo.
Suponga que un investigador de mercados quisiera

estudiar el efecto de la ubicación del producto sobre las
ventas de hojas de afeitar desechables, de hecho querría
determinar si hay alguna diferencia en las ventas, si las
hojas de afeitar se colocaron en la caja registradora y en
las otras seis tiendas en el departamento de cosméticos.
Se seleccionó una muestra aleatoria de 13 tiendas de
igual tamaño de la cadena de supermercados; en 7
tiendas las hojas de afeitar se colocaron en la caja
registradora y en las otras seis tiendas en el departamento
de cosméticos.
El investigador de mercados desea determinar si hay

alguna diferencia en la variabilidad entre la caja
registradora y el departamento de cosméticos.
Se puede establecer una prueba de dos colasen la forma

siguiente:
Ejemplo.
Caja Sección de
Tienda Registradora Cosmeticos
1 107 90
2 153 83
3 82 86
4 158 94
5 141 89
6 87 93
7 119
Total 847 535
Media 121 89.17
Varianza 945 17.37
n1 7 6.00
Caja Registradora Sección de Cosmeticos

Tienda
X1 X (X 1 - X ) (X 1 - X )2 X1 X (X1 - X ) (X1 - X ) 2
1 107 121 -14 196 90 89.17 0.83 0.69
2 153 121 32 1024 83 89.17 -6.17 38.03
3 82 121 -39 1521 86 89.17 -3.17 10.03
4 158 121 37 1369 94 89.17 4.83 23.36
5 141 121 20 400 89 89.17 -0.17 0.03
6 87 121 -34 1156 93 89.17 3.83 14.69
7 119 121 -2 4
121 Total 5670 89.17 Total 86.83
Varianza 945 Varianza 17.37
Ejemplo.
Puesto que es una prueba de dos colas, la región de rechazo se decide en las colas
inferior y superior de la distribución F. Si se selecciona el nivel de significancia 0.05,
cada región de rechazo contendría 0.025.
En este caso deseamos obtener el valor superior de 0.025 con 5 grados

de libertad en el numerador y 6 grados de libertad en el denominador.
La tabla nos indica que este valor es de 5.99

Ejemplo.
Si sustituimos la fórmula que nos permite verificar esto tenemos:
Para este ejemplo si = 945 y = 17.37 utilizando la fórmula:
Tenemos que
La regla de expresión se puede expresar así: Por lo tanto F6,5 = 54.50 > 6.98 se
Rechazar H0 si F6,5 > 6.98
rechaza H0
O bien si F6,5 < 0.167
Existe una variabilidad del
De lo contrario H0 número de hojas de afeitar
vendidas cada semana según su
ubicación.
Tabla ANOVA.
q
qLos resultados del análisis de varianza se
presentan en una tabla ANOVA que resume los
valores importantes de la prueba.
q
qEn dicha tabla se resumen los cálculos necesarios
para la prueba de igualdad de las medias
poblacionales usando análisis de varianza.
Tabla ANOVA.
Tabla ANOVA.
Donde:

qj = Número de la columna
qi = Número de la fila
qk = Número de columnas (grupos)
qn = Número de elementos en cada grupo
(tamaño de la muestra)
Tabla ANOVA.
q Esta Tabla nos muestra tres puntos importantes:
q
q Realmente existen tres formas diferentes de estimar la
varianza real de la población si la hipótesis nula es verdadera.
q
q Los cálculos fueron ideados de manera deliberada para
mostrar lo que ocurre cuando las estimaciones de varianza de
la población son exactamente iguales.
q
q Los grados de libertad totales, pueden servir como una
rápida comprobación de los valores de los grados de libertad
Internos (Dentro) e Intermediantes (Entre). En teoría, la suma
total de los cuadrados puede también servir como
comprobación de la suma de los cuadrados internos e
intermediantes, pero, debido a que en la práctica los cálculos
son muy laboriosos, se evita llegar al total, a menos que los
cálculos se realicen mediante computadora.
q
Ejemplo.
Una analista de una cadena de supermercados,

quiere saber si las tres tiendas tienen el mismo

promedio en dólares por compra. Se elige una
muestra aleatoria de seis compras en cada tienda.
La tabla número 1 presenta los datos recolectados
de esta muestra junto con las medias maestrales
para cada tienda y la media global de todos los
datos. Hará una prueba con un nivel de
significancia de 0.01.


La hipótesis nula que se quiere probar es que todas las poblaciones de las
 que se obtuvieron los datos maestrales tienen la misma media. La hipótesis
alternativa es que las poblaciones no tienen la misma media. Las primeras
dos medias maestrales en la tabla número 1 sugieren que la hipótesis nula

 es cierta, ya que son muy cercanas. La tercera media muestral, es

considerablemente mas pequeña que las otras dos. Pero, ¿Se debe esta
diferencia a la aleatoriedad del muestreo o al hecho de que las
poblaciones tienen medias distintas? Esta es la pregunta que vamos a
responder con el procedimiento de ANOVA.
Ejemplo.
Tabla número 1 Datos maestrales para ANOVA (en dólares) para el ejemplo.

T
i
e
nd
a1Ti
e
n

 Me
d
i
a
1
8
M
e
-
-
-
-
--
-
-
--
-
-
-
--
Ejemplo.
Se usan ambos métodos, dentro y entre, para estimar la varianza de las tres
poblaciones.
Recuerde la suposición fundamental de ANOVA: todas las poblaciones tienen la
misma varianza sin importar si tienen la misma media.

La tabla número 2 contiene los cálculos para el método dentro, y la tabla número 3 da
los cálculos para el método entre.


Tabla número 2 Cálculos del método dentro para el ejemplo.


Tienda 1 (12.05 – 18.73)2 + (23.94 – 18.73)2 + (14.63 – 18.73)2 + (25.78 – 18.73)2

+ (17.52 – 18.73)2 + (18.45 – 18.73)2 = 139.82
Tienda 2 (15.17 – 18.14)2 + (18.52 – 18.14)2 + (19.57 – 18.14)2 + (21.40 – 18.14)2
+ (13.59 – 18.14)2 + (20.57 – 18.14)2 = 48.25

Tienda 3 (9.48 – 8.72)2 + (6.92 – 8.72)2 + (10.47 – 8.72)2 + (7.63 – 8.72)2 + (11.90
– 8.72)2 + (5.92 – 8.72)2 = 26.02


Suma de cuadrados dentro (SCw) = 139.82 + 48.25 + 26.02 = 214.09



Ejemplo.

 Tabla número 3 Cálculos del método entre para el ejemplo.


 (18.73 – 15.20)2 + (18.14 – 15.20)2 + (8.72 – 15.20)2 = 63.09


 Suma de los cuadrados entre (SCb) = 6(63.09) = 378.54


Los valores calculados en las tablas 2 y 3 se usan para llenar la tabla


ANOVA.

Como se tienen tres poblaciones en la prueba, k = 3. Se obtuvo una


muestra de seis valores de cada población, así que n = 6. La tabla número

cuatro presenta la tabla ANOVA para este ejemplo.


Ejemplo.
 Tabla número 4 Tabla ANOVA para el ejemplo.

Fuente de V

--------------------
Ejemplo.
Como se puede ver en la tabla número 4, el método entre para estimar la
varianza, produce un valor de 189.27, mientras que la estimación del
método dentro es de 14.27. El cociente F indica que la estimación del
método ente es 13.26 veces el valor del método dentro.
¿ Se debe esta diferencia al error de muestreo , o se debe a que

la hipótesis nula es falsa? Para contestar a esta pregunta se
consulta la tabla F y se determina un valor crítico .
Dos grados de libertad están asociados con el numerador del cociente de

F, y se asocian quince grados de libertad con el denominador. De la tabla
F el valor crítico es 6.36 para estos grados de libertad a un nivel de
significancia de 0,01. El valor F calculado de 13.26 es mayor que el valor
crítico, lo que significa que se tiene suficiente evidencia muestral para
rechazar la hipótesis nula de medias poblacionales iguales.
Análisis de Varianza.
Pruebas Paramétricas Pruebas No Paramétricas
Cuando una prueba de Pruebas cuya lista de requisitos no

significancia, requiere de incluye una distribución normal o el
normalidad y de una medida de nivel de medición por intervalos.
nivel por intervalos. Tienen exigencias menos estrictas y
constituyen pruebas de significancia
Estas pruebas son: menos poderosas.
F La chi cuadrada.
Prueba de la mediana.
t Análisis de varianza Kruskal-Wallis
Análisis de varianza Friedman.

Pruebas No Paramétricas (La Chi Cuadrada).
Definición
qEs la prueba de significancia no paramétrica más popular en la investigación
social.
q
qSe utiliza para hacer comparaciones entre dos o más muestras.
q
qSe emplea para hacer comparaciones entre frecuencias más que entre puntajes
medios.
qLa fórmula se representa de la siguiente manera:

q
x2 = Chi Cuadrada.
fo = La frecuencia obtenida.
fe = La frecuencia esperada.
Cálculo de Chi Cuadrada.
qTiene que ver esencialmente con la distribución entre las frecuencias

esperadas (fe) y las frecuencias obtenidas (fo).
q
qLas frecuencias esperadas se refieren a los términos de la hipótesis nula. En
contraste las frecuencias obtenidas se refieren a los resultados que obtenemos
realmente al realizar el estudio.
q
qSólo si la diferencia entre las frecuencias esperadas y obtenidas es lo
suficientemente grande, rechazamos la hipótesis nula y decidimos que existe una
diferencia poblacional verdadera.
Otras fórmulas involucradas en Cálculo de Chi Cuadrada.
Donde:
Grados de Libertad
gl = Grados de libertad.
r = Número de renglones en la
gl=(r-1)(c-1) tabla de frecuencias obtenidas
.
c = Número de columnas en la
tabla de frecuencias
obtenidas.
Frecuencias Esperadas (fe)

(total marginal de renglón)(total marginal de columna)
fe =
N Donde:
N = Total de la muestra
Ejemplo del cálculo de chi cuadrada.
Situación
Supongamos que queremos estudiar el uso de drogas en estudiantes de bachillerato, con
relación a sus planes de ingreso a la universidad.
Las hipótesis se platearían de la siguiente manera:
qHipótesis nula: La proporción de estudiantes de bachillerato orientados hacia la

universidad y que usan drogas es igual a la de los estudiantes que no piensan asistir a la
universidad.
qHipótesis alternativa: La proporción de estudiantes de bachillerato orientados hacia la
universidad y que usan drogas no es igual a la de los estudiantes que no piensan asistir a
la universidad.
Para verificar esta hipótesis al nivel de confianza de 0.05, digamos que debemos
entrevistar a dos muestras aleatorias de la población de una escuela de bachillerato
acerca del uso de drogas: una muestra de 21 estudiantes que van a ingresar a la
universidad y una muestra de 15 estudiantes que no planean extender su educación más
allá del bachillerato.
Paso 1. Vaciar los datos en una tabla de frecuencias obtenidas (fo).
Orientaciónhacialauniversidad
Universidad No Universidad
Uso de Drogas
fo fo
Consumidores 15 5
No consumidores 6 10
Total 21 15
Paso 2. Reordenar los datos en forma de Tabla 2 x 2. En este espacio

integraremos la
frecuencia
esperada (fe)
Paso 3. Obtener la frecuencia esperada (fe) para cada casilla.
Paso 4. Restar las frecuencias esperadas (fe) e las frecuencias obtenidas (fo).
Paso 5. Elevar al cuadrado esta diferencia.

Paso 6. Dividir entre la frecuencia esperada (fe).
Paso 7. Sumar estos cocientes para obtener el valor de chi cuadrada.

Paso 8.Encontrar los grados de libertad.
Paso 9. Comparar el valor de chi cuadrada obtenido con el valor de chicuadrada
correspondiente en la Tabla de Valores de Chi Cuadrada a los Niveles de
Confianza de 0.05 y 0.01.
Conclusión.
Para rechazar la hipótesis nula, al nivel de confianza de 0.05 con 1 grado de

libertad, nuestro valor de chi cuadrada calculado tendría que ser de 3.84 ó más.
Como hemos obtenido un valor de chi cuadrada de 5.13 podemos rechazar la
hipótesis nula y aceptar la hipótesis de investigación.
Nuestros resultados sugieren que la proporción de consumidores de alguna droga

es mayor entre los estudiantes de bachillerato que van a ingresar a la universidad
que entre los estudiantes cuyos planeas no incluyen el ingreso a la universidad.
Fuentes.
qLEVIN, Jack y William C. Levin, Fundamentos de estadística en la

investigación social, Edit. Oxford University Press, México, 2008, 305 pp.
q STEVENSON, William, Estadística para administración y economía:

Conceptos y aplicaciones, Edit. Oxford University Press, México, 2004, 585 pp.

Análisis de Varianza

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis de Varianza

Uploaded by

Copyright:

Available Formats

Análisis de varianz

numéricos son significativamente distintos a los valores de o

dias de dos o más poblaciones son iguales.

muestra de cada población y calculando la media muestral y l

qEs el promedio de las desviaciones elevadas al

qSi las dos estimaciones son aproximadamente iguales,

qSi una de las dos estimaciones es mucho mayor que la

Se utilizan dos métodos un poco diferentes para estimar las

qESTIMACIÓN INTERNA DE VARIANZA

qEs la norma de comparación

qAproximadamente igual a Sw2 cuando Ho es

Con el fin de probar la igualdad de las varianzas de dos poblaciones

Dependen de dos conjuntos de grados de libertad – los grados de libertad en el

= varianza de la muestra en el grupo 2

Para este ejemplo el grupo 1 consta de cajas de

Como 1.385 < 2.92, no se rechaza H0

El gerente concluirá que no es evidente la variabilidad en la

Suponga que un investigador de mercados quisiera

El investigador de mercados desea determinar si hay

Se puede establecer una prueba de dos colasen la forma

Caja Registradora Sección de Cosmeticos

En este caso deseamos obtener el valor superior de 0.025 con 5 grados

La tabla nos indica que este valor es de 5.99

Para este ejemplo si = 945 y = 17.37 utilizando la fórmula:

quiere saber si las tres tiendas tienen el mismo

 es cierta, ya que son muy cercanas. La tercera media muestral, es

misma varianza sin importar si tienen la misma media.

los cálculos para el método entre.

Tabla número 2 Cálculos del método dentro para el ejemplo.

Tienda 1 (12.05 – 18.73)2 + (23.94 – 18.73)2 + (14.63 – 18.73)2 + (25.78 – 18.73)2

+ (13.59 – 18.14)2 + (20.57 – 18.14)2 = 48.25

– 8.72)2 + (5.92 – 8.72)2 = 26.02

Suma de cuadrados dentro (SCw) = 139.82 + 48.25 + 26.02 = 214.09

 Tabla número 3 Cálculos del método entre para el ejemplo.

 (18.73 – 15.20)2 + (18.14 – 15.20)2 + (8.72 – 15.20)2 = 63.09

 Suma de los cuadrados entre (SCb) = 6(63.09) = 378.54

Los valores calculados en las tablas 2 y 3 se usan para llenar la tabla

Como se tienen tres poblaciones en la prueba, k = 3. Se obtuvo una

muestra de seis valores de cada población, así que n = 6. La tabla número

¿ Se debe esta diferencia al error de muestreo , o se debe a que

Dos grados de libertad están asociados con el numerador del cociente de

Pruebas Paramétricas Pruebas No Paramétricas

Cuando una prueba de Pruebas cuya lista de requisitos no

qLa fórmula se representa de la siguiente manera:

qTiene que ver esencialmente con la distribución entre las frecuencias

Frecuencias Esperadas (fe)

Las hipótesis se platearían de la siguiente manera:

qHipótesis nula: La proporción de estudiantes de bachillerato orientados hacia la

Paso 2. Reordenar los datos en forma de Tabla 2 x 2. En este espacio

Paso 5. Elevar al cuadrado esta diferencia.

Paso 7. Sumar estos cocientes para obtener el valor de chi cuadrada.

Para rechazar la hipótesis nula, al nivel de confianza de 0.05 con 1 grado de

Nuestros resultados sugieren que la proporción de consumidores de alguna droga

qLEVIN, Jack y William C. Levin, Fundamentos de estadística en la

q STEVENSON, William, Estadística para administración y economía:

You might also like