You are on page 1of 6

Análisis de Varianza

(Abraira, 1996)El análisis de la varianza (o Anova: Analysis of variance) es un método


para comparar dos o más medias, que es necesario porque cuando se quiere comparar
más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de
Student. por dos motivos:

En primer lugar, y como se realizarían simultánea e independientemente varios


contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar
aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que,
en la hipótesis nula, hay una probabilidad a. Si se realizan m contrastes independientes,
la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es
(1 - a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para
valores de a próximos a 0 es aproximadamente igual a a m. Una primera solución,
denominada método de Bonferroni, consiste en bajar el valor de a, usando en su
lugar a/m, aunque resulta un método muy conservador.

Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen
de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones,
la hipótesis nula es que todas las muestras provienen de la misma población y, sin
embargo, para cada comparación, la estimación de la varianza necesaria para el
contraste es distinta, pues se ha hecho en base a muestras distintas.

El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es
un método que permite comparar varias medias en diversas situaciones; muy ligado, por
tanto, al diseño de experimentos y, de alguna manera, es la base del análisis
multivariante.

Según (Vera, 2015)Es fundamental para casi todas las aplicaciones de la Estadística. Una
manera de abordar el Análisis de la Varianza es considerado como una forma de comprobar si
dos o más medias muestrales pueden haberse obtenido de poblaciones con la misma media
parametrica respecto de una variable dada. Alternativamente, cabría concluir que estas medias
son diferentes

En múltiples ocasiones el analista o investigador se enfrenta al problema de determinar


si dos o más grupos son iguales, si dos o más cursos de acción arrojan resultados
similares o si dos o más conjuntos de observaciones son parecidos. Pensemos por
ejemplo en el caso de determinar si dos niveles de renta producen consumos iguales o
diferentes de un determinado producto, si las notas de dos grupos en una asignatura son
similares, si tres muestras de análisis químico de una sustancia son iguales, o si los
municipios de cuatro provincias colindantes tienen el mismo nivel de paro.

Una aproximación simple sería comparar las medias de estos grupos y ver si las medias
aritméticas de la variable estudiada son parecidas o diferentes. Pero tal aproximación no
es válida ya que la dispersión de las observaciones influirá en la posibilidad de
comparar los promedios o medias de cada grupo. Así, supongamos que tenemos una
variable X (consumo) y dos grupos (nivel de renta alto y medio) y que tenemos dos
resultados distintos correspondientes a dos provincias

Es evidente que la conclusión de que con renta alta el consumo es mayor que con renta
media es más rotundo en la provincia B que en la A. En la provincia A existen familias
de renta media con un consumo superior a otras familias de renta alta aunque en
promedio X21 > X11 . Esta situación no se produce en la provincia B donde todas las
observaciones de renta alta son superiores a las de renta media. En consecuencia la
dispersión deberá tenerse en cuenta para realizar una comparación de medias o de
grupos y esto es lo que se pretende con el Análisis de la Varianza. El Análisis de la
Varianza puede contemplarse como un caso especial de la modelización econométrica,
donde el conjunto de variables explicativas son variables ficticias y la variable
dependiente es de tipo continuo. En tales situaciones la estimación del modelo significa
la realización de un análisis de la varianza clásica (ANOVA), de amplia tradición en los
estudios y diseños experimentales. Una ampliación a este planteamiento es cuando se
dispone de una variable de control que nos permite corregir el resultado del experimento
mediante el análisis de la covariación con la variable a estudiar. En tal situación nos
encontramos frente a un análisis de la covarianza (ANOVA).

El análisis de la varianza parte de los conceptos de regresión lineal. Un análisis de la


varianza permite determinar si diferentes tratamientos muestran diferencias
significativas o por el contrario puede suponerse que sus medias poblacionales no
difieren. El análisis de la varianza permite superar las limitaciones de hacer contrastes
bilaterales por parejas que son un mal método para determinar si un conjunto de
variables con n > 2 difieren entre sí. El primer concepto fundamental es que todo valor
observado puede expresarse mediante la siguiente función:

Ejemplos:

(Análisis de varianza)Los miembros de un equipo ciclista se dividen al azar en tres


grupos que entrenan con métodos diferentes. El primer grupo realiza largos recorridos a
ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el tercero
trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta frecuencia. Después
de un mes de entrenamiento se realiza un test de rendimiento consistente en un recorrido
cronometrado de 9 Km. Los tiempos empleados fueron los siguientes:

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen

resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales divididos por el

número de observaciones:
A continuación calculamos los cuadrados de las observaciones y su total:

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44

SC(intra) = 2984 – 2966,8 = 17,2

SC(entre) = 2966,8 – 2940 = 26,8

Los cuadrados medios serán:

CM(entre) = 26,8/2 = 13,4

CM(intra) = 17,2/12 = 1,43

Por consiguiente el estadístico de contraste vale:

2 Problemas de Análisis de Datos. José María Salinas

F = 13,4/ 1,43 = 9,37

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es

3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos de

entrenamiento producen diferencias significativas.

Según (Análsiis de varianza con un favor) El análisis de la varianza permite contrastar la


hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la hipótesis
alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a
su valor esperado. Este contraste es fundamental en el análisis de resultados
experimentales, en los que interesa comparar los resultados de K 'tratamientos' o 'factores'
con respecto a la variable dependiente o de interés.

El Anova requiere el cumplimiento los siguientes supuestos:

 Las poblaciones (distribuciones de probabilidad de la variable dependiente


correspondiente a cada factor) son normales.
 Las K muestras sobre las que se aplican los tratamientos son independientes.
 Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con respecto


a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación

de obtenida a partir de toda la información muestral, en dos partes:

 Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión


de los valores de cada muestra con respecto a sus correspondientes medias.
 Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las
medias de las muestras con respecto a la media global.

Las expresiones para el cálculo de los elementos que intervienen en el Anova son las
siguientes:

Media Global:

Variación Total:

Variación Intra-grupos:

Variación Inter-grupos:

Siendo xij el i-ésimo valor de la muestra j-ésima; nj el tamaño de dicha muestra y su


media.
Cuando la hipótesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados
de la varianza poblacional y el cociente entre ambos se distribuye según una F de
Snedecor con K-1 grados de libertad en el numerador y N-K grados de libertad en el
denominador. Por lo tanto, si H0 es cierta es de esperar que el cociente entre ambas
estimaciones será aproximadamente igual a 1, de forma que se rechazará H0 si dicho
cociente difiere significativamente de 1.

Bibliografía
Abraira, V. (1996). Análisis de varianza. Obtenido de Análisis de varianza:
http://www.hrc.es/bioest/Anova_1.html

Análisis de varianza. (s.f.). Obtenido de


http://www.ugr.es/~jsalinas/weproble/T14res.PDF

Análsiis de varianza con un favor. (s.f.). Obtenido de


http://www.ub.edu/aplica_infor/spss/cap4-7.htm

Vera, O. D. (2015). Análisis de Varianza. Obtenido de Análisis de Varianza:


https://hera.ugr.es/tesisugr/2554343x.pdf

You might also like