You are on page 1of 28

Tema 5: Contrastes de Hiptesis no-paramtricos

PRELIMINARES:

Test de hiptesis

Paramtricos: hiptesis sobre los No paramtricos: no se


parmetros que definen la pobla- refieren a parmetros de
cin (por ej., pobl. Normales, y la poblacin; se aplican
tests sobre la media o la desv. tpicamente cuando no
tpica). conocemos la distribucin
de la poblacin, o cuando su
distribucin es no normal.

Primer cuatrimestre
PRELIMINARES:

Media versus Mediana

Diferencias/Semejanzas?
PRELIMINARES:

Media versus Mediana

Ambas sirven para estimar el valor o tamao medio de una variable,


que debe entenderse como el valor esperable o normal.
Si la distribucin es normal, media y mediana coinciden.
Si hay discrepancia entre ambas, es preferible la mediana.
La razn es que la mediana es robusta, es decir, poco sensible a
datos atpicos. La media, en cambio, es muy sensible.

En particular, en ausencia de normalidad son relevantes


los contrastes no sobre la media, sino sobre la mediana
Ejemplo: La biblioteca de un museo recibe en un da 9 peticiones de
distintas instituciones para consultar volmenes de la biblioteca; cada
uno de los peticionarios solicita consultar el siguiente nmero de
volmenes:

6, 3, 10, 3, 3, 120, 3, 11, 2

Media: 1789

Mediana: 3
PRELIMINARES:

Simetra

Media Media

- Normalidad implica simetra; sin embargo, simetra no implica


necesariamente normalidad.
- Se mide con el coeficiente de asimetra (debe estar entre -2 y 2).
- Si hay simetra, media y mediana coinciden.
1. Tests sobre la mediana.

Ho: M = Mo
H1: M Mo; M>Mo; M<Mo

(A) t-test (t de Student): requiere normalidad

(B) Test de los signos: requiere var. continua.

(C) Test de los rangos signados o test de Wilcoxon: requiere simetra.

(IMPORTANTE: los tests no-param. Son intrnsecamente robustos,


i.e. funcionan relativamente bien incluso si no se cumplen sus requisitos)

Pizarra + Statgraphics
2. Tests de bondad de ajuste.

Ho: X sigue cierta distribucin


H1: X no sigue cierta distribucin

(A) Test chi-cuadrado: general (todas las variables,


todas las distribuciones.

(B) Test de Kolmogorov-Smirnov : requiere var. continua.

(C) Tests de normalidad: slo para contrastar normalidad


Ho: X sigue cierta distribucin
(A) Test Chi-cuadrado: H1: X no sigue cierta distribucin

Por ejemplo, Ho: X=N(10,2.85)

1.- Tomamos muestra de tamao n (por ej., n=32)


2.- Establecemos regiones en el intervalo donde puede tomar
valores la variable:

715 10 1285

1 2 3 4
Ho: X sigue cierta distribucin
(A) Test Chi-cuadrado: H1: X no sigue cierta distribucin

Por ejemplo, Ho: X=N(10,2.85)

3.- Establecemos los valores esperados: (n=32)

E1: 16% de 32 = 5 (aprox.)


E2: 34% de 32 = 11 (aprox.) 0,34 34%

0,16 16%

715 10 1285

1 2 3 4
Ho: X sigue cierta distribucin
(A) Test Chi-cuadrado: H1: X no sigue cierta distribucin

Por ejemplo, Ho: X=N(10,2.85)

4.- Contabilizamos los valores observados, en la muestra,


en cada intervalo:
E1: 5; E2: 11; E3: 11; E4: 5
O1: 4; O2: 9; O3: 13; O4: 6

715 10 1285

1 2 3 4
Ho: X sigue cierta distribucin
(A) Test Chi-cuadrado: H1: X no sigue cierta distribucin

Por ejemplo, Ho: X=N(10,2.85)

5.- La idea es RECHAZAR la hiptesis, si los valores observados


difieren demasiado de los observados. Concretamente, se utiliza
el estadstico:

k
Oi Ei 2

D
i 1 Ei

Requisitos: n suficientemente grande; Ei mayores o iguales de 5


Ho: X sigue cierta distribucin
(B) Test de Kolmogorov-Smirnov: H1: X no sigue cierta distribucin

El test anterior, en realidad, compara las frecuencias obtenidas,


con las esperadas; es decir, compara el polgono de frecuencias
(muestra), con la curva correspondiente a la distribucin que
conjeturamos:

muestra poblacin
Ho: X sigue cierta distribucin
(B) Test de Kolmogorov-Smirnov: H1: X no sigue cierta distribucin

El test de Kolmogorov-Smirnov, que requiere variable continua,


compara el polgono de frecuencias acumuladas, con la funcin de
distribucin.

muestra poblacin
Ho: X es normal
(C) Test de normalidad: H1: X no es normal

Slo sirven para contrastar la normalidad, y no otro tipo de


distribuciones.
3. Tests de comparacin de poblaciones.

(A) Comparacin de medianas:

(I) Datos no pareados:

Si las poblaciones que queremos comparar son normales,


podemos comparamos las medias (mediante el t-test, o test
de la t de Student)

Ho: 1 = 2
H1: 1 2; 1 > 2; 1< 2

Si alguna de las poblaciones es no normal, entonces


comparamos medianas:

Ho: M1 = M2
H1: M1 M2; M1 >M2; M1<M2

Para comparar medianas, se utiliza el test de Mann-Whitney


Test de Mann-Whitney : La idea es similar a la del test de los rangos
signados:

1. tomamos muestras en ambas poblaciones (x1xn, y1 ym)

2. mezclamos los datos, y los ordenamos: x6<y4<x1<x5<y1<

3. Asignamos rangos (1 a x6, 2 a y4, etc.)

4. Si la mediana es similar, la media de los rangos de las xs y


de las ys ser parecida; rechazamos si esas medias son muy
diferentes.
(II) Datos pareados: trabajamos con la diferencia (D) de las variables.

Si D es normal comprobamos si la media de D es 0, o no.

Ho: D = 0
H1: D 0; D > 0; D< 0

Si D no es normal, entonces comprobamos si la mediana de D es 0,


o no, utilizando el test de los signos y, si D es simtrica, el de los
rangos signados.

Ho: MD = 0
H1: MD 0; MD >0; MD<0

IMPORTANTE: como la media (resp. la mediana) de D es igual a la


diferencia de las medias (resp. de las medianas), aceptar la hiptesis
nula equivale a aceptar que ambas medias (resp. medianas ) son iguales.
Mis datos son pareados?

NO SI

La diferencia D
Las variables son
es normal?
normales?

SI NO
SI NO

H0: D=0 H0: MD=0


H0: 1=2 H0: M1=M2 (t-test) (test signos,
(t-test) (test de Mann-Whitney) etc.)
(Ojo, primero
hay que comprobar
si las desviaciones tpicas
son iguales, o no)
(B) Comparacin de distribuciones:

Ho: X e Y tienen la misma distribucin


H1: X e Y no tienen la misma distribucin

Test de Kolmogorov-Smirnov (comparacin de


distribuciones): idea similar a la del test de bondad
de ajuste (comparamos funciones de distribucin de
X e Y). Requiere variable continua.

Statgraphics
4. Tests de aleatoriedad.

Una secuencia de datos es aleatoria si no exhibe ninguna tendencia


concreta, es decir, si se entiende que las fluctuaciones en los datos
se deben al AZAR.
ALEATORIEDAD/NO ALEATORIEDAD

Grfico de Series Temporales para Empresa A Grfico de Series Temporales para Empresa B
12,5 8,3

11,5 7,9
Empresa A

Empresa B
7,5
10,5
7,1
9,5
6,7
8,5 6,3

7,5 5,9
0 2 4 6 8 10 12 0 2 4 6 8 10 12

Grfico de Series Temporales para Empresa C Grfico de Series Temporales para Empresa D
11,1 11,1

10,1
Empresa C

Empresa D
10,1
9,1
9,1
8,1

7,1 8,1

6,1 7,1
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Tests de aleatoriedad: tests de RACHAS

Ho: Los datos son aleatorios


H1: Los datos no son aleatorios

-Test 1: ejecuciones por encima y debajo de la mediana.

- Test 2: ejecuciones arriba y abajo.

- Test 3: test de Box-Pierce (autocorrelaciones). Busca ciclos.


5. Test de independencia chi-cuadrado.

Se trata de contrastar si dos variables CUALITATIVAS son independien-


tes (es decir, si existe relacin entre ellas), o no. Por ejemplo:

- Ser hombre o mujer predispone, de algn modo, a fumar o no fumar?


- Los hbitos de lectura de los padres influyen en los hbitos de lectura
de los hijos?
- Los gustos literarios son los mismos en las distintas comunidades
espaolas?
- La proporcin de textos de ficcin/no ficcin es la misma en todas las
bibliotecas de Alcal?

Ho: X e Y son independientes


H1: X e Y no son independientes

X e Y estn relacionadas, una de ellas influye


en la otra, hay diferencias significativas,
determinadas proporciones cambian
EJEMPLO: Hemos preguntado a un grupo de 20 hombres y 20 mujeres
si fumaban o no. Crees que hay diferencias significativas entre ambos
sexos?

Hombres Mujeres TOTAL:

Fuma 5 7 12

No fuma 15 13 28

TOTAL: 20 20 40

X: sexo; Y: Fumador (S/N) Ho: X e Y son independientes


H1: X e Y no son independientes
Qu debera salir, si fueran perfectamente independientes?

Hombres Mujeres TOTAL:

Fuma 12

No fuma 28

TOTAL: 20 20 40
Qu debera salir, si fueran perfectamente independientes?

Hombres Mujeres TOTAL:

Fuma 6 6 12

No fuma 14 14 28

TOTAL: 20 20 40

50% 50%
Comparamos frecuencias observadas (Oi) y esperadas (Ei)

La idea es RECHAZAR la hiptesis, si los valores observados


difieren demasiado de los observados. Concretamente, se utiliza
el estadstico:

k
Oi Ei 2

D
i 1 Ei

(Igual que en tests de bondad de ajuste)

Statgraphics

You might also like