You are on page 1of 12

Clase 3. Métodos No Paramétricos. Asignación de rangos. Prueba de Wilcoxon.

Prueba de Mann
Whitney. Prueba de Kruskal Walllis

MÉTODOS NO PARAMÉTRICOS

En los estudios de inferencia vistos hasta los momentos se ha requerido del supuesto de distribución
probabilística de la población en estudio. Es así como para la generación de intervalos de confianza así
como para la contrastación de hipótesis era menester conocer la distribución poblacional asociada: normal,
exponencial, uniforme, etc.

Esta requisito es un tanto restrictivo y en la práctica aparecen situaciones en donde los supuestos
poblacionales establecidos para la aplicación de un determinado esquema no es satisfecho.

Surgen por lo tanto unos métodos, menos potentes que los anteriores, que se caracterizan por ser
independientes de la distribución probabilística poblacional y en donde las exigencias son apreciablemente
menores. Tales métodos reciben el nombre de MÉTODOS NO PARAMÉTRICOS.

En referencia a la contrastación de hipótesis relacionadas con el valor medio de una población o con la
comparación de los valores medios de varias poblaciones veremos en este curso los siguientes métodos o
pruebas:

i) Prueba de los rangos signados de Wilcoxon para una muestra de una población.
ii) Prueba de los rangos signados de Wilcoxon para una muestra apareada de dos poblaciones.
iii) Prueba de Mann Whitney para muestras de dos poblaciones independientes.
iv) Prueba de Kruskal Wallis para muestras de más de dos poblaciones independientes

1. Asignación de Rangos a un conjunto de datos numéricos.

Sean x1,x2 ,...,xn números reales, repetidos o no. Llamamos rango de xi , y lo denotamos por R(xi ) al
número racional obtenido mediante el siguiente procedimiento:

i) Ordene en forma ascendente los números x1,x2 ,...,xn


ii) Al primer elemento ordenado asígnele el número 1, al siguiente el número 2 y así sucesivamente hasta
llegar al último elemento que obviamente se le asigna el número "n".
iii) El rango del número xi , se determina mediante la siguiente regla:

 el valor asignado en el paso anterior , si la frecuencia de xi es 1


R  xi   
el promedio de los valores asignados , si la frecuencia de x1 es superior a 1

Ej.1.1. Asigne rangos al siguiente conjunto de valores : 1,2 2,5 0,4 1,2 3,8 2,5 4,3 1,2 0,3 1,0 0,5.

El siguiente cuadro muestra la forma de calcular los rangos:

Paso 1 Paso 2 Paso 3


x Rango
0,3 1 R(0,3)=1
0,4 2 R(0,4)=2
0,5 3 R(0,5)=3
1,0 4 R(1,0)=4
1,2 5 567
1,2 6 R(1,2)  6
3
1,2 7
2,5 8 89
2,5 9 R(2,5)   8,5
2
3,8 10 R(3,8)=10
4,3 11 R(4,3)=11

2. Prueba de los Rangos Signados de Wilcoxon para una muestra de una población.

La prueba de los rangos signados de Wilcoxon tiene como objetivo contrastar hipótesis relacionadas con la
mediana ,  , de una población con distribución simétrica (es decir la mediana y la media coinciden).
Las pruebas tradicionales son las unilaterales : H1 :   0 , H1 :   0 y la bilateral H1 :   0 .

Sea x1,x2 ,...,xn los valores observados de una muestra aleatoria de tamaño n.

Procedimiento:

1) Calcule las diferencias entre los valores muestrales y el lado derecho de la hipótesis: di  xi  0 .
2) Elimine aquéllos valores para los cuales di  0 . Sea n * el tamaño de la muestra reducida.
3) Asigne rangos a los valores absolutos de las diferencias obtenidas en el paso 1).
4) Asígnele el signo de la diferencia a los rangos obtenidos en el paso 3).
5) Defina los estadísticos :

T   Suma de los rangos positivos


T-  Suma de los rangos negativos


T  min T  ,T  
Observación: Por la propiedad de la suma de los primeros números naturales, se tiene que :
n * n * 1
T  T 
2
6) El estadístico del contraste y la región crítica depende de la forma de la región alterna y del tamaño de la
muestra:

n*  50 n*  50
H1 E.C. R.C. E.C. R.C.

T 

n* n*  1 
  0 T   ,T0  Z 4  ,Z 
*
 *
n n  1 2n  1  *

24

T  
*

n n*  1 
  0 T   ,T0  Z 4 Z1 ,  

n* n*  1 2n*  1  
24

T

n n*  1
*

  0 T  ,T0  4    
Z  ,Z    Z1 ,  

n* n*  1 2n*  1    2  2 

24

Siendo T0 el valor crítico de la prueba. Este valor depende del nivel de significación y del tipo de prueba
(unilateral/bilateral). La siguiente tabla muestra dichos valores.
Valores Críticos T0 para la prueba de Wilcoxon


0,05 0,025 0,01 0,005 Unilateral
n* 0,10 0,05 0,02 0,01 Bilateral
5 1
6 2 1
7 4 2
8 6 4 2
9 8 6 3 2
10 11 8 5 3
11 14 11 7 5
12 17 14 10 7
13 21 17 13 10
14 26 21 16 13
15 30 25 20 16
16 36 30 24 19
17 41 35 28 23
18 47 40 33 28
19 54 46 38 32
20 60 52 43 37
21 68 59 49 43
22 75 66 56 49
23 83 73 62 55
24 92 81 69 68
25 101 90 77 68
26 110 98 85 76
27 120 107 93 84
28 130 117 102 92
29 141 127 111 100
30 152 137 120 109
31 163 148 130 118
32 175 159 141 128
33 188 171 151 138
34 201 183 162 179
35 214 195 174 160
36 228 208 186 171
37 242 222 198 183
38 256 235 211 195
39 271 250 224 208
40 287 264 238 221
41 303 279 252 234
42 319 295 267 248
43 336 311 281 262
44 353 327 297 277
45 371 344 313 292
46 389 361 329 307
47 408 379 345 323
48 427 397 362 339
49 446 415 380 356
50 466 434 398 373
Ej.2.1.
Se está realizando un estudio en el que se modela el motor de un cohete reuniendo el combustible y la
mezcla de encendido dentro de un contenedor metálico. Una característica importante es la resistencia al
esfuerzo cortante de la unión entre los dos tipos de sustancias. En la tabla se muestran los resultados
obtenidos al probar 20 motores seleccionados al azar. Se desea probar la hipótesis de que la resistencia
media al esfuerzo cortante es 2000 psi., utilizando   0,05 .

2158,70 2207,50 2357,90 1779,80 2414,40


1678,15 2000,00 2256,70 2336,75 2061,30
2336,75 1784,70 2165,20 2000,00 2654,20
2061,30 2575,10 2399,55 2061,30 1753,70

El parámetro de interés es la mediana de la distribución de la resistencia al esfuerzo cortante del
combustible, la cual supondremos continua y simétrica.

El contraste requerido es : H0 :   2000 vs. H1 :   2000

Para obtener el estadístico del contraste elaboramos el siguiente cuadro:

xi di  xi  2000 di R  di 
2158,7 158,7 158,7 4
1678,2 -321,9 321,9 -11
2336,8 336,75 336,8 12,5
2061,3 61,3 61,3 2
2207,5 207,5 207,5 6
2000 0 0
1784,7 -215,3 215,3 -7
2575,1 575,1 575,1 17
2357,9 357,9 357,9 14
2256,7 256,7 256,7 10
2165,2 165,2 165,2 5
2399,6 399,55 399,6 15
1779,8 -220,2 220,2 -8
2336,8 336,75 336,8 12,5
2000 0 0
2061,3 61,3 61,3 2
2414,4 414,4 414,4 16
2061,3 61,3 61,3 2
2654,2 654,2 654,2 18
1753,7 -246,3 246,3 -9

La columna correspondiente a los rangos se obtuvo de la siguiente manera:

di Paso 1 Rango Paso 1 Rango


61,3 1 256,7 10 10
61,3 2 2 321,9 11 11
61,3 3 336,8 12
158,7 336,8 12,5
4 4 13
165,2 5 5 357,9 14 14
207,5 6 6 399,6 15 15
215,3 7 7 414,4 16 16
220,2 8 8 575,1 17 17
246,3 9 9 654,2 18 18
T     11  7  8  9   35
n *  n * 1 18  19
T   T   35  136
2 2

El estadístico del contraste es: T  min35,136  35

Para un nivel de significación del 5%, n*  18 y una prueba bilateral, se tiene que T0  40 y por lo tanto la
región crítica es  ,40 . Como el estadístico del contraste cae en la región crítica, rechazamos la hipótesis
nula; por lo tanto se concluye que "existen evidencias muestrales al 5% que permiten concluir que la
mediana de la resistencia al esfuerzo cortante es distinto de 2000"

Ej.2.2.
En relación con el problema anterior, que puede ud. decir con relación a la afirmación : "la mediana de la
resistencia al esfuerzo cortante es inferior a 2000" con un nivel de significación del 5%.

En este caso el contraste a realizar es : H0 :   2000 vs. H1 :   2000 .
Aquí el estadístico de la prueba es T  136 . El punto crítico es T0  47 y la región crítica es  ,47 .
Como el estadístico del contraste no cae en la región crítica, no se rechaza la hipótesis nula y por lo tanto
se concluye que no existen evidencias muestrales al 5% que permitan afirmar que la mediana de la
resistencia al esfuerzo cortante es inferior a 2000.

3. Prueba de los Rangos Signados de Wilcoxon para una muestra apareada de dos poblaciones.

La prueba de los rangos signados de Wilcoxon para una muestra apareada de dos poblaciones tiene como
objetivo contrastar hipótesis relacionadas con la combinación lineal de las medianas de dos poblaciones
cuando se usa una estructura de muestreo apareado.

En este caso el parámetro a investigar es   a11  a2 2 . Las pruebas tradicionales son las unilaterales :
H1 : a11  a2 2  0 , H1 : a11  a2 2  0 y la bilateral H1 : a11  a2 2  0 .

Este caso se reduce al anterior, simplemente modificando la expresión para di :

di  a1xi1  a2 xi2  0

Ej.3.1
Los investigadores en odontología han desarrollado un material nuevo para prevenir caries, un sellador
plástico, que se aplica a las superficies masticatorias de los dientes. Para determinar si el sellador es
efectivo, se le aplicó en la mitad de los dientes de cada uno de doce niños en edad escolar. Después de un
tiempo prudencial, se contó el número de caries en los dientes revestidos con el sellador y en los dientes sin
tratamiento. Si cada diente con sellador que presente caries genera un costo de reconstrucción de 6 u.m. y
cada diente sin sellador que presente caries genera un costo de reconstrucción de 4 u.m., ¿qué puede ud.
decir en relación con la afirmación : "el costo promedio total por reconstrucción debida a la caries es
superior a 20 u.m.?. si los datos del experimento se muestran a continuación:

Niño Con Sin Niño Con Sin Niño Con Sin


Sellador Sellador Sellador Sellador Sellador Sellador
1 3 3 5 1 0 9 1 6
2 1 3 6 0 1 10 0 0
3 0 2 7 1 5 11 0 3
4 4 5 8 2 0 12 4 3

Use un nivel de significación del 1%.



La prueba de hipótesis adecuada es : H0 : 61  42  20 vs. H1 : 61  42  20 .
Para obtener el estadístico del contraste elaboramos el siguiente cuadro:
xi1 xi2 di  6xi1  4xi2  20 di R(di )
3 3 10 10 5,5
1 3 -2 2 -1
0 2 -12 12 -7
4 5 24 24 12
1 0 -14 14 -8
0 1 -16 16 -9,5
1 5 6 6 2
2 0 -8 8 -3,5
1 6 10 10 5,5
0 0 -20 20 -11
0 3 -8 8 -3,5
4 3 16 16 9,5

T  5,5  12  2  5,5  9,5  34,5


n * n * 1 12  13
T   T   34,5  43,5
2 2

El estadístico del contraste es T  43,5 . Para un nivel de significación del 1%, n*  12 y una prueba
unilateral, se tiene que T0  10 y por lo tanto la región crítica es  ,10 . Como el estadístico del contraste
no cae en la región crítica, no rechazamos la hipótesis nula; por lo tanto se concluye que "no existen
evidencias muestrales al 1% que permiten concluir que el costo promedio total por reconstrucción debida a
la caries es superior a 20 u.m.

4. Prueba de Mann Whitney para muestras de dos poblaciones independientes.

La prueba de Mann Whitney es una prueba paramétrica para realizar contrastes de hipótesis relacionados
con la combinación lineal de las medianas de dos poblaciones independientes.

Etiquetemos con el subíndice 1 a todo lo relacionado con la población que corresponde al tamaño de
muestra más pequeño, y con el subíndice 2 a lo relacionado con la población que corresponde al mayor
tamaño de muestra. En caso de que los tamaños de muestra fuesen iguales, es indistinto colocar los
subíndices a cualquiera de las poblaciones.

Establecido esto veamos como obtenemos el estadístico de la prueba y la región crítica asociada con las
pruebas unilaterales H1 : a11  a2 2  0 , H1 : a11  a2 2  0 y la prueba bilateral
H1 : a11  a2 2  0 .

Pasos:

1. Defínanse las transformaciones:

x1 '  a1x1  0
x 2 '  a2 x 2

2. Calcúlense de manera conjunta los rangos asociados con x1 ' y x2 ' .

3. Sean los estadísticos:

W1 : suma de los rangos correspondientes a la muestra 1


W2 : suma de los rangos correspondientes a la muestra 2

Observación: Por la propiedad de la suma de los primeros números naturales, se tiene que :
n1  n2 n1  n2  1
W1  W2 
2

n2  20 n2  20 y n1  8
H1 E.C. R.C. E.C. R.C.
nn
U1  1 2
a11  a2 2  0 n (n  1)
U1|  W1  1 1
 ,U0  Z 2  ,Z 
2 n1n2 (n1  n2  1)
12
nn
U2  1 2
a11  a2 2  0 n (n  1)
U2  W2  2 2
 ,U0  Z 2 Z1 ,  
2 n1n2 (n1  n2  1)
12
nn
U 1 2
a11  a2 2  0 U  minU1,U2   ,U0  Z 2    
n1n2 (n1  n2  1)  ,Z    Z1 ,  
 2  2 
12

Siendo U0 el valor crítico de la prueba. Este valor depende del nivel de significación y del tipo de prueba
(unilateral/bilateral). Las siguientes tablas muestran dichos valores para las combinaciones más comunes
de n1 y n2

Ej.4.1
Se encuentra que el contenido de nicotina de dos marcas de cigarrillos, medido en miligramos, es el
siguiente:

Marca A 2,1 4,0 6,3 5,4 4,8 3,7 6,1 3,3


Marca B 4,1 0,6 3,1 2,5 4,0 6,2 1,6 2,2 1,9 5,4

Pruebe la hipótesis, en el nivel de significancia de 0,05, de que el contenido promedio de nicotina de las dos
marcas es igual, contra la alternativa de que son diferentes.

Aquí representamos por:
1 :la mediana correspondiente al contendio de nicotina de la marca A
2 :la mediana correspondiente al contendio de nicotina de la marca A
El contraste a realizar es :
H0 : 1  2  0 vs. H1 : 1  2  0

La transformación adecuada es :
x1 '  x1 , x2 '  (1)x2  x2

x1 ' R(x1 ') x2 ' R(x2 ')


2,1 4 4,1 12
4 10,5 0,6 1
6,3 18 3,1 7
5,4 14,5 2,5 6
4,8 13 4 10,5
3,7 9 6,2 17
6,1 16 1,6 2
3,3 8 2,2 5
W1  93 1,9 3
5,4 14,5
W2  78
89
U1  93   57
2
10  11
U2  78   23
2
U  min 57,23  23

El punto crítico para n1  8 , n2  10 ,   0,05 , y una prueba bilateral es U0  17 . La región crítica


correspondiente es el intervalo :  ,17 . Como el estadístico del contraste , U  23 no cae en la región
crítica, no se rechaza la hipótesis nula, en consecuencia, no existen evidencias muestrales al 5% de
significación que permitan concluir que el contenido medio de nicotina de dichas marcas sea diferente

Ej.4.2
Se tienen dos procesos de cultivo A y B para la obtención de tomates. El beneficio de un tomate generado
por el proceso A es de 6 u.m. , mientras que el beneficio de un tomate generado por el proceso B es de 8
g
u.m. . Se tomaron muestras de tomates producidos por ambos procesos y se obtuvo la siguiente
g
información referente a los pesos en gramos de dichos tomates:

A 150 170 180 150 170 160


B 110 100 150 100 110 120 130 110

Con un nivel de significación del 5% , ¿puede afirmarse que el beneficio promedio usando el proceso A
supera al beneficio promedio usando el proceso B en más de 70 u.m.?

Aquí representamos por:
1 :la mediana correspondiente al peso de los tomates producidos por el proceso A
2 :la mediana correspondiente al peso de los tomates producidos por el proceso B
El contraste a realizar es :
H0 : 61  82  70 vs. H1 : 61  82  70

La transformación adecuada es :
x1 '  6x1  70 , x2 '  (8)x2  8x2

x1 x1 ' R(x1 ') x2 x2 ' R(x2 ')


150 830 3,5 110 880 6
170 950 9,5 100 800 1,5
180 1010 12 150 1200 14
150 830 3,5 100 800 1,5
170 950 9,5 110 880 6
160 890 8 120 960 11
W1  46 130 1040 13
110 880 6
W2  59

89
El estadístico de la prueba es U2  59   23
2

El punto crítico para n1  6 , n2  8 ,   0,05 , y una prueba unilateral es U0  10 . La región crítica


correspondiente es el intervalo :  ,10 . Como el estadístico del contraste , U  23 no cae en la región
crítica, no se rechaza la hipótesis nula, en consecuencia, no existen evidencias muestrales al 5% de
significación que permitan concluir que el beneficio promedio usando el proceso A supera al beneficio
promedio usando el proceso B en más de 70 u.m

5. Prueba de Kruskal Wallis.

La prueba de Kruskal Wallis es una alternativa no paramétrica al Análisis de la Varianza de un factor que se
estudiará posteriormente.

El objetivo es comparar las medianas de "k" poblaciones independientes, mediante el contraste:

H0 : 1  2  ...  i  ...  k
H1 : al menos existen dos medianas distintas

Consideremos muestras aleatorias de tamaños ni : i  1,...,k en cada una de las poblaciones en estudio:

Población 1 Población 2 ………. Población i ………. Población k


Muestra 1 Muestra 2 Muestra i Muestra k
x11 x12 x1i x1k
x 21 x 22 x 2i x 2k
: : : :
xn 1
1
xn2 2 xn i
i
xnkk

Para la determinación del estadístico del contraste y la respectiva región crítica, procedemos de la siguiente
manera:

k
1. Asignamos rangos de manera conjunta a los N   ni valores muestrales.
i1
2. El estadístico del contraste viene dado por la expresión:

1  k Ri2 N(N  1)2 


2  n
H   
SC  i1 i 4 

Siendo :
Ri : la suma de los rangos correspondiente a la muestra i-ésima
2
SC : la cuasivarianza de todos los rangos calculados en el paso anterior


3. La región crítica es el intervalo k21;1 ,  .

Ej.5.1
Se realiza una investigación para estudiar el efecto de tres métodos de fabricación sobre la resistencia a la
ruptura de losas de cemento. Los datos aparecen en el siguiente cuadro:

Método de Fabricación

Resistencia a la ruptura lb / in2 
1 553 550 568 541 537 550
2 553 599 579 545 540
3 492 530 528 510 571 553 528

Con un nivel de significación del 5% , ¿Existe alguna evidencia de que el método de fabricación tiene efecto
sobre la ruptura? , o dicho de otra manera , ¿Existe alguna evidencia de que la resistencia a la ruptura
depende del método de fabricación utilizado?.

La prueba de hipótesis correspondiente es :

H0 : 1  2  3 vs. H1 : al menos dos i son distintas

Donde i representa la mediana de la resistencia a la ruptura de las losas producidas por el i-ésimo método
de fabricación.
En primer lugar asignamos rangos conjuntamente a las N  18 observaciones y luego lo asignamos a su
respectiva observación dentro de cada muestra.

Método 1 Método 2 Método 3


Xi1 Rango Xi2 Rango Xi3
Rango
553 13 553 13 492 1
550 10,5 599 18 530 5
568 15 579 17 528 3,5
541 8 545 9 510 2
537 6 540 7 571 16
550 10,5 R2  64 553 13
R1  63 528 3,5
R3  44

2
La cuasivarianza correspondiente a los rangos de manera conjunta es : SC  28,3 . El estadístico de la
prueba es :

1  k Ri2 N(N  1)2  1  632 642 442  18 18  1 


2

2  n
H           4,6916
SC  i1 i 4  28,3  6 5 7  4 


La región crítica es el intervalo : 22;0,95 ;    5,9915 ;    .

Como el estadístico del contraste no cae en la región crítica, no se rechaza la hipótesis nula. Se concluye
que no existen evidencias muestrales al 5% de significación que permitan concluir que el método de
fabricación influye sobre la resistencia a la ruptura de las losas.

You might also like