U14 - Pruebas de Libre Distribucion

Estadstica no Paramtrica
PRUEBAS DE
LIBRE DISTRIBUCIN
Lic. Diego Parrs.
Prof. Franco Flix.
ESTADSTICA NO PARAMTRICA
Son procedimientos estadsticos para
prueba de hiptesis que no requieren de
la suposicin de la normalidad de la
poblacin de la cual fue extrada la(s)
muestra(s).

Se pueden aplicar a datos de tipo
cuantitativo y cualitativo..
No se requiere de los
supuestos paramtricos

Se puede usar para variables
no numricas.

Clculos fciles, originados
por tamaos de muestra
pequeos.

Son convenientes cuando no
se conoce la distribucin de
la poblacin.

Utiliza menor informacin
de la variable.
Al usar menos informacin,
llega a desperdiciar datos
importantes.
Es menos potente que
mtodos paramtricos, a
un mismo tamao de
muestra y a un mismo nivel
de significacin.
VENTAJAS
DESVENTAJAS
PROCEDIMIENTOS CLSICOS
(MTODOS PARAMTRICOS)
TIENEN DOS CARACTERISTICAS DISTINTIVAS:

NIVEL BASTANTE COMPLEJO DE MEDICIN:
Datos continuos y cuantitativos.

SUPOSICIONES ESTRICTAS:

Normalidad (o utilizacin de muestras grandes).
Homogeneidad de varianzas.
Que las observaciones sean independientes entre s.
Qu debera hacer el estadstico
cuando los procedimientos clsicos no
son aplicables?
Procedimientos No Paramtricos
(Pruebas de libre distribucin)
Estas pruebas no estn atadas a los
supuestos restrictivos de las pruebas
paramtricos clsicas

Si se trata de datos cuantitativos, ordinales o nominales.

Datos de distribucin libre (no necesariamente normal).

Cuando trabajamos con muestras pequeas (n < 30).

Se emplea como parmetro de centralizacin la mediana.

No se hacen suposiciones, excepto que es continua .

Menos eficiente que el mtodo paramtrico
correspondiente cuando la poblacin es normal.

Requiere una mayor muestra para tener la misma potencia.

Pruebas no Paramtricas
Prueba de Rachas
con una Muestra
Por rachas se entiende a una sucesin de smbolos
idnticos que pueden estar separados o no por otro tipo
de smbolos.
Por ejemplo, sea una serie de mediciones de
magnitudes dicotmicas identificadas con los smbolos
de resultado positivo (+) o negativo (-) a juicio del
investigador.
Resultados: + + - - - + - - - - + + - +
N de rachas: 1 2 3 4 5 6 7

El nmero de rachas es r = 7. El nmero total de
rachas indica si una muestra es o no aleatoria.
Prueba de Rachas con una Muestra
Formulacin
de la hiptesis
Ho:

H
1
:
Lmites de la
regin de
aceptacin
o = nivel de significancia
Los elementos de
la muestra estn
mezclados
aleatoriamente.

Los elementos no
estn mezclados
aleatoriamente.
1) Se calcula el nmero n1 de elementos de una clase
identificadas por un smbolo y n2 la cantidad de
elementos de la otra.

2) Se ordenan los n = n1 + n2 sucesos en el orden en que
ocurrieron.

3) Se cuenta el nmero r de rachas.

4) Se determina la probabilidad que ocurran r rachas,
usando Ho, y se compara con el nivel de significacin
adoptado para aceptar o rechazar la Ho. Tambin se
puede probar con el nmero de rachas.

Prueba de Rachas con una Muestra (procedimiento)
Smbolos
n
1
= nmero de ocurrencias tipo 1
n
2
= nmero de ocurrencias tipo 2
r = nmero de corridas

Media del
Estadstico
r
= 2n
1
n
2
+ 1
(n
1
+

n
2
)
Clculo del
error estndar
o
r
= \ 2n
1
n
2
(2n
1
n
2
- n
1
- n
2
)
(n
1
+ n
2
)
2
(n
1
+ n
2
- 1)
Eleccin de la
Distribucin
Interpretacin
de resultados
Si el estadstico muestral r cae dentro de la
regin de aceptacin es valida la hiptesis nula
y se concluye que los elementos estn siendo
introducidos en modo aleatorio
La distribucin de muestreo de r puede
aproximarse mucho mediante la distribucin
normal, si n
1
o n
2
es mayor que 20
Si el nmero de n1 y n2, supera al 20, se recurre a la
aproximacin asinttica de la distribucin Normal.
EJEMPLO MUESTRAS PEQUEAS
La secuencia siguiente, obtenida aleatoriamente, est
integrada por 19 observaciones, calificadas como A o B,
segn sea su peso mayor o menor que una media terica. El
nmero de observaciones tipo A es n1 = 12, y las de tipo B
n2 = 7. Se han destacado las rachas en la secuencia,
quedando:
AA B A BBB AA B AAAA B A B AA
AA B A BBB AA B AAAA B A B AA
1
2
3 4 5 6
1 2 3 4 5
El nmero de rachas del tipo A es r1 = 6, de tipo
B es r2 = 5, y el nmero total r = r1 + r2 = 11
En la tabla (para n1=12 y n2=7) el lmite inferior
de la regin de aceptacin es 5 y el superior 14.

Como el nmero total de rachas, 11, est
comprendido en el intervalo [5,14], se acepta la
hiptesis nula de aleatoriedad de las
observaciones en la secuencia (existencia de
independencia), con un nivel de significacin del
5%
Test para medidas de
posicin y dispersin
ELECCIN DE LA PRUEBA NO PARAMTRICA
2 muestras
Ms de 2
muestras
Relacionadas
independientes
independientes
Relacionadas
Cualitativa
Cuantitativa
U de mann
Whitney -
Wilconxon
Mc Nemar
Cuantitativa Friedman
Cualitativa Q de Cochran
Cuantitativa Kruskal Wallis
Cuantitativa T - Wilcoxon
PRUEBAS PARAMTRICAS ANLOGAS
2 muestras
Ms de 2
muestras
Relacionadas
independientes
independientes
Relacionadas
Cualitativa
Cuantitativa
U de mann
Whitney -
Wilconxon
Mc Nemar
Cuantitativa Friedman
Cualitativa Q de Cochran
Cuantitativa Kruskal Wallis
Cuantitativa T - Wilcoxon
Prueba T para
muestras
independientes
Prueba T para
muestras
Relacionales
Prueba ANOVA
Muestras
Independientes
Prueba ANOVA
Muestras
Independientes
La Prueba U de
Mann-Whitney-
WILCONSON
(SUMA DE RANGOS)
Compara 2 grupos independientes y que no tienen
distribucin normal o que sean ordinales
Contrasta si dos poblaciones muestreadas son equivalentes
en su posicin
Es recomendable pero no imprescindible que las
poblaciones comparadas tengan el mismo tamao. (El test
de WILCONXON es un caso especial, para muestras del
mismo tamao)
Test equivalente a la prueba T de Student para la diferencia
de dos medias cuando las muestras son independientes
U DE MANN WHITNEY - WILCOXON
Pasos para la prueba de Mann-Whitney
Arreglar los datos en rangos del menor al mayor valor. En
caso de que existan empates entre las observaciones, se les
asigna un rango promedio de las posiciones que se repiten.

Calcular los valores de U1 y U2, de modo que se elija el ms
pequeo para comparar con los crticos de U Mann-
Whitney de la tabla de probabilidades asociadas. (Existe
una relacin lineal entre el estadstico U y el W (usado para
la prueba de suma de rangos de Wilconxon)

En caso de muestras grandes, calcular el valor Z, pues en
estas condiciones se distribuye normalmente.

Decidir si se acepta o rechaza la hiptesis y sacar las
conclusiones correspondientes.
Se tienen dos muestras aleatorias. Sea X1, X2,, Xn la
muestra aleatoria A de tamao n1 de la poblacin 1 y sea
Y1,Y2,, Yn la muestra aleatoria B de tamao n2 de la
poblacin 2.

Se ordenan todas las observaciones (n1 + n2) de acuerdo a su
magnitud (de menor a mayor) y se establece un rango para
cada una de ellas.

Se suman los rangos de cada muestra.(R)

Se calcula el estadstico U.
+
+ = 1
2
) 1 (
1 1
2 1
R
n n
n n U

+
+ = 2
2
) 1 (
2 2
2 1
R
n n
n n U
U U
Area de
rechazo
Area de
rechazo
Area de no rechazo
De entre los valores U1 y U2, tomar el valor del
estadstico U el mnimo valor de entre ambos y se
contrastan con los valores de la tabla para la U de
Mann Withney
Ejemplo: Se desea saber si hay diferencias entre presin
arterial sistlica de hombres y mujeres
PAS (HOMBRES) Rango 1 (R2) Orden PAS (MUJERES) Rango 2 (R2) Orden
100 5 5 90 1 1
100 5 6 95 2,5 2
110 9,5 11 95 2,5 3
110 9,5 12 100 5 4
115 13,5 14 110 9,5 7
120 16 16 110 9,5 8
120 16 16 110 9,5 9
125 18,5 18 110 9,5 10
125 18,5 19 115 13,5 13
130 20 20 120 16 15
TOTAL 131,5 TOTAL 78,5
Prueba de rangos con
signos (T de Wilcoxon)

Compara 2 grupos relacionados y variables cuantitativas
que no tienen distribucin normal o que sean ordinales.
Paralela a la prueba paramtrica de contraste t para
muestras relacionadas.
Contrasta si dos poblaciones muestreadas son
equivalentes en su posicin.
Es recomendable pero no imprescindible que las
poblaciones comparadas tengan el mismo tamao
Nos permite comparar nuestros datos con una mediana
terica (por ejemplo un valor publicado en un artculo).
Si n1 (o n2) >30, se aproxima con la distribucin Normal
Prueba de rangos con signos (T de Wilcoxon)
n observaciones apareadas de la forma (X
i
,Y
i
)
D
i
= X
i
Y
i

H
o
: las X y las Y tienen la misma distribucin
H
1
: las distribuciones difieren en ubicacin
En promedio, la mitad de las diferencias de los
pares son negativas y la otra mitad, positivas
Bajo
Ho
Las diferencias positivas y las diferencias
negativas con el mismo valor absoluto deberan
ocurrir con la misma probabilidad
PROCEDIMIENTO
(1) Se calculan las D
i
para cada uno de los n pares.
(2) Se eliminan las que sean iguales a cero.
(3) Se ordenan los valores absolutos de las Di.
(4) Se les asigna un nmero o rango, de menor a mayor. En caso de
empate, se asigna el promedio de los rangos correspondientes a las
diferencias empatadas.
(5) Se calculan las sumas de los rangos para cada diferencia (T-, T+)
(6) Se sigue uno de los posibles planteos, de acuerdo a la hiptesis que se
quiera poner a prueba.
La distribucin de las Di es simtrica
Las Di son independientes entre s
Las Di tienen la misma mediana
Las Di son continuas
Supuestos
Muestras pequeas
Se puede usar cuando ambos n
1
, n
2
30
Se asignan rangos en la combinacin de las observaciones
muestrales n
1
+ n
2

Si los tamaos muestrales no son iguales sea n
1
el
referente al menor tamao muestral
Se asigna rango promedio para los valores empatados
Sumar los rangos para cada muestra: T
1 y
T
2
(para
comprobar ranking)
Se obtiene el estadstico de la prueba T
1
(para muestras
pequeas)
H
0
: M
1
= M
2

H
1
: M
1
M
2
H
0
: M
1
M
2

H
1
: M
1
> M
2
H
0
: M
1
M
2

H
1
: M
1
< M
2
Prueba de dos colas Prueba de cola izquierda Prueba de cola derecha
M
1
= mediana de la pob. 1; M
2
= mediana de la pob. 2

Rechazo
T
1L
T
1U

Rechazo
No
Rechazo
Rechazo
T
1L

No Rechazo
T
1U

Rechazo
No Rechazo
estadstico de la prueba = T
1

(Suma de rangos de las muestras pequeas)
Rechazo H
0
si T
1
< T
1L
o si T
1
> T
1U
Rechazo H
0
si T
1
< T
1L
Rechazo H
0
si T
1
> T
1U
Chequeando el ranking
La suma de los rankings debe satisfacer a formula siguiente

Se puede usar para verificar la sumas de T
1
y T
2
2
1) n(n
T T
2 1
+
= +
donde n = n
1
+ n
2
Prueba de Rangos de Wilcoxon
Prueba de la Suma (Muestras grandes)
Puede usarse la distribucin
normal si n
1
o n
2
> 30
Suponemos que n
1
sea el mas
pequeo de los dos tamaos de
muestras
Se puede utilizar la aproximacin
normal para muestras posibles
2
) 1 (
1
1
+
=
n n
T
12
) 1 n ( n n
2 1
T
1
+
=
12
1) (n n n
2
1) (n n
T
T
Z
2 1
1
1
T
T 1
1
1
+
+
=
Para muestras grandes, el estadstico de la prueba T1 es
aproximadamente normal.
Prueba Mc Nemar
(2 muestras relacionadas)

Se utiliza para determinar el grado de significacin del cambio
de una muestra tomada en dos momentos diferentes (antes y
despus), la segunda nos permite probar cualquier cambio
observado en ella.
Las muestras son dos y dependientes. Escala nominal.
Slo aplicable cuando existen dos momentos: antes y despus.
Cuando en el momento experimental hay diversos momentos
de cambio con base en uno previo, convendr utilizar la prueba
Q de Cochran.
El estadstico calculado es el siguiente:
c b
c b
MN
+

=
2
2
) 1 (
_
Prueba Mc Nemar
(2 muestras relacionadas)

Procedimiento Prueba de McNemar

Paso 1: Arreglar los datos en funcin de una tabla de
contingencias 2 X 2, donde las casillas B y C
corresponden a los cambios realizados en el tratamiento;
por su parte, las casillas A y D no mostraron cambio
alguno. Los signos sealan los cambios que se
suscitaron de antes a despus del tratamiento:

Inicial Final
+ -
+ A B
- C D
Paso 2: Aplicacin de la ecuacin de McNemar, la cual
da a entender los cambios realizados en el experimento.

Paso 3: Calcular los grados de libertad, que como es
obligado para este procedimiento, siempre sern iguales
a uno.

Paso 4: Comparar el valor estadstico calculado para
valores crticos de ji cuadrada.

Paso 5: Decidir si se acepta o rechaza la hiptesis y dar
conclusiones.
Procedimiento Prueba de McNemar
Prueba de Kruskal Wallis
(Ms de 2 muestras Independientes)

Prueba de Kruskal - Wallis
Prueba la igualdad de mas de dos medianas poblacionales.

Se utiliza cuando el supuesto de normalidad de ANOVA de una
va es violado.

Intuitivamente, es idntico al Anova con los datos
reemplazados por categoras.

Es un mtodo para probar si un grupo de datos provienen de la
misma poblacin.

Es una extensin de la prueba de la U de Mann-Whitney
para 3 o ms grupos.

Supuestos:

Las variables siguen una distribucin continua.
Las muestras son aleatorias e independientes.
Los datos pueden ser ranqueados.
Las poblaciones tienen la misma variabilidad.
Las poblaciones tienen la misma forma (A
S
).

Procedimiento:

Obtener los rankings relativos para cada valor.
Sumamos los rankings de los datos para cada uno de los c
grupos.
Calculamos el estadstico de la prueba H.

Procedimiento de la prueba Kruskal-Wallis
Procedimiento de la Prueba de Kruskal-Wallis
El estadstico de la prueba H, de Kruskal-Wallis : (con c 1 g.l.)

) 1 n ( 3
n
T
) 1 n ( n
12
H
c
1 j
j
2
j
+
(
(
+
=

=
Donde:
n = suma del tamao de muestra de todas muestras
c = Numero de muestras
T
j
= Suma de rangos en la j
esima
muestra
n
j
= Numero de valores en la j
esima
muestra (j = 1, 2, , c)
Regla decisional
Rechazar H
0
s el estadstico de la
prueba H > _
2
U
En otro caso no rechazar H
0
Completamos la prueba comparando el valor del estadstico
H con el valor crtico _
2
c 1 grados de libertad
_
2

_
2
U
0
o

Rechazar H
0
No rechazar H
0
Procedimiento de la Prueba de Kruskal-Wallis
(continua)
Prueba de Rangos de Friedman
(Ms de 2 muestras Relacionadas)

Prueba de rangos de Friedman
Usamos la prueba de rangos de Friedman para determinar
cuando c grupos (p.ej., niveles de tratamientos) han sido
seleccionados de poblaciones que tienen iguales medianas.

H
0
: M
.1
= M
.2
= . . . = M
.c

H
1
: No todas las M
.j
son iguales (j = 1, 2, , c)

El estadstico de la prueba de Friedman es aproximada por una
distribucin chi-square con (c 1) g.l.

Rechazar H
0
s En otro caso no rechazar H
0

2
U R
F _ >
Esta prueba esta diseada para comparar distribuciones de
probabilidad en diseos aleatorizados en bloques.

No tiene en cuenta comparaciones entre bloques, sino slo
comparaciones dentro de ellos.
Compara K grupos relacionados y variables cuantitativas que no
tienen distribucin normal o que son ordinales.
Paralela a la prueba paramtrica de ANOVA para muestras
relacionadas.
Contrasta si K poblaciones muestreadas son equivalentes en su
posicin.
Prueba de rangos para las diferencias entre c medianas

donde

= el cuadrado de los rangos totales para el grupo j

r = el numero de bloques

c = el numero de grupos

(continua)
1) 3r(c R
1) rc(c
12
F
c
1 j
2
.j R
+
+
=

=
2
.j
R
Prueba Q de Cochran
(Ms de 2 muestras Relacionadas)

Compara K grupos relacionados y variables cualitativas
dicotmicas.
Paralela a la prueba de Mc Nemar para muestras relacionadas.
Contrasta si K poblaciones muestreadas son equivalentes en su
posicin.
Se utiliza para comparar distribuciones de probabilidad en
diseos aleatorizados en bloques.
Depende solamente de los rangos de las observaciones dentro
de cada bloque y del valor rango asignado a cada bloque al
compararlos entre s.
Prueba Q de Cochran
Ho: Las distribuciones de probabilidad de los k tratamientos
son idnticas.
H1: Por lo menos 2 de las distribuciones difieren en su
ubicacin.

Prueba Q de Cochran
Bloque 1 2 ... k
1 X
11
X
12
... X
1k
2 X
21
X
22
... X
2k
3 X
31
X
32
... X
3k
... ... ... ... ...
b
X
b1
X
b2
...
X
bk
Tratamiento
Con i se denota a los bloques
de modo que i=1,2,....b
Con j se denota a los
tratamientos de modo que
j=1,2,....k
Xij es la j-sima observacin
del bloque i
R(Xij) Se asigna rangos a las observaciones dentro de cada
bloque, asignando el rango 1 a la menor observacin, el 2 a la
siguiente..., y el rango k a la mayor observacin dentro de ese
bloque.
Qi Se calcula, para cada bloque, el tamao del rango o la
amplitud del bloque, que resulta de la diferencia entre la mayor
y la menor observacin dentro de ese bloque. Teniendo en
cuenta estos valores, se asigna el rango Q
1
al bloque con menor
amplitud.....el rango Q
b
al bloque con mayor amplitud.
Procedimiento de la prueba Q de Cochran
Para cada observacin, se calcula el valor Sij como:

(
+
=
2
1
) (
k
X R Q S
ij i ij
Este valor es un estadstico que
representa el tamao relativo de
cada observacin dentro del
bloque
Se calcula adems la
suma de los Sij para cada
tratamiento, este valor se
denota como Sj y es:

Suma de cuadrados totales
o A1 como:

Suma de cuadrados por tratamiento
o B1 como:

Estadstico del Test:

Regla de decisin

Se rechaza Ho si T
1
> al valor de tabla f
a
que distribuye F con
k
1
=k 1 y k
2
= (b 1)(k 1) grados de libertad.

La distribucin F se utiliza para aproximar la distribucin del
estadstico T
1
. Cuanto mayor es b, mejor resulta la
aproximacin.

Comparacin mltiple: Slo si se decide rechazar Ho, es
posible efectuar comparaciones entre los tratamientos segn:
Si Si Sj resultan mayor al valor t,
entonces esos tratamientos se
consideran diferentes
Lectura recomendada:

Archivo de Estadstica no Paramtrica
del grupo Yahoo!

U14 - Pruebas de Libre Distribucion

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

U14 - Pruebas de Libre Distribucion

Uploaded by

Copyright:

Available Formats

Estadstica no Paramtrica

You might also like