You are on page 1of 54

Estadstica No Paramtrica

Parte de las notas fueron tomadas de:


Profra. Leticia de la Torre,
Torre Tecnolgico de Chihuahua
Prof. Edgar Acua, Universidad de Puerto Rico

METODOS ESTADISTICOS NO PARAMETRICOS


Las tcnicas estadsticas estudiadas hasta ahora, en conjunto,
denominadas ESTADSTICA PARAMTRICA, son aplicadas bsicamente a
variables continuas. Estas tcnicas se basan en especificar una forma
SUPUESTA O CONOCIDA de la distribucin de la variable aleatoria y de los
estadsticos derivados de los datos.

Es comn en la ESTADSTICA PARAMTRICA que se asuma que la


poblacin de la cual la muestra es extrada tiene una distribucin NORMAL
o aproximadamente normal.
normal Esta propiedad es necesaria para que
algunas pruebas de hiptesis sean vlida. Afortunadamente, la mayor parte
de estas pruebas an son confiables cuando se experimentan ligeras
desviaciones de la normalidad, en particular cuando el tamao de la
muestra es grande.

Sin embargo, en muchas ocasiones no se puede determinar la

distribucin original ni la distribucin de los estadsticos por lo que en


realidad no tenemos un parmetro a estimar, slo tenemos distribuciones
que comparar.
En estos casos empleamos la ESTADSTICA NO-PARAMTRICA.
TRICA
Los mtodos no paramtricos mtodos de distribucin libre, a menudo no
suponen conocimiento de ninguna clase acerca de las distribuciones de las
poblaciones fundamentales, excepto que stas son continuas.
Los procedimientos no paramtricos o de distribucin libre se usan con
mayor frecuencia por los analistas de datos. Existen muchas aplicaciones
donde los datos se reportan no como valores de un continuo sino en una
escala ordinal tal que es natural asignar rangos a los datos.

Se debe sealar que hay varias desventajas asociadas con las pruebas no
paramtricas. En primer lugar, no utilizan toda la informacin que
proporciona la muestra, y por ello una prueba no paramtrica ser menos
eficiente que el procedimiento paramtrico correspondiente, cuando se
pueden aplicar ambos mtodos.
En consecuencia, para lograr la misma potencia, una prueba no
paramtrica requerir la correspondiente prueba paramtrica cuando sea
posible.
Como se indic antes, ligeras divergencias de la normalidad tienen como
resultado desviaciones menores del ideal para las pruebas paramtricas
estndar. Esto es cierto en particular para la prueba t. En este caso, el
valor P puede ser ligeramente errneo si existe una violacin moderada de
la suposicin de normalidad.
En resumen, si se puede aplicar una prueba paramtrica y una no
paramtrica al mismo conjunto de datos, debemos hacerlo.
Sin embargo, se debe reconocer que las suposiciones de normalidad a
menudo no se pueden justificar, y que no siempre se tienen mediciones
cuantitativas por lo que las pruebas paramtricas estaran fuera de alcance.

Ventajas de la Estadstica No Paramtrica.


No se requieren requisitos previos
Con n pequea (n < 30 ) puede no haber alternativa
No se requiere conocer la distribucin de la poblacin
Es sencilla de aplicar incluso de forma manual
La interpretacin suele ser ms directa
Desventajas
En varios casos se requieren transformar los datos en rangos, perdiendo
la informacin puntual.
Con n grande es menos potente que la Paramtrica
Con n muy pequea (n < 6) es inconsistente

rango: orden del dato en el conjunto

Pruebas de la Estadstica No Paramtrica ms comunes.


Mann-Whitney. Para dos muestras independientes.
Wilcoxon. Para dos muestras asociadas.
Kruskal-Wallis. Ms de dos muestras independientes.
Friedman. Ms de dos muestras asociadas.

Pruebas de Correlacin.
Paramtrica.
Pearson, Coeficiente de Correlacin (r) o Coeficiente de Determinacin
(r2).
No-Paramtricas.
Spearman, Coeficiente de Correlacin (r).
Kendall. Coeficiente de Concordancia (w). Coeficiente de Correlacin (r).
Coeficiente de acuerdo (u) para comparaciones apareadas por rangos.

PRUEBAS NO PARAMTRICAS
Vamos a ver algunas de las pruebas no-paramtricas, las cuales, como
especificamos, no requieren suponer normalidad de la poblacin y que en su
mayora se basan en el ordenamiento de los datos.
Todas las pruebas que veremos requieren que la poblacin sea continua. El
parmetro que se usa comnmente para hacer las pruebas estadsticas noparamtricas es la Mediana y no la Media, aunque se pueden usar otros
parmetros.
metros
En MINITAB, para las pruebas noparamtricas se elige la secuencia
STAT 4Nonparametrics.

Pruebas No-paramtricas para una sola


muestra
Prueba de los Signos de Wilcoxon
Se usa para hacer pruebas de hiptesis acerca de la mediana de
una poblacin.
Ho: La Mediana poblacional es igual a un valor dado.
H1: La Mediana es menor, mayor distinta del valor dado.
La prueba estadstica est basada en la distribucin Binomial con probabilidad
de xito p=, puesto que la probabilidad de que un dato sea mayor o menor
que la mediana es o 0.5.
Para calcularla se determinan las diferencias de los datos con respecto al valor
dado de la mediana y se cuentan los signos positivos y negativos.

Suponga que las hiptesis son (menor que o cola izquierda):


Ho ;
H1 ;

= o
< o

Supngase que se toman datos X1, X2, . . . , Xn para conformar una muestra
aleatoria tomada de la poblacin de inters.
Frmense las diferencias
Xi -

o ,

para i =1,2,...n

Ahora bien si la hiptesis nula o Ho ; = o es verdadera, cualquier


diferencia Xi - o tiene la misma probabilidad de ser negativa o positiva.
Un estadstico de prueba apropiado es el nmero de estas diferencias que son
positivas, por ejemplo R+. Por consiguiente, la prueba de la hiptesis nula es
en realidad una prueba de que el nmero de signos positivos es un valor de
una variable aleatoria binomial con parmetro P = 0.5.

Puede calcularse un valor P para el nmero observado de signos positivos r+


directamente de la distribucin binomial. Al probar la hiptesis se rechaza H0 en
favor de H1 slo si la proporcin de signos positivos es suficientemente menor
que 0.5 ( o de manera equivalente, si el nmero observado de signos positivos
r+ es muy pequeo).
Por tanto, si el valor P calculado
P = P(R+ r+ cuando p = 0.5)
es menor o igual que algn nivel de significancia seleccionado previamente,
entonces se rechaza H0 y se concluye que H1 es verdadera.

Si n>20 se puede usar aproximacin Normal a una Binomial con p = q = 0.5.


Es decir,

Z=

X (.5)n
(.5) n

Y con este valor Z calculado se puede encontrar el valor P (probabilidad de que


sea mayor o menor que Z), usando la curva normal.

Ojo: p es la probabilidad de xito


de la distribucin binomial, que
es 0.5 para la prueba de la
mediana, pero P es el valor de la
probabilidad de encontrar Z
mayor o menor que el calculado.

Para probar la otra hiptesis unilateral de cola derecha (mayor que)


Ho ;
H1 ;

= o
> o

se rechaza H0 en favor de H1 slo si el nmero observado de signos ms, r+, es


grande o, de manera equivalente, cada vez que la fraccin observada de signos
positivos es significativamente mayor que 0.5. En consecuencia, si el valor P
calculado
P = P(R+ r+ cuando p = 0.5)
es menor que , entonces H0 s rechaza y se concluye que H1 es verdadera.

Tambin puede probarse la alternativa bilateral (igual o diferente, o dos colas).


Si las hiptesis son:
Ho ;
H1 ;

= o
o

se rechaza Ho si la proporcin de signos positivos difiere de manera significativa


de 0.5 (ya sea por encima o por debajo). Esto es equivalente a que el nmero
observado de signos r+ sea suficientemente grande o suficientemente pequeo.
Por tanto, si r+ < n/2 el valor P es
P = 2P(R+ r+ cuando p = 0.5)
Y si r+ >n/2 el valor P es
P = 2P(R+ r+ cuando p = 0.5)
Si el valor P es menor que algn nivel preseleccionado , entonces se rechaza
Ho y se concluye que H1 es verdadera.

Ejemplos
1. Los tiempos de sobrevivencia (en aos) de 12 personas que se han
sometido a un transplante de corazn son los siguientes:

Paciente

Tiempo

3.1

.9

2.8

4.3

6.0

1.4

5.8

9.9

6.3

10.4

11.5

Probar con 95% de confianza si los datos del tiempo de vida despus del
transplante sugieren que la mediana sea distinta de 5 aos.
Solucin: Primero se calculan las diferencias contra el valor de prueba
(Mediana) y se cuentan los signos positivos y negativos:

TOTAL
7 negativos (-) y
5 positivos (+) este es r +

3.1

-5

-1.9

.9

-5

-4.1

2.8

-5

-2.2

4.3

-5

-0.7

.6

-5

-4.4

1.4

-3.6
+0.8

5.8

-5
-5

9.9

-5

+4.9

6.3

-5

+1.3

10.4

+5.4
-5.0

-5
-5

11.5

-5

+6.5

En este caso necesitamos la Probabilidad binomial para n = 12, p=0.5


0.05
0.016
0.0029
0.0002

Como lo que queremos es probar es si la mediana de la muestra es diferente a la


mediana de prueba, esto implica que el valor de P sea menor al valor de .
Ho, es que la mediana del tiempo es igual a 5 aos
H1, es que la mediana del tiempo es distinta de 5 aos.
Por ejemplo si

= 0.05 requerimos una confianza de 95%.

0.05
0.016
0.0029
0.0002

Calculamos la suma de las probabilidades de los extremos (colas) hasta llegar


lo ms prximo a 0.05 y podemos ver que los valores que nos interesan son las
probabilidades para 0,1,2 y para 10,11 y 12 (sumando sus probabilidades,
0.0002+0.0029+0.016+0.016 +0.0029+0.0002=0.0382 nos acercamos a 0.05,
notar que si usamos otro valor adicional nos pasamos) o sea que para que exista
una diferencia significativa debe resultar un valor de 2 o menos, o bien de 10 o
ms.
Como tenemos r+ = 5 (positivos +) conclumos que no hay diferencia con la
mediana (no podemos rechazar la hiptesis nula de que no hay diferencia con la
mediana).

Ejemplo del uso de Minitab

Minitab nos reporta:


Sign Test for Median: Tiempo
Sign test of median = 5.000 versus not = 5.000
N Below Equal Above P Median
Tiempo 12
7
0
5
0.7744 3.700

Ho, es que la mediana del tiempo es igual a 5 aos


H1, es que la mediana del tiempo es distinta de 5 aos.

Sign Test for Median: tiempo


Sign test of median = 5.000 versus not = 5.000
N Below Equal Above P Median
tiempo 12
7
0
5
0.7744 3.700

Interpretacin:Como
Como elel valor-P
valor-P es
es
Interpretacin:
mayor que
que .05
.05 se
se aceptar
aceptar lala hiptesis
hiptesis
mayor
nula. Es
Es decir
decir que
que lala mediana
mediana del
del
nula.
tiempo de
de vida
vida despus
despus del
del transplante
transplante
tiempo
noes
esdiferente
diferentede
de55aos.
aos.
no
Si usamos aproximacin normal a la binomial
el valor-P = 2P (X 5) = .77728
prcticamente igual

2. Una muestra de15 pacientes con sndrome de deficiencia de atencin han


seguido una terapia. Se efecta una evaluacin y los resultados son como se
muestran en la siguiente pgina. Efectuar una prueba para saber si la terapia
ha tenido resultado, usar una significancia de 0.05.

Solucin.
Ponemos los datos en forma de tabla para facilitar el procedimiento, en caso
de que haya un aumento en la atencin se agrega un signo +, si hay una
disminucin, se pone un signo -.
Los casos donde no exista cambio se eliminan del anlisis.

Paciente

Antes

Despus

Signo

mala

regular

regular

buena

mala

mala

eliminar

mala

peor

regular

malo

mala

peor

regular

buena

mala

buena

mala

regular

regular

mala

regular

buena

mala

buena

mala

peor

regular

excelente

mala

regular

Nmero de signos positivos


r+ = 9
Nmero de signos negativos 5
Total 14
Lo que nos interesa saber es si la
terapia aument la atencin
H0 = P 0.5
No hay aumento
(es igual o menor)
H1 = P > 0.5
S hay aumento

Usamos la probabilidad binomial, para p=0.5, n=14:


Sumamos las probabilidades de la cola derecha, desde la probabilidad de P(11):
P(11) +P(12)+P(13)+P(14)
0.0222+0.0056 +0.0009+0.0001 = 0.0288
Hasta aqu la probabilidad acumulada es menor de 0.05 pero si le aadimos la
probabilidad de P(10) = 0.0611
0.0611+0.0288=0.0899 que es mayor que 0.05 por lo tanto el valor que hace que
exista una diferencia es 11 o ms (12 se pasa).
0.2095
0.1833
0.1222
0.0611
0.0222
0.0056
0.0009
0.0001

0.1833
0.1222
0.0611
0.0222
0.0056
0.0009
0.0001

Mayor que

Decisin:
Como el nmero de signos positivos (r+ = 9) es menor a 11, entonces no
podemos decir que hay una diferencia y no se rechaza la hiptesis nula.
Es decir que la terapia no funcion (no hay un cambio significativo) a un
nivel de 5% de significancia.

Prueba de Rangos con signos de Wilcoxon


Es usada para hacer pruebas de hiptesis acerca de la mediana.
La prueba estadstica se basa en el estadstico de Wilcoxon (1945), el cual se
calcula de la siguiente manera:
Se resta de cada dato el valor de la mediana que se considera en la hiptesis
nula.
Se calcula los rangos de las diferencias sin tomar en cuenta el signo de las
mismas (o sea en valor absoluto). En el caso de haber empate se puede asignar
un rango promedio a todas las diferencias empatadas es decir; se les asigna el
rango:

RangosEmpatados
# RangosEmpatados

O sea es el promedio de los rangos que les corresponderan a los valores


empatados. El estadstico W de Wilcoxon ser la suma de los rangos
correspondientes a las diferencias positivas o negativas, el que sea menor.

A diferencia de la prueba de los signos, la prueba Rangos con signos de


Wilcoxon toma en cuenta la magnitud de la diferencia.
Los pasos son:
-----

se ordenan las diferencias por valor absoluto


diferencias positivas tienen un signo +
diferencias negativas tienen un signo se suman las diferencias con signo + y las diferencias con signo -

Bajo la Ho de que la mediana = 0 se espera que la muestra tenga


aproximadamente igual nmero de ( + ) que de ( ) o sea que:
suma de rangos positivos = suma de rangos negativos

EJEMPLO.Usandolosdatosdelospacientesdetrasplantealcorazn.
3.1
5
1.9
1.9
4
.9
5
4.1
4.1
7
2.8 5
2.2
2.2
5
4.3 5
0.7
0.71
.6
5
4.4
4.4
8
1.4 5
3.6
3.6
6
5.8 5
+0.8
0.8
2
9.9 5
+4.9
4.9
9
6.3 5
+1.3 1.3
3
10.4 5
+5.4
5.4
11
0
5
5.0
5.0
10
11.5 5
+6.5
6.512
SUMADERANGOSPOSITIVOS=2+9+3+11+12=37
SUMADERANGOSNEGATIVOS=4+7+5+1+8+6+10=41
Comosoncasiiguales
SEACEPTALAHIPTESISNULA
(NOhaydiferenciaconlaMediana)

En general se va a usar el valor crtico tomado de una tabla o de software para


poder decidir si se rechaza la hiptesis nula de acuerdo a algn nivel de
significancia.
En MINITAB, para hacer la prueba de Wilcoxon se sigue la secuencia
STAT 4Noparametrics 41-Sample Wilcoxon.

Wilcoxon Signed Rank CI: tiempo


Confidence
Estimated Achieved Interval
N Median Confidence Lower Upper
tiempo 12
4.63
94.5
1.85 7.30

Interpretacin: Como el valor-P (p-value)= 5.5 (Minitab reporta 94.5% de confianza


o confidence) es mayor que 5% , no se rechaza la hiptesis nula. Es decir, no hay
suficiente evidencia estadstica para concluir que la mediana de los tiempos de vida es
menor a 5.0 aos.

Pruebas Noparamtricas para pares de


muestras
La prueba de los signos y la prueba de Wilcoxon se pueden usar
tambin como una prueba alterna a la prueba de t para
comparaciones de pares de muestras. En este caso se aplica la prueba
noparamtrica a las diferencias entre los dos grupos.

EJEMPLO
Caso de muestras dependientes o relacionadas.
2. Se efectu una prueba a unos pacientes para saber si su nivel de ansiedad
ha bajado despus de una terapia. Se les ha calificado en un escala de 1 a
20, siendo 20 el nivel mximo de ansiedad. Efectuar una prueba para saber si
la terapia ha tenido un resultado positivo, usar una significancia de 0.05
Los datos son los que se muestran en la tabla, las columnas siguientes son las
diferencias entre los dos valores (antes y despus), las diferencias absolutas y
el rango asignado a cada diferencia absoluta:

Paciente

Antes

Despus

Dif

Dif Abs

Rango

14

12

16

-8

18

14

14

13

20

12

16

16

Eliminar

14

16

-10

10

11

19

10

18

10

16

13

18

16

16

14

13

-9

14

-7

16

12

12

12

Suma de rangos
positivos
r+ = 75
Suma de rangos
negativos
r- = 30
Se emplea el menor
de los rangos como
estadstico de
prueba.
Los rangos para los
empates se
calcularon como se
muestra a
continuacin.

Se encontraron empates en los valores 8 y 9. Por lo que tenemos que


asignarles el promedio de los rangos que les hubiera correspondido.
Como son 14 valores los rangos deben ir del 1 al 14.
2
1
3

10

10

11

12

12

14

13

16

14

5+6+7
=6
3
8 + 9 + 10
=9
3

Rango asignado a
los valores
empatados

Se busca en una tabla o con software el valor crtico del estadstico W, usando
n=14 (se elimin un paciente que no mostr cambio) y el nivel de

= 0.05.

Como se ve en la tabla siguiente el valor para n=14 es 21.


La regla de decisin en este caso es rechazar la hiptesis nula si el menor de
los rangos es menor a 21.
Como el menor de los rangos es de 30, entonces no se rechaza la
hiptesis nula, y se concluye que no hay evidencia de que la terapia
haya funcionado con una significancia de 5%.
Si se quisiera saber si existe una diferencia, sin importar que sea
mayor o menor, entonces se usara el valor crtico para /2

Pruebas deuna Cola


0.025

00.01

0.005

Pruebas dedosColas
N

0.05

0.02

0.01

10

11

11

12

14

10

13

17

13

10

14

21

16

13

15

25

20

16

16

30

24

20

17

35

28

23

18

40

33

28

19

46

38

32

20

52

43

38

21

59

49

43

22

66

56

49

23

73

62

55

24

81

69

61

25

89

77

68

Tabladevalorescrticosparalapruebade
Wilcoxon.Elvalorobtenido(delamenorsuma
derangos)esestadsticamentesignificativosies
igualomenorqueelvalordelatabla.

Ejemplo 11.3. Se desea probar si el rendimiento en la prueba de


aprovechamiento matemtico es mejor que en la prueba de aptitud
matemtica. Para ello se toma una muestra de los resultados de 40
estudiantes:
Wilcoxon Signed Rank Test: diferenc
Test of median = 0.000000 versus median > 0.000000
N
for Wilcoxon
Estimated
N Test Statistic
P
Median
diferenc 40 40
591.0 0.008
27.75

Interpretacin: Como el valor-P (p-value) es menor que .05, se rechaza la


hiptesis nula y se concluye que hay evidencia estadstica de que el
rendimiento en aprovechamiento es mejor que en aptitud.

HASTA AQU EL EXAMEN


Prueba de Mann-Withney para dos muestras independientes
Se usa cuando se quiere comparar dos poblaciones usando muestras
independientes, es decir; es una prueba alterna a la prueba de t para comparar
dos medias usando muestras independientes. Es una extensin de la prueba
de suma de rangos de Wilcoxon pero para el caso de dos muestras de
tamao diferente.
La hiptesis nula es que la mediana de las dos poblaciones son iguales y la
hiptesis alterna puede ser que la mediana de la poblacin 1 sea mayor ( menor
distinta) de la mediana de la poblacin 2.
Cuando tanto n1 como n2 sean mayores que 10, se puede demostrar que si
no hay empates,
empates entonces W se distribuye aproximadamente como una
normal con media n1(n1+n2+1)/2 y varianza n1n2(n1+n2+1)/12.

n1 (n1 + n2 + 1)
W
2
z=
~ N (0,1)
n1 n2 (n1 + n2 + 1)
12

Cuando hay empates entonces, la varianza es modificada y se obtiene:

z=

n1 (n1 + n 2 + 1)
2
~ N (0,1)
3
g
ti ti
n1 n 2
[n1 + n 2 + 1
12
i =1 ( n1 + n 2 )( n1 + n 2 1)
W

donde, g y ti tienen el mismo significado dado anteriormente.


En MINITAB, para hacer la prueba de Mann-Withney, se sigue la
secuencia

STAT 4Noparametrics 4Mann-Withney.

Ejemplo
Usando los datos probar si el rendimiento en la prueba de
aprovechamiento matemtico de los estudiantes de escuela pblica y privada
es el mismo. Los datos son como siguen:
privada pblica
642 580
767 638
641 704
721 694
625 615
689 617
623
689

Solucin
Mann-Whitney Test and CI: privada, pblica
N Median
privada 6 665.5
pblica 8 630.5
Point estimate for ETA1-ETA2 is 26.5
95.5 Percent CI for ETA1-ETA2 is (-47.0,104.0)
W = 56.5
Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.1556
The test is significant at 0.1551 (adjusted for ties)

Interpretacin: Como el p-value 0.1551 (ajustado por empates), es mayor


que 0.05 se acepta hiptesis nula. Es decir; que hay evidencia estadstica para
concluir que el rendimiento en aprovechamiento matemtico es el mismo para
estudiantes de escuela pblica y privada.

Prueba de Kruskal-Wallis para comparar ms de dos grupos

La prueba de Kruskal-Wallis, es una alternativa a la prueba F del


anlisis de varianza para diseos de clasificacin simple. En este caso
se comparan varios grupos pero usando la mediana de cada uno de
ellos, en lugar de las medias.
Ho: La mediana de las k poblaciones consideradas son iguales y
Ha: Al menos una de las poblaciones tiene mediana distinta a las otras.

k
Ri2
12
H=
3(n + 1)

n(n + 1) i =1 ni

donde,

n es el total de datos.

Si hay empates en los datos entonces, se aplica la siguiente modificacin a H.

H '=

3
t
i ti
i =1

n3 n

Se puede mostrar que si los tamaos de cada grupo son mayores que 5
entonces, H se distribuye como una Ji-Cuadrado con, k-1 grados de libertad.
Luego, la hiptesis nula se rechaza si
.
Para hacer la prueba de Kruskal-Wallis en
H MINITAB,
> k 1,1 los datos de la variable
cuantitativa deben ir en una columna y los niveles del factor en otra. No se
permite en este caso entrar los grupos en columnas separadas.
2

Ejemplo
Se trata de comparar 3 mtodos de
enseanza (a, b y c) pero tomando
en cuenta adems el factor turno
(m, t y n), es decir el tiempo del da
al cual se da clase. Los datos son
como siguen:
a
b
c
m 80.000 65.000 66.000
78.000 79.000 49.000
t

69.000 50.000 34.000


72.000 58.000 58.000

n 73.000 62.000 46.000


74.000 65.000 59.000

Primero se introducen los datos en tres


columnas:
nota mtodo turno
80
a
m
78
a
m
69
a
t
72
a
t
73
a
n
74
a
n
65
b
m
79
b
m
50
b
t
58
b
t
62
b
n
65
b
n
66
c
m
49
c
m
34
c
t
58
c
t
46
c
n
59
c
n

Usar la prueba de Kruskal-Wallis para comparar los mtodos de enseanza


Solucin:
Ho: Las medianas de los tres mtodos de enseanza son iguales y
Ha: Al menos uno de los mtodos de enseanza tiene mediana distinta a los otros.
Kruskal-Wallis Test: notas versus mtodo
Kruskal-Wallis Test on notas
mtodo N Median Ave Rank
Z
1
6 61.50
5.4 -2.29
2
7 85.00
13.8 2.72
3
5 74.00
8.4 -0.54
Overall 18
9.5
H = 8.23 DF = 2 P = 0.016
H = 8.25 DF = 2 P = 0.016 (adjusted for ties)

Interpretacin: Como el p-value es 0.016 menor que .05, se rechaza la hiptesis nula
y se concluye que los mtodos no son todos iguales. Es decir; al menos uno de los
mtodos tiene mediana distinta a los otros.

El Coeficiente de Correlacin de Spearman

Este coeficiente es el equivalente noparamtrico del Coeficiente de


Correlacin que vimos anteriormente, al que tambin se le llama Coeficiente
de Pearson. Al igual que el coeficiente de correlacin, el Coeficiente de
Spearman puede tomar valores entre -1.0 y 1.0, un valor de -1.0 indica una
correlacin negativa perfecta y un valor de 1.0 indica una correlacin positiva
perfecta.

Pasos para calcular el Coeficiente de Spearman


1. Definir la hiptesis nula, por ejem. No hay relacin entre los dos juegos de
datos.
2. Calcular el rango (Rank) para ambos juegos de datos del mayor al menor
verificando empates.
3. Substraer los rangos para obtener la diferencia d.
4. Elevar la diferencia d al cuadrado.
5. Sumar los valores de d al cuadrado para obtener d2.
6. Usar la frmula

rs = 1

6 d 2

n( n2 1)

donde n es el nmero de rangos.

el Coeficiente de Spearman
Si el valor de rs:
... es -1, hay una correlacin negativa perfecta.
... se encuentra entre -1 y -0.5, hay una fuerte correlacin negativa.
... se encuentra entre -0.5 y 0, hay una dbil correlacin negativa.
... es 0, no hay correlacin
... se encuentra entre 0 y 0.5, hay una dbil correlacin positiva.
... se encuentra entre 0.5 y 1, hay una fuerte correlacin positiva.
... es 1, hay una correlacin positiva perfecta.
entre los 2 juegos de datos.
# Si el valor de rs es 0, podemos decir que la hiptesis nula se acepta. De
otra forma se rechaza.

La correlacin de Spearman mide el grado de asociacin entre dos variables


cuantitativas que siguen una tendencia siempre creciente o siempre
decreciente. es ms general que el Coeficiente de correlacin de Pearson, la
correlacin de Spearman, en cambio se puede calcular para relaciones
exponenciales o logartmicas entre las variables.
Para hallar los ordenamientos, se usa la opcin Rank del men Calc. Los
ordenamientos se guardan en otras columnas y luego se halla simplemente el
coeficiente de correlacin usual entre stas dos columnas usando la opcin
correlacin del submen Basic Statistics del men STAT.

MINITAB tambin incluye en el men de Pruebas Noparamtricas a la


Prueba de Friedman para anlisis de diseos en bloques al azar y la prueba
de Mood.

Pruebas Chi-Cuadrada para dependencia.


Tablas de Contingencia usando la Distribucin Chi-Cuadrada.
En muchas ocasiones, los n elementos de una muestra tomada de una
poblacin pueden clasificarse con dos criterios diferentes. Por tanto, podra
ser necesario saber si los dos mtodos de clasificacin son estadsticamente
independientes. Supngase que el primer mtodo de clasificacin tiene r
niveles, y que el segundo tiene c niveles. Entonces Oij es la frecuencia
observada para el nivel i del primer mtodo de clasificacin y el nivel j del
segundo mtodo de clasificacin. En general, los datos aparecern como se
muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce
como tabla de contingencia r x c .

El inters recae en probar la hiptesis de que los dos mtodos de clasificacin


rengln-columna son independientes.
independientes Si se rechaza esta hiptesis, entonces
se concluye que existe alguna interaccin entre los dos criterios de
clasificacin.
Los procedimientos de prueba exactos son difciles de obtener, pero puede
obtenerse un estadstico de prueba aproximado vlido para n grande.
Formalmente, sea pij la probabilidad de que un elemento seleccionado al azar
caiga el la ij-sima celda, dado que las dos clasificaciones son independientes.
Entonces, pij =ui vj , donde ui es la probabilidad de que un elemento
seleccionado al azar pertenezca al rengln de la clase i, y vj es la probabilidad
de que un elemento seleccionado pertenezca a la columna de la clase j. Ahora
bien, si se supone independencia, los estimadores de ui y vj son:

Por lo tanto, la frecuencia esperada de la celda es:

Entonces, para n grande, el estadstico:

tiene una distribucin aproximadamente chi-cuadrada con (r-1)(c-1) grados


de libertad si la hiptesis nula es verdadera. Por consiguiente, la hiptesis de
independencia debe rechazarse si el valor del estadstico de prueba X2
calculado es mayor que el X2 crtico (calculado o buscado en la tabla).

Ejemplos:
1. Una asociacin de profesores universitarios quiere determinar si la
satisfaccin en el trabajo es independiente del rango acadmico. Para ello
realiz un estudio nacional entre los acadmicos universitarios y encontr los
resultados mostrados son la tabla siguiente. Con un =0.05, hacer una
prueba para saber si la satisfaccin en el trabajo es independiente del rango.
RANGO

Profesor
Titular

Profesor
asistente

Profesor
asociado

Ayudante

Satisfaccin MUCHA
en el
REGULAR
Trabajo

40
78
57

60
87
63

52
82
66

63
88
64

POCA

Solucin:
Ho; La satisfaccin en el trabajo y el rango son independientes.
H1; La satisfaccin en el trabajo y el rango son dependientes.
Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6

Valor crtico para significancia de 0.05 con 6 grados de libertad

Regla de decisin:
Si X2 12.592 no se rechaza Ho.
Si X2 > 12.592 se rechaza Ho.
Se proceder a calcular los valores esperados de cada celda. Como los grados
de libertad son 6, esto quiere decir que necesitamos calcular nicamente 6
frecuencias esperadas, y las faltantes se encuentran por diferencia con el
total.
Se calcularn los valores esperados E11, E12, E13, E21, E22 y E23.
Se requieren los totales de rengln y columna que se aaden a la tabla:
RANGO

Satisfaccin
en el
Trabajo

Profesor
Titular

Profesor
asistente

Profesor
asociado

Ayudante

TOTAL
RENGLN

MUCHA
REGULAR
POCA

40
78
57

60
87
63

52
82
66

63
88
64

215
335
250

TOTAL
COLUMNA

175

210

200

215

800

Clculos de valores esperados:

RANGO

Satisfaccin
en el
Trabajo

MUCHA
REGULAR
POCA

TOTAL
COLUMNA

Profesor
Titular

Profesor
asistente

Profesor
asociado

Ayudante

TOTAL
RENGLN

40
(47.03)
78
(73.28)
57
(54.69)

60
(56.44)
87
(87.94)
63
(65.62)

52
(53.75)
82
(83.75)
66
(62.50)

63
(57.78)
88
(90.03)
64
(67.19)

215

175

210

200

215

800

335
250

Los valores esperados que no se obtuvieron por medio de la ecuacin, se


obtuvieron de la diferencia con respecto a los totales.
Ahora podemos obtener el valor del estadstico X2 correspondiente.

Decisin y justificacin:
Como el valor de 2.75 es menor que el crtco de 12.592, por lo tanto no
se rechaza Ho y se concluye con un =0.05 que la satisfaccin en el
trabajo y el rango son independientes.

You might also like