Professional Documents
Culture Documents
PARAMETRICAS
ESTADSTICA
La estadstica
Es una serie ordenada de mtodos que se utilizan para la recoleccin, organizacin,
presentacin, anlisis e interpretacin de datos numricos.
La estadstica descriptiva
Se utiliza para describir la frecuencia y distribucin de las caractersticas (o
variables) del objeto en estudio.
La estadstica inferencial
Se ocupa del proceso metdico para obtener conclusiones vlidas de una muestra,
con respecto a la poblacin, de manera tal que se le pueda considerar
representativa de ella.
VARIABLES CUALITATIVAS
Variable cualitativa nominal
Es cuando la variable no tiene punto de comparacin como el color
de los ojos (caf, azul, verde, negro).
VARIABLE CUANTITATIVA
Variable cuantitativa discreta, discontinua o de intervalo
Es cuando slo se puede medir en valores enteros: como el nmero de
alumnos, el nmero de partos, el nmero de empleados.
poblaciones;
Son la nica alternativa cuando el tamao de muestra es pequeo
Son tiles a un nivel de significancia previamente especificado.
Desventajas:
1. Los mtodos no paramtricos tienden a desperdiciar informacin,
pues los datos numricos exactos suelen reducirse a una forma
cualitativa.
2. Las pruebas no paramtricas no son tan eficientes como las pruebas
paramtricas, por lo que para una prueba no paramtrica
generalmente necesitaremos evidencia ms fuerte (como una muestra
ms grande o diferencias mayores) para rechazar una hiptesis nula
Cuando usarlos:
EJEMPLO
Se debe sealar que hay varias desventajas asociadas con las pruebas no
paramtricas. En primer lugar, no utilizan la informacin que proporciona la muestra,
y por ello una prueba no paramtrica ser menos eficiente que el procedimiento
paramtrico correspondiente, cuando se pueden aplicar ambos mtodos.
PRUEBAS NO PARAMETRICAS
Pruebas para una muestra: Chi-cuadrado (bondad de ajuste con variables
categricas), Binomial (proporciones y cuantiles), Rachas (aleatoriedad) y
Kolmogorov-Smirnov (bondad de ajuste con variables cuantitativas).
Pruebas para dos muestras independientes: U de Mann-Whitney,
PRUEBA DE
NORMALIDAD
Prueba de Normalidad
CHI CUADRADA
EJEMPLO:
En cierta mquina Expendedora de Refrescos existen 4 canales que expiden el mismo
tipo de bebida. Estamos interesados en averiguar si la eleccin de cualquiera de estos
canales se hace de forma aleatoria o por el contrario existe algn tipo de preferencia en
SOLUCION
Calcular las frecuencias esperadas:
Si la seleccin del canal fuera aleatoria, todos los canales tendran la misma
probabilidad de seleccin y por lo tanto la frecuencia esperada de bebidas vendidas
en cada uno de ellos debera ser aproximadamente la misma. Como se han vendido
en total 70 refrescos, la frecuencia esperada en cada canal es
EJEMPLO:
Estamos interesados en comprobar la perfeccin de un dado cbico (un
dado normal de 6 caras). Para esto realizamos 100 lanzamientos del dado
anotando los puntos obtenidos en cada lanzamiento. A la vista de los
resultados obtenidos, podemos concluir que el dado no es perfecto?. Nivel
de significacin (5%)
PRUEBA DE
HOMOGENEIDAD
PRUEBA DE HOMOGENEIDAD
Prueba de Homogeneidad de varias muestras cualitativas, consiste en comprobar si
varias muestras de una carcter cualitativo proceden de la misma poblacin (por
ejemplo: estas tres muestras de alumnos provienen de poblaciones con igual
distribucin de aprobados?.
NOTA:
En este tipo de contraste se suele rechazar la hiptesis nula (los valores observados
son coherentes con los esperados) cuando el estadstico es mayor que un determinado
valor crtico.
EJEMPLO :
Estamos interesados en estudiar la fiabilidad de cierto componente informtico con
relacin al distribuidor que nos lo suministra. Para realizar esto, tomamos una
muestra de 100 componentes (ni) de cada uno de los 3 distribuidores que nos sirven
el producto comprobando el nmero de defectuosos y correctos (nj) en cada lote. La
siguiente tabla muestra el nmero de defectuosos en para cada uno de los
distribuidores.
84
91
SOLUCIN:
Debemos realizar un contraste de homogeneidad para concluir si entre los
distribuidores existen diferencias de fiabilidad referente al mismo componente.
84
91
84
De tablas:
91
8,24
PRUEBA DE
INDEPENDENCIA
EJEMPLO:
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se
seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados:
SOLUCIN:
Calcular las frecuencias esperadas bajo el supuesto de independencia. La tabla de
frecuencias esperadas sera:
EJEMPLO:
Un estudio que se realiz con 81 personas referente a la relacin entre la cantidad de
violencia vista en la televisin y la edad del televidente produjo los siguientes resultados.
Edad
Indican los datos que ver violencia en la televisin depende de la edad del televidente,
a un nivel de significacin del 5%?
gl=2
En donde :
PRUEBA DE
PROBABILIDAD EXACTA
DE FISHER Y YATES
PRUEBA DE MCNEMAR
PARA MUESTRAS
DEPENDIENTES
PRUEBA Q DE COCHRAN
PARA 3 O MAS
MUESTRAS
DEPENDIENTES
ANALISIS
SECUENCIAL
PRUEBA DE
KOLMOGOROV
Y SMINORV
DECISION
PRUEBA DE U
MANN
WHITNEY
PRUEBA DE
WILCOXON
PRUEBA DE
FRIEDMAN
PRUEBA DE
KRUSKALL
WALLIS
PRUEBA DE
SIGNOS
PRUEBA DE SIGNOS
La idea bsica que est detrs de la prueba del signo es el anlisis de las frecuencias
de los signos positivos y negativos, para determinar si son significativamente
diferentes. Por ejemplo, suponga que probamos un tratamiento que se dise para
PRUEBA DE SIGNOS
EJEMPLO
Un restaurante italiano cercano a un campus universitario esta considerando la
posibilidad de utilizar una nueva receta para hacer la salsa que echa a las pizzas. Se
elige una muestra aleatoria de ocho estudiantes y se pide a cada uno que valore en
una escala de 1 a 10 su opinin sobre la salsa original y sobre la salsa propuesta. La
Tabla muestra las valoraciones obtenidas en la comparacin; los nmeros mas altos
indican que gusta mas el producto.
Indican los datos una tendencia general a preferir la nueva salsa a la original?
Hiptesis
Ho: No hay una tendencia general a preferir uno de los productos al otro (P=0.5)
Ha: La mayora prefiere el nuevo producto (o menos del 50% prefiere
el producto original)
SOLUCION:
Encontrar la probabilidad de observar en la muestra un resultado tan extremo o ms
que el que se obtendra si la hiptesis nula fuera, en realidad, verdadera:
n=7
P(x)= 2 (probabilidad de xito)
Entonces:
P-valor = P(x 2) = P(x = 0) + P(x = 1) + P(x = 2)
= 0,0078 + 0,0547 + 0,1641 = 0,2266
Decisin: Se acepta la Ho
Conclusin: los datos no son suficientes para sugerir que los estudiantes prefieren la
nueva salsa
P(x): 2
P(x): 5
p-valor = P(x 2) + P(x 5) = P(0) + P(1) + P(2) + P(5) + P(6) + P(7) = 0,4532
EJEMPLO
Medicin de inteligencia en nios Las mediciones mentales de nios pequeos se
hacen dndoles cubos y pidindoles que construyan una torre tan alta como sea
posible. Un experimento de construccin con cubos se repiti un mes despus, con
los tiempos (en segundos) listados en la tabla 12-2 (datos tomados de Tower
Building, de Johnson y Courtney, Child Development, vol. 3). Utilice un nivel de
significancia de 0.05 y pruebe la aseveracin de que no hay diferencia entre los
tiempos de la primera y segunda pruebas.
HIPOTESIS:
Ho: No existe diferencia (la mediana de las diferencias es igual a 0).
Ha: Existe una diferencia (la mediana de las diferencias no es igual a 0).
EJEMPLO:
Se ha pedido a una muestra aleatoria de 100 nios que comparen dos nuevos
sabores de helado: mantequilla de cacahuete y chicle. Cincuenta y seis miembros de
la muestra prefieren el helado de mantequilla de cacahuete, 40 el de chicle y 4 no
manifiestan ninguna preferencia. Utilice la aproximacin normal para averiguar si
existe una preferencia general por cualquiera de los dos sabores
Hiptesis:
Ho:Los nios no tienen ninguna preferencia por ninguno de los dos sabores (P=0.5)
Ha: Los nios tienen preferencia par uno de los dos sabores (P0.5)
SOLUCION:
DECISIN: Se acepta la Ho
EJEMPLO
Temperaturas corporales El conjunto de datos 4 incluye temperaturas corporales
medidas en adultos. Utilice las 106 temperaturas listadas para las 12:00 AM del da 2
con la prueba del signo, para probar la aseveracin de que la mediana es menor que
98.6F. El conjunto de datos tiene 106 sujetos: 68 sujetos con temperaturas por
debajo de 98.6F, 23 sujetos con temperaturas por encima de 98.6F y 15 sujetos con
temperaturas iguales a 98.6F.
HIPOTESIS:
Ho: La mediana es igual a 98.6F. (mediana = 98.6F)
Ha: La mediana es menor que 98.6F. (mediana < 98.6F)
SOLUCION
Descartamos los 15 ceros, utilizamos el signo negativo (-) para denotar cada
temperatura por debajo de 98.6F y utilizamos el signo positivo (+) para denotar cada
temperatura por encima de 98.6F. As, tenemos 68 signos negativos y 23 signos
positivos; entonces, n=91 y x=23 (el nmero del signo menos frecuente). Los datos
muestrales no contradicen la hiptesis alternativa, puesto que la mayora de las 91
temperaturas estn por debajo de 98.6F. Entonces:
Decisin: se rechaza Ho
NOTA:
En esta prueba del signo, para la aseveracin de que la mediana est por debajo de
98.6F, obtenemos un estadstico de prueba de z= -4.61, con un valor P de 0.00000202,
pero una prueba paramtrica de la aseveracin de que < 98.6F da como resultado un
estadstico de prueba de t = -6.611 con un valor P de 0.000000000813. Puesto que el
valor P de la prueba del signo no es tan bajo como el valor P de la prueba paramtrica,
vemos que la prueba del signo no es tan sensible como la prueba paramtrica. Ambas
pruebas nos llevan al rechazo de la hiptesis nula, pero la prueba del signo no considera
que los datos muestrales sean tan extremos, parcialmente porque la prueba del signo
utiliza slo informacin acerca de la direccin de los datos, ignorando las magnitudes de
los valores de los datos.
HIPOTESIS:
Conclusin:
Como P=0.1153 no es menor que
=0.05, no es posible rechazar la
hiptesis nula de que la mediana de la
resistencia al esfuerzo constante es
2000 psi.
EJEMPLO: Medicin de la inteligencia en nios Los datos en la tabla 12-3 son datos
apareados de tiempos (en segundos) que se obtuvieron a partir de una muestra
aleatoria de nios a quienes se les pidi que construyeran, usando cubos, una torre tan
alta como fuera posible (segn datos de Tower Building, de Johnson y Courtney, Child
Development, vol. 3). Este procedimiento se utiliza para medir la inteligencia de los
nios. Utilice la prueba
de rangos con signo de Wilcoxon con un nivel de significancia de 0.05 y pruebe la
aseveracin de que no hay diferencia entre los tiempos de la primera y de la segunda
pruebas.
HIPOTESIS:
SOLUCION
5.- Permitiendo que T sea la menor de las dos sumas calculadas en el paso 4,
encontramos que T = 5.5.
6.- Permitiendo que n sea el nmero de pares de datos para los que la
diferencia d no es 0, tenemos n = 14.
7.- Puesto que n = 14, tenemos que n 30, por lo cual utilizamos un estadstico
de prueba de T = 5.5 (y no calculamos un estadstico de prueba z). Adems, puesto que
n 30, utilizamos la tabla A-8 para encontrar el valor crtico de 21.
8.- El estadstico de prueba T = 5.5 es menor que o igual al valor crtico de 21, por lo que
rechazamos la hiptesis nula. Por lo que aparentemente hay una diferencia entre los
tiempos de la primera prueba y los tiempos de la segunda prueba.
EJEMPLO: Una compaa de taxis trata de decidir si el uso de llantas radiales en lugar de
llantas regulares con cinturn mejora la economa de combustible. Se equipan 16
automviles con llantas radiales y se manejan por un recorrido de prueba establecido.
Sin cambiar de conductores, se equipan los mismos autos con llantas regulares con
cinturn y se manejan una vez ms por el recorrido de prueba. Se registra el consumo de
gasolina, en kilmetros por litro, de la siguiente manera:
HIPOTESIS:
distribucin.
Calcular:
Se rechaza la Ho, por lo que existe diferencia en la facilidad de lectura de los libros.
KRUSKAL-WALLIS
Ahora bien, teniendo en cuenta que en muchas situaciones reales resulta demasiado
arriesgado suponer normalidad y homocedasticidad (especialmente si las muestras son
pequeas y/o los tamaos muestrales desiguales), y considerando adems que en otras
situaciones el nivel de medida de los datos puede no ir ms all del ordinal, la prueba de
Kruskal-Wallis representa una excelente alternativa al ANOVA de un factor
completamente aleatorizado.
Donde:
EJEMPLO Clancy, Rowling y Tolstoi El conjunto de datos 14 del Apndice B incluye datos
obtenidos de 12 pginas que se seleccionaron aleatoriamente de tres libros diferentes:
El oso y el dragn, de Tom Clancy; Harry Potter y la piedra filosofal, de J. K. Rowling; y La
guerra y la paz, de Len Tolstoi. Se obtuvo la puntuacin de facilidad de lectura de
Flesch para cada una de estas obras; los resultados se listan en la tabla 12-5. El sistema
de puntuacin de facilidad de lectura de Flesch da como resultado calificaciones ms
altas para el texto que es ms fcil de leer. Las calificaciones bajas resultan de trabajos
que son ms difciles de leer. Use la prueba de Kruskal-Wallis, con la hiptesis nula de
que tres muestras provienen de poblaciones con la misma distribucin.
HIPOTESIS:
SOLUCION
El estadstico de prueba H = 16.949 est en la regin crtica acotada por 5.991; por lo
tanto, rechazamos la hiptesis nula de poblaciones idnticas.
baja, lo que sugiere que su libro es el ms difcil de leer. Rowling tiene la suma de
rangos ms alta, lo que sugiere que su libro es el ms fcil de leer de los tres.
I
25.40 (14)
26.31 (15)
24.10 (12)
23.74 (11)
25.10 (13)
T1 (65)
Mquina
II
23.40 (9)
21.80 (6)
23.50 (10)
22.75 (8)
21.60 (5)
T2 (38)
III
20.00 (2)
22.20 (7)
19.75 (1)
20.60 (4)
20.40 (3)
T3 (17)
Utilizando la tabla 2 del apndice, el valor crtico de X2 con (c-1) dos grados de libertad y
correspondiente a un nivel de significancia de 0.05 es 5.991. Puesto que el valor calculado del
estadstico de prueba H es mayor que el valor crtico, se puede rechazar la hiptesis nula y
concluir que no todas las mquinas se comportaron igual respecto a la mediana del tiempo
requerido para que un trabajador lleve a cabo el proceso de llenado.
Alcance crtico
Zu
n( n 1) 1
1
'
12 n j n j
Puesto que cada uno de los tres grupos tienen el mismo tamao de muestra, solamente
hay un alcance crtico que sera utilizado en todas las comparaciones posibles. Eligiendo
n nivel de significancia de 0.05 se determina el alcance crtico obteniendo primero Zu=
2.39, puesto que el rea del extremo superior bajo la curva es 0.05/6 = 0.0083, de modo
que:
Entonces: 0.5-0.0083=0.4917
M1a
M2ab
M3b
animales, plantas, etc, etc., y las columnas a las diferentes condiciones (tratamientos,
grupos, muestras, etc.)
Puesto que es mayor que el valor tabulado (7.81) por tanto se rechaza Ho. Se puede
concluir que hay diferencias importantes (percibidas por los expertos) con respecto a la
calidad de las 4 marcas de caf.
Una vez rechazado Ho la hiptesis nula se pueden usar tcnicas de comparaciones
mltiples a posteriori para determinar qu grupo o grupos, difieren significativamente
de los dems. Dada la magnitud de las medias se sugiere la Prueba de Mnima
Diferencia Significativa.
(donde j= 1,2,c). Luego se calculan las diferencias (en la que j j) entre todas las c
(c-1)/2 parejas de rangos promedio. El alcance crtico para el procedimiento de
Nemenyi se obtiene de
Alcance crtico=
QU c ,
cc 1
12 r
Existen 4(4-1)/2 = 6 comparaciones por pareja que se deben realizar porque existen
cuatro restaurantes. Las diferencias absolutas de los rangos promedio son
_
_
| R.1 - R.2 | = |2.42 1.00| = 1.42
_
_
| R.1 - R.3 | = |2.42 4.00| = 1.58
_
_
| R.1 - R.4 | = |2.42 2.58| = 0.16
_
_
| R.2 - R.3 | = |1.00 4.00| = 3.00
_
_
| R.2 - R.4 | = |1.00 2.58| = 1.58
_
_
| R.3 - R.4 | = |4.00 2.58| = 1.42
Puesto que los tres grupos tienen el mismo tamao de muestra, solamente hay un
alcance crtico que se utiliza en todas las comparaciones posibles. Al seleccionar un nivel
de significancia de 0.05, se determina el alcance crtico obteniendo primero Qu (c, )
= 3.63 de la tabla 7. Entonces:
Solamente la cuarta comparacin por parejas, | R.2 - R.3 | = |1.00 4.00| = 3.00, es
mayor que el alcance crtico de 1.91 de manera que el director de investigacin puede
llegar a la conclusin de que el servicio en el restaurante C es significativamente mejor
que en el B, pero no hay evidencia de diferencia significativamente en cualquiera de las
dems parejas de restaurantes.
Prueba Q de Cochran
Anlisis de la Varianza de dos vas sin interaccin con respuesta dicotmica
(Binaria)
Se utiliza para probar la hiptesis nula de que las muestras independientes provienen
de poblaciones con medianas iguales
La hiptesis alternativa es la aseveracin de que las poblaciones tienen medianas que
no son iguales.
H0 : Las muestras provienen de poblaciones con medianas iguales.
H1 : Las muestras provienen de poblaciones con medianas que no son iguales.
Para aplicar la prueba de Kruskal-Wallis, calculamos el estadstico de prueba H, el cual
tiene una distribucin que puede aproximarse por medio la distribucin chi cuadrada,
siempre y cuando cada muestra tenga al menos cinco observaciones.
Cuando utilizamos la distribucin chi cuadrada en este contexto, el nmero de grados
de libertad es k 1,donde k Es el nmero de muestras.
Notacin
N =nmero total de observaciones en todas las muestras combinadas
k = nmero de muestras
R1=suma de los rangos de la muestra 1, que se calcula utilizando el procedimiento
que se describe a continuacin
n i = nmero de observaciones de la muestra 1
Para la muestra 2, la suma de los rangos es R, y el nmero de observaciones es n2
, y se utiliza una notacin similar para las otras muestras.
Valores crticos
La prueba es de cola derecha. ) - 3(N + 1) gl = k 1. (Puesto que el estadstico de prueba
H puede aproximarse por medio de una distribucin chi cuadrada, utilice la tabla A-4
con k 1 grados de libertad, donde k es el nmero de muestras diferentes).
PRUEBA DE
SIGNOS
ANOVA
MULTIFACTORIAL
CASO
TIPO DE
MUSICA
LUZ
DROGA
RENDIMIENTO DE
CALCULO
MATEMATICO
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
HEAVY
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
AMBIENTAL
MOZART
MOZART
MOZART
MOZART
MOZART
MOZART
MOZART
MOZART
MOZART
MOZART
MOZART
MOZART
NATURAL
NATURAL
NATURAL
NATURAL
NATURAL
NATURAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
NATURAL
NATURAL
NATURAL
NATURAL
NATURAL
NATURAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
NATURAL
NATURAL
NATURAL
NATURAL
NATURAL
NATURAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
ARTIFICIAL
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PLACEBO
PLACEBO
PLACEBO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PLACEBO
PLACEBO
PLACEBO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PLACEBO
PLACEBO
PLACEBO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PLACEBO
PLACEBO
PLACEBO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PLACEBO
PLACEBO
PLACEBO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PLACEBO
PLACEBO
PLACEBO
11
13
15
9
12
14
5
7
8
5
7
8
15
16
18
11
14
13
9
10
13
4
6
7
19
23
19
14
13
12
13
17
14
9
7
7
CASO
TIPO DE
MUSICA
LUZ
DROGA
RENDIMIENTO DE
CALCULO
MATEMATICO
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
11
13
15
9
12
14
5
7
8
5
7
8
15
16
18
11
14
13
9
10
13
4
6
7
19
23
19
14
13
12
13
17
14
9
7
7
VARIABLE INDEPENDIENTES
TIPO
LUZ
DOGA
1
1
1
HEAVY
NATURAL
TRATAMIENTO
2
2
2
AMBIENTAL
ARTIFICIAL
PLACEBO
MOZART