You are on page 1of 12

Prctica 6.

Anlisis de dos muestras

Prctica 6 ANLISIS DE DOS MUESTRAS

Objetivos:
En esta prctica utilizaremos SPSS para extender el anlisis de una sola muestra visto en la Prctica 5 al de dos muestras, realizaremos estimacin puntual, clculo de intervalos de confianza y contrastes de hiptesis acerca de las medias poblacionales. Asimismo se estudia la adecuacin de las hiptesis necesarias para la aplicacin de la prueba T, plantendose, en su caso, contrastes no paramtricos.

ndice:
1. Anlisis de dos muestras independientes 1.1 Prueba T 1.2 Prueba Mann-Whitney 2. Anlisis de dos muestras emparejadas o relacionadas 2.1 Prueba T 2.2 Prueba de los signos 3. Prueba de Normalidad 4. Ejercicios

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

1. Anlisis de dos muestras independientes


Vamos a considerar la comparacin de las medias de dos poblaciones en base a dos muestras independientes procedentes de stas. Por ejemplo, abrimos el archivo AMBIENTE y supongamos que queremos establecer si existe diferencia entre los niveles medios del ph en zonas con contenidos de ozono normal y alto. 1.1. Prueba T Para poder efectuar la Prueba T para muestras independientes, SPSS necesita una columna en el editor de datos que contenga los valores de la variable cuyas medias en las dos poblaciones se desea comparar, y otra que indica la poblacin o grupo a que pertenece cada individuo. Comprobamos que as aparece en al archivo AMBIENTE en las columnas ph y ozono. A continuacin, seleccionamos Analizar/Comparar medias/Prueba T para muestras independientes y nos aparece la ventana siguiente:

En ella, en primer lugar seleccionamos la variable numrica ph y con el puntero la situamos en la ventana de Contrastar variables. A continuacin, seleccionamos la nica variable de agrupacin ozono y pulsamos Definir grupos.

En esta ventana debemos especificar los dos valores de la variables de agrupacin que definen al grupo ozono normal y ozono alto, eligiendo entre:

Usar valores especificados. Escribimos un valor para el Grupo 1 y otro para el Grupo 2. Los casos con otros valores (si existen) quedarn excluidos.

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

Punto de corte. Escribimos un nmero que divida los valores de la variable de agrupacin en dos conjuntos. Todos los cdigos menores que el punto de corte forman un grupo y los mayores o iguales que el punto de corte forman el otro grupo.

Si la variable de agrupacin es de cadena corta, por ejemplo, S y NO , podemos escribir una cadena para el Grupo 1 y otra para el Grupo 2. Los casos con otras cadenas quedarn excluidos del anlisis. Una vez completada la ventana y tras pulsar Continuar, volvemos a la ventana de Prueba T para muestras independientes. Pulsando el botn Opciones podemos introducir un valor entre 1 y 99 para el coeficiente de confianza de un intervalo, cuyo valor por defecto es del 95%. Tras pulsar el botn Aceptar, SPSS muestra en el Visor de resultados, bajo el ttulo de Estadsticos de grupo, para cada variable, se muestran: el tamao de la muestra, la media, la desviacin tpica y el error tpico de la media. A continuacin, bajo el ttulo de Prueba de muestras independientes, encontramos la Prueba de Levene para la igualdad de varianzas y los resultados de una Prueba T para la igualdad de medias.
Estadsticos de grupo
PH PH OZONO Normal Normal Alto Alto N 144 144 156 156 MediaDesviacin tp.Error tp. de la media 5,823729 ,553008 4,60840E-02 5,823729 ,553008 4,60840E-02 6,014887 ,513695 4,11285E-02 6,014887 ,513695 4,11285E-02

Prueba de muestras independientes


Prueba de Levene Prueba T para para la igualdad la igualdad de de varianzas medias F Sig. t

gl

Sig. Diferencia (bilateral) de medias

Error tp. de la diferencia

IC(95%) para la diferencia


Inferior Superior

PHvarianzas iguales varianzas no iguales

2,878,091

-3,104

298

,002 ,002

-,191157 6,159E-02 -,312356-6,996E-02 -,191157 6,177E-02 -,312726-6,959E-02

-3,095291,125

Salida del SPSS La Prueba de Levene es un contraste de igualdad de varianzas. En los resultados encontramos el valor del estadstico del contraste (F) y el p-valor correspondiente (Sig.) al ser 0.091 > 0.05 asumimos la igualdad de varianzas. Respecto a la prueba T, podemos encontrar el estadstico del contraste (t), los grados de libertad (gl), el p-valor bilateral (Sig), la diferencia de medias, el error tpico de la diferencia, un intervalo de confianza para la diferencia del nivel dado. Todos estos valores aparecen tanto en el caso de asumir varianzas iguales, como si no se asume. En este procedimiento el contraste que realiza el SPSS es el siguiente: H 0: 1 = 2 HA : 1 2

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

En nuestro caso 1 y 2 representan las medias de ph en las poblaciones donde el ozono es normal y alto, respectivamente. Puesto que el p-valor bilateral es 0.002 < 0.05 rechazamos H0. Los contrastes direccionales debern resolverse a partir del p-valor del contraste no direccional anterior.

Ejercicio 1
Podemos considerar que los niveles medios de sulfato son iguales en Castelln y Valencia? La Prueba T es vlida siempre que los tamaos muestrales sean suficientemente grandes o cuando las muestras provengan de poblaciones con distribuciones normales. En la Seccin 3 veremos como comprobar si se satisface esta ltima condicin. 1.2. Prueba de Mann-Whitney Cuando la Prueba T no sea vlida, debemos plantearnos una prueba no paramtrica como Mann-Whitney. Para obtenerla escogemos Analizar/Pruebas no paramtricas/2 muestras independientes y nos aparece la ventana siguiente, en la que se escogen, como en el caso de la prueba T, la variable a contrastar y la variable de agrupacin, y se definen los grupos. El Tipo de prueba es U de Mann-Whitney.

Vamos a realizar la prueba de Mann-Whitney para la variable ph dependiendo del nivel de ozono. Pulsando el botn Aceptar obtenemos el resultado siguiente donde podemos ver, adems de una pequea estadstica de los rangos, el valor del estadstico U de contraste (junto al de Wilcoxon y la aproximacin Z) y una aproximacin del p-valor (Sig. asintt. (bilateral)).

Rangos OZONO Normal Rango Suma de N promedio rangos 144 135,18 19465,50

PH

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

5
164,64 25684,50

Alto Total Estadsticos descriptivos N 300 300

156 300

PH OZONO

Media Desv. tpica Mnimo 5,923131 ,540562 4,5191 ,52 ,50 0

Mximo 7,7629 1

25 5,576150 ,00

Percentiles 50 (Mediana) 75 5,925300 6,271300 1,00 1,00

Estadsticos de contraste PH U de Mann-Whitney W de Wilcoxon Z Sig. asintt. (bilateral) a Variable de agrupacin: OZONO 9025,500 19465,500 -2,939 ,003

Vemos pues que con la prueba de Mann-Whitney la conclusin es la misma que con el test T, rechazando en ambos casos la hiptesis nula.

2. Anlisis de dos muestras emparejadas o relacionadas


Ahora consideraremos la comparacin de las medias de dos poblaciones en base a dos muestras emparejadas o relacionadas. Consideremos, por ejemplo, los datos del archivo GLUCOSA y supongamos que queremos establecer la influencia de la toma de un jarabe en el nivel de glucosa en sangre, por lo que se toman los niveles de glucosa antes (g1antes) y despus (g1des) de tomar el jarabe, aqu cada caso representa a un mismo sujeto. 2.1. Prueba T Para efectuar la Prueba T para muestras emparejadas, a diferencia de las muestras independientes, se necesita una columna en los datos para cada una de las variables a comparar. Si seleccionamos Analizar/Comparar medias/Prueba T para muestras relacionadas nos aparece la ventana: En ella seleccionamos las dos variables en cuya diferencia estamos interesados. Al hacer la primera seleccin en la columna de variables, esta aparece en el recuadro selecciones actuales como variable 1, y al realizar la segunda seleccin aparecer como variable 2. En ese

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

momento, ya seleccionadas las dos es cuando las podemos introducir en la columna variables relacionadas y a continuacin para ejecutar el procedimiento pulsamos Aceptar.
Estadsticos de muestras relacionadas Media Par 1 Par 1 Glucosa en sangre (mg/dl). Tiempo 1, antes Glucosa en sangre (mg/dl). Tiempo 1, antes Glucosa en sangre (mg/dl). Tiempo 1, despus Glucosa en sangre (mg/dl). Tiempo 1, despus N Desviacin tp. 11,3088 11,3088 27,0569 27,0569 Error tp. de la media 1,2644 1,2644 3,0251 3,0251

73,9000 80 73,9000 80 97,2750 80 97,2750 80

Correlaciones de muestras relacionadas N Par 1 Glucosa en sangre (mg/dl). Tiempo 1, antes y Glucosa en sangre (mg/dl). Tiempo 1, despus Prueba de muestras relacionadas t Diferencias relacionadas Media Desviacin tp. Error tp. de la media Par 1 -23,3750 Glucosa en sangre (mg/dl). Tiempo 1, antes - Glucosa en sangre (mg/dl). Tiempo 1, despus 27,6897 3,0958 95% Intervalo de confianza para la diferencia Inferior Superior -29,5370 -17,2130 -7,551 79 gl Sig. (bilateral) 80 Correlacin ,152 Sig. ,177

,000

En el Visor de resultados podemos encontrar bajo el ttulo de Estadsticos de muestras relacionadas, la media, tamao muestral comn, desviacin tpica y error tpico de la media de cada una de las dos variables. A continuacin vemos la correlacin existente entre la pareja de variables escogida. Finalmente, encontramos los resultados de la prueba T de muestras relacionadas: media, desviacin tpica y error tpico de la media para la diferencia de las dos muestras, un intervalo de confianza y un contraste para la diferencia de las medias. Puesto que la significacin o P-valor es 0.000 se concluye que hay diferencia significativa entre ambas muestras.

Ejercicio 2
Son iguales los niveles medios de glucosa medidos por g2antes y g2des ?. La Prueba T es vlida siempre que los tamaos muestrales sean suficientemente grandes o la diferencia de las muestras tenga una distribucin normal. En la Seccin 3 veremos como comprobar si se satisface esta ltima condicin.

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

2.2. Prueba de los signos Si la Prueba T pudiera no ser vlida, nos plantearamos una prueba no paramtrica como la prueba de los signos. Esta prueba contrasta si las dos poblaciones tienen una distribucin similar. Si las dos variables tienen una distribucin similar, el nmero de diferencias positivas y negativas no difiere de forma significativa. Para obtenerla elegimos Analizar/Pruebas no paramtricas/2 muestras relacionadas. En la ventana que aparece seleccionamos las dos variables a contrastar, siguiendo un proceso similar al expuesto para la prueba T. A continuacin, seleccionamos como Tipo de prueba Signos.

En el Visor de resultados podemos ver adems de una pequea estadstica con las diferencias positivas, negativas y empates, el valor del estadstico Z de contraste y una aproximacin del p-valor ( Sig. asintt. (blilateral) ).

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

3. Pruebas de normalidad
Como ya vimos en la Prctica 5 una de las hiptesis que deben comprobarse para la validez de las Pruebas T, tanto en el anlisis de uno o dos muestras, es la de normalidad de los datos cuando el tamao de las muestras es pequeo. La condicin de normalidad puede comprobarse con la prueba de Kolmogorov-Smirnov y mediante el dibujo de histogramas, diagramas de cajas o grficos Q-Q. En estos grficos, la distribucin de los datos debe ser aproximadamente simtrica y sin valores atpicos. Para obtener una prueba de normalidad de los datos, seleccionamos el men Analizar/Estadsticos descriptivos/Explorar. Aparece la ventana siguiente:

En el caso de dos muestras independientes, situamos la variable a contrastar en la ventana Dependientes, y la variable que forma los grupos en la de Factores. Para dos muestras emparejadas hay que construir una nueva variable que contenga las diferencias de las dos originales en la ventana Dependientes, y dejamos Factores en blanco. A continuacin, debemos pulsar el botn Grficos y en la nueva ventana escoger la opcin de

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

Histograma y activar la opcin de Grficos con pruebas de normalidad. Por ejemplo podemos estudiar la normalidad de la variable ph separada segn los dos niveles de ozono. En el Visor de resultados encontramos, junto con los algunos estadsticos de la(s) variable(s) a estudiar, la prueba de Kolmogorov-Smirnov con correccin de Lilliefors para contrastar la normalidad de la distribucin (hiptesis nula) y el (los) histograma(s).
Pruebas de normalidad Kolmogorov-Smirnov OZONO Estadstico gl OZONO Estadstico gl PH Normal ,035 144 PH Normal ,035 144 Alto ,086 156 Alto ,086 156 * Este es un lmite inferior de la significacin verdadera. a Correccin de la significacin de Lilliefors Sig. Sig. ,200 ,200 ,006 ,006

Histograma
Para OZONO= Normal
16 14 12 10 8 6 20 30

Histograma
Para OZONO= Alto

10

Frecuencia

4 Desv. tp. = ,55 2 0 Media = 5,82 N = 144,00


25 7, 00 7, 5 7 6, 50 6, 25 6, 00 6, 75 5, 50 5, 25 5, 0 0 5, 75 4, 50 4,

Frecuencia

Desv. tp. = ,51 Media = 6,01 0 N = 156,00


63 7, 38 7, 13 7, 88 6, 3 6 6, 38 6, 13 6, 88 5, 3 6 5, 38 5, 13 5, 88 4,

PH

PH

Observamos que el resultado del test Kolmogorov-Smirnov es aceptar la normalidad de la variable ph si ozono es normal su P-valor es 0.2, mientras que habra que rechazarla si ozono es alto, su P-valor es 0.006. Observar la asimetra a la derecha que presenta el histograma para nivel de ozono alto, tambin observada en el siguiente grfico Q-Q
Grfico Q-Q normal de PH
Para OZONO= Normal
3

Grfico Q-Q normal de PH


Para OZONO= Alto
3

Normal esperado

-1

Normal esperado

-1

-2 -3 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5

-2 -3 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0

Valor observado

Valor observado

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

10

Finalmente, los diagramas de caja siguientes, muestran las mismas caractersticas


8
222 45 191 209

PH

4
N= 144 156

Normal

Alto

OZONO

En cualquier caso, dado que los tamaos muestrales son grandes (144 casos con ozono Normal y 156 con ozono Alto), es vlido utilizar la prueba T.

Ejercicio 3
Realizar el estudio de normalidad de la variable sulfato para las dos poblaciones que define la variable ozono.

4. Ejercicios
Resolver los problemas que se plantean a continuacin aplicando en cada caso el procedimiento ms adecuado, dependiendo de si las muestras son independientes o emparejadas y de la adecuacin de las hiptesis necesarias para la aplicacin de un contraste paramtrico o no paramtrico. Obtener para todos los problemas i) Estimadores puntuales de la media y la desviacin tpicas de las poblaciones. ii) Intervalos de confianza al 80% y al 95% para la diferencia de las medias (mtodo agrupado y mtodo no agrupado) en el caso de independencia o para la media de la diferencia en caso de emparejamiento. iii) Plantear contrastes de hiptesis anlogos a los de ii) y comprobar que conducen a los mismos resultados. iv) Realizar contrastes direccionales cuando se considere necesario. Ejercicio 1. (Fichero: Ensalada) En un estudio del crecimiento de la lechuga, se cultivaron dos variedades diferentes durante 16 das en una estacin espacial. El objetivo de este experimento era comprobar si

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

11

ambas tenan el mismo proceso de crecimiento. Los resultados se midieron segn el peso total en seco de las lechugas. Las dos variedades estudiadas fueron Ensalada y Bibbs y los datos fueron los siguientes: Variedad Ensalada: Variedad Bibbs: 3.06, 2.78, 2.87, 3.52, 3.81, 3.60, 3.30, 2.77, 3.62 1.31, 1.17, 1.72, 1.20, 1.55, 1.53

Ejercicio 2. (Fichero: Monedas) En 1965, una escasez de plata en Estados Unidos, llev al Congreso a autorizar la acuacin de monedas de 10 y 25 centavos con una cantidad menor de plata. Tambin se recomend que el contenido de plata de las monedas de medio dlar se redujera del 90% al 40%. Histricamente, las fluctuaciones en la cantidad de metales preciosos utilizados en las monedas son bastante frecuentes. Los datos de este ejemplo comparan los contenidos de plata de una moneda Bizantina del siglo doce en dos diferentes momentos durante el reinado de Manuel I (1143-1180). El objetivo de este problema es comprobar si la proporcin en el contenido de plata de una moneda bizantina era la misma en las dos acuaciones. El anlisis consiste en introducir la moneda en una solucin con un 50% de cido ntrico. Esta solucin es tratada con cloruro sdico hasta que todo el cloruro de plata se precipita. Pesando el precipitado, es posible calcular el porcentaje de plata de la moneda. Las monedas analizadas son parte de un gran descubrimiento en Chipre. Los datos corresponden a los contenidos de plata de nueve monedas pertenecientes a la primera acuacin durante el reinado de Manuel I y de siete del cuarto acuamiento. Primer 5.9, 6.8, 6.4, 7.0, 6.6, 7.7, 7.2, 6.9, 6.2 Cuarto 5.3, 5.6, 5.5, 5.1, 6.2, 5.8, 5.8

Ejercicio 3. (Fichero: Hipnosis) La investigacin en percepcin extrasensorial (ESP) ha tomado diferentes direcciones a lo largo del tiempo. Recientemente, se ha considerado la posibilidad de que la hipnosis puede facilitar la aparicin de la ESP en personas que crean no tenerla. La manera ms obvia de comprobarlo es comparar las habilidades extrasensoriales de los sujetos cuando estn despiertos y cuando estn hipnotizados. El objetivo del siguiente experimento es determinar si la habilidad de una persona para acertar cartas aumenta bajo hipnosis. Los experimentos de ESP habitualmente se realizan con cartas de Zener. Estas cartas especiales tienen solo cinco figuras. En este estudio, se pidi a 15 estudiantes que trataran de adivinar la forma de 200 cartas de Zener. Se utiliz la misma persona como canal -esto es, la persona que se concentra en la carta- para cada intento. Para 100 de los intentos, ambos (estudiante y canal) estaban despiertos y para los otros 100, los dos estaban hipnotizados. Los resultados del experimento vienen dados en forma del nmero de aciertos hecho por cada sujeto bajo ambas condiciones.

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

Prctica 6. Anlisis de dos muestras

12

Despiertos: Hipnotizados:

18, 19, 16, 21, 16, 20, 20, 14, 11, 22, 19, 29, 16, 27, 15 25, 20, 26, 26, 20, 23, 14, 18, 18, 20, 22, 27, 19, 27, 21

Ejercicio 4. (Fichero: Abejas) Hay muchos factores que predisponen a una abeja a picar. Una persona que vista ropa oscura, por ejemplo, es ms probable que sea picada por una abeja que otra que lleve ropa ms clara. El aumento de temperatura hace ms agresivas a las abejas. Y alguien cuyos movimientos sean rpidos y bruscos, corre ms riesgo que otro que se mueva ms lentamente. Otro factor, muy importante para los apicultores es si la persona acaba de ser picada por otra abeja. Este ltimo factor ha sido estudiado en el siguiente experimento. El objetivo era comprobar si las abejas tenan preferencia por picar objetos que ya han sido picados. Para realizarlo, se agitaron ocho bolitas de algodn envueltas en muselina alrededor de la entrada a un panal. Cuatro de ellas, haban sido expuestas previamente a otro enjambre de abejas furiosas y hambrientas y estaban totalmente llenas de picaduras: las otras cuatro estaban totalmente sin picaduras. Despus de un tiempo prefijado de antemano, se cont el nmero de nuevas picaduras en cada grupo de cuatro bolitas. El proceso se repiti nueve veces en distintos momentos del da. Nmero de picaduras nuevas en cada grupo de 4 bolitas. Con picaduras previas: 70, 9, 33, 33, 4, 21, 20, 27, 33 Sin picaduras previas: 33, 10, 21, 15, 6, 16, 19, 15, 9 Ejercicio 5. (Fichero: Lagarto) En un estudio sobre el lagarto Sceloropis occidentalis , se estudi cual era el impacto ecolgico de la infeccin por el parsito de malaria Plasmodium , en lagartos que no estaban en cautividad. Para ello, se investig la respuesta de 15 lagartos infectados y 15 no infectados a una prueba de resistencia. Los resultados vienen dados por la distancia (en metros) que cada animal recorra en dos minutos. Infectados: 16.4, 29.4, 37.1, 23.0, 24.1, 24.5, 16.4, 29.1, 36.7 28.7, 30.2, 21.8, 37.1, 20.3, 28.3 No infect: 22.2, 34.8, 42.1, 32.9, 26.4, 30.6, 32.9, 37.5, 18.4, 27.5, 45.5, 34.0, 45.5, 24.5, 28.8 Ejercicio 6. (Fichero: Notas) En el siguiente banco de datos, se presentan las notas del primer y segundo parcial de un grupo de 47 estudiantes de Bioestadstica, por orden de lista. El objetivo de este problema est en investigar si hay evidencia para afirmar si las notas medias son distintas. 1er parcial: 7.6, 4.3, 9.4, 4.1, 9.6, 5.0, 7.1, 2.3, 8.1, 6.6, 1.5, 4.1, 4.0, 4.6, 6.6, 8.5, 7.1, 9.1, 3.5, 2.0, 4.7, 6.6, 9.5, 7.5, 6.8, 3.7, 7.0, 4.0, 5.3, 7.1, 7.5, 2.5, 9.1, 8.3, 3.0, 9.8, 5.8, 7.2, 8.8, 5.7, 6.9, 6.6, 4.2, 1.7, 4.5, 8.0, 8.4 2 parcial: 6.8, 6.2, 7.4, 6.5, 7.0, 7.0, 4.9, 4.2, 4.9, 4.5, 6.0, 5.8, 7.2, 5.8, 6.5, 8.7, 7.0, 9.5, 4.0, 4.0, 5.1, 5.0, 7.2, 5.9, 8.2, 4.6, 8.2, 5.1, 6.8, 6.3, 5.4, 5.1, 9.8, 8.2, 4.0, 8.8, 5.0, 4.7, 8.7, 6.1, 6.0, 4.3, 7.6, 3.9, 2.7, 5.2, 7.8

Prcticas de Bioestadstica. Departament dEstadstica i Investigaci Operativa. Universitat de Valncia

You might also like