Pardo & San Marin - Analisis de Datos en Psicologia II

ANTONIO PARDO
PROFESOR TITULAR DE METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO

UNIVERSIDAD AUTÓNOMA DE MADRID
RAFAEL SAN MARTÍN

CATEDRÁTICO DE METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO
UNIVERSIDAD AUTÓNOMA DE MADRID
,..
ANALISIS
DE DATOS,..
EN PSICOLOGIA 11
EDICIONES PIRAMIDE
COLECCIÓN «PSICOLOGÍA»
Diseño de cubierta: C. Carabina
Reservados todos los derechos. El contenido de

esta obra está protegido por la Ley, que establece
penas de prisión y/o multas. además de las corres-
pondientes indemnizaciones por daños y perjui-
cios. para quienes reprodujeren, plagiaren, distri-
buyeren o comunicaren públicamente. en todo o en
parte. una obra literaria. artística o científica. o su
transformación. interpretación o ejecución. artísti-
ca fijada en cualquier tipo de soporte o comunicada
a través de cualquier otro medio. sin la preceptiva
autorización.
©Antonio Pardo y Rafael San Martín

©Ediciones Pirámide (Grupo Anaya. S. A.). 1994.1998, 2001. 2004. 2006. 2008
Juan Ignacio Luca de Tena. 15. 28027 Madrid
Teléfono: 91 393 89 89
www.edicionespiramide.es
Depósito legal: M. 45.667-2008
ISBN: 978-84-368-0719-7 (Obra completa)
ISBN: 978-84-368-1252-2 (Tomo 11)
Printed in Spain
Impreso en Lavel. S. A.
Polígono Industrial Los Llanos. Gran Canaria. 12
Humanes de Madrid (Madrid)
A nuestros alumnos de ayer,
pues a ellos se deben, en gran parte,
nuestros aciertos.
Y a nuestros alumnos de manaña,
pues de ellos dependerán, sin duda,
nuestras mejoras.
Índice
Prólogo............................................................................. 15
O. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
l. Qué es el análisis de datos . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2. Para qué sirve el análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3. Niveles de indagación: descriptivo, relacional, explicativo . . . . . . . . . . . . . . . . . . . . 21
4. Escalas de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1. Escala nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.2. Escala ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3. Escala de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Escala de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5. Un comentario más sobre las escalas de medida . . . . . . . . . . . . . . . . . . . . . . . 29
5. Sobre los contenidos de este libro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6. Software para el análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
PARTE PRIMERA
La inferencia estadística
1. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.1.1. Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . .. . . . . . . . 40
1.1.2. Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.1.3. Parámetro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.1.4. Estadístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.2. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.2.1. Muestreo aleatorio en población finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.2.2. Muestreo aleatorio en población infinita .. .. . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.3. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.4. Otros tipos de muestreo . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.3. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.3.1. Concepto de distribución muestra) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.3.2. Distribución muestra) de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.3. Distribución muestra( de la varianza . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . 71
1.3.4. Distribución muestra( de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Apéndice l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
© Ediciones Pirámide
10 / Indice
2. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.1. Estimación puntual .. . . . . .. . .. . . . .. . .. .. .. .. .. . . . . . . .. . . . . . . . . . . . . . . .. . . . . . 90
2.1.1. Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
2.1.2. Propiedades de un buen estimador .. . . . . . . . . .. . . . . . . . . . . .. . . . . . .. . . 90
2.1.3. Ejemplos de buenos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.2. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2.2.1. Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2.2.2. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.2.3. Intervalo de confianza para la varianza .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 106
2.2.4. Intervalo de confianza para la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2.2.5. Precisión de la estimación y tamaño de la muestra . . . . . . . . . . . . . . . . . 111
Apéndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3. Contraste de hipótesis....................................................... 125

3.1. La lógica del contraste de hipótesis .. . .. .. .. .. .. .. . .. .. .. .. . .. .. .. . . .. . . .. . 128
3.1.1. Las hipótesis estadísticas . .. .. .. .. . . .. .. .. . .. . . .. . . . .. .. .. . .. . .. . . . 131
3.1.2. Los supuestos..................................................... 133
3.1.3. El estadístico de contraste . . .. .. .. . . .. . .. . . .. . . . . . . . .. . . .. . . . . .. . . . 135
3.1.4. La regla de decisión .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 137
3.1.5. La decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
3.2. Errores de tipo I y 11 .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 143
3.3. Potencia de un contraste .. .. . . .. .. . .. .. .. . . .. . . .. . . .. . .. . . . .. . .. .. .. .. .. . . 148
3.4. Nivel crítico y tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.5. Contrastes bilaterales y unilaterales .. . .. .. .. .. . . . . . . . . . .. .. .. . . . . . . . .. . . .. . 159
3.6. Estimación por intervalos y contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 161
Apéndice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
PARTE SEGUNDA
Análisis de datos cuantitativos
4. Contrastes de hipótesis sobre medias . .. .. .. .. . . .. . . .. . . . . . . .. . . .. . . .. . . .. . 185

4.1. Contraste de hipótesis sobre una media.................................... 187
4.2. Contraste de hipótesis sobre dos medias independientes . . . . . . . . . . . . . . . . . . . . 191
4.2.1. Suponiendo varianzas iguales .. . . .. .. .. .. . .. . .. .. . . . . .. .. .. .. .. .. .. . 194
4.2.2. Suponiendo varianzas distintas .. .. .. .. .. . . . . .. .. .. .. .. . . .. .. .. .. .. . 198
4.3. Contraste de hipótesis sobre dos medias relacionadas . . . . . . . . . . . . . . . . . . . . . . 202
4.3.1. Observaciones perdidas .. .. . .. .. .. . . .. .. .. . . . .. .. .. .. . . . . .. .. . .. .. . 206
4.4. El tamaño del efecto en los contrastes sobre medias . . . . . . . . . . . . . . . . . . . . . . . . 207
Apéndice 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
5. Análisis de varianza de un factor .. . .. . .. .. .. .. .. . .. . .. .. .. . . .. . . .. .. .. . .. . . 227

5.1. El modelo lineal general .. . .. . . .. .. . .. .. .. . . .. .. .. . . . .. .. .. . .. . . . . .. .. .. .. . 229
5.2. Introducción al análisis de varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Indice / 11
5.2.1. Modelos de ANOVA.. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .. . 232

5.2.2. La lógica del ANOV A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
5.3. ANOV A de un factor, de efectos fijos, completamente aleatorizado . . . . . . . . . 238
5.3.1. Estructura de los datos y notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
5.3.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
5.3.3. Los supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.3.4. El estadístico de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
5.3.5. Resumen del modelo de ANOV A A-EF-CA . . . . . . . . . . . . . . . . . . . . . . . 250
5.4. ANOV A de un factor, de efectos fijos, con medidas repetidas . . . . . . . . . . . . . . 254
5.4.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
5.4.3. Los supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
5.4.5. Resumen del modelo de ANOVA A-EF-MR........ .. . . . . . . . . . . . . . 262
5.5. Efectos fijos y efectos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
5.6. Medidas del tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
Apéndice 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
6. Comparaciones múltiples entre medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
6.1. Qué son las comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

6.1.1. Comparaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
6.1.2. Comparaciones ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
6.2. El error tipo 1 en las comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
6.3. Comparaciones planeadas o a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
6.3.1. Comparaciones planeadas ortogonales (pruebas F planeadas) . . . . . . . . 295
6.3.2. Comparaciones de tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
6.3.3. Comparaciones planeadas no ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
6.4. Comparaciones no planeadas o a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
6.4.1. La prueba de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
6.4.2. La prueba de Scheffé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
6.5. Qué procedimiento elegir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
Apéndice 6..................................................................... 312
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
7. Análisis de varianza de dos factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
7.1. La interacción entre factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

7.2. ANOV A de dos factores, de efectos fijos, completamente aleatorizados . . . . . 330
7.2.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
7.2.3. Los supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
7.2.5. Resumen del modelo de ANOVA AB-EF-CA...................... 338
7.3. Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
7.3.1. Comparaciones a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
7.3.2. Comparaciones a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 ·
12 / Indice
7.4. Efectos fijos, aleatorios y mixtos . . . . . . .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349

7.5. Medidas del tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
7.6. ANOV A de dos factores, de efectos fijos, con medidas repetidas . . . . . . . . . . . 352
7.6.1. Medidas repetidas en los dos factores .. . .. . . . .. .. . . . . . . . . . . . . . . . . . . 353
7.6.2. Medidas repetidas en un solo factor .. .. .. .. .. .. .. .. .. . . .. .. .. .. .. .. 362
7.6.3. Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
8. Introducción al análisis de regresión y correlación . . . . . . . . . . . . . . . . . . . . . . . . 387
8.1. Introducción . .. . .. .. .. . . . .. . .. .. . .. . . . .. .. .. . . .. . . . .. . . . . . . . . . . . . . . . . . . . . . 389

8.2. Regresión lineal simple . .. . .. . . .. .. . .. .. .. .. .. . . .. . . .. . . .. . .. . . . .. . . .. . . . . . 390
8.2.1. El modelo de regresión lineal simple .. .. .. .. .. .. .. .. . .. .. .. .. .. .. .. 390
8.2.2. La ecuación de regresión . .. .. . .. .. .. . .. . .. . . .. . .. . .. .. . . .. . . . . . . . . . 391
8.2.3. Contraste de hipótesis sobre el parámetro fi . . . . . . . . . . . . . . . . . . . . . . . . 392
8.2.4. Regresión lineal en formato ANOVA . . . . . . . .. .. .. . .. . . . .. . . .. . . . . . 395
8.3. Correlación lineal simple . . . .. . . . .. .. . . . .. .. .. . . . . . . . .. . .. . . .. . . . . . . .. . . .. . 397
8.3.1. Cuantificación de la relación entre dos variables: el coeficiente de
correlación de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
8.3.2. Contraste de hipótesis sobre el parámetro Px>· . . . . . . . . . . . . . . . . . . . • • . 398
Apéndice 8 . . . . . . . . . . .. . . .. . . . .. . .. . .. .. .. . . . .. .. .. .. . . . . .. . . . . . . . . . . . . .. .. .. .. . 401
Ejercicios .. . . . . . . . . .. . . . . . . . . .. . . . .. .. . . . . .. . .. .. .. . . . . . . .. . . . . .. . . . . . . . . .. . . . . . 403
PARTE TERCERA
Análisis de datos semicuantitativos
9. Contrastes no paramétricos . . .. . . . .. . .. .. . . . . . . . .. . . . . . . . . . .. .. . . . . . . .. . . .. . 413
9.1. Caracterización de los contrastes no paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . 415

9.2. Contrastes no paramétricos: una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
9.2.1. Prueba de los signos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
9.2.2. Prueba de Wilcoxon .. . . . .. . .. . . .. . . .. .. . . . . . .. . . . . . .. . . . . . . . . . . . . . 419
9.3. Contrastes no paramétricos: dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
9.3.1. Muestras independientes: prueba de Mann-Whitney . . . . . . . . . . . . . . . . 424
9.3.2. Muestras relacionadas: prueba de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . 430
9.4. Constrastes no paramétricos: más de dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . 433
9.4.1. Muestras independientes: prueba de Kruskal-Wallis................ 433
9.4.2. Muestras relacionadas: prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . 441
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
10. Relación entre variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
1O. l. El coeficiente de correlación '·' de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460

10.1.1. Procedimiento de cálculo .. . .. . .. .. .. .. .. . . .. .. . .. .. .. .. .. .. . .. .. 460
10.1.2. Prueba de significación .. .. .. .. .. .. .. .. . .. .. .. .. .. . .. . . .. . .. .. .. . 461
10.2 El coeficiente de correlación r de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
10.2.1. Procedimiento de cálculo........................................ 465
10.2.2. Prueba de significación .. . . . .. .. . . .. . . . . . . .. . . . . . . .. . . .. . . .. . . .. . 467
Indice / 13
10.3. El coeficiente de correlación y de Goodman y Kruskal . . . . . . . . . . . . . . . . . . . . 471

10.3.2. Prueba de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
10.4. El coeficiente de concordancia W de Kendall . . . . . . . . . . . . . . . . . . . .. .. . . . . . . 475
10.4.2. Prueba de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
10.5. Relación entre r_,, r y W.................................................. 480
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
PARTE CUARTA
Análisis de datos cualitativos
11. Contrastes de hipótesis sobre proporciones............................... 491

11.1. Contraste de hipótesis sobre una proporción . . . . . . . . . . . . . .. . . . . . . . .. . . . . . . 493
11.2. Contrastes de hipótesis sobre dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
11.2.1. Dos proporciones independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
11.2.2. Dos proporciones relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
11.3. Contrastes de hipótesis sobre más de dos proporciones . . . . . . . . . . . . . . . . . . . 505
11.3.1. Más de dos proporciones independientes . . . . . . . . . . . . . . . . . . . . . . . . . 505
11.3.2. Más de dos proporciones relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
Apéndice 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
12. La prueba X 2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521

12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
12.1.1. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . .. . 523
12.1.2. Notación en tablas de contingencia . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . 525
12.2. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525
12.2.1. Estructura de los datos y notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
12.2.2. Estimación de las frecuencias esperadas . . . . . . . . . . . . . . . . . . . . . . . . . . 526
12.3. Independencia........................................................... 531
12.4. Igualdad de proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536
12.4.3. Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540
12.5. Errores tipificados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
12.6. Medidas de asociación basadas en X 2 . • . • • . • • . • • . • . • • • . • . • • • • . • • • • • • • • • . • 544
Apéndice 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553
Apéndice final. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559
Glosario de símbolos griegos..................................................... 597
Referencias bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609
Prólogo
Análisis de datos en psicología I I es continuación de Análisis de datos en

psicología I (Botella, León y San Martín, 1993). Por tanto, la lógica de los
contenidos incluidos en este segundo volumen debe ser entendida considerando el
contexto general de la obra completa. Al igual que el primer volumen, este segundo
ha sido concebido como libro de texto para un curso de análisis de datos dirigido a
alumnos de psicología o ciencias afines (educación, medicina, etc.), de modo que las
técnicas de análisis seleccionadas son las de uso más frecuente en ese tipo de
ciencias.
A pesar de que la necesaria actualización de los contenidos de una disciplina
exige la incorporación de material nuevo, el propósito básico de esta obra no es el de
presentar nuevas técnicas de análisis de datos; todo lo que nosotros incluimos aquí
está dicho ya, de una u otra forma, en alguna otra parte. Nuestras aportaciones
fundamentales hay que buscarlas más bien en la forma de abordar los contenidos
seleccionados y en la organización dada a los mismos. En relación con la forma de
abordar los contenidos, hemos procurado explicar los conceptos con palabras antes
que con números acompañando la exposición con ejemplos tomados, casi siempre,
de la psicología; además, siempre que ha sido posible, hemos evitado incluir
desarrollos matemáticos complicados, aunque procurando no dar la sensación de
falta de rigor. En lo referente a la organización de los contenidos, hemos utilizado
los niveles de medida como criterio general de clasificación convencidos de que, a
pesar de la polémica que esto pueda levantar y conscientes de que se trata de sólo
una clasificación entre varias posibles, nuestros alumnos se verán notablemente
beneficiados a la hora de seleccionar la mejor técnica posible para resolver una
situación concreta. También dentro de los aspectos organizativos, cada técnica de
las seleccionadas viene resumida en un recuadro con todos los detalles necesarios
para su correcta aplicación; cada capítulo va acompañado de gran cantidad de
ejercicios teóricos y prácticos para que el alumno pueda trabajar fuera del aula a su
ritmo.
El texto está dividido en cuatro partes. La primera de ellas, introductoria, recoge
los conceptos fundamentales de la inferencia estadística (muestreo, estimación y
contraste). La segunda se centra en las técnicas de análisis para datos cuantitativos,
es decir, técnicas que permiten comparar grupos y estudiar la relación entre
variables utilizando estadísticos como la media, la varianza y el coeficiente de
correlación de Pearson. La tercera parte recoge algunas técnicas para el análisis de
16 / Prólogo
datos semicuantitativos, es decir, técnicas que permiten aprovechar la información

ordinal de los datos utilizando estadísticos como la mediana y algunos coeficientes
de correlación por rangos. Por último, la cuarta parte incluye técnicas para el
análisis de datos cualitativos, es decir, técnicas que permiten comparar grupos y
estudiar la relación entre variables a partir de las propiedades nominales de los
datos.
Hemos procurado estructurar la obra de tal modo que sus contenidos puedan
ser adaptados tanto a cursos de duración anual como a cursos de duración
cuatrimestral. Para un curso de duración anual, pueden incluirse todos los capítulos
y algunos de los apéndices ubicados al final de cada capítulo (aquellos que cada
docente considere apropiados). Para un curso de duración cuatrimestral puede
prescindirse por completo de los apéndices y, por ejemplo, de la tercera parte.
Queremos terminar este prólogo señalando que este libro es resultado de una
labor docente desarrollada a lo largo de muchos años, así como de algunos libros
previos que nos han ido marcando la pauta a seguir hacia el objetivo de conseguir
un libro de texto apropiado para alumnos de psicología. Durante estos años,
muchos de nuestros alumnos y algunos de nuestros compañeros de departamento
(en especial, Hilda Gambara y Juan Botella) han contribuido a mejorar de forma
considerable varios aspectos de nuestras exposiciones. Queremos, desde aquí, hacer
explícito nuestro sincero agradecimiento a ellos.
Madrid, mayo de 1998.
ANTONIO PARDO
RAFAEL SAN MARTiN
1ntroducción
o
1. Qué es el análisis de datos.

2. Para qué sirve el análisis de datos.
3. Niveles de indagación: descriptivo, relacional, explicativo.
4. Escalas de medida
4.1. Escala nominal.
4.2. Escala ordinal.
4.3. Escala de intervalo.
4.4. Escala de razón.
4.5. Un comentario más sobre las escalas de medida.
5. Sobre los contenidos de este libro.
6. Software para el análisis de datos.
1. Qué es el análisis de datos
Cuando hablamos de análisis de datos nos estamos refiriendo a un conjunto de

procedimientos diseñados para 1) seleccionar datos, 2) caracterizarlos y 3) extraer
conclusiones de ellos 1 .
Este conjunto de procedimientos al que llamamos análisis de datos, aun siendo
una herramienta de la que todas las ciencias empíricas (biología, psicología,
sociología, economía, antropología, medicina, etc.) hacen uso, no pertenece a
ninguna de ellas, sino a una rama de las matemáticas conocida con el nombre de
estadística. Esta moderna ciencia, la estadística, es el resultado de la confluencia de
dos disciplinas independientes: el cálculo de probabilidades, que nace como aproxi-
mación matemática a los juegos de azar, y la estadística, o ciencia del Estado,
dedicada a llevar registros ordenados (contar, tabular, clasificar, censar, etc.) de los
datos del Estado. La unión de ambas en el siglo XIX dio lugar a una nueva ciencia
interesada, fundamentalmente, en estudiar cómo obtener conclusiones de la investi-
gación empírica mediante el uso de modelos matemáticos y que podemos definir
como una ciencia que recoge, ordena y analiza los datos de una muestra, extraída
de cierta población, y que, a partir de esa muestra, valiéndose del cálculo de proba-
bilidades, se encarga de hacer inferencias acerca de la población (Amón, 1979, pági-
na 37).
Es común encontrar la estadística dividida en dos partes diferentes: descriptiva e
inferencial (Kirk, 1978, págs 4-5; Amón, 1979, pág. 38; Ríos, 1985, págs. 14-15; Hays,
1995, pág. l; Howell, 1992, págs. 4-5; Botella, León y San Martín, 1993, pág. 20;
etc.). La estadística descriptiva consta de una serie de procedimientos diseñados para
organizar, sintetizar y aclarar la información contenida en un conjunto (muestra) de
datos empíricos (es lo que se corresponde con lo que nosotros hemos llamado, en el
primer párrafo de este apartado, caracterización de los datos).
La estadística iriferencial, por su parte, engloba una serie de estrategias que
permiten generalizar (inferir, inducir) las propiedades de ese conjunto de datos
empíricos (muestra) al conjunto total de datos (población) a los que representan (se
' Esta obra, Análisis de daros en psicología //, es continuación de Análisis de daros en psicología I
(Botella, León y San Martín, 1993); en consecuencia, para comprender los contenidos de esta segunda
parte es conveniente, en general, haber asimilado antes los de la primera.
20 / Análisis de datos en psicología 11
corresponde con lo que anteriormente hemos llamado extracción de conclusiones).

Por supuesto, para poder efectuar esta generalización (inferencia) de lo concreto a
lo general es imprescindible que el conjunto de datos utilizados para obtener
información (muestra) sea representativo del conjunto total de datos (población)
sobre el que deseamos realizar la inferencia (es decir, es necesario efectuar una
correcta selección de los datos). Esto se consigue mediante las técnicas de muestreo,
las cuales, como veremos, también pertenecen al ámbito de la estadística.
En ocasiones se habla también del cálculo de probabilidades como de una parte
de la estadística; no obstante, lo habitual es considerarlo como parte integran-
te de la estadística inferencial: podríamos decir que el cálculo de probabilidades
es, según tendremos ocasión de comprobar, el aparato matemático utilizado por la
estadística inferencial para dar el salto (hacer inferencia) de lo observado a lo des-
conocido.
Conviene destacar aquí que, a diferencia de lo que ocurre en otras ciencias, la
estadística posee la importante peculiaridad de, por un lado, ser ella misma una
ciencia (una ciencia formal, perteneciente a las matemáticas) y, por otro, servir de
instrumento metodoló~Jico para el desarrollo de otras ciencias. Este segundo aspecto
de la estadística es el que estamos enfatizando cuando hablamos del análisis de
datos como de un conjunto de procedimientos estadísticos. En este sentido, el
análisis de datos debe ser entendido, ante todo, como una herramienta metodológica
al servicio de la investigación empírica. El análisis de datos, por tanto, no constituye
únicamente una forma de conocimiento científico; su verdadera importancia radica
en que, en muchas parcelas de la ciencia, es a través de él como se obtiene
conocimiento científico.
2. Para qué sirve el análisis de datos
Las ciencias pueden ser clasificadas en formales y empmcas. En las ciencias

formales (las matemáticas, por ejemplo) no hay necesidad de entrar en contacto con
el mundo real; basta con establecer un conjunto de postulados sobre entidades
abstractas y proceder a partir de ellos por deducción lógica.
En las ciencias empíricas, por el contrario, el objetivo fundamental es el de
encontrar relaciones de tipo general (leyes) capaces de explicar el comportamiento
de uno o varios eventos reales cuando se dan las circunstancias apropiadas. Y, a di-
ferencia de lo que ocurre en las ciencias formales, esas leyes sólo pu~den ser
descubiertas y verificadas observando el mundo real. Sin embargo, no existe ningún
científico o grupo de científicos capaces de observar todos los eventos posibles
relacionados con una determinada ley. Las conclusiones sobre lo que ocurrirá con
la totalidad de una clase particular de eventos se extraen a partir de la observación
de sólo unos pocos eventos concretos de esa clase. Esto es lo que se conoce como
inducción o generalización inductiva.
Mientras las leyes de la deducción lógica (propias de las ciencias formales)
permiten llegar a conclusiones verdaderas a partir de premisas verdaderas, la
Introducción / 21
generalización inductiva (propia de las ciencias empíricas) intenta ir desde lo que se

considera que es verdad para un conjunto reducido de observaciones hasta la
afirmación de que eso mismo es verdad también para el total de observaciones
posibles de la misma clase.
Ciertamente, este salto de lo específico a lo general posee un riesgo nada
despreciable. Multitud de factores influyen sobre los eventos observables alterando
las similaridades y diferencias entre ellos. Podríamos decir que cada observación es,
en algún sentido, diferente de la siguiente. En ciencias como la física (en algunas de
sus parcelas, al menos), esta diferencia entre observaciones consecutivas es, general-
mente, bastante reducida, de modo que unas pocas observaciones de un mismo
evento suelen producir resultados muy parecidos. Bajo estas circunstancias, la ge-
neralidad de las conclusiones obtenidas inductivamente no constituye un problema
importante.
Pero ese no es el caso en las demás ciencias empíricas, en concreto, en las
llamadas ciencias sociales (psicología, sociología, economía, etc.). En estas ciencias,
la variación existente entre las distintas observaciones de un mismo evento no
puede ser sometida, habitualmente, a un control riguroso. Las fuentes de variación
existentes son muy numerosas y resultan extremadamente difíciles de identificar,
medir y controlar. Bajo estas circunstancias, las conclusiones a las que se puede
llegar inductivamente requieren la utilización de una metodología especial. Y es
precisamente la estadística, mediante el conjunto de procedimientos que aquí
estamos llamando análisis de datos, quien proporciona a las ciencias empíricas esa
metodología.
La más importante aplicación del análisis de datos está, por tanto, relacionada
con el concepto de incertidumbre, entendida ésta como la tendencia de un resultado
a variar cuando se efectúan repetidas observaciones del mismo bajo condiciones
idénticas. En situaciones deterministas, en las que una misma causa produce siempre
un mismo resultado (un cuerpo desplazado a una velocidad constante v durante un
tiempo t recorre un espacio e), el álgebra o el análisis matemático bastan para
alcanzar el nivel de comprensión buscado. Por el contrario, en situaciones aleato-
rias, en las que una misma causa puede producir cualquiera de un conjunto de
resultados posibles (lanzar una moneda al aire, presentar un estímulo determinado
y registrar el tiempo de reacción de un sujeto ante él, etc.), es necesario recurrir al
análisis de datos (a los procedimientos proporcionados por la estadística) para
poder extraer conclusiones fiables.
3. Niveles de indagación: descriptivo. relacional. explicativo
Ya ha quedado dicho que el análisis de datos debe ser entendido, ante todo,
como una herramienta metodológica al servicio de la investigación empírica. Ahora
bien, la investigación empírica puede desarrollarse en diferentes niveles de indaga-
ción (puede consultarse la obra de Rosenthal y Rosnow, 1991, para profundizar en
las ideas que siguen).
Supongamos que un psicólogo interesado en comprender ciertos aspectos del

rendimiento académico viene observando que entre los alumnos de enseñanza
primaria existen diferencias individuales en comprensión lectora. Para ahondar en
el problema y obtener alguna evidencia más de su sospecha, decide seleccionar una
muestra aleatoria de sujetos y pasarles una prueba estandarizada de comprensión
lectora. Supongamos que, analizados los datos que obtiene, nuestro psicólogo
encuentra que los sujetos, efectivamente, difieren en el grado de comprensión lectora
que manifiestan. Su indagación o investigación se encuentra, de momento, en un
nivel que podemos llamar descriptivo: se ha conseguido dar respuesta a la pregunta
cómo son las cosas (en concreto, se ha encontrado que los sujetos difieren en
comprensión lectora). En este nivel de indagación se intenta obtener conocimiento
sobre algo desconocido, identificar problemas de investigación y generar ideas
(posibles soluciones a los problemas) para ser estudiadas a otros niveles.
Constatado el hecho de que los sujetos difieren en comprensión lectora, supon-
gamos que nuestro psicólogo decide constatar, también, si esos mismos sujetos
difieren en el tipo de pautas motivacionales que manifiestan. Evalúa tal circustancia
(existen procedimientos apropiados para ello; ver Pardo y Alonso, 1990) y llega a la
conclusión de que, efectivamente, los sujetos muestran pautas motivacionales
diferentes.
Si nuestro psicólogo decidiera detener ahí su estudio, éste seguiría ubicado en un
nivel de indagación de tipo descriptivo. Pero este nivel de indagación raramente
resulta satisfactorio para un investigador curioso. Por esta razón, decide poner en
relación los dos hechos observados y descubre que los sujetos con mejor compren-
sión lectora manifiestan un tipo de pautas motivacionales («orientación hacia el
aprendizaje») completamente diferentes de las que manifiestan los sujetos con peor
comprensión lectora («orientación hacia la ejecución»).
Nuestro psicólogo se ha situado en un segundo nivel de indagación que
podemos llamar relacional: ha conseguido dar respuesta a la pregunta cómo unas
cosas se relacionan con otras. Es razonable pensar que el producto de la investiga-
ción empírica no puede limitarse únicamente a una colección de hechos. Los hechos
deben ser conectados entre sí de una forma lógica y sistemática para constituir
conocimiento organizado. La investigación de tipo relacional permite avanzar hacia
ese objetivo intentando 1) descubrir qué variables se encuentran relacionadas (y en
qué medida) y cuáles no, y 2) predecir unas a partir de otras.
Supongamos por último que nuestro psicólogo, sospechando que las pautas
motivacionales específicas de cada sujeto podrían estar mediatizando el nivel de
comprensión lectora alcanzado, decide seleccionar dos grupos aleatorios de sujetos
y entrenar a cada uno con un tipo de pautas motivacionales diferentes (existen
procedimientos apropiados para ello; ver Pardo y Alonso, 1990). Finalizado el
entrenamiento, evalúa el nivel de comprensión lectora de todos los sujetos y
encuentra que los entrenados en orientación hacia el aprendizaje muestran mejor
comprensión lectora que los entrenados en orientación hacia la ejecución.
Nuestro psicólogo se acaba de situar en un nivel de indagación que podemos
denominar explicativo: ha conseguido dar respuesta a la pregunta cómo las cosas
Introducción / 23
han llegado a ser de la forma que son (o de otra forma, por qué las cosas son como
son). Este nivel de indagación permite establecer relaciones de tipo causal entre los
eventos, de manera que lo que ocurre con uno o varios de ellos puede ser explicado
recurriendo a otro o varios diferentes: por ejemplo, las pautas motivacionales
i'!fluyen sobre el nivel de comprensión lectora; es decir, los sujetos difieren en
comprensión lectora porque poseen (entre, probablemente, otras cosas) pautas
motivacionales diferentes.
Por supuesto, estos diferentes niveles de indagación, descriptivo, relacional y
explicativo, no son mutuamente exclusivos; de hecho, muchos trabajos de investiga-
ción abarcan o se sitúan en más de un nivel.
Esta distinción entre niveles de indagación o investigación es de fundamental
importancia a la hora de establecer el tipo de conclusiones que es posible extraer de
un análisis de datos. Ciertamente, las técnicas de análisis de datos pueden ser
utilizadas en cualquiera de los niveles de indagación mencionados: en todos ellos se
dispone de datos susceptibles de ser analizados. Pero una técnica de análisis de
datos no determina el nivel de indagación en el que nos podemos situar. Es decir,
una técnica de análisis no nos dice si las conclusiones que podemos extraer de unos
datos concretos deben situarse en el nivel descriptivo, relacional o explicativo. Esto
viene determinado, como veremos a continuación, por la estrategia de recogida de
datos que adoptemos.
Dependiendo del fenómeno que deseemos estudiar y del nivel de comprensión
que nos propongamos obtener del mismo, la recogida de datos (denominada,
generalmente, diseño de investigación) puede efectuarse siguiendo dos caminos
alternativos: 1) esperando que aparezca el fenómeno que se desea estudiar y
observándolo cuando ocurre (metodología observacional); 2) provocando que ocurra
bajo determinadas circunstancias y registrándolo al producirse (metodología experi-
mental). Estas dos formas alternativas de diseñar la recogida de datos (con todas las
variantes que se quieran añadir a cada una de ellas) difieren, básicamente, en el
grado de control que se ejerce sobre los diferentes elementos de la situación en la
que se da el fenómeno que se desea estudiar, siendo este control máximo en la
metodología experimental y mínimo en la observacional. Cuando el psicólogo de
nuestro ejemplo se encontraba en el nivel descriptivo, se había limitado a seleccio-
nar una muestra aleatoria de sujetos y a obtener un registro de la respuesta que
deseaba estudiar: no ejerció control sobre ningún elemento de la situación. Poste-
riormente, al situarse en el nivel explicativo, ejerció control sobre el tipo de pautas
motivacionales (manipuló esa variable estableciendo dos niveles: orientación hacia
el aprendizaje y orientación hacia la ejecución) y creó una situación en la que se
podrían haber controlado más variables (igualando los dos grupos respecto al nivel
de comprensión lectora; igualando los dos grupos en alguna otra variable extraña
sospechosa de afectar a la comprensión lectora, como el CI; etc.).
A medio camino entre la metodología observacional y la experimental se
encuentra la metodología correlaciona[ o selectiva (también llamada cuasi-experi-
mental): no se da en ella el grado de control propio de la metodología experimental
(no existe manipulación de las variables), pero sí un grado de control superior al de
la metodología observacional (existe, por ejemplo, selección -de ahí el nombre--

de los niveles de las variables; es posible controlar la presencia de variables
extrañas; etc.). Si el psicólogo de nuestro ejemplo hubiera deseado estudiar si los
varones y las mujeres difieren en comprensión lectora, podría haber seleccionado
una muestra aleatoria de varones y otra de mujeres y haber medido en cada una de
ellas el nivel de comprensión lectora. No habría podido manipular, obviamente, el
sexo de los sujetos, pero sí habría podido controlar el efecto de alguna variable
extraña como el CI, la edad, etc.
Lo que nos interesa destacar aquí al introducir esta breve descripción de las
diferentes metodologías de recogida de datos (diseños de investigación) es que la
utilización de una u otra técnica de análisis no determina, por ella misma, el tipo de
conclusiones que es posible extraer. Ciertamente, hay algunas técnicas de análisis
más características de unas metodologías que de otras. Pero, independientemente de
la técnica de análisis utilizada, es la estrategia de recogida de datos quien condicio-
na el nivel de indagación en el que nos debemos situar: en términos generales,
podemos decir que la metodología observacional genera investigación de tipo
descriptivo (aunque no sólo); la selectiva de tipo relacional (aunque no sólo); y la
experimental de tipo explicativo (aunque no sólo) 2 •
4. Escalas de medida
El análisis de datos se basa, obviamente, en datos. Pero un dato no es otra cosa

que un número. Lo cual significa que, para poder utilizar el análisis de datos,
necesitamos asignar números a las características de las personas u objetos que
deseamos estudiar.
Sin embargo, ese proceso consistente en asignar números a las características
objeto de estudio, proceso denominado medida o medición, es ajeno al análisis de
datos y a la estadística. De ese proceso se encarga la teoría de la medida, la cual
tiene por objeto el estudio de los diferentes modelos que permiten establecer las
reglas que es necesario seguir para una correcta asignación de números.
Si la característica o propiedad (es decir, la variable) que deseamos medir existe
en una cierta cantidad (magnitud), la medición consiste simplemente en asignar a
esa variable, de acuerdo con una regla, un número que exprese su magnitud con la
mayor precisión posible. Así es como se hace con variables tales como la longitud o
el tiempo. Disponiendo de un instrumento de medida apropiado, esto no constituye
un problema importante.
El problema surge cuando se desea obtener mediciones de variables que, como
2 La posibilidad de establecer relaciones de tipo causal entre variables no es algo que venga
determinado exclusivamente (aunque tal vez sí principalmente) por la metodología de recogida de datos
utilizada (diseño de investigación). Cuando un cuerpo de conocimientos bien organizado (teoría) es capaz
de predecir determinado tipo de estructura relacional entre variables, es posible llegar a conclusiones de
tipo causal independientemente del nivel de indagación alcanzado debido a las restricciones impuestas
por el diseño de investigación (puede consultarse Davis, 1985).
Introducción / 25
frecuentemente ocurre en psicología (aunque no sólo), no parece muy claro que

existan en una cierta cantidad. No es éste, por supuesto, el lugar adecuado para
entrar en el debate histórico que ha suscitado este problema (ver Jáñez, 1989, pági-
nas 399-404), pero sí nos parece conveniente señalar que, gracias al persistente esfuer-
zo de muchos psicólogos (Thurstone, 1927; Stevens, 1946, 1951, 1959; Suppes y Zinnes,
1963; Pfanzagl, 1968; Krantz, Luce, Suppes y Tversky, 1971; Roberts, 1979; etc.), a
partir del congreso sobre Medición para el Avance de la Ciencia y la Tecnología,
celebrado en Moscú en 1979, la medición en psicología dejó de ser prohibitiva
(como pretendía Campbell; ver Stevens, 1959) y empezó a adquirir el reconocimien-
to por el que tanto tiempo estuvo luchando.
Ahora, la medición ya no se concibe exactamente como la asignación de un
numeral que exprese la magnitud de cierta propiedad. Medir consiste en hacer
corresponder dos sistemas de relaciones: uno empírico (el de las propiedades que
deseamos medir) y otro .formal (el de los números que asignamos en la medición). Es
necesario que las relaciones presentes en el sistema formal reflejen las presentes en el
sistema empírico para que la correspondencia efectuada se considere una medición
(ver Jáñez, 1989, capítulos 18 y 19 para un estudio detallado de los conceptos y
modelos relacionados con la medición; también puede consultarse Coombs, Dawes
y Tversky, 1981, capítulo 1; Narens y Luce, 1986; o Luce y Krumhansl, 1988).
Lo que interesa destacar aquí es que, desde esta nueva forma de entender la
medición, sí es posible medir variables de tipo psicológico. Y, si esto es posible,
también lo es la utilización del análisis de datos para el estudio de los datos
obtenidos en la investigación psicológica. Pero es necesario tener muy en cuenta
que la clave de todo el proceso de medición radica en determinar cuál es el tipo de
relaciones presentes en el sistema empírico que se desea medir y cuál es el sistema
formal que permite una representación numérica apropiada de esas relaciones: los
números no pueden ser tratados o interpretados más allá de lo que están represen-
tando.
Consideremos, como ejemplo, la variable sexo. Podemos atribuir, para analizar
datos referidos a esa variable, el número 1 a la modalidad varón y el número 2 a la
modalidad mujer. Consideremos ahora dos individuos y la variable sexo. O los dos
individuos son varones, o los dos son mujeres, o uno es varón y el otro mujer.
Desde el punto de vista del análisis de datos, tras la medición, tendremos dos unos,
dos doses, o un uno y un dos. La relación que se establezca entre estos números
sólo podrá ser de igualdad o desigualdad. No podremos, por ejemplo, establecer
una relación de orden (es decir, de mayor o menor), pues el valor 2 no indica mayor
cantidad de sexo: ser mujer no indica, como es evidente, mayor posesión de la
característica sexo que ser hombre (a pesar de que 1 < 2).
En este caso, los números sólo sirven para identificar o distinguir las dos
modalidades de la variable sexo. Sin embargo, en otros casos, con otras variables,
los números permiten establecer otro tipo de relaciones. Los números que se
asignan a la variable altura, por ejemplo, reflejan relaciones diferentes de las que
reflejan los asignados a la variable sexo. Un individuo que mide 1,80 metros posee
más cantidad de la variable altura que otro sujeto que mide 1,60 metros. Es decir,
las variables no se miden todas de la misma forma (los números que se asignan no
significan siempre lo mismo) porque entre sus valores no se da siempre el mismo
tipo de relación. La medición será en unos casos mejor que en otros, en el sentido de
que en unos casos permitirá establecer mayor número de relaciones que en otros.
De esto parece desprenderse que, dependiendo de la riqueza de las relaciones
que se puedan establecer entre los diferentes valores de una variable, existirán
diferentes niveles o escalas de medida 3 . En Análisis de Datos en Psicología l (Botella,
León y San Martín, 1993) se ha presentado ya un análisis y discusión de la
problemática referida a las diferentes escalas de medida (escalas definidas original-
mente por Stevens, 1946, 1951). No obstante, dada su importancia a la hora de
efectuar una selección apropiada de las técnicas de análisis de datos que expondre-
mos aquí, creemos conveniente hacer un repaso general de las características de las
mismas.
4.1. Escala nominal
La medida nominal consiste en clasificar en categorías a los sujetos u objetos

que se desea medir, de modo que todos los sujetos u objetos clasificados dentro de
la misma categoría sean equivalentes respecto a la variable o propiedad que se está
midiendo. Tras esto, se asignan números a las categorías establecidas y se considera
que todos los sujetos u objetos a los que se les ha asignado el mismo número son
cualitativamente iguales en la variable medida, mientras que los sujetos u objetos a
los que se les ha asignado un número diferente (por haber sido clasificados en
categorías diferentes) se considera que son cualitativamente distintos.
Las categorías utilizadas (que serán tantas como niveles tenga la variable que se
desea medir) deben reunir dos propiedades: exhaustividad (todos los sujetos u
objetos pueden ser clasificados en alguna de las categorías establecidas), y exclusivi-
dad (cada sujeto u objeto puede ser clasificado en sólo una de las categorías
establecidas; las categorías no se solapan).
Esta escala de medida es la más débil de todas: la única relación que es posible
establecer entre los sujetos u objetos medidos es la de igualdad-desigualdad. Los
números asignados actúan simplemente como nombres o rótulos identificativos de
cada una de las categorías establecidas: en lugar de números podríamos utilizar
nombres o símbolos y nada cambiaría. De ahí que muchos autores consideren que
la medida nominal no merece, realmente, el apelativo de medida.
Los ejemplos de variables en las que sólo puede conseguirse un nivel de medida
nominal son numerosos: el sexo (masculino, femenino), el estado civil (soltero,
casado, divorciado, etc.), el lugar de procedencia (Madrid, Galicia, Andalucía,
Levante, etc.), la nacionalidad, la raza, el tipo de terapia, el tipo de trastorno
3 Utilizaremos indistintamente los términos escalas de medida y niveles de medida. Así, de un objeto
medido, por ejemplo. en escala ordinal podremos decir, queriendo significar lo mismo, que se encuentra
en el nivel de medida original.
Introducción / 27
psicológico, la lateralidad manual, el tipo de atribuciones utilizadas para explicar el

fracaso, el resultado de una tarea (éxito, fracaso), el tipo de ideología, la actitud
mantenida hacia un objeto (a favor, en contra), etc. Para poder utilizar el análisis de
datos con estas variables es necesario asignar un valor numérico a cada uno de sus
valores. Si deseamos medir, por ejemplo, la variable tipo de neurosis, podemos
asignar un 1 a los sujetos con neurosis obsesiva. un 2 a los sujetos con neurosis
histérica, un 3 a los sujetos con neurosis fóbica, etc. Pero es obvio que, viendo de
qué tipo de variable se trata, los números asignados serán, a todos los efectos,
meros rótulos, por lo que lo único que permitirán afirmar acerca de los sujetos u
objetos medidos es si son iguales o distintos en la variable medida, es decir, si
pertenecen o no a la misma categoría de la variable (obviamente, un sujeto con
neurosis fóbica no es igual a uno con neurosis obsesiva más otro con neurosis
fóbica, a pesar de que 3 = 1 + 2; lo cual se debe a que la asignación de los valores
1, 2, 3, ... , se ha hecho de forma arbitraria).
4.2. Escala ordinal
La medida ordinal consiste en asignar a los sujetos u objetos medidos un

número que permita ordenarlos según la cantidad de variable que poseen. En la
escala ordinal, además de estar presente la relación de igualdad-desigualdad propia
de la escala nominal, los números asignados permiten afirmar si un sujeto u objeto
es mayor que o menor que otro sujeto u objeto cualquiera; es decir, permiten afirmar
si la cantidad de variable que un objeto posee es mayor o menor que la que posee
otro.
En psicología es muy frecuente encontrarse con variables en las que resulta
apropiado utilizar la escala de medida ordinal: introversión, agresividad, frustra-
ción, asertividad, depresión, estrés, etc. (muchos de los rasgos psicológicos sólo es
posible medirlos a nivel ordinal). Podemos ordenar, por ejemplo, a un conjunto de
sujetos según el grado de depresión manifestado en un cuestionario diseñado para
evaluar el grado de depresión. Así, podemos asignar un 1 al más deprimido, un 2 al
siguiente más deprimido, un 3 al siguiente, etc. Al final tendremos n sujetos
ordenados según su grado de depresión. Al hacer esto, ya no sólo podemos afirmar
que dos sujetos a los que se les ha asignado un número diferente se encuentran
deprimidos en diferente grado (como hacíamos en el nivel de medida nominal), sino,
además, que tal sujeto se encuentra más o menos deprimido que tal otro.
Sin embargo, no podemos afirmar nada acerca de la magnitud de la diferencia
existente entre dos sujetos u objetos medidos. En la escala ordinal se desconoce si la
diferencia existente entre los objetos a los que se les ha asignado un 1 y un 2 es igual
(o distinta) que la diferencia existente entre los objetos a los que se les ha asignado
un 3 y un 4. Sabemos, por ejemplo, que el sujeto al que se le ha asignado un 1 está
más deprimido que el sujeto al que se le ha asignado un 2, pero no sabemos en qué
cantidad de depresión difieren los valores 1 y 2. También sabemos que el sujeto al
que se le ha asignado un 2 está más deprimido que el sujeto al que se le ha asignado
un 3, pero tampoco sabemos qué cantidad de depresión refleja esa diferencia

numérica. De modo que la diferencia en grado de depresión entre los sujetos a los
que se les ha asignado un 1 y un 2 puede no ser (y normalmente, en este nivel de
medida, no lo será) la misma que entre los sujetos a los que se les ha asignado un 2
y un 3.
4.3. Escala de intervalo

En la medida de intervalo, además de poder afirmar que un objeto posee más o
menos cantidad de variable que otro (relación alcanzada ya en la escala ordinal),
también es posible determinar la magnitud de la diferencia existente entre dos
objetos medidos, es decir, la cantidad de variable en la que difieren dos objetos.
En la escala de intervalo se define una unidad de medida y, tras ello, se asigna a
cada objeto medido un número indicativo de la cantidad de variable que posee en
términos de las unidades de medida definidas. Así, un objeto al que se le asigna la
puntuación 12 en una escala de intervalo tiene, en cantidad de variable, 2 unidades
de medida más que un objeto al que se le asigna la puntuación 10; del mismo modo,
un objeto al que se le asigna la puntuación 6 tiene 2 unidades de medida más que
un objeto al que se le asigna la puntuación 4. Entre 10 y 12 existe la misma
diferencia, en cantidad de variable, que entre 4 y 6.
Sin embargo, en la escala de intervalo no podemos afirmar que 12 es el doble de
6. En la escala de intervalo no existe el cero absoluto, es decir, no existe un valor
numérico que indique ausencia total de cantidad de variable. El valor numérico O es
un punto más de la escala, un punto arbitrario, no el punto que indica que no existe
cantidad alguna de variable.
La temperatura, por ejemplo, es una variable que se mide en escala de intervalo.
Cuando decimos, en escala Celsius, que ayer hubo 20 grados de temperatura
máxima y hoy 25, estamos diciendo no sólo que hoy hubo más temperatura que
ayer (afirmación propia de la escala ordinal), sino que hoy hubo 5 grados más de
temperatura que ayer. Del mismo modo, 20 grados son 5 más que 15. La diferencia
entre 15 y 20 grados es la misma que entre 20 y 25.
La numeración de los años es otro ejemplo de variable medida en escala de
intervalo. El tiempo transcurrido entre los años 1920 y 1927 es el mismo que el
transcurrido entre 1980 y 1987. Sin embargo, del mismo modo que 20 grados de
temperatura no son el doble de 10 grados, en el año 1600 tampoco habían
transcurrido el doble de años que en el año 800. Esto es debido a que, tanto en la
escala Celsius como en el calendario gregoriano, el punto cero es un punto
arbitrario de la escala: no indica ausencia de cantidad de variable.
4.4. Escala de razón

La medida de razón añade a la de intervalo la presencia del cero absoluto: en la
escala de razón el cero indica ausencia total de cantidad de variable. Es decir, ahora
el cero no es un punto arbitrario de la escala (como ocurría en la escala de
Introducción / 29
intervalo; recuérdese el ejemplo de la temperatura medida en escala Celsius), sino un

punto fijo: el punto que indica que no existe cantidad alguna de variable. Al igual
que en la escala de intervalo, también aquí las diferencias entre los objetos medidos
son constantes (existe una unidad de medida), pero, además, la presencia del cero
absoluto permite afirmar si un objeto posee el doble, el triple, etc., de cantidad de
variable que otro.
El tiempo de reacción, por ejemplo, es una variable medida en escala de razón.
No sólo podemos afirmar que la diferencia entre 300 y 600 milisegundos (ms) es la
misma que entre 600 y 900 (afirmación válida también en la escala de intervalo),
sino, además, que 600 ms es el doble de 300 ms. Afirmación que es posible establecer
gracias a que en la escala de tiempo de reacción existe el cero absoluto: cero ms
significa ausencia de tiempo de reacción (mientras que cero grados, por ejemplo,
no significa ausencia de temperatura).
4.5. Un comentario más sobre las escalas de medida
La importancia de distinguir apropiadamente las diferentes escalas de medida

radica en que la utilización de las técnicas de análisis de datos que vamos a estudiar
está, en buena medida, mediatizada por el tipo de mediciones de que se dispone.
Esto es particularmente relevante en psicología, donde los niveles de medida
habitualmente alcanzados obligan, con frecuencia, a recurrir a una serie de procedi-
mientos específicamente diseñados para poder analizar datos obtenidos con una
escala de medida débil.
No obstante, a pesar de la necesidad de distinguir apropiadamente las diferentes
escalas de medida, existen multitud de variables de índole psicológica en las que no
resulta nada fácil determinar el nivel de medida alcanzado. El hecho de que las
cuatro escalas de medida que acabamos de estudiar sean exhaustivas (cualquier
variable puede ser medida con alguna de ellas) y mutuamente exclusivas 4 (no se
solapan), constituye un verdadero problema a la hora de trabajar con algunas
variables.
Supongamos, siguiendo un ejemplo propuesto por Glass y Stanley (1986, pági-
nas 12-13), que un psicólogo mide el CI de 3 sujetos y obtiene una puntuación
de 50 para el primero de ellos, de 11 O para el segundo y de 112 para el tercero.
Si interpretamos las escalas de medida en sentido estricto, no podremos considerar
que la distancia que existe entre un CI de 80 y otro de 90 (10 puntos) es equivalente
a la distancia que existe entre un CI de 120 y otro de 130 (también 1O puntos). Y no
4 El significado de la propiedad de exc/usil'idad referida a las escalas de medida necesita ser
matizado. Si atendemos a las características de las diferentes escalas de medida, parece claro que no
podemos considerarlas exclusivas, pues todas las propiedades de una escala de medida inferior están
contenidas en cualquiera de las escalas superiores a ella. Sin embargo, si atendemos al nivel de medida
más alto que una variable puede alcanzar en función del tipo de relaciones que puedan establecerse entre
sus niveles (es decir, si atendemos a la escala de medida más fuerte que es posible utilizar con una
determinada variable), entonces sí es posible hablar de exclusividad, pues a una variable dada sólo le
corresponde un nivel de medida.
podremos considerar equivalentes esas distancias porque en la escala de CI no

existe una unidad de medida que nos garantice tal equivalencia. Según esto, debería-
mos considerar que la medida de CI obtenida se encuentra a nivel ordinal, lo que
nos permitiría concluir, tan sólo, que el tercer sujeto es más inteligente que el
segundo, y éste más que el primero. Sin embargo, si pedimos opinión al psicólogo
que pasó la prueba a los tres sujetos, seguramente nos contestará que el primer
sujeto es menos inteligente que los otros dos, y que estos dos se parecen entre sí más
de lo que ambos se parecen al primero (lo cual excede el alcance de las propiedades
de la escala ordinal). Parece razonable pensar, según esto, que la escala de CI (al
igual que las escalas de otras muchas variables de tipo psicológico) no puede
identificarse con la escala ordinal común. De hecho, como afirman Glass y Stanley
( 1986, pág. 13), la escala de CI no puede ser interpretada, estrictamente hablando, ni
como una escala ordinal ni como una escala de intervalo. Tal vez habría que
introducir entre ambas una nueva escala de medida denominada de cuasi-intervalo.
Para terminar, insistiremos en una idea que nos parece importante. En princi-
pio, cualquier conjunto de números es susceptible de ser manipulado por cualquiera
de las técnicas de análisis de datos que estudiaremos aquí; es decir, no existe
ninguna técnica de análisis de datos cuya mecánica no pueda seguirse por el motivo
de que los números asignados al efectuar la medición sean o no los apropiados.
Pero una técnica de análisis de datos no quita ni pone significado a los números
que manipula. El hecho de que los números asignados en la medición posean o no
algún significado no es un problema que pueda resolverse con la utilización de una
u otra técnica de análisis de datos, sino desde la teoría de la medida y desde el
conocimiento por parte del investigador de las propiedades de las variables
estudiadas. Por esta razón, es muy importante conocer la problemática relacionada
con las escalas de medida: el conocimiento de esta problemática puede servirnos, al
menos, para saber si, con los números de que disponemos, tiene sentido o no
efectuar determinado tipo de operaciones.
5. Sobre los contenidos de este libro
Según hemos señalado en el primer apartado de esta introducción, el análisis de

datos consta de un conjunto de procedimientos diseñados para: 1) seleccionar datos,
2) caracterizarlos y 3) extraer conclusiones de ellos.
En la primera parte de esta obra, Análisis de datos en psicología I (Botella, León
y San Martín, 1993), se ha tratado ya lo relativo a la caracterización de los datos
(estadística descriptiva) 5 y se han presentado las herramientas matemáticas (proba-
bilidad, características de las variables aleatorias, etc.) necesarias para poder
5 Aunque en el análisis de datos el orden lógico de trabajo es el propuesto (selección. caracterización

y extracción de conclusiones) y así podría haberse planteado didácticamente, se ha optado por presentar
en primer lugar lo relativo a la carac1erización de datos. dejando la wlección de datos para estudiarla
junto a la ex1racción de conclusiones, a la que, según se desprende de los comentarios del apartado 3 de
esta introducción, se encuentra estrechamente ligada.
Introducción / 31
entender ahora cómo el análisis de datos puede ayudarnos a extraer conclusiones en

una situación concreta.
Ahora bien, lo que en el contexto del análisis de datos estamos llamando
extracción de conclusiones está íntimamente ligado a los procedimientos inductivos
propios de la estadística inferencial. Ya hemos señalado anteriormente que la
estadística inferencial consta de un conjunto de procedimientos que permiten, a
partir de un conjunto reducido de datos (muestra), establecer afirmaciones sobre el
conjunto total de datos de la misma clase (población). Este salto inductivo es lo que
constituye el objetivo fundamental de la estadística inferencial y es, también, el
objetivo fundamental del análisis de datos. Por esta razón, los contenidos de
Análisis de datos en psicología I I son, básicamente, los contenidos de la estadística
inferencial: estimación de parámetros y contraste de hipótesis.
Pero, obviamente, este salto inductivo del que hablamos y que constituye el
objetivo fundamental de la estadística inferencial no puede darse en el vacío. Si,
como hemos señalado, extraer conclusiones significa establecer afirmaciones sobre la
población a partir de unos pocos datos muestrales, el valor de las afirmaciones que
hagamos sobre la población estará condicionado, no sólo por la calidad de las
herramientas que utilicemos para efectuar el salto inductivo, sino por el parecido
que exista entre la población sobre la que afirmamos algo y la muestra en la que nos
apoyamos para establecer nuestras afirmaciones. Resulta imprescindible, por tanto,
estudiar no sólo los procedimientos que permiten extraer conclusiones inductiva-
mente (es decir, cómo realizar el salto), sino también los que garantizan que los
datos en que se apoyan esas afirmaciones son los apropiados (es decir, la plataforma
del salto). Esto significa que a los contenidos ya mencionados (estimación y
contraste) es necesario añadir los que se refieren a las técnicas de selección de datos
(muestreo). es decir, a las técnicas que permiten obtener muestras parecidas a las
poblaciones.
Recordemos ahora que, según hemos señalado ya en el apartado anterior,
cualquier conjunto de números puede ser manipulado por cualquiera de las técnicas
de análisis de datos independientemente del nivel de medida alcanzado por esos
datos (es decir, no existe ninguna técnica de análisis de datos cuya mecánica de
ejecución exija que los números que manipula se encuentren en un nivel de medida u
otro). Pero una técnica de análisis no quita ni pone significado a los números que
manipula. Esto, en realidad, no es un problema estadístico sino metodológico (o,
mejor, un problema de teoría de la medición). En la controversia mantenida entre
los partidarios de olvidar la problemática relacionada con los niveles de medida y
los partidarios de mantener tales niveles como determinantes del tipo de análisis
que es posible efectuar, nosotros hemos tomado partido por estos últimos, pero con
reservas. Hemos agrupado, de hecho, las diferentes técnicas de análisis según el tipo
de datos para el que parecen más apropiadas, pero creemq_s que es el investigador
quien debe responsabilizarse de decidir si los números analizados representan
adecuadamente la propiedad medida. En este sentido, no deseamos presentar las
diferentes escalas de medida como determinantes cruciales de la selección de una u
otra técnica de análisis; en la selección de la técnica de análisis apropiada ínter-
vienen otros muchos factores que intentaremos hacer explícitos al describir cada
una de las técnicas.
Conviene mencionar, también, que este libro ha sido pensado para servir de
texto en un curso de análisis de datos de duración cuatrimestral. Este hecho impone
límites al número de técnicas de análisis a las que es posible prestar atención, por lo
que nuestra selección se ha centrado en las técnicas de análisis de diseños con una
sola variable dependiente, dejando las técnicas de análisis de diseños con más de
una variable dependiente (conocidas como técnicas multivariadas) para posteriores
cursos más avanzados. Además, el hecho de que esta obra haya sido concebida
fundamentalmente como libro de texto para alumnos de psicología ha determinado
que en la explicación de los diferentes procedimientos de análisis que se incluyen se
hayan evitado, donde ha sido posible, desarrollos matemáticos complicados. Esto
significa que la mayor parte de las explicaciones pueden seguirse sin dificultad sin
poseer una base matemática fuerte. No obstante, creemos que el investigador
deseoso de profundizar en alguno de los procedimientos que aquí se describen
encontrará todo lo necesario para justificar el significado de cada uno de ellos y la
lógica de su utilización.
Al final de cada capítulo se ha añadido un apéndice con algunos contenidos que,
no siendo, a nuestro juicio, imprescindibles en un curso cuatrimestral sobre análisis
de datos para estudiantes de psicología, pueden resultar especialmente útiles para el
analista interesado en aclarar determinadas cuestiones. No es necesario estudiar los
apéndices para seguir el hilo argumental del texto. Su inclusión obedece, en parte, al
deseo de los autores de que este libro sirva, además de como libro de texto, como
obra de consulta para investigadores con una base matemática poco sólida.
Debemos señalar, por último, que se ha intentado cuidar la presentación al
máximo con la finalidad de hacer más fácil la lectura. Las definiciones y las
cuestiones de especial relevancia se han incluido en un recuadro sombreado para
realzarlas. Los ejemplos se han mecanografiado con un tipo de letra diferente y se
han colocado en un recuadro para distinguirlos fácilmente de lo demás. Y allí
donde se ha considerado conveniente, se han incluido figuras aclaratioras de los
conceptos explicados en el texto.
6. Software para el análisis de datos
Actualmente, la complejidad de cálculo de muchas de las técnicas de análisis de

datos disponibles hace que su utilización sea casi impensable sin la ayuda de algún
tipo de ordenador. Esto implica, para el analista de datos, la necesidad de usar a
menudo (y, por tanto, conocer) alguno de los paquetes de software estadístico
disponibles en el mercado.
Existen paquetes estadísticos diseñados para los grandes ordenadores, mainfra-
mes, generalmente ubicados en los centros de cálculo de las universidades y en otros
grandes centros de investigación; pero existen también otros paquetes (o versiones
adaptadas de los anteriores) diseñados para ser utilizados en los microordenadores
Introducción / 33
(PC, Macintosh, etc.), los cuales, cada vez más, se encuentran al alcance de un mayor
número de personas. A estos últimos paquetes nos referiremos en adelante, pues a la
ventaja de estar al alcance de un mayor número de personas hay que añadir el
hecho de que las diferencias entre ellos y los diseñados para los grandes ordenado-
res se van haciendo cada vez más pequeñas.
Afortunadamente, los paquetes de software estadístico son bastante sencillos de
manejar y suelen ir acompañados de excelentes manuales que facilitan su uso. Sin
embargo, no todos poseen la misma capacidad de análisis ni se encuentran
igualmente accesibles. De entre los paquetes disponibles en el mercado merecen
destacarse, a nuestro juicio, cuatro de ellos: SPSS, BMDP, SAS y SYSTAT. Pro-
bablemente, cualquiera de los cuatro serviría para satisfacer las necesidades habi-
tuales del analista más exigente, pero eso no significa que sea necesario aprender
a manejar los cuatro. Hay que optar por uno de ellos y, nosotros, por razones de
potencia de cálculo, actualización vanguardista, sencillez de manejo y accesibilidad,
recomendamos el SPSS (SPSS Inc., 1998).
No enseñaremos aquí a utilizar el SPSS; para eso existen excelentes manuales
que no tenemos intención de suplir. Nuestra recomendación del SPSS no implica
que los procedimientos propuestos requieran del uso del SPSS para ser ejecutados.
Con cierto esfuerzo, todos los procedimientos pueden ejecutarse con una simple
calculadora de bolsillo y eso es lo que hay que aprender a hacer en primer lugar.
Sin embargo, los beneficios de aprender un paquete estadístico como el propuesto
se irán haciendo patentes a medida que vayamos avanzando en el estudio de las
diferentes técnicas de análisis de datos.
PARTE PRIMERA
La inferencia estadística
Muestreo
1
1.1. Conceptos básicos.

1 .1.1. Población.
1.1.2. Muestra.
1 .1 .3. Parámetro.
1 .1 .4. Estadístico.
1.2. Tipos de muestreo.
1.2.1. Muestreo aleatorio en población finita.
1.2.2. Muestreo aleatorio en población infinita.
1.2.3. Muestreo aleatorio.
1.2.4. Otros tipos de muestreo.
1.3. Distribuciones muestrales.
1 .3.1 . Concepto de distribución muestra!.
a) Un caso concreto.
b) Otro caso concreto.
e) Ei caso general.
1.3.2. Distribución muestra! de la media.
1.3.3. Distribución muestra! de la varianza.
1.3.4. Distribución muestra! de la proporción.
Apéndice 1.
Cómo extraer una muestra aleatoria.
El método Monte Cario
Ejercicios.
Según hemos señalado ya en diferentes partes de la introducción, el objetivo
fundamental del análisis de datos (objetivo compartido con la estadística inferencial)
es el de extraer conclusiones de tipo general a partir de unos pocos datos particula-
res. Esto exige la utilización de, por un lado, procedimientos que nos ayuden a
efectuar ese salto (inducción, inferencia) de lo particular a lo general y, por otro,
procedimientos que nos garanticen que la inducción o inferencia efectuada se apoya
en una buena base. Tan importante como disponer de una buena técnica de análisis
de datos (para realizar la inferencia) es seleccionar apropiadamente los datos que se
van a analizar (para proporcionar una buena base de apoyo a la inferencia). Es
decir, qué datos son analizados condiciona la utilidad del cómo son analizados.
Wonnacot~ y Wonnacott (1990, pág. 4) recogen un ejemplo que resulta especial-
mente útil para ilustrar esta idea. En 1936, los editores de Literary Digest intentaron
predecir el resultado de las elecciones presidenciales de los Estados Unidos utilizan-
do una muestra formada por votantes seleccionados de los listines telefónicos y de
las listas de miembros de varios clubes. La muestra así obtenida presentaba (como
pudo constatarse después) una fuerte inclinación hacia el polo republicano, lo cual
se vio agravado por el hecho de que, de todos los cuestionarios enviados, sólo
fueron contestados una cuarta parte. La muestra resultó tan sesgada (es decir, tan
poco representativa de la población de votantes) que llevó a la errónea predicción
de que se produciría una victoria republicana. El día de las elecciones se produjo la
sorpresa: los republicanos obtuvieron menos del 40 por 100 de los votos y el
candidato demócrata, Roosevelt, fue reelegido presidente por aplastante mayoría.
Probablemente, el candidato republicano, Alf Landon (quien seguramente se había
levantado esa mañana esperando ser nombrado presidente), dejó de confiar en las
predicciones elaboradas a partir de encuestas basadas en muestras.
La más importante lección que debemos aprender del error cometido por los
editores de Literary Digest es que, cuando estamos intentando extraer conclusiones
sobre las propiedades de una población a partir de la información contenida en una
muestra de esa población, es necesario, ante todo, utilizar muestras representativas
del total de la población, es decir, muestras en las que exista alguna garantía de que
cualquier elemento de la población ha podido (ha tenido la oportunidad de) formar
parte de ellas. El no trabajar con muestras apropiadas llevará inevitablemente a que
nuestras predicciones estén, ya desde el principio, condenadas al fracaso (lo que
puede constituir un verdadero problema cuando esas predicciones están a la base de

decisiones importantes).
En este primer capítulo estudiaremos cómo obtener muestras representativas de
las poblaciones objeto de estudio. También estudiaremos algunas de las consecuen-
cias que se derivan de la selección de muestras representativas. Precisamente estas
consecuencias serán, como veremos más adelante, las que fundamentarán la
elaboración de las técnicas de análisis de datos que estudiaremos a lo largo de todo
el libro. Pero comenzaremos, antes, repasando algunos conceptos básicos impres-
cindibles para entender este capítulo y los que siguen.
1 .1 . Conceptos básicos
1 .1 .1. Población
Una pohlación (o universo) es un conjunto de elementos (sujetos, objetos

entidades abstractas, etc.) que poseen una o más características específicas en
común.
En general, el término población hace referencia al conjunto total de elementos

que deseamos estudiar, de manera que una población queda definida cuando
hacemos explícita la característica (o características) que esos elementos comparten.
Al iniciar cualquier tipo de investigación empírica es importante comenzar definien-
do con claridad la población con la que se va a trabajar. Ella va a constituir el
marco desde el que se va a iniciar la recogida de datos y sobre el que van a recaer
las conclusiones del análisis.
Ejemplos de poblaciones son: a) las personas empadronadas en algún ayunta-
miento de la comunidad de Madrid; h) todos los varones mayores de 30 años; e) los
pacientes que sufren depresión; d) las posibles (infinitas) respuestas que un sujeto
podría emitir en una prueba de discriminación visual; e) los diferentes tipos de
terapia disponibles para afrontar el tratamiento de un determinado trastorno;/) los
números múltiplos de 3; etc.
Como se ve, las poblaciones que podemos definir son de muy diversa índole.
Algunas de ellas son incluso ficticias, en el sentido de que, aun estando formadas
por elementos observables, no todos ellos resultan accesibles. Si queremos trabajar,
por ejemplo, con la población de los varones españoles mayores de 30 años, nos
encontraremos con que muchos de ellos no estarán censados, a otros no habrá
forma de localizarlos, otros no estarán dispuestos a participar en nuestro estudio,
etcétera. Bajo estas circunstancias, la población muestreada (la población de la que
se extrae la muestra) no será exactamente la de los varones españoles mayores de 30
años, sino otra parecida: la de los varones españoles mayores de 30 años a los que
se ha tenido alguna posibilidad de acceso. Esto es algo que suele ocurrir con
frecuencia en las investigaciones en las que se trabaja con grandes poblaciones; en
Muestreo / 41
estos casos, es el propio investigador quien debe redefinir la población para

limitarla a los sujetos sobre los que ha tenido posibilidad de realizar el muestreo.
Dependiendo del número de elementos de que constan, unas poblaciones son
finitas (es decir, están formadas por un número finito de elementos) y otras Íf!finitas
(es decir, están formadas por un número infinito de elementos). Normalmente,
las poblaciones con las que tiene sentido trabajar en psicología y en el resto de las
ciencias sociales son finitas, pero, según veremos, tan grandes que a todos los efec-
tos podrán ser consideradas infinitas. Los pacientes que sufren depresión o los
diferentes tipos de terapia disponibles para afrontar el tratamiento de un determina-
do trastorno son ejemplos de poblaciones finitas. Los números múltiplos de 3 o las
posibles respuestas que un sujeto puede emitir en una prueba de discriminación
visual son ejemplos de poblaciones infinitas.
Precisamente el hecho de que las poblaciones, por lo general, sean infinitas o
estén formadas por un gran número de elementos, hace que la descripción exacta de
sus propiedades sea un objetivo prácticamente inaccesible. De ahí que lo habitual
sea trabajar con muestras.
1.1.2. Muestra
Una muestra es un subconjunto de elementos de una población.
Al contrario de lo que ocurre con las poblaciones, que suelen ser conjuntos de
elementos de gran tamaño, las muestras suelen ser conjuntos de elementos de
tamaño reducido.
Por supuesto, para poder describir con exactitud las propiedades de una
población cualquiera, sería necesario examinar cada uno de los elementos que
componen esa población. Pero existen algunas razones que nos obligan a trabajar
con muestras en lugar de hacerlo con poblaciones. Una de esas razones ya ha sido
mencionada: las poblaciones que habitualmente interesa estudiar en psicología o
son infinitas o son tan grandes que, normalmente, resulta muy difícil (si no
imposible) tener acceso a todos sus elementos. Bajo estas circunstancias, es de las
muestras de donde podemos obtener la información necesaria para poder describir
las propiedades de las poblaciones objeto de estudio.
El conocimiento que nos formamos en nuestra vida cotidiana acerca del mundo
que nos rodea está, muy frecuentemente, basado en muestras: con sólo comer una
vez en un restaurante nos formamos una opinión acerca de la calidad de la comida
y del servicio de ese restaurante; con sólo ver un par de películas de cine del mismo
director nos formamos una opinión sobre ese director; con sólo conocer a un par de
personas de un determinado colectivo nos formamos una idea sobre el tipo de
personas que forman ese colectivo; etc.
Con el análisis de datos se intenta hacer algo parecido: extraer conclusiones
referidas a todos los elementos de la población a partir de la observación de sólo
unos pocos de esos elementos. Ahora bien, para que esto sea posible, es decir, para
poder describir las propiedades de una población a partir de la información

contenida en una muestra, es necesario, según hemos señalado ya, que la muestra
sea representativa de esa población. Esto se consigue mediante las técnicas de
muestreo que estudiaremos en este mismo capítulo. (Más adelante, al hablar de los
diferentes tipos de muestreo, tendremos ocasión de presentar alguna otra definición
de lo que es una muestra y ello nos permitirá acotar todavía más su significado.)
1.1.3. Parámetro
Un parámetro es un valor numérico que describe una característica de una

población.
Anteriormente, hemos definido una población como un conjunto de elementos

que poseen una o más características en común. Pero los elementos de una
población, además de poseer alguna característica en común, poseen también otras
muchas que no comparten (es decir, otras características en las que no coinciden).
La población de varones mayores de 30 años definida más arriba está formada por
elementos que tienen en común ser varones y de edad superior a 30 años. Pero en esa
población podemos considerar otras muchas características que probablemente no
serán compartidas 1 por todos los elementos: el estado civil, el nivel socio-económi-
co, el peso, la altura, la inteligencia, el nivel de comprensión lectora, la independen-
cia de campo, la aptitud espacial, etc. Si medimos, por ejemplo, la característica
inteligencia (CI), obtendremos tantos valores numéricos como elementos formen
parte de la población (suponiendo que tengamos acceso a todos los elementos). Si
ahora calculamos el promedio (un solo número) de todos esos valores numéricos
habremos definido un parámetro, es decir, habremos descrito numéricamente una
característica de la población: el CI medio de los varones mayores de 30 años.
Consideremos ahora la población de pacientes depresivos. Todos los elementos
de esa población comparten una característica específica: son depresivos. Pero
existen, obviamente, otras características que no comparten. Si nos centramos, por
ejemplo, en la característica sexo, nos encontraremos con que unos pacientes son
varones y otros son mujeres. Si tuviéramos acceso a todos los elementos de esa
población, podríamos contar el número de pacientes depresivos que son varones (o
mujeres) y eso nos permitiría definir un parámetro; es decir, eso nos permitiría
describir numéricamente una característica de la población: la proporción de varones
(o mujeres) en la población de pacientes depresivos.
Así pues, existen valores numéricos como la media, la varianza o la proporción
(además de otros muchos más), que cuando se refieren a alguna característica
poblacional reciben el nombre de parámetros.
1 Cuando hablamos de caracrerísricas no comparridas no nos referimos a características que unos
sujetos poseen y otros no. sino a características en las que los sujetos difieren. Por ejemplo, todas las
personas tienen la característica esrado cid/. pero no todas las personas comparten el mismo estado civil:
hay solteros, casados. viudos. divorciados, etc.
~' Ediciones Pirámide

Muestreo / 43
Hay dos aspectos de los parámetros que nos interesa resaltar. En primer lugar,
conviene saber que los parámetros son, en general, valores poblacionales desconoci-
dos: las poblaciones con las que se suele trabajar son tan grandes que sus elementos
raramente resultan accesibles en su totalidad; esto impide el cálculo de cualquier
valor numérico basado en el total de los elementos. En segundo lugar, los paráme-
tros son valores numéricos constantes (es decir, no son variables): definida una
población cualquiera y un parámetro en ella, ese parámetro sólo puede tomar un
valor numérico concreto (el CI medio de la población de varones mayores de 30
años viene determinado por las puntuaciones individuales de cada varón en CI; la
proporción de varones en la población de pacientes depresivos viene determinada
por el número de varones depresivos; etc.).
Por último, es necesario señalar que para referirnos a los parámetros utilizare-
mos (así es como se hace generalmente) letras griegas minúsculas: µ, u, 7t, etc.
1 .1 .4. Estadístico
Un estadístico es un valor numérico que describe una característica de una

muestra.
Acabamos de ver que en una población cualquiera, además de las caracteristicas

que la definen y que son comunes a todos los elementos, es posible definir otras
muchas características no compartidas por todos los elementos. En una muestra,
lógicamente, cabe hacer lo mismo. Y una vez definida una o más de esas caracterís-
ticas no compartidas, es posible obtener un valor numérico que las describa: a ese
valor numérico lo llamamos estadístico.
De la población de varones mayores de 30 años podemos extraer una muestra
de n sujetos. En esa muestra de n sujetos podemos definir y medir, por ejemplo, la
característica inteligencia (CI). Hecho esto, podemos realizar diferentes transforma-
ciones con las puntuaciones X; obtenidas:
n
X=X 1 +X 2 + .. ·+Xn= LX;
i= 1
_X 1 +X 2 + .. ·+Xn_I~
Y- - - L. X;
n n;=1
n
z= Xi + x~ + .. · + x; = ¿ x¡
i= 1
n
V=; (X¡ - k)2 + (X2 - k) 2 + "·(Xn - k) 2 = L (X¡ - k) 2
i= 1
(X 1 -k) 2 (X 2 -k) 2 (Xn-k) 2 /~ 2

W= + + ... + = - L. (X; - k)
n n n n;= 1
© Edicicmes Pirámide
Cada una de estas transformaciones es un valor numenco que describe un

aspecto diferente de la característica que hemos medido (la inteligencia). Es decir,
cada una de estas transformaciones es un estadístico. Algunas de estas transforma-
ciones ya nos son conocidas: Y es la media aritmética; W es la varianza, si hacemos
k = X. Por supuesto, podríamos realizar otras muchas transformaciones diferentes
(en realidad, cualquiera que se nos ocurriera) y cada una de ellas, en cuanto valor
numérico descriptivo de una característica muestra), podría ser considerada un
estadístico. Sin embargo, no todos los estadísticos poseen la misma utilidad. Hay
algunos, como la media, la mediana, la varianza. la proporción. la correlación, etc.,
cuya utilidad quedará contrastada a lo largo de los capítulos que siguen.
Recordemos ahora que los parámetros son valores poblacionales generalmente
desconocidos. No obstante, cada parámetro poblacional posee su réplica muestra) en
un estadístico concreto susceptible de ser calculado. Esto significa que es de los
estadísticos muestrales de quienes nos vamos a servir para formarnos una idea sobre
cuáles son los verdaderos valores de los parámetros poblacionales desconocidos.
Este proceso consistente en atribuir a un parámetro el valor tomado por su
correspondiente estadístico se conoce con el nombre de estimación. La estimación es
un concepto especialmente importante en la estadística inferencia) (y, por tanto,
también en el análisis de datos); a ella dedicaremos el siguiente capítulo, pero antes
necesitamos seguir profundizando en el concepto de estadístico.
Es evidente que de una población cualquiera es posible extraer más de una
muestra diferente del mismo tamaño. Esto significa que, definido un estadístico,
cualquiera que sea, el valor concreto que éste tomará dependerá de los valores
concretos que tomen cada uno de los elementos de la muestra obtenida. Ahora bien,
de una población de tamaño 2 N es posible extraer 3 N" muestras diferentes de
tamaño n. Si en cada una de esas N" muestras calculamos un estadístico, nos
encontraremos con que el valor de ese estadístico no siempre será el mismo; es
decir, nos encontraremos con que el valor tomado por el estadístico variará de una
muestra a otra. Esto quiere decir que un estadístico no es un valor numérico
constante (como lo es un parámetro), sino que es una variable: el valor concreto que
tomará dependerá de la muestra en la que sea calculado.
Pero un estadístico no es sólo una variable; un estadístico es una variable
aleatoria. Al extraer (por ejemplo, aleatoriamente y con reposición; ver el siguiente
apartado de este mismo capítulo) una muestra de tamaño n de una población de
tamaño N. el primer elemento de esa muestra puede ser cualquiera de los N
2 Obviamente, si utilizamos N para referirnos al tamaño de una población es porque esta población
de la que estamos hablando es finita.

3 En seguida veremos que el muestreo aleatorio (ver el apartado siguiente de este mismo capítulo)
puede realizarse de dos maneras: con reposición (es decir, devolviendo cada elemento a la población una
vez que ha sido seleccionado; lo que significa que ese elemento puede aparecer más de una vez en la
misma muestra) y sin reposición (es decir, sin devolver a la poblaci~'m los elementos que van siendo
seleccionados). Si la muestra se obtiene con reposición, el número de muestras que es posible obtener
viene dado por las variaciones con repetición de N elementos tomados de n en n. es decir, N". Si la
muestra se obtiene sin reposición, el número de muestras posibles viene dado por las variaciones sin
repetición de N elementos tomados de n en n, es decir, N!/(N - n)!
Muestreo / 45
posibles; el segundo, también cualquiera de los N posibles; y lo mismo ocurrirá con

el tercero y con todos los restantes. En consecuencia, cada elemento de una muestra
puede ser concebido como una variable aleatoria que en esa muestra concreta toma
un determinado valor; lo cual nos lleva a pensar en una muestra de tamaño n como
en una secuencia de n variables aleatorias. Ahora bien, si un estadístico es función
de los n elementos de una muestra, y esos n elementos son, cada uno de ellos,
variables aleatorias, un estadístico será también una variable aleatoria (recordemos
que la combinación de dos o más variables aleatorias es otra variable aleatoria; ver
Botella, León y San Martín, 1993, capítulo 9).
Resumiendo, mientras un parámetro es un valor poblacional, un estadístico es
un valor muestra!; mientras un parámetro es, por lo general, desconocido, un
estadístico es calculable a partir de unos datos muestrales; mientras un parámetro
es un valor numérico constante, un estadístico es una variable aleatoria.
Estas diferencias se hacen patentes en la notación utilizada para representar a
unos y otros. Mientras los parámetros, según hemos señalado ya, se representan
generalmente por letras griegas minúsculas (µ, a, n:, etc.), los estadísticos se represen-
tan habitualmente, y así lo haremos aquí también, por letras latinas mayúsculas: X,
S, P. etc.
1.2. Tipos de muestreo
Ya hemos señalado repetidamente que, en el proceso consistente en obtener

conclusiones sobre una población a partir de la información contenida en una
muestra, es de importancia esencial que las muestras utilizadas sean representativas
de la población. Este tipo de muestras se obtienen efectuando un muestreo apro-
piado.
El término muestreo se refiere al proceso seguido para extraer una muestra de una
población. El muestreo puede ser de dos tipos: probabilístico y no-probabilístico. En
el muestreo probabilístico se conoce (o puede calcularse) la probabilidad asociada a
cada una de las muestras que es posible extraer de una determinada población; cada
elemento poblacional posee una probabilidad conocida (o calculable) de pertenecer
a la muestra. En el muestreo no-probabilístico se desconoce o no se tiene en cuenta la
probabilidad asociada a cada una de las muestras posibles. El investigador seleccio-
na aquella muestra que, en su opinión, más representativa le parece o, simplemente,
aquella que considera que puede extraer con mayor comodidad o menor costo
(voluntarios que responden a un anuncio, alumnos matriculados en un curso de
psicología, etc.).
Lógicamente, el muestreo probabilístico, por estar basado en la teoría de la
probabilidad, es el único que nos permite formarnos alguna idea sobre el grado de
representatividad de una muestra concreta. Por lo tanto, sólo él nos proporciona
una base adecuada para inducir las propiedades de una población a partir de la
información muestra!. Esto no significa que el muestreo no probabilístico no pueda
generar muestras representativas; lo que ocurre es que al utilizar un muestreo de
tipo no probabilístico no tenemos ninguna información sobre el grado de represen-

tatividad de la muestra obtenida. En consecuencia, ya desde ahora, dejaremos de
referirnos al muestreo no-probabilístico para centrarnos exclusivamente en los
diferentes tipos de muestreo probabilístico.
1.2.1. Muestreo aleatorio en población finita
El muestreo aleatorio es un método de extracción de muestras que garantiza

que, en cualquier momento del proceso de extracción, todos los elementos de la
población tienen la misma probabilidad de formar parte de la muestra, es decir, todos
los elementos de la población tienen la misma probabilidad de ser elegidos. A la
muestra obtenida mediante este tipo de muestreo se le llama muestra aleatoria 4 .
En el muestreo aleatorio puede procederse de dos maneras diferentes: con
reposición y sin reposición. En ambos casos se mantiene intacta la característica
distintiva del muestreo aleatorio: la extracción de los elementos poblacionales se
realiza al azar. En el apéndice 1 se describen algunos procedimientos concretos para
extraer una muestra aleatoria efectuando extracciones al azar.
a) Muestreo aleatorio con reposición
En el muestreo aleatorio con reposición (llamado generalmente muestreo aleatorio

simple), cada elemento seleccionado es devuelto a la población antes de la siguiente
extracción. De esta forma, la población es exactamente la misma en cada nueva
extracción (lo que supone que un elemento ya seleccionado puede volver a formar
parte de la muestra). Como las extracciones se realizan al azar, la probabilidad de
elegir uno cualquiera de los N (N = tamaño de la población) elementos poblaciona-
les en una cualquiera de las n (n = tamaño de la muestra) extracciones será siempre
la misma: 1/N.
El muestreo aleatorio con reposición verifica dos importantes propiedades. La
primera de ellas es la que hemos apuntado ya como distintiva del muestreo
aleatorio: en cada extracción, todos los elementos poblacionales poseen la misma
probabilidad de pertenecer a la muestra (es decir, la misma probabilidad de ser
elegidos). Al hablar del concepto de estadístico ya hemos avanzado la idea de que
una muestra aleatoria de tamaño n puede ser definida como una secuencia de n
variables aleatorias. Aclaremos esta idea. Podemos llamar X 1 a la variable aleatoria
«resultado obtenido en la primera extracción»; X 2 a la variable aleatoria «resultado
obtenido en la segunda extracción»; X" a la variable aleatoria «resultado obtenido
en la enésima extracción». Es evidente que si la población permanece idéntica en
4 De esta definición de muestreo se desprende que la aleatoriedad es una propiedad, no de la
muestra, sino del proceso de extracción de esa muestra. En realidad, observando los elementos de una
muestra no es posible determinar si esa muestra es o no aleatoria. De lo único que podemos estar
seguros es de si el método de extracción utilizado ha sido o no aleatorio.
Muestreo / 47
cada extracción y las extracciones se efectúan al azar, las funciones de probabilidad

de las variables aleatorias X 1, X 2 , ... ,Xn serán iguales. Es decir, la variable aleatoria
X 1 podrá tomar cualquiera de los N valores poblacionales con probabilidad l/N
asociada a cada uno de ellos. La variable aleatoria X 2 podrá tomar cualquiera de
los N valores poblacionales con probabilidad 1/N asociada a cada uno de ellos, etc.
En cualquiera de las n extracciones es siempre posible obtener cualquiera de los N
valores poblacionales y siempre con la misma probabilidad asociada a cada uno de
ellos: l/N.
La segunda propiedad que verifica el muestreo aleatorio con reposición es que el
resultado de cada extracción es independiente del resultado obtenido en las
restantes. Es claro que el resultado de cada extracción puede ser cualquiera de los N
elementos poblacionales: dado que el elemento seleccionado en cada extracción es
devuelto a la población, ésta retorna a su forma original. La consecuencia de esto es
que la función de probabilidad conjunta de las variables aleatorias X 1, X 2 , ••• ,X n (es
decir, la probabilidad de que las variables aleatorias X 1 , X 2 , ..• ,X n tomen, en una
muestra concreta, los valores x 1 , xi. ... , xn) es igual al producto de las funciones de
probabilidad individuales de X 1 , X 2 , ..• ,Xn· Los elementos ya seleccionados no
afectan al resultado de la siguiente extracción. Es decir, las variables aleatorias
X 1o X 2 , ••• ,Xn son, en términos de probabilidad, independientes.
Estas dos propiedades recién comentadas pueden expresarse de la siguiente
forma:
l. f1(X1) = f2(x2) = · · · = fn<xn) = f(x)

2. f(X¡,X2, .... ,Xn) =f¡(X¡)f2(X2)···Ín(Xn)
Ahora es cuando tiene sentido hablar de una muestra aleatoria simple de tamaño
n como de una secuencia de n variables aleatorias (X 1 , X2 ,. •• , X n) igualmente
distribuidas (primera propiedad) e independientes (segunda propiedad).
El número de muestras diferentes que es posible obtener con el muestreo
aleatorio con reposición es N x N x ··· x N, es decir, el número de variaciones con
repetición que podemos formar con N elementos tomados de n en n:
~= Nn (1.1)
Y la probabilidad de obtener una muestra concreta (es decir, la probabilidad de

que las variables aleatorias X 1 , X 2 , ••• ,X n tomen los valores concretos x 1, x 2 , ••• , xn)•
según lo que ya sabemos, es:
1 1
(1.2)
NN N Nn
lo que significa que las Nn muestras de tamaño n que es posible obtener con
reposición de una población de tamaño N tienen, todas ellas, exactamente la misma
probabilidad de ser extraídas.
b) Muestreo aleatorio sin reposición

Lo característico del muestreo aleatorio sin repos1cwn es que los elementos
seleccionados no son devueltos a la población (por tanto, un elemento ya seleccio-
nado no puede volver a formar parte de la muestra). La población ahora ya no
permanece idéntica en cada extracción: en cada nueva extracción siempre hay un
elemento menos que en la anterior.
Según esto, en la primera extracción, la probabilidad asociada a cada elemento
será l/N (recordemos que en el muestreo aleatorio, sea con o sin reposición, las
extracciones se hacen siempre al azar); como ese primer elemento seleccionado no
es devuelto a la población, en la segunda extracción ya no habrá N elementos
disponibles, sino N - 1, por lo que en ese momento la probabilidad asociada a cada
elemento será l/(N - 1). En la tercera extracción quedarán N - 2 elementos,
de modo que la probabilidad asociada a cada uno de ellos será 1/(N - 2). Al llegar
a la última extracción tendremos N - n + 1 elementos todavía no seleccionados.
La probabilidad de elegir cualquiera de ellos en esa última extracción será
l/(N - n + 1).
Así pues, en el muestreo aleatorio sin reposición también se verifica la propie-
dad distintiva del muestreo aleatorio: en cada extracción, todos los elementos po-
blacionales disponibles tienen la misma probabilidad de pertenecer a la muestra,
lo que equivale a afirmar que las funciones de probabilidad individuales de las
variables aleatorias X 1 , X 2 , .•• ,X n son iguales (siendo X 1 = «resultado obtenido en
la primera extracción»; X 2 = «resultado obtenido en la segunda extracción»; ... ;
X n = «resultado obtenido en la enésima extracción»).
Sin embargo, en este tipo de muestreo no se verifica la segunda de las propieda-
des del muestreo aleatorio con reposición. Ahora, el resultado de una extracción no
es independiente del resultado obtenido en las demás. Lo que significa que la
función de probabilidad conjunta de las variables aleatorias X 1 , X 2 , ... ,X n es
diferente del producto de sus funciones de probabilidad individuales. Según esto, en el
muestreo aleatorio sin reposición se dan dos propiedades que podemos expresar de
esta manera:
l. f 1(x ¡) = f~(x 2 ) = · · · = fn(xn) = f(x)
2. f(x 1 ,x 2 , ••• ,x.) #- f¡(x 1)f2 (x 2 ) ···f.(x.)
El número de muestras diferentes de tamaño n que es posible obtener con un
muestreo aleatorio sin reposición es N(N - l)(N - 2) ··· (N - n + 1), que en reali-
dad no es más que el número de variaciones sin repetición que es posible formar
con N elementos tomados de n en n:
N!
N(N - l)(N - 2)···(N - n + 1) = VN.n = (N _ n)! ( 1.3)
Y la probabilidad asociada a una cualquiera de esas posibles muestras es:

(N - n)!
------- ... - - - - ( 1.4)
N N - 1N - 2 N - n+ 1 N!/(N - n)! N!
Muestreo / 49
Recordemos ahora que, en el muestreo aleatorio con reposición, la probabilidad

de obtener una cualquiera de las Nn muestras posibles es la misma para todas
ellas: l/(Nn). En el muestreo aleatorio sin reposición acabamos de ver que ocurre lo
mismo; es decir, la probabilidad de obtener una cualquiera de las N!/(N - n)!
muestras posibles es también la misma para todas ellas: (N - n)!/N! Según esto,
podemos definir el muestreo aleatorio (tanto con reposición como sin reposición),
no sólo como el proceso que garantiza que todos los elementos poblacionales
poseen la misma probabilidad de pertenecer a la muestra, sino también como el
proceso que garantiza que todas las muestras posibles de tamaño n tienen la misma
probabilidad de ser seleccionadas.
EJEMPLO 1.1. Consideremos una población formada por N = 5 puntuaciones:

P = {1,2,3,4,5}. Extraigamos de ella, con reposición y sin reposición, muestras
aleatorias de tamaño n = 2.
Si el muestreo es con reposición, el número de muestras diferentes que podemos
formar viene dado por las variaciones con repetición de 5 elementos tomados de 2 en
2: tendremos N" = 5 2 = 25 muestras posibles. En la tabla 1.1 aparecen estas 25
muestras.
TABLA 1.1
Muestras de tamaño n = 2 que es
posible extraer con reposición de una
población de N = 5 elementos
1,1 1,2 1,3 1,4 1,5

2,1 2,2 2,3 2,4 2,5
3,1 3,2 3,3 3,4 3,5
4,1 4,2 4,3 4,4 4,5
5,1 5,2 5,3 5,4 5,5
Puesto que las extracciones se efectúan al azar, la probabilidad de que un elemen-

to cualquiera pase a formar parte de la muestra en la primera extracción vale 1/5.
Y también vale 1/5 la probabilidad de que un elemento cualquiera de la población pase
a formar parte de la muestra en la segunda extracción, pues la población ha sido
repuesta a su situación inicial después de la primera extracción. La probabilidad
conjunta de que uno cualquiera de los 5 elementos aparezca en la primera extracción y
uno cualquiera de los 5 aparezca en la segunda vale 1/5(1/5) = 1/25. Lo que equivale a
decir que, puesto que hay 25 muestras posibles y todas ellas son, según hemos visto,
equiprobables, la probabilidad de obtener una cualquiera de esas 25 muestras vale
1/25.
Podemos llamar X 1 a la variable aleatoria «resultado obtenido en la primera
extracción» y X 2 a la variable aleatoria «resultado obtenido en la segunda extrac-
ción». Cualquiera de ellas podrá tomar los valores 1, 2, 3, 4 y 5 con idéntica
probabilidad asociada a cada uno de ellos: / 1(x 1 ) = f 2(x 2 ). La tabla 1.2 refleja esta
circunstancia.
TABLA 1.2
Funciones de probabilidad individuales, f 1(xi) y f 2 (x 2 ), y conjunta, f(x 1,x 2 ), de
X 1 = «resultado obtenido en la primera extracción» y X 2 = «resultado
obtenido en la segunda extracción». Muestreo aleatorio con reposición
x,
1 2 3 4 5 f2(X2)
1 1/25 1/25 1/25 1/25 1/25 1/5

2 1/25 1/25 1/25 1/25 1/25 1/5
3 1/25 1/25 1/25 1/25 1/25 1/5
4 1/25 1/25 1/25 1/25 1/25 1/5
5 1/25 1/25 1/25 1/25 1/25 1/5
.f,(x,) 1/5 1/5 1/5 1/5 1/5 1
La tabla 1.2 también recoge la función de probabilidad conjunta de X 1 y X 2 ,

f(x 1 , x 2 ). Es decir, la probabilidad conjunta de que la variable aleatoria X 1 tome el
valor x 1 y la variable aleatoria X 2 tome el valor x 2 • Como puede comprobarse en esa
tabla,f(x 1,x 2 ) =/1(xi)/2 (x 2 ); o sea, 1/25 = 1/5(1/5) en todas las casillas. De modo que,
en el muestreo aleatorio con reposición, no sólo los posibles resultados son equiproba-
bles en cada extracción, sino que unos son independientes de otros.
Si el muestreo lo efectuamos sin reposición, el número de muestras posibles viene
dado por el número de variaciones sin repetición de 5 elementos tomados de 2 en 2; es
decir: N!f(N - n)! = 5!/(5-2)! = 20 muestras posibles. Estas 20 muestras son las mismas
que aparecen en la tabla 1.1 exceptuando las 5 en las que aparece repetido el mismo
elemento.
Las extracciones siguen efectuándose al azar, de modo que la probabilidad de que
un elemento cualquiera pase a formar parte de la muestra en la primera extracción
vale 1/5. Sin embargo, la probabilidad de que un elemento cualquiera de los restantes
pase a formar parte de la muestra en la segunda extracción ya no vale 1/5, sino 1/4
(pues al no existir reposición, en la segunda extracción disponemos de un elemento
menos que en la primera). En consecuencia, la probabilidad conjunta de que uno
cualquiera de los 5 elementos aparezca en la primera extracción y uno cualquiera de
los 4 restantes aparezca en la segunda vale 1/5(1/4)= 1/20. Al igual que antes, esto
equivale a decir que, puesto que hay 20 muestras posibles y todas ellas son, según
sabemos, equiprobables, la probabilidad de obtener una cualquiera de esas 20
muestras vale 1/20.
En la tabla 1.3 aparecen las funciones de probabilidad individuales y conjunta de
X 1 y X 2 • Como puede observarse en ella,f(xi.x 2 ) #-/1(x 1) /2 (x 2 ). Es decir, la función
de probabilidad conjunta de las variables aleatorias X 1 y X 2 no es igual al producto
de sus funciones de probabilidad individuales: 1/20 "#- 1/5(1/5) en todas las casillas. De
modo que, en el muestreo aleatorio sin reposición, aunque se verifica que los posibles
resultados son equiprobables, unos no son independientes de otros.
Muestreo / 51
TABLA 1.3
Funciones de probabilidad individua/es, f 1(x.) y / 2 (x 2 ). y conjunta, /(x 1 ,x 2 ). de
X 1 = «resultado obtenido en la primera extracción» y X 2 = «resultado
obtenido en la segunda extracción». Muestreo aleatorio sin reposición
1 2 3 4 5 f2(X2)
1 o 1/20 1/20 1/20 1/20 1/5

2 1/20 o 1/20 1/20 1/20 1/5
3 1/20 1/20 o 1/20 1/20 1/5
4 1/20 1/20 1/20 o 1/20 1/5
5 1/20 1/20 1/20 1/20 o 1/5
.Mx, l 1/5 1/5 1/5 1/5 1/5 1
EJEMPLO 1.2. Imaginemos una población formada por N = W personas de las

que 4 son varones y 6 son mujeres. Extraigamos de esa población, con reposición y sin
reposición, muestras aleatorias de tamaño n = 2.
Si el muestreo es con reposición, el número de muestras diferentes que podemos
formar viene dado por las variaciones con repetición de 1O elementos tomados de 2
en 2: tendremos N" = 10 2 = 100 muestras posibles. En la tabla 1.4 aparecen estas 100
muestras: en la primera extracción puede aparecer un varón o una mujer; en la
segunda puede ocurrir exactamente lo mismo; por tanto, la muestra resultante de las
dos extracciones estará formada bien por dos varones, bien por un varón y una mujer,
bien por dos mujeres.
Puesto que las extracciones se efectúan al azar, la probabilidad de que una
cualquiera de las 10 personas pase a formar parte de la muestra en la primera
extracción vale 1/10. Y también vale 1/10 la probabilidad de que una cualquiera
de las 10 personas de la población pase a formar parte de la muestra en la segunda
TABLA 1.4
Muestras de tamaño n = 2 que es posible extraer con
reposición de una población de N = 1O personas de las
que 4 son varones (V) y 6 son mujeres (M)
Primera Segunda
Número de muestras
extracción extracción
V V (4)(4) = 16
V M (4)(6) = 24
M V (6)(4) = 24
M M (6)(6) = 36
100
extracción (recordemos que el muestreo es con reposición). Así pues, todos los
elementos poblacionales tienen la misma probabilidad de formar parte de la muestra.
La probabilidad conjunta de que uno cualquiera de los 10 elementos aparezca en
la primera extracción y uno cualquiera de esos mismos IO elementos aparezca en la
segunda vale 1/10(1/IO) = 1/100. Lo cual equivale a afirmar que, puesto que hay 100
muestras posibles y todas ellas son, según sabemos, equiprobables, la probabilidad de
obtener una cualquiera de esas 100 muestras posibles vale 1/100.
Podemos definir ahora las variables aleatorias X 1 = «sexo de la persona selecciona-
da en la primera extracción» y X 2 = «sexo de la persona seleccionada en la segunda
extracción». La variable aleatoria X 1 puede tomar cualquiera de los dos valores
posibles 5 : varón, mujer. Y lo mismo vale decir de la variable aleatoria X 2 . La tabla 1.5
muestra las funciones de probabilidad individuales y conjunta de X 1 y X 2 . Podemos
comprobar en ella que se verifican las dos propiedades del muestreo aleatorio con
reposición: las funciones de probabilidad de X 1 y X 2 son iguales, es decir,
f 1(xi) = f 2(x 2); y la función de probabilidad conjunta es igual al producto de las
funciones de probabilidad individuales, es decir, f(x 1,x 2 ) =f1(x 1 )f2 (x 2 ).
TABLA 1.5
Funciones de probabilidad individuales, f 1(x¡) y f 2 (x 2 ).
y conjunta.f(x 1,x 2 ), de X 1 =«sexo de la persona
seleccionada en la primera extracción» y X 2 = «sexo
de la persona seleccionada en la segunda extracción».
Muestreo aleatorio con reposición
X1
V M fz(Xz)
V 16/100 24/100 4/10

M 24/100 36/100 6/10
f,(x.J 4/10 6/10 1
Si el muestreo lo efectuamos sin reposición, el número de muestras que podemos

extraer viene dado por el número de variaciones sin repetición de 10 elementos
tomados de 2 en 2: tendremos N!f(N - n)! = IO!/(I0-2)! = 90 muestras posibles. Estas
90 muestras son las que aparecen en la tabla 1.6.
5 Conviene en este momento aprender a distinguir los conceptos de población y espacio muestra/. En
el ejemplo 1.1 la población estaba formada por 5 elementos diferentes: 1, 2, 3, 4 y 5. En cada extracción
era posible obtener uno cualquiera de esos 5 elementos poblacionales. Los posibles resultados de una
cualquiera de las extracciones (es decir, el espacio muestra( del experimento aleatorio consistente en
efectuar una extracción al azar de esa población) eran justamente los 5 elementos poblacionales. La
población y el espacio muestra( coincidían en el ejemplo l. l. En el ejemplo 1.2 la situación ha cambiado.
La población está formada ahora por 10 elementos de los que 4 son varones y 6 son mujeres. En cada
extracción estamos interesados en si el resultado es la elección de un varón o la elección de una mujer. El
espacio muestra( ahora (es decir, los posibles resultados del experimento aleatorio consistente en efectuar
una extracción y observar si la persona seleccionada es varón o mujer) no es cada uno de los 10
elementos poblacionales, sino si el elemento seleccionado es un varón o es una mujer. Mientras la
población tiene ahora 10 elementos (las 10 personas que la componen), el espacio muestra( sólo tiene 2
(ser varón o ser mujer), lo que significa que los conceptos de población y espacio muestra( son conceptos
distintos (aunque en ocasiones puedan referirse a los mismos elementos).
Muestreo / 53
TABLA 1.6
Muestras de tamaño n = 2 que es posible extraer sin
reposición de una población de N = 1O personas de las
que 4 son varones y 6 son mujeres ( V= varón,
M =mujer)
Primera Segunda
Número de muestras
extracción extracción
V V (4)(3) = 12
V M (4)(6) = 24
M V (6)(4) = 24
M M (6)(5) = 30
90
Ahora, la probabilidad de que una persona cualquiera de la población pase a

formar parte de la muestra en la primera extracción sigue siendo 1/10. Pero la
probabilidad de que una persona cualquiera de las restantes pase a formar parte de la
muestra en la segunda extracción ya no es 1/10, sino 1/9 (al no haber reposición, en la
segunda extracción disponemos de un elemento poblacional menos que en la primera).
En consecuencia, la probabilidad de que una cualquiera de las 10 personas aparezca
en la primera extracción y una cualquiera de las 9 restantes aparezca en la segunda
vale ( 1/10)( 1/9) = 1/90. Al igual que antes, esto equivale a decir que, puesto que hay 90
muestras posibles y todas ellas son, según sabemos, equiprobables, la probabilidad de
obtener una cualquiera de esas 90 muestras posibles vale 1/90.
En la tabla 1.7 aparecen las funciones de probabilidad individuales y conjunta de
las variables aleatorias X 1 y X 2 . Como puede observarse, !Ax 1, x2 ) #- f 1(x 1 )f2 (x 2 ). De
modo que, en el muestreo aleatorio sin reposición, aunque se verifica que las variables
aleatorias X 1 y X 2 tienen las mismas funciones de probabilidad individuales,
f 1(x 1 ) =f2 (x 2 ), su función de probabilidad conjunta no es igual al producto de sus
funciones de probabilidad individuales: 4/10(4/10) .¡:. 12/90. Por tanto, X 1 y X 2 no son
variables aleatorias independientes.
TABLA 1.7
Funciones de probabilidad individuales, f 1 (x 1 ) y f 2 (x 2 ).
y conjunta. f(x 1, x 2 ). de X 1 = «sexo de la persona
seleccionada en la primera extracción» y X 2 = «sexo
de la persona seleccionada en la segunda extracción».
Muestreo aleatorio sin reposición
Xi
V M f 2 (x 2 )
V 12/90 24/90 4/10
X2
M 24/90 30/90 6/10
fi(x 1l 4/10 6/10 1
1.2.2. Muestreo aleatorio en población infinita
Hasta ahora nos hemos limitado a hablar del muestreo aleatorio en poblaciones
finitas. Al tratar con poblaciones infinitas la situación cambia por completo:
disponemos de un número infinito de elementos poblacionales y de un número
infinito de muestras posibles de cualquier tamaño. Bajo estas condiciones no tiene
mucho sentido definir el muestreo aleatorio como el proceso que garantiza que
todos los elementos poblacionales tienen la misma probabilidad de ser elegidos o
todas las muestras posibles de tamaño n la misma probabilidad de ser extraídas.
Obviamente, en una población infinita esas probabilidades valdrán cero. En
consecuencia, al trabajar con poblaciones infinitas necesitamos aproximarnos al
concepto de muestreo aleatorio utilizando una estrategia diferente.
Imaginemos que en un estudio sobre discriminación visual queremos determinar
el tiempo de reacción medio que corresponde a un sujeto concreto ante determina-
do estímulo. En una de las sesiones podemos presentar n veces ese estímulo a
nuestro sujeto y registrar las n respuestas dadas (en tiempo de reacción). Tendremos
así una muestra de n respuestas. Podríamos repetir las sesiones indefinidamente
obteniendo en cada una de ellas n respuestas correspondientes a ese estímulo.
Tendríamos así un número infinito de muestras de tamaño n extraídas de una
población infinita: la formada por las posibles respuestas que ese sujeto podría
emitir ante las infinitas sucesivas presentaciones del mismo estímulo.
Seleccionemos al azar una cualquiera de esas infinitas muestras de tamaño n.
Definamos las variables aleatorias X 1 = respuesta emitida en la primera presentación
del estímulo, X 2 = respuesta emitida en la segunda presentación del estímulo, ... ,
X. = respuesta emitida en la enésima presentación del estímulo. El valor tomado por
X 1 podrá ser cualquier respuesta del repertorio de posibles respuestas de nuestro
sujeto. Y lo mismo ocurrirá con X 2 y con todas las demás variables definidas (pues
todas ellas son, en realidad, la misma variable). Cada posible respuesta podrá
aparecer en la primera presentación, en la segunda o en la enésima con idéntica
probabilidad, pues la respuestas que aparecen en primer lugar, en segundo, en
enésimo, han sido extraídas al azar de entre el número de posibles respuestas. De lo
que podemos deducir que las funciones de densidad de probabilidad individuales de
X 1 , X 2 , ... ,X. serán iguales (primera de las propiedades del muestreo aleatorio con y
sin reposición).
Pero además, la probabilidad de una cualquiera de las respuestas dadas por el
sujeto no se verá afectada por las restantes; en principio, una respuesta ya emitida
puede volver a aparecer (recordemos que esto mismo era típico del muestreo
aleatorio con reposición) y no existe ninguna razón para pensar que la respuesta
emitida en primer lugar, por ejemplo, pueda condicionar a la respuesta emitida en
segundo lugar. Por tanto, las variables aleatorias X 1 , X 2 , ... ,X. serán independien-
tes, es decir, la función de densidad de probabilidad conjunta de las variables
X 1 , X 2 , ••• ,X. será igual al producto de sus funciones de densidad de probabilidad
individuales.
Así pues, vemos que en el muestreo aleatorio en poblaciones infinitas se verifican
Muestreo / 55
las dos propiedades ya estudiadas a propósito del muestreo aleatorio con reposición
en poblaciones finitas:
l. f1(X¡) = f2(x2) = ··· = fn(xn) = f(x)

2. f(x 1•X2• ... , Xn) = Í1(x2)f2(X 2) · · · fn(xn)
Lo que nos lleva a definir el muestreo aleatorio en población infinita como el
proceso que permite verificar las dos propiedades señaladas: igualdad de distribu-
ciones e independencia.
1.2.3. Muestreo aleatorio
Hemos hablado hasta ahora de tres tipos de muestreo aleatorio: 1) con reposi-
ción en población finita, 2) sin reposición en población finita y 3) con o sin
reposición (indistintamente) en población infinita. En el primero (con reposición en
población finita) y en el tercero (con o sin reposición en población infinita) se
verifican las mismas propiedades: igualdad de distribuciones e independencia.
Podemos considerar que se trata de dos tipos de muestreo equivalentes. Para
referirnos a ellos utilizaremos el término muestreo aleatorio simple o, simplemente,
muestreo aleatorio.
El segundo tipo de muestreo (sin reposición en población finita) no verifica la
propiedad de independencia y eso constituye un pequeño problema. Curiosamente,
mientras las herramientas estadísticas habitualmente utilizadas en el análisis de
datos se construyen a partir del supuesto de independencia entre las observaciones
muestreadas, el tipo de muestreo útil en la práctica suele, paradójicamente, incum-
plir la condición de independencia. Es decir, las poblaciones reales con las que se
trabaja suelen ser finitas y el tipo de muestreo utilizado suele ser el muestreo
aleatorio sin reposición: si deseamos estudiar la población de varones mayores de 30
años seleccionamos aleatoriamente una muestra de n sujetos diferentes; si deseamos
estudiar el efecto de un fármaco sobre los pacientes aquejados de insomnio
seleccionamos una muestra de n pacientes diferentes; etc.
No obstante, aunque las poblaciones con las que se suele trabajar son finitas, lo
cierto es que, normalmente, son tan grandes que a todos los efectos pueden ser
consideradas infinitas sin riesgo grave. En consecuencia, siempre que la población
con la que trabajemos sea infinita o muy grande 6 , cuando hablemos de muestreo
aleatorio nos estaremos refiriendo al muestreo que verifica las propiedades del
muestreo aleatorio simple: igualdad de distribuciones e independencia.
6 No existe una regla fija para determinar cuándo una población es lo bastante grande, pero
podemos afirmar que, cuanto más grande sea, mejor. Algunos autores sugieren que para tratar
una población tanto finita como infinita sin que ello constituya ningún tipo de problema, el tamaño de la
población debería ser al menos 100 veces el de la muestra (ver, por ejemplo, Glass y Stanley, 1986, pág.
242), pero este criterio no deja de ser arbitrario.
1.2.4. Otros tipos de muestreo 7
El muestreo aleatorio simple permite obtener una muestra apropiada (represen-

tativa de la población) en la mayor parte de los contextos en los que se desarrolla la
investigación psicológica. En ocasiones, sin embargo, podemos vernos en la necesi-
dad de trabajar con poblaciones cuyas características estén aconsejando la utiliza-
ción de otro tipo de muestreo aleatorio.
Para formarnos una idea de cómo proceder en este tipo situaciones, en este
apartado describiremos brevemente algunos otros tipos de muestreo aleatorio (no
olvidemos que todos los tipos de muestreo a los que estamos prestando atención
son de tipo probabilístico).
a) Muestreo aleatorio sistemático
En el muestreo aleatorio sistemático se comienza elaborando una lista con los N

elementos poblacionales numerados de 1 a N. A continuación se determina el
tamaño de la muestra que se desea obtener (n) y se efectúa una extracción al azar de
entre los k = N /n primeros elementos (si k no es un número entero se redondea al
entero más próximo). Llamaremos i al lugar ocupado por ese primer elemento
extraído. Hecho esto, el resto de los n - 1 elementos que configurarán la muestra se
obtienen a partir de k: la muestra estará formada por los elementos poblacionales
que ocupen las posiciones i, i + k, i + 2k, i + 3k, ... , i + (n - 1)k.
Así, por ejemplo, si una población está formada por 2.000 personas y deseamos
obtener de ella una muestra aleatoria de tamaño 100, comenzaremos elaborando
una lista asignando a cada persona un número desde el 1 hasta el 2.000. La
constante que deberemos utilizar será k = N /n = 2.000/100 = 20. Después, seleccio-
naremos al azar un sujeto de entre los 20 primeros. Si suponemos que el sujeto
seleccionado es el que ocupa la posición i = 9, el resto de los elementos de la
muestra serán aquellos que ocupen en la lista los lugares 29, 49, 69, 89, ... , 1949,
1969, 1989. La utilización de este tipo de muestreo cobra especial sentido cuando se
dispone de una población listada de la que se desea obtener una muestra aleatoria
homogéneamente distribuida a lo largo de toda la lista.
b) Muestreo aleatorio estratificado
Una población puede estar formada por diferentes subpoblaciones o estratos. En

la población de varones mayores de 30 años, por ejemplo, podemos definir diferen-
tes estratos: según el nivel socioeconómico, según el tipo de profesión, según el nivel
7 El objetivo de este apartado es el ofrecer una visión general de los diferentes tipos de muestreo
probabilístico. El lector interesado es profundizar o ampliar estos contenidos puede consultar cualquiera
de las varias excelentes obras mPnográlicas que existen sobre muestreo (por ejemplo, Azorín y Sánchez-
Crespo, 1986).
Muestreo / 57
de estudios, según el estado civil, etc. Es posible que, en ocasiones, estemos

interesados en utilizar una muestra en la que todos los estratos de la población
tengan una adecuada representación. Con el muestreo aleatorio simple existe la
posibilidad de que, al extraer una muestra aleatoria, alguno de los estratos no esté
suficientemente representado en la muestra. En estos casos resulta útil hacer uso del
muestreo aleatorio estratificado.
Se comienza definiendo los estratos e identificando los elementos que pertenecen
a cada uno de ellos. Tendremos de esta forma k estratos con tamaños N 1 , N 2 , ••• , N k
(obviamente, N 1 + N 2 + ··· + Nk = N). A continuación se elaboran k listas (una
por estrato) con los elementos de cada estrato debidamente numerados y se pro-
cede a extraer aleatoriamente una muestra de cada estrato mediante muestreo alea-
torio simple o mediante muestreo aleatorio sistemático. La muestra total estará
formada por las k submuestras extraídas. El tamaño de las submuestras puede
o no ser proporcional al tamaño de los estratos. Si la variabilidad de la caracte-
rística que se desea estudiar es similar en todos los estratos, el tamaño de las
submuestras se fija de forma proporcional al tamaño de los estratos: afijaci6n pro-
porcional. Si esa variabilidad cambia ostensiblemente de estrato a estrato conviene
extraer submuestras más grandes de los estratos con mayor varianza: afijaci6n no
proporcional.
Si queremos, por ejemplo, extraer una muestra aleatoria de tamaño 100 de una
población de 20.000 personas formada por un 40 por l 00 de varones y un 60 por
100 de mujeres y deseamos que esas proporciones poblacionales se mantengan en la
muestra (afijación proporcional), deberemos formar dos estratos (es decir, dos
grupos: uno con los varones y otro con las mujeres) y seleccionar aleatoriamente a
40 sujetos del primer estrato y a 60 del segundo. Si la varianza de los varones en la
variable estudiada fuera muy diferente de la de las mujeres (lo que sólo podemos
saber si conocemos o estimamos tales varianzas poblacionales), deberíamos selec-
cionar más sujetos del estrato con mayor varianza.
e) Muestreo aleatorio por conglomerados

En este tipo de muestreo las unidades muestrales no son elementos individuales
(los elementos que constituyen la población) sino grupos de elementos a los que se
les llama conglomerados. En lugar de considerar que la población está formada por
N elementos se considera que está formada por k conjuntos o conglomerados de
elementos. La forma de proceder consiste en seleccionar aleatoriamente uno o
varios de esos conglomerados y aceptar como muestra el conjunto de todos los
elementos que forman parte de ese o esos conglomerados seleccionados.
Supongamos que en un estudio sobre desarrollo cognitivo la población de
referencia es la de todos los alumnos de educación primaria de la Comunidad de
Madrid. En lugar de formar la muestra con alumnos aleatoriamente seleccionados
de un listado de todos los alumnos de educación primaria, podríamos seleccionar
uno o varios colegios y utilizar como muestra todos los alumnos de los colegios
seleccionados. Las ventajas de este muestreo son evidentes cuando se trabaja con
poblaciones muy grandes: no necesitamos un listado de todos los elementos de la

población, sino sólo de aquellos que forman parte de los conglomerados seleccio-
nados.
En el muestreo aleatorio por conglomerados puede procederse por etapas; se
habla entonces de muestreo polietápico. En la primera etapa se divide la población
en k conglomerados y se selecciona uno o varios de ellos (unidades muestrales
primarias). En la segunda etapa, los conglomerados seleccionados se dividen en
conglomerados más pequeños y se vuelve a seleccionar uno o varios de ellos
(unidades muestrales secundarias). En la tercera etapa se repite la operación y se
continúa así hasta que se considera necesario. Al llegar a la última etapa se utilizan
como muestra todos los elementos de los conglomerados definitivamente seleccio-
nados. Obviamente, al proceder por etapas sólo es necesario disponer del listado de
los elementos que forman parte de los conglomerados seleccionados en la última
etapa.
Si en el estudio anterior sobre desarrollo cognitivo la población de referencia
fuese la de todos los alumnos españoles de enseñanza primaria, podríamos comen-
zar seleccionando unas pocas comunidades autónomas; después, una provincia de
cada comunidad autónoma seleccionada; después, un pueblo o ciudad de esa
provincia; por último, un colegio de cada pueblo o ciudad seleccionados.
El proceder por etapas posee la importante ventaja de que, en cada etapa,
dependiendo de las características de los conglomerados que se van a muestrear, es
posible utilizar cualquiera de los métodos de muestreo aleatorios estudiados: simple,
sistemático o estratificado.
1.3. Distribuciones muestrales
Según hemos señalado ya, la inferencia estadística es un tipo de razonamiento

que procede de lo concreto a lo general: intenta extraer conclusiones sobre los
parámetros de una población a partir de la información contenida en los estadísticos
de una muestra procedente de esa población. Ese razonamiento está basado en el
conocimiento de la variabilidad mostrada por un estadístico de una muestra a otra, es
decir, en el conocimiento de cómo un estadístico se comporta en las diferentes
muestras que es posible extraer de una población.
1.3.1. Concepto de distribución muestra!
Ya hemos explicado al principio de este capítulo que los estadísticos son

variables aleatorias. Como tales, tienen, al igual que cualquier variable aleatoria, su
propia función de probabilidad. Pues bien, con el término distribución muestra/ nos
estamos refiriendo a la función de probabilidad (o de densidad de probabilidad) de un
estadístico. Por tanto, una distribución muestral puede quedar definida de la
siguiente manera:
Muestreo / 59
Una distribución muestra/ es una distribución teórica que asigna una probabi-
lidad concreta a cada uno de los valores que puede tomar un estadístico en
todas las muestras del mismo tamaño que es posible extraer de una determi-
nada población.
El concepto de distribución muestral es tan importante en estadística que no

sería exagerado decir que si las distribuciones muestrales no existieran tampoco
existirían los contrastes de hipótesis (los cuales constituyen el cuerpo de contenidos
de este libro). Se trata, por tanto, de un concepto que necesita ser bien asimilado.
Por supuesto, la distribución muestra) de un estadístico puede obtenerse por
procedimientos matemáticos. Pero eso lo haremos en los siguientes apartados,
cuando hablemos de las distribuciones muestrales de algunos estadísticos. De
momento, creemos que puede resultar más útil presentar una aproximación intuiti-
va al concepto de distribución muestral.
a) Un caso concreto
Comencemos considerando el estadístico media aritmética: X. El valor de X
depende de la muestra concreta en la que sea calculada. Ya sabemos que de una
población cualquiera es posible extraer más de una muestra de tamaño n (en una
población infinita es posible extraer un número infinito de muestras de cualquier
tamaño). Si en cada una de las muestras que vamos extrayendo calculamos X,
podremos comprobar que no siempre toma el mismo valor, sino que varía de una
muestra a otra.
Supongamos 8 que estamos trabajando con una población formada por N = 5
puntuaciones: X¡ = {t, 2, 3, 4, 5}. Si de esa población seleccionamos aleatoriamente y
con reposición todas las muestras posibles de tamaño n = 2, tendremos
N. = 52 = 25 muestras posibles, las cuales, de acuerdo con lo estudiado a propósito
del muestreo aleatorio con reposición, serán equiprobables; es decir, tendrán, todas
ellas, la misma probabilidad de ser extraídas: 1/25. Si ahora calculamos en cada
una de esas 25 muestras el estadístico X, llegaremos al resultado presentado en la
tabla 1.8. En ella aparecen las 25 muestras y el valor tomado por el estadístico X en
cada una de ellas.
En esa tabla podemos observar diferentes cosas. Por ejemplo, que mientras en
sólo una de las 25 muestras se obtiene X = 1, en tres de ellas se obtiene X = 2,5. Lo
cual significa que el estadístico X puede tomar el mismo valor en más de una
muestra diferente. Por tanto, aunque las 25 muestras sean equiprobables, los valores
que puede tomar X no lo serán: habrá unos valores de X que serán más probables
que otros porque unos podrán obtenerse en mayor número de muestras qu::: otros;
8 El ejemplo utilizado en este apartado es a todas luces un ejemplo irreal sin ningún tipo de relación
con la investigación psicológica o de otro tipo. Sin embargo, su simplicidad le confiere la virtud de
permitirnos explicar con claridad el importantísimo concepto de distribución muestra!.
TABLA 1.8
Muestras de tamaño n = 2 que es posible
extraer con reposición de una población
de N = 5 elementos, valor tomado por el
estadístico X en cada una de ellas y probabilidad
asociada a cada valor de X
Valores
Muestra X .f!.xJ
muestrales
1 1,1 1,0 1/25

2 1,2 1,5 1/25
3 1,3 2,0 1/25
4 1,4 2,5 1/25
5 1,5 3,0 1/25
6 2,1 1,5 1/25
7 2,2 2,0 1/25
8 2,3 2,5 1/25
9 2,4 3,0 1/25
10 2,5 3,5 1/25
11 3,1 2,0 1/25
12 3,2 2,5 1/25
13 3,3 3,0 1/25
14 3,4 3,5 1/25
15 3,5 4,0 1/25
16 4,1 2,5 1/25
17 4,2 3,0 1/25
18 4,3 3,5 1/25
19 4,4 4,0 1/25
20 4,5 4,5 1/25
21 5,1 3,0 1/25
22 5,2 3,5 1/25
23 5,3 4,0 1/25
24 5,4 4,5 1/25
25 5,5 5,0 1/25
podemos observar en Ja tabla 1.8 que, efectivamente, existen más muestras en las
que se obtiene, por ejemplo, X= 2,5 que X= 1,5.
Estas consideraciones sugieren que Ja tabla 1.8 puede ser resumida tal como se
muestra en Ja tabla 1.9. En ella aparecen Jos valores que puede tomar el estadístico
X y Ja probabilidad asociada a cada uno de esos valores. Es decir, en Ja tabla 1.9
aparecen los diferentes valores de Ja variable aleatoria X y su función de probabili-
dad: la distribución muestra[ de la media.
La distribución muestra) de Ja media puede obtenerse, como veremos en el
siguiente apartado, por procedimientos puramente matemáticos, sin necesidad de
tener que extraer todas las posibles muestras de tamaño n de una determinada
Muestreo / 61
TABLA 1.9
Distribución muestra/ de la media
formada a partir de los valores
obtenidos en la tabla 1.8
Número de Valor de la
f(.xl
muestras media X
1 1,0 1/25
2 1,5 2í25
3 2,0 3/25
4 2,5 4/25
5 3,0 5/25
4 3,5 4/25
3 4,0 3/25
2 4,5 2/25
1 5,0 1/25
población (lo cual, por otra parte, resultaría imposible si estuviéramos trabajando
con una población infinita). Sin embargo, la obtención de la distribución muestra!
de un estadístico a partir de la extracción de todas las posibles muestras de tama-
ño n tiene la ventaja de ayudarnos a reparar en ciertos detalles que de otro modo
podrían pasarnos desapercibidos. En la tabla 1.9 podemos comprobar que, si
seleccionamos aleatoriamente una muestra de tamaño 2 de una población formada
por los elementos 1, 2, 3, 4 y 5, lo más probable es que el estadístico X tome el valor
3, pues P(X = 3) = 5/25 = 0,20 es la probabilidad más alta asociada a los diferen-
tes valores de X. Curiosamente, la media (µ) de la población X¡= { 1, 2, 3, 4, 5}
de donde hemos extraído las 25 muestras de tamaño n = 2 vale µ =
= (1 + 2 + 3 + 4 + 5)/5 = 3. Si decidimos utilizar el estadístico X para estimar 9
el parámetro µ, sabemos que existe una probabilidad de 0,20 de que el valor de X
sea exactamente el mismo que el valor deµ; es decir, existe una probabilidad de 0,20
de efectuar una estimación correcta. Pero también sabemos, por ejemplo, que la
probabilidad de que una estimación se separe del verdadero valor de µ en no más
de medio punto (3 ± 0,5) vale 4/25 + 5/25 + 4/25 = 13/25 = 0,52 (es decir, la suma
de las probabilidades asociadas a los valores 2,5, 3 y 3,5 de X). El razonamiento
puede seguirse argumentando que la probabilidad de que el valor obtenido en una
muestra concreta para el estadístico X no se separe del verdadero valor de µ en más
de 1 punto (3 ± 1) vale 3/25 + 4/25 + 5/25 + 4/25 + 3/25 = 19/25 = 0,76, etc. Todo
lo cual sirve para recordarnos que la distribución muestra! de un estadístico, en
cuanto función de probabilidad que es, nos proporciona la probabilidad asociada a
cada uno de los valores que ese estadístico puede tomar en las diferentes muestras
9 En el siguiente capítulo trataremos lo relativo a la estimación de parámetros.
Distribución poblacional de X,
µ=3
.f{x,) u2 =2
"'.iu 1
1 11 11 11 1
2 3 4 5
x,
1 Extraemos todas las muestras posibles de tamaño 2 1
Muestra 1 Muestra 2 Muestra 3 Muestra 25

f(x,) f(x 1) f(x 1) f(x,)
oLx 1234 5 '

o~x 12 34 5 '
o~x 12 34 5 '
J~x.
12 34 5 '
1 En cada muestra, calculamos el estadístico X 1
j X= 1,0 j IX=l.51 j X= 2,0 j j X= 5,0 j
Distribución muestra! del estadístico X

f(x)
E(X) =3
5/25 - oJ = 1
4/25 ~ -
3/25 ~
,_____
2/25 - ,_____
1/25
1
0,5
l.
1,0
1
1,5
1
2,0 2,5
1 1
3,0
1
3,5 4,0 4,5

n
5,0 5,5
X
Figura !.!.-Gráfico ilustrativo del procedimiento seguido para construir la distribución muestra! de X
en el caso concreto de N = 5 y n = 2 (adaptado de Kirk, 1978, pág. 205).
Muestreo / 63
de tamaño n que es posible extraer de una población (lo cual, como tendremos
ocasión de comprobar en los dos próximos capítulos, constituye el fundamento de
la estimación de parámetros y del contraste de hipótesis estadísticas).
Continuando con nuestra aproximación intuitiva al concepto de distribución
muestral hemos elaborado el gráfico de la figura 1.1. En ese gráfico se ilustra el
procedimiento mediante el cual es posible llegar a construir la distribución muestra!
del estadístico X a partir de una población de 5 elementos equiprobables, seleccio-
nando todas las posibles muestras de tamaño 2 y calculando el estadístico X en
cada una de ellas. Puede observarse en el gráfico que el histograma de la distribu-
ción muestral de X no se parece en nada al histograma de la distribución poblacio-
nal: mientras la distribución poblacional es uniforme (todos los elementos poblacio-
nales son equiprobables), la distribución muestral de la media tiene forma de
distribución normal. (Lo cierto es que, según aclararemos en un próximo apartado,
la distribución muestral de la media se va aproximando más y más a la normalidad
a medida que el tamaño de la muestra va aumentando).
b) Otro caso concreto

Lo que acabamos de hacer con el estadístico X podemos hacerlo con cualquier
otro estadístico imaginable: cualquier otro estadístico que se nos antoje calcular
tomará diferentes valores en las diferentes muestras de tamaño n que podamos
extraer de una población y eso nos permitirá determinar su función de probabili-
dad, es decir, su distribución muestral.
Consideremos ahora una población de N = 10 personas formada por 6 varones
y 4 mujeres, y extraigamos de ella aleatoriamente y con reposición muestras de
tamaño n = 3. Como el muestreo es con reposición, el número de muestras
diferentes que podremos extraer vendrá dado por las variaciones con repetición de
10 elementos tomados de 3 en 3: 10 3 = 1.000. Estas 1.000 muestras posibles
aparecen en la tabla 1.1 O.
Podemos definir ahora la variable aleatoria X = número de varones observa-
dos en la muestra. Dependiendo de la muestra concreta que obtengamos, X podrá
tomar los valores O, 1, 2 o 3; es decir, en una muestra cualquiera de 3 personas,
puede ocurrir que no haya ningún varón, que haya 1, que haya 2, o que los 3 sean
varones. Por supuesto, X, en cuanto valor numérico descriptivo de una característi-
ca muestral, es un estadístico.
Podemos definir, además, otra variable aleatoria íntimamente relacionada con
X, en concreto: P =proporción de varones observados en la muestra. La variable
P. obviamente, será función de X; es decir, los valores que tome P dependerán de
los que tome X, pues P = X/n. Al igual que X, la variable aleatoria P, en cuanto
valor numérico descriptivo de una característica muestral, es un estadístico: la
proporción muestral. La tabla 1.10 también muestra los valores de P. A partir de los
datos de la tabla 1.10 podemos obtener las funciones de probabilidad de las
variables aleatorias X y P, es decir, las distribuciones muestrales de los estadísticos
X y P. La tabla 1.11 recoge esas dos distribuciones muestrales.
TABLA 1.10
Muestras de tamaño n = 3 que es posible extraer con repos1cion de una
población de N = 1O personas de las que 6 son varones y 4 son mujeres
(V= varón, M =mujer) 10
Proporción
Primera Segunda Tercera Número de
de varones
extracción extracción extracción muestras p
V V V 216 3/3
V V M 144 2/3
V M V 144 2/3
M V V 144 2/3
V M M 96 1/3
M V M 96 1/3
M M V 96 1/3
M M M 64 o
1.000
TABLA 1.11 11
Distribuciones muestra/es de los

estadísticos X = «número de varones»
y P = «proporción de varones».
Datos obtenidos de la tabla 1.10
X p f(x) =f(p)
3 3/3 0,216
2 2/3 0,432
1 1/3 0,288
o o 0,064
10 La forma de obtener los resultados de la columna «número de muestras» es bastante simple si se
recurre al teorema fundamental de la combinatoria. Así, si consideramos una muestra formada por un
varón, una mujer y otro varón (V, M, V), tendremos que el primero de los sucesos (V) puede ocurrir de 6
maneras (tenemos 6 varones en la población); el segundo de los sucesos (M) puede ocurrir de 4 maneras
(tenemos 4 mujeres en la población); y el tercer suceso (V) puede ocurrir de 6 maneras (tenemos 6
varones y el muestreo es con reposición). Por tanto, los tres sucesos juntos pueden ocurrir de
6 x 4 x 6 = 144 maneras.
11 En la tabla 1.11, f(x) y f(p) representan las funciones de probabilidad de los estadísticos X y P,
respectivamente. Así, por ejemplo, en la tabla 1.10, vemos que hay 3( 144) = 432 muestras de las 1.000
posibles en las que el número de varones es 2. Eso, en la tabla 1.11, está reílejado en que la probabilidad
de que X tome el valor 2 vale 432/1.000 = 0,432 (obviamente.f(x) es igual a f(p), pues exactamente lo
mismo da hablar de la probabilidad de que en una muestra de 3 personas aparezcan X = 2 varones que de
la probabilidad de que en esa muestra la proporción de varones sea P = 2/3).
Muestreo / 65
Recordemos ahora que estamos trabajando con una población formada por 1O
personas de las que 6 son varones. Esto significa que la proporción de varones en la
población es: 7t = 6/10 = 0,6. Puede comprobarse que, en la distribución muestral
de P (tabla 1.11 ), el valor esperado de P coincide con el de su correspondiente
parámetro n. En efecto:
3 2 1
E(P) = L p f(p) = -0,216 + -0,432 + -0,288 = 0,6
3 3 3
De nuevo podemos constatar que una distribución muestral nos proporciona la
probabilidad asociada a cada uno de los valores que puede tomar un estadístico en
todas las posibles muestras de tamaño n. Así, por ejemplo, si de una población de
10 personas formada por 6 varones y 4 mujeres extraemos aleatoriamente una
muestra de tamaño 3, sabemos, considerando los datos proporcionados por la tabla
1.11, que lo más probable (0,432) es que la proporción de varones P en esa mues-
tra sea de 2/3 = 0,67 (o, lo que es lo mismo, lo más probable es que en una muestra
aleatoriamente seleccionada nos encontremos con 2 varones: X = 2). Y sabemos
también, por ejemplo, que la probabilidad de que sólo una de las tres personas
seleccionadas sea varón (P = 1/3 = 0,33) vale 0,288, etc.
e) El caso general
Vemos, por tanto, que con poblaciones y muestras pequeñas resulta relativa-
mente sencillo conocer la distribución muestral de cualquier estadístico y, a partir
de ella, el comportamiento mostrado por el mismo en las diferentes muestras de
tamaño n en las que puede ser calculado. Pero ocurre con mucha frecuencia que las
poblaciones con las que nos vemos en la necesidad de trabajar no son, ni mucho
menos, tan pequeñas como las de los ejemplos que acabamos de presentar. De
hecho, lo que generalmente ocurre es justamente todo lo contrario: las poblaciones
que habitualmente tiene sentido estudiar suelen ser muy grandes e incluso, en
ocasiones, infinitas. Lo cual significa que, para obtener la distribución muestral de
un estadístico cualquiera, por simple que este sea, no resulta posible proceder de la
forma que lo hemos hecho hasta ahora. Sin embargo, el concepto de distribución
muestral sigue siendo el mismo sea cual sea el tamaño de la población y de la
muestra con las que trabajemos. En una población infinita, la distribución muestra)
de, por ejemplo, el estadístico X sigue siendo la distribución resultante de extraer
infinitas muestras de tamaño n y calcular en todas ellas X.
Por supuesto, no es posible extraer las infinitas muestras de tamaño n de una
población para conocer la distribución muestral de un estadístico. Pero eso no
significa que tengamos que renunciar a conocer la distribución muestral de un
estadístico cuando estamos trabajando con una población infinita (o muy grande):
podemos ir seleccionando una muestra tras otra y suponer (con toda lógica) que, a
medida que vamos disponiendo de más y más muestras, la distribución muestral
que vamos obteniendo se va aproximando poco a poco a la teóricamente verda-
dera.
Pero, además, podemos utilizar procedimientos matemáticos que nos informan

con exactitud sobre las características de las distribuciones muestrales de diferentes
estadísticos (esto es lo que haremos en los siguientes apartados). Según acabamos de
ver, una distribución muestra) es la función de probabilidad de un estadístico.
Como tal, una distribución muestra) puede quedar bastante bien caracterizada, al
igual que cualquier otra distribución de probabilidad, haciendo explícitas su forma,
su media (o valor esperado) y su varianza. Y dado que un estadístico es una
variable aleatoria, su valor esperado y su varianza pueden ser definidos de la forma
habitual (es decir, de la forma en que se definen el valor esperado y la varianza de
cualquier variable aleatoria; ver Botella, León y San Martín, 1993, apartados 12.3.2.
y 12.4.2).
Llamando H de forma genérica a un estadístico cualquiera, tendremos:
E(H) = L,Hf(h) (distribución discreta)

E(H) = JHf(h)dh (distribución continua) (1.5)
u~ = E(H 2) - [E(H)] 2
En los siguientes apartados vamos a estudiar cómo llegar a conocer la forma, el

valor esperado y la varianza de una distribución muestral sin necesidad de extraer
una sola muestra de la población. Vamos a centrar nuestro estudio en)as distribu-
ciones muestrales de los estadísticos media, varianza y proporción, pues creemos que
el estudio de las distribuciones muestrales de esos tres estadísticos es suficiente para
comprender cómo se puede obtener información sobre una distribución muestra)
utilizando procedimientos puramente matemáticos; no obstante, siempre que
cuando más adelante necesitemos trabajar con un estadístico cuya distribución
muestra) no haya sido comentada, nos detendremos a estudiarla.
Conviene señalar por último que, en general, cuando se está trabajando con
distribuciones muestrales, es habitual utilizar, en lugar de la varianza (u~). la
desviación típica (u8 ); y es habitual, también, para referirse a esa desviación típica,
utilizar el término error típico. Así pues, a la desviación típica de la distribución
muestra) de la media la llamaremos error típico de la media: ug. Y lo mismo cabe
decir de cualquier otra distribución muestral que consideremos: para referirnos, por
ejemplo, a la desviación típica de la distribución muestra) de la proporción
hablaremos del error típico de la proporción: u P• etc.
1.3.2. Distribución muestra! de la media
Una combinación lineal de variables aleatorias es también una variable aleato-

ria (ver Botella, León y San Martín, 1993, capítulo 9). Así, si X 1, X 2 ,. •. , X" son n
variables aleatorias independientes e igualmente distribuidas (lo cual ocurrirá si el
muestreo es con reposición, o sin reposición en población infinita) y hacemos:
(1.6)
Muestreo / 67
la variable combinada X será también una variable aleatoria distribuida exacta-

mente igual que X 1 ,X 2, ... ,X", con:
E(X) = l: k;E(X;)
(1.7)
ai = l: kfat
Y dado que X 1, X 2 , •.. ,X" tienen la misma distribución, tendrán también los
mismos valores esperados y varianzas:
E(X 1 ) = E(X 2) = ··· = E(Xn) = µ (1.8)

aii = ai, = ... = ai. = ª2
Ahora bien, sabemos que la media aritmética de n observaciones independientes

es, por definición:
_ ¿xi 1 1 1
X=--=-X 1 +-X 2 + ···+-X" (1.9)
n n n n
de modo que:
- 1 1
E(X) = -E(X¡ + X2 + ... + Xn) = -[E(X¡) + E(X2) + ... + E(Xn)J
n n
1 1
=-(µ¡ +µ2 + ··· +µn)=-nµ (1.1 O)
n n
=µ
y:
2 12 1 2 2 2 1 2
ªx = n2 ax, +x,+ ... +x. = n2 ªx, + ªx, + ··· + ªx. = n2 na (1.11)
<12
Además, si las variables X 1, X 2 ,. •• , X" se distribuyen normalmente con paráme-

tros µ y a, entonces la distribución muestra! de X es también normal con paráme-
tros µ y a/Jn. Y todavía más, de acuerdo con el teorema central del límite (ver
Ríos, 1985, págs. 194-197), siendo X 1, X 2 , ..• ,X" variables aleatorias independientes e
igualmente distribuidas (cualquiera que sea su distribución) con parámetros µ y a,
ambos finitos, la distribución muestra) de X tiende a la normalidad, con parámetros

;1 12
y a1,/;,, n
a medida que va aumentando 13 .
Así pues. la distribución muestra/ de la media es normal N(µ, a/J~). indepen-

dientemente de 11. cuando son normales las distribuciones de las variables
X 1 .X 2 , .... Xn de las que se obtiene la media; y tiende a la normal N(µ,u/Jn),
independientemente de la distribución de X 1 , X 2 , ... , X"' a medida que n va
aumentando.
Ahora bien, si X es una variable aleatoria que, bajo las mencionadas circunstan-
cias, se distribuye normalmente, bajo esas mismas circunstancias la variable
tipificada:
X-µ
Z=-- (1.12)
u/Jn
se distribuirá N(O, 1). Lo que significa que podremos utilizar la distribución normal
estandarizada para conocer las probabilidades asociadas a los diferentes valores del
estadístico X en su distribución muestral.
Conviene señalar aquí que el error típico (o su cuadrado, la varianza) es un
concepto de fundamental importancia a la hora de intentar caracterizar una
distribución muestral. Y conviene señalar, además, que el tamaño muestra) se
encuentra íntimamente relacionado con el error típico de una distribución muestral.
En la distribución muestral de la media se puede apreciar con claridad este hecho.
Hemos visto que o"}= u 2 /n. lo cual significa que, a medida que n va aumentando, la
varianza de la distribución muestral, u}. va disminuyendo. Con muestras de
tamaño n = 1, u} es igual a u 2 • Con muestras de tamaño n = 10, u} es 1/10 de u 2 •
Con muestras de tamaño n = 1000, u} es 1/1000 de u 2 • Conforme el tamaño <!e la
muestra va tendiendo a infinito, la varianza de la distribución muestral de X va
12 En una situación de muestreo aleatorio sin reposición en población finita podemos seguir
suponiendo que X 1,X 2 , ...,X. son variables todas ellas con la misma distribución, pero ya no podemos
seguir suponiendo que son independientes (como lo serían en una situación de muestreo aleatorio simple).
Esto tiene sus consecuencias sobre la varianza (y. por tanto. sobre el error típico) de la distribución
muestra( de la media, que pasa a ser (ver Amón, 1984, págs. 221-222):
u~=
x
"2[~]
n N- 1
donde N se refiere al tamaño de la población y n al de la muestra. Lógicamente, a medida que N vaya

aumentado, el cociente (N - n)/(N - 1) irá tendiendo a 1, de manera que, si la población es lo bastante
grande. la varianza de la distribución muestra! de la media resultante de muestrear sin reposición una
población finita no se verá alterada respecto a la varianza resultante del muestreo aleatorio simple.
1 3 En la práctica. con n > 20 la aproximación de la distribución muestra( de la media a la
normalidad ya es lo bastante buena. Con n > 30 la aproximación es lo bastante buena incluso con
distribuciones poblacionales originales muy asimétricas.
!J..' Ediciones Pirámide

Muestreo / 69
tendiendo a cero. Y a medida que esa varianza va tendiendo a cero, la variabilidad

mostrada por el estadístico X en las diferentes muestras va siendo menor, lo que
significa que los posibles valores que podrá tomar X se parecerán cada vez más a su
valor esperado, que no es otro que la media de la población (µ).
EJEMPLO 1.3. Supongamos que la población de estudiantes de psicología se

distribuye normalmente con µ = 100 y desviación típica a= 15 [N(lOO, 15)] en una
escala de inteligencia espacial. Si extraemos una muestra aleatoria de 100 estudiantes:
1) ¿cuál es la probabilidad de obtener una media de 103 o mayor? 2) ¿Cuál es la
probabilidad de obtener una media comprendida entre 98 y 102?
Dado que la muestra es grande, la distribución muestral de la media se aproximará
a la normal. Por tanto,
X-µ 103 - 100

Z=-- => Z= =2
a/Jn 15/jiOO
se distribuirá N(0,1). Consultando la tabla de la distribución normal estandarizada

comprobamos que P(Z ;;;¡: 2) = 0,0228. Lo que significa que es muy poco probable que
en una muestra de 100 estudiantes podamos obtener una media de 103 o mayor. La
figura 1.2 refleja esta situación.
z=2
Figura 1.2.-Probabilidad de encontrar medias de 103 o mayores en la distribución muestra! de

X con µ = 100 y u/Jn = 1,5.
Para responder a la segunda cuestión bastará con estandarizar las puntuaciones 98

y 102:
98 - 100 102 - 100

z=---= -1,33 z = - - - = 1,33
1,5 1,5
Consultando la tabla de la distribución normal estandarizada vemos que

P( - 1,33 ~ Z ~ 1,33) = 1 - 0,0918 - 0,0918 = 0,8164. Lo cual nos está indicando
que existe una alta probabilidad de que en la muestra de 100 estudiantes obtengamos
una media comprendida entre 98 y 102. La figura 1.3 refleja esta situación.
: = -1,33 z = 1,33
Figura 1.3. - Probabilidad de encontrar medias comprendidas entre 98 y 102 en la distribución

muestra( de X con µ = 100 y u/Jn = 1,5.
Así pues, según acabamos de ver, la transformación: Z =(X - µ)/(uf se Jn>

distribuye N(O, 1) y eso nos permite conocer, en las circunstancias ya comentadas,
las probabilidades asociadas al estadístico X. Sin embargo, la utilidad de este
procedimiento está condicionada por el hecho de que el parámetro u, necesario
para calcular el valor de Z, es habitualmente desconocido. La única información
que solemos tener sobre la desviación típica poblacional la obtenemos a través de la
desviación típica muestral. Si estamos trabajando con muestras grandes, la desvia-
ción típica muestra) se parecerá a la desviación típica poblacional; de manera que la
sustitución de (J por sn o sn- l no hará variar mucho las cosas (es decir, no hará
variar la distribución de Z). Sin embargo, con muestras pequeñas, la sustitución de
(J por sn o sn-1 tiene consecuencias que no debemos pasar por alto.
Ya sabemos que la variable Z =(X - µ)/(u/Jn) se distribuye N(O, 1). Enseguida

veremos 14 que la variable:
2
X=-
ns; ( 1.13)
u2
se distribuye según x:-

1 . Y sabemos 15 también, por último, que el cociente entre
una variable distribuida N(O, 1) y la raíz cuadrada de una variable distribuida según
x;_ 1 dividida por sus grados de libertad, da como resultado, si ambas variables son
independientes, una nueva variable distribuida según el modelo de probabilidad t

de Student con los grados de libertad de la variable del denominador. Es decir,
sabemos que:
z
T = ---;:e==== (l.14)
Jx;_ 1/(n - 1)
14 Ver en el siguiente apartado de este mismo capítulo la distribución muestra! de la varianza.

15 Ver Análisis de datos en psicología I (Botella, León y San Martín, 1993, pág. 331).
Muestreo / 71
se distribuye según tn- i· Por tanto:
X-µ
z a/Jn (1.15)
T=--;::===
Jx /(n -
2 1) ns;,¡a 2
n-l
se distribuirá 16 también según tn-I• por lo que podremos utilizar la transformación

T y la distribución tn _ 1 para conocer las probabilidades asociadas al estadístico X
cuando desconocemos a.
Por supuesto, a medida que n vaya aumentando, S" (o S"_ ¡) se irá pareciendo
más y más a a y cada vez con menor variabilidad (es decir, con menor error típico;
con n tendiendo a infinito tendremos s;, = s;, _1 = a 2 ; ver siguiente apartado en este
mismo capítulo); por tanto, a medida que n vaya aumentando T se irá pareciendo
más y más a Z, es decir, se irá aproximando a la distribución N(O, 1).
EJEMPLO 1.4. Supongamos que la población de estudiantes de psicología se

distribuye normalmente conµ= 100 y u desconocida --es decir, N(lOO,u}- en una
escala de inteligencia espacial. Si extraemos una muestra aleatoria de 20 estudiantes y
obtenemos en ella una desviación típica insesgada s._ 1 = 19,5, ¿cuál será la probabili-
dad de obtener medias iguales o mayores que 103?
Dado que desconocemos u, que la variable estudiada se distribuye normalmente y
que la muestra no es muy grande, la tipificación del estadístico X seguirá la distribu-
ción t._ 1. Por tanto,
X-µ 103 - 100

T=--- ~ t = = 0,688
s._1/Jn 19,5/fiO
se distribuirá según t 19 . En la tabla de t con 19 grados de libertad vemos que

P(T ~ 0,688)::::: 0,25. De modo que la probabilidad de obtener medias de 103 o
mayores vale, aproximadamente, 0,25.
1.3.3. Distribución muestra! de la varianza
Ya sabemos que la varianza (sea parámetro o estadístico) nos permite conocer el

grado en el que un conjunto de puntuaciones se dispersan alrededor de su media.
La importancia de la varianza a la hora de describir las características de una
1 • Conviene recordar que T sólo se distribuirá según el modelo de probabilidad t de Student con
n - 1 grados de libertad si las variables Z y X 2 son independientes y la distribución de partida es

normal.
distribución de probabilidad es comparable, si no mayor, a la de la media. Conocer

la distribución muestra) de la varianza, en consecuencia, nos va a resultar de gran
utilidad.
Comencemos recordando que hay dos tipos de varianza, la sesgada y la
insesgada:
Sn2 =~(X; - X)2

-----
2
y sn-1
~(X;-.X')2
=----- ( 1.16)
n n-1
Consideremos una población cualquiera y una variable aleatoria X¡ definida en
ella. Si extraemos de esa población una muestra aleatoria de tamaño n y calculamos
s; (os;_¡) habremos definido un estadístico pues estaremos describiendo numérica-
mente una característica muestral. Podríamos seguir extrayendo de esa población
una muestra tras otra y podríamos calcular en cada una de ellas la varianza. A me-
dida que fuéramos extrayendo más y más muestras y calculando en cada una de
ellas la varianza, iríamos disponiendo de la infomación necesaria para conocer la
distribución muestra[ de la varianza (exactamente igual que ocurría con la media).
Sin embargo, no necesitamos extraer un número infinito de muestras para poder
conocer la distribución muestra) de la varianza. Veamos.
Supongamos que la variable aleatoria X¡ se distribuye N(µ, u), con µ y u
conocidas, y que de esa población extraemos una muestra aleatoria de tamaño n.
Sumemos y restemos X a (X; - µ). Tendremos:
(X; - µ)=(X; - X)+ (X - µ)
Elevando al cuadrado y sumando obtenemos:

~(X; - µ) 2 =~[(X; - X)+ (X - µ)]2
Desarrollando y dividiendo por cr 2 :
~(X; - µ) 2 ~(X; - .X') 2 ~(X - µ) 2 2(.X - µ)~(X; - X)
----=
(12 (12
+ (12
+ (12
(A) (B) (C) (D)
donde:
A = z¡ + z~ + ··· + z; = x;
(n - l)S;_ 1 ns; 2
B= 2 2 =xn-1
=-
C1 C1
e= n (X µ)2 = (Xu/Jnµ)2 = Z 2 =xi

-(1-
D=O, pues ~(X;-X')=O
Muestreo / 73
Dado que B se basa en la varianza y C en la media, y que la varianza y la media

de una distribución normal (caso en el que nos encontramos) son independientes, B
y C serán también independientes. Teniendo esto en cuenta y, además, la propiedad
aditiva de x. 2 , obtenemos:
A=B+C
nS 2
l.2n = -(12
n + l.21 ( 1.17)
2 2 2 ns;
Xn - X1 = Xn- 1 = -2
u
Y considerando, por último, que ns; = (n - t)s;_ 1, llegamos a la conclusión

de que:
Las variables aleatorias ns;;u 2 y (n - l)S;_ 1/u 2 se distribuyen según el

modelo probabilístico x. 2 con n - 1 grados de libertad.
Ahora bien, si una variable cualquiera (a la que podemos llamar X 2 ) se

distribuye según x. 2 con n grados de libertad, se verifica que:
( 1.18)
Según esto:
( 1.19)
Por tanto:
n-1
E(S;) = - - u2 y E(S; _ 1 ) = u2 (1.20)
n
Y, del mismo modo:
1
/ , = j2(n -
t1
1) ( 1.21)
por lo que:
2 j2(n - 1)
u
n2 ªs' = j2(n - 1)
• = u,=u
s. n (1.22)
n-1 ~---
-2-u5, = J2(n - 1)
u • 1
= u 520 _ 1 = u 2J2/(n - 1)
Por tanto, en la distribuciónx;_1 podemos encontrar probabilidades relaciona-

das con los estadísticos s; s;_
y 1 (con los valores esperados y errores típicos
señalados).
A medida que va aumentando el tamaño de la muestra la distribución x2 se va
aproximando a la distribución normal (recordemos lo que ocurría con la media y el
teorema central del límite). Y dado que:
y (l.23)
la variable aleatoria tipificada:
[ns;¡a 2 ] -(n - 1) [(n - l)s;_¡/a 2 ] -(n - 1)

z= = --------;::===---- (1.24)
J2(n - 1) j2(n - 1)
se aproximará a la distribución N(O, 1) a medida que n vaya aumentando. La

aproximación es muy lenta y sólo empieza a ser lo bastante buena con tamaños
muestrales muy grandes (por ejemplo, con n > 100).
EJEMPLO 1.5. Un psicólogo viene utilizando un prueba diseñada por él mismo

para evaluar el pensamiento inventivo de los niños de 2. 0 ciclo de Enseñanza Primaria.
Con esta prueba, las puntuaciones de los niños se distribuyen normalmente con media
17,6 y varianza 6. El psicólogo se siente contento con diferentes aspectos de la prueba
pero considera que es poco discriminativa. Para mejorar este aspecto decide modificar
algunos items. Aplica la prueba modificada a una muestra aleatoria de 30 sujetos y
obtiene una media de 17,2 y una varianza de 9,5. ¿Cuál es la probabilidad de obtener
varianzas como la obtenida o mayores si las modificaciones hechas en la prueba no
hubieran alterado su capacidad de discriminación?
Si las modificaciones introducidas no han alterado la capacidad de discriminación
de la prueba, la varianza poblacional a2 seguirá siendo 6. Por lo que ns;,¡a 2 se
distribuirá según x.;_ 1 y:
2 ns; 30(9,5)
X =-=--=475
(12 6 '
se distribuirá según x.~ 9 . Consultando la tabla de x. 2 con 29 grados de libertad

podemos ver que P(X 2 ~ 47,5) < 0,02. Podemos concluir que existe una probabilidad
muy pequeña (p < 0,02) de obtener varianzas de 9,5 o mayores si suponemos que la
capacidad de discriminación de la prueba no se ha alterado (es decir, si suponemos
que la varianza poblacional sigue siendo 6).
Aunque n = 30 no es muy grande, podemos utilizar, sólo como ejemplo, la
aproximación normal.
Tendremos:
(ns;¡a 2 ) - (n - 1) 30(9,5)/6 - 29
z= = = 2,43
~ J2(29)
Muestreo / 75
En la tabla de la distribución normal estandarizada encontramos que

P(Z ~ 2,43) = 0,0075, resultado no demasiado parecido al obtenido utilizando la
distribución x2 (se requiere un n mayor para que la aproximación sea aceptable).
1.3.4. Distribución muestra! de la proporción

Consideremos una población cualquiera en la que medimos una variable
dicotómica, es decir, una variable que sólo puede tomar dos valores: acierto-error,
verdadero-falso, tratados-no tratados, recuperados-no recuperados, varones-muje-
res, etc. Llamemos a esos dos valores de la variable éxito y fracaso, y n: a la
proporción de éxitos en la población.
Si extraemos muestras aleatorias de tamaño n y, en cada muestra, definimos la
variable X = «número de éxitos en las n extracciones», tendremos una variable
aleatoria (un estadístico, pues estaremos describiendo una característica muestral)
distribuida, si la proporción de éxitos (n:) permanece constante en cada extracción,
según el modelo binomial, con:
E(X) = nn: ( 1.25)
ax = J~nn:_(_l___n:_)
Podemos, por tanto, utilizar las probabilidades de la distribución binomial para
conocer la probabilidad asociada a cada uno de los valores de X en las diferentes
muestras de tamaño n.
Si ahora definimos el estadístico P = X /n = «proporción de éxitos en las n
extracciones», habremos definido una nueva variable aleatoria (que también es un
estadístico, pues describe numéricamente una propiedad muestral) que en realidad
no es otra cosa que una media con:
1 1
E(P) = -E(X) = -nn: = n: (1.26)
n n
1 1
ap =-ax= - J nn:(l - n:) =
Jn:(l - n:)
n n n
Las probabilidades asociadas a cada valor del estadístico P podemos encontrar-
las, al igual que ocurría con el estadístico X. recurriendo a la distribución binomial,
n:
con parámetros n y (pues P no es más que una transformación lineal de X).
Pero además, dado que la distribución binomial tiende a la normal a medida
que el tamaño de la muestra va aumentando (recordemos el teorema central del
límite 1 7 ), si efectuamos la transformación:
z=X - E(X) = _P_-_E_(P_) (1.27)
1 7 El teorema central del límite no sólo es aplicable al estadístico X, sino también al estadístico
suma total, es decir, a nX. Lo que significa que, en el contexto de la distribución binomial, tanto P (que es
una media) como X (que es un total: X = nP) se verán afectados en su tendencia a la normalidad a
medida que n vaya aumentando.
habremos definido una nueva variable aleatoria que tenderá a distribuirse N(O, 1) a
medida que vaya aumentando el tamaño de la muestra 18 • Así pues:
El estadístico proporrnm (P) se distribuye según el modelo de probabilidad

binomial con parámetros n y n. Y a medida que el tamaño de la muestra, n, va
aumentando. la distribución muestra) del estadístico proporción tiende a la
normal con parámetros 7t y jn(l - n)/n.
Si n no es muy grande, la utilización de la distribución normal como una forma

de aproximación a las probabilidades de la distribución binomial resulta más
ajustada utilizando una pequeña modificación llamada corrección por continuidad 19 :
z = (X ± 0,5) - E(X) = (P ± 0,5/n) - E(P)

(1.28)
<Tp
EJEMPLO 1.6. Consideremos una población de estudiantes de psicología formada

por un 30 por 100 de varones y un 70 por too de mujeres. Sí de esa población
extraemos aleatoriamente una muestra de 10 sujetos, ¿cuál será la probabilidad de que
en la muestra aparezcan más de 8 mujeres?
Siendo rr la probabilidad de ser mujer y X el número de mujeres aparecidas en
una muestra de to sujetos, la variable aleatoria X se distribuirá binomialmente con
11 = 10 y rr = 0,7. Consultando la tabla de la distribución binomial obtenemos:
P(X > 8) = 1 - 0,851 = 0,149. Así pues, 0,149 es la probabilidad de obtener más de 8
mujeres en esa muestra de to sujetos.
18 Al igual que ocurre con el estadístico media. con el estadístico proporció11 la aproximación normal
es lo bastante buena a partir de tamaños muestrales relativamente pequeños. Si rr no toma valores
extremos (es decir, si rr toma valores próximos a 0,5), tamaños muestrales de 11 = 10 o 11 = 15 permiten
obtener ya una buena aproximación; cuanto más extremos son los valores de rr (es decir, cuanto más se
alejan de 0,5). mayor necesita ser el tamaño muestra( 11 para que la aproximación normal resulte
satisfactoria.
19 Si hablamos de la probabilidad de obtener 8 éxitos en 10 ensayos, estamos hablando de una
variable discreta: en 10 ensayos puede haber O, l. 2, etc., éxitos, pero no puede haber. por ejemplo. 4,5
éxitos. Por tanto, al aproximar la distribución binomial a la normal estamos aproximando una
distribución discreta a una continua. Para que la aproximación sea más exacta podemos intentar hacer,
de alguna manera, que los valores discretos se conviertan en continuos. Así, podemos considerar que. por
ejemplo, obtener 3 éxitos equivale a obtener éxitos comprendidos entre las puntuaciones 2,5 y 3.5. Del
mismo modo, podemos considerar que obtener 8 éxitos o más equivale a obtener una puntuación de 7.5
o mayor, etc. El término ±0,5 que aparece en la ecuación [1.28], debe utilizarse teniendo esto en cuenta.
Muestreo / 77
Aunque el tamaño de la muestra, n = to, es pequeño, podemos utilizar, como

ejemplo, la aproximación normal. Haciendo P = X/n = 8/10 = 0,8, tendremos:
(8 + 0,5) - 10(0,7) (0,8 + 0,5/10) - 0,7

z= = = 1,04
jl0(0,7)(0,3) J0,7(0,3)/10
En la tabla de la distribución normal estandarizada encontramos que

P(Z > 1,04) = 0,1492, resultado éste que nos da una buena idea de la calidad de la
aproximación.
EJEMPl.O 1.7. Supongamos que el servicio de psicoterapia de un determinado

hospital consigue recuperaciones aceptables en el 60 por 100 de sus pacientes. Si
seleccionamos aleatoriamente 30 de los pacientes que acuden un día cualquiera a ese
hospital, ¿cuál es la probabilidad de que en esa muestra se produzcan al menos 24
recuperaciones?
Siendo X = 24 y P = 24/30 = 0,8, y teniendo en cuenta el tamaño de la muestra
(11 = 30), la variable
(24 - 0,5) - 30(0,6) (0,8 - 0,5/30) - 0,6

z= = = 2,05
j30(0,6)(0,4) J0,6(0,4)/30
se distribuirá N(O, 1). Consultando la tabla de la distribución normal estandarizada

encontramos que P(Z ~ 2,05) = 0,0202. Podemos concluir que la probabilidad de
encontrar al menos 24 recuperaciones es muy pequeña.
AP!:NDICE 1
Cómo extraer una muestra aleatoria
Si estamos trabajando con poblaciones finitas, la extracción de una muestra aleatoria

requiere, en general, como primer paso, que los elementos poblacionales estén identificados
de alguna manera. Una forma apropiada de identificación consiste en numerar los elementos
poblacionales de 1 a N. A continuación, puede procederse mezclando en una caja N
papeletas, cada una con el número de un elemento poblacional, para, después, seleccionar al
azar las n papeletas que nos proporcionarán los n elementos de la muestra. Con poblaciones
pequeñas, este procedimiento puede resultar útil. Pero si estamos trabajando con poblaciones
muy grandes, la identificación (numeración) de todos los elementos poblacionales y la
confección de las papeletas pueden convertirse en tareas más costosas que todo el resto de la
investigación.
Una forma alternativa de proceder consiste en formar tantos grupos de papeletas como
dígitos tenga el tamaño de la población que deseemos muestrear (1 grupo para poblaciones
de tamaño N < 10; 2 grupos para poblaciones con tamaño 10 :s:; N < 100; 3 grupos para
poblaciones con tamaño 100 :s:; N < 1000; etc.) y asignar a cada grupo tantas papeletas
numeradas como valores posibles pueda tomar cada dígito del tamaño poblacional. Así, si
queremos extraer una muestra aleatoria de una población de tamaño N = 50, formaremos
dos grupos de papeletas (pues los dígitos de 50 son dos: el 5 y el O); el primer grupo estará
formado por 6 papeletas con los números O, 1, 2, 3, 4, y 5, que son los valores que puede
tomar el primer dígito del tamaño poblacional; el segundo grupo estará formado por 10
papeletas con los números O, 1, 2, 3, 4, 5, 6, 7, 8 y 9, que son los valores que puede tomar el
segundo dígito del tamaño poblacional. Hecho esto, realizaremos n extracciones al azar de
cada grupo de papeletas hasta completar los n elementos que configurarán la muestra. En
cada extracción, la combinación de los números de las papeletas de cada grupo nos dará el
número del elemento poblacional que pasará a formar parte de la muestra (en cualquier,
caso, siempre será necesario desechar el número O).
Siguiendo la misma lógica de estos dos procedimientos podrían diseñarse muchos otros
distintos capaces de garantizar la aleatoriedad del proceso de extracción. No obstante,
siempre existe el riesgo de que la persona que realiza la extracción muestre alguna tendencia
(sesgo) en algún sentido. Por esta razón muchos investigadores prefieren utilizar una tabla de
números aleatorios. Las tablas de números aleatorios (como la tabla A del apéndice final) han
sido elaboradas de tal forma que todos los dígitos del O al 9 aparecen con la misma
frecuencia y repartidos de forma aleatoria (los dígitos suelen aparecer en estas tablas
formando grupos de 2 o de 5, pero esa agrupación no tiene otro significado que el de facili-
tar su lectura).
Veamos cómo usar la tabla de números aleatorios. Supongamos que tenemos que extraer
una muestra de tamaño n = 50 de una población de tamaño N = 800. El primer paso
consiste en numerar los elementos poblacionales de 1 a 800 (normalmente se trabaja con
listas que tienen resuelto este aspecto). A continuación vamos a la tabla de números
aleatorios y vemos que está formada por 1.000 dígitos. Seleccionamos al azar uno cualquiera
de los 1.000 dígitos que aparecen. Supongamos que nuestra elección recae sobre el dígito
colocado en la fila 17 en la columna 5: hemos elegido el número 7. Leyendo a partir de esa
posición de izquierda a derecha (aunque podríamos hacerlo en cualquier otra dirección)
encontramos los siguientes números de tres dígitos (tres dígitos porque ése es el número de
dígitos del tamaño poblacional: 800): 574, 345, 796, etc. Seguimos así hasta obtener los 50
elementos que deben formar parte de nuestra muestra. Vemos que si reanudamos la
secuencia donde la hemos dejado, el siguiente número es 950; como 950 es mayor que 800
(tamaño poblacional), desechamos ese valor y pasamos al siguiente: 776, 688, etc. Por
supuesto, podemos decidir continuar en la fila de abajo o podemos hacerlo en la de arriba;
cualquier dirección que adoptemos nos proporcionará una secuencia aleatoria de números.
El método Monte Cario
El problema de los métodos de extracción de muestras aleatorias que acabamos de

describir es que sólo resultan aplicables cuando estamos trabajando con poblaciones finitas.
En una población infinita no podemos, por ejemplo, numerar todos los elementos que la
componen. En estos casos es necesario adoptar una estrategia de muestreo diferente.
Una de estas estrategias se conoce con el nombre de simulación: «técnica de muestreo
estadístico controlado utilizada, junto con un modelo, para obtener respuestas aproximadas
sobre problemas probabilísticos (... ) complejos» (Lewis y Orav, 1989, pág. 9).
Muestreo / 79
El método Monte Cario es un método de simulación especialmente útil para extraer

muestras aleatorias de poblaciones concretas y, en lo que a nosotros más nos interesa, para
obtener distribuciones muestrales cuando los métodos matemáticos resultan demasiado
complicados. Vamos a exponer brevemente en qué consiste. No pretendemos ofrecer aquí
una explicación exhaustiva del mismo y de todas sus posibilidades pues eso excedería
ampliamente las pretensiones de este apartado. Pero si presentaremos unos ejemplos sencillos
que nos ayudarán a comprender la utilidad del muestreo simulado.
Supongamos que deseamos estudiar algunos aspectos relacionados con una variable
dicotómica (es decir, una variable que sólo puede tomar dos valores: acierto-error, varón-
mujer, verdadero-falso, etc.). Llamaremos éxito y fracaso de forma genérica a cada uno de
esos dos valores. Supongamos, además, que rr;_.; 10 = 0,70 y rr¡racaso = 0,30 son las probabilida-
des poblacionales asociadas a cada uno de los dos valores de esa variable dicotómica.
Supongamos, por último, que la población en la que deseamos estudiar esa variable es
infinita o tan grande que a todos los efectos puede ser considerada infinita.
De esa población extraemos una muestra aleatoria de tamaño 100 en la que definimos la
variable X = «número de éxitos» (siendo éxito uno cualquiera de los dos niveles de la variable
definida en la población). Con un ordenador o, incluso, con una calculadora de bolsillo,
podemos generar 100 números aleatorios u; entre O y 1 (cualquiera de estos números u; son
valores de una distribución uniforme: todos ellos tienen la misma probabilidad de ser
generados). Si el número u; generado es, por ejemplo, menor o igual que 0,70, consideraremos
que hemos extraído un elemento perteneciente a la categoría éxito; si el número U; generado
es mayor que 0,70, consideraremos que hemos extraído un elemento perteneciente a la
categoría fracaso. Con un ordenador, en pocos segundos (incluso en menos de 1 segundo)
podríamos generar 100 números aleatorios u; y, con ello, 1) obtener una muestra aleatoria
procedente de una población binomial con parámetros n = 100 y rr;..;,0 = 0,70, y 2) calcular el
valor de la variable X en esa muestra.
Pero, ¿para qué sirve una muestra si ya conocemos las características de la población de
donde ha sido extraída? Recordemos que, según hemos señalado ya en apartados anteriores,
la distribución muestra) de un estadístico es la función de probabilidad que resulta de
seleccionar de una población todas las posibles muestras de tamaño n. Hemos visto que, con
poblaciones pequeñas, no resulta complicado obtener la distribución muestra! de un
estadístico. Sin embargo, con poblaciones muy grandes el proceso de obtención de una
distribución muestra) puede resultar muy largo y tedioso. Y, por supuesto, si se trabaja con
poblaciones infinitas, no resulta posible extraer las infinitas muestras de tamaño n que sería
posible definir. Para este tipo de situaciones hemos propuesto procedimientos analíticos que
nos han permitido obtener la distribución muestra! de algunos estadísticos. Pero todavía
existe otro tipo de situaciones en las que los procedimientos analíticos no resultan útiles,
bien porque no son aplicables (no hay procedimientos matemáticos capaces de ofrecer una
solución), bien porque resultan demasiado engorrosos y, por tanto, poco prácticos (la situación
es matemáticamente intratable debido a su complejidad). Es justamente en estos casos cuan-
do podemos utilizar el método Monte Cario para generar, no infinitas muestras, por su-
puesto, pero sí un número de ellas lo bastante grande como para obtener una distribución
muestra) cualquiera lo bastante aproximada.
Siguiendo con nuestro ejemplo, sabemos que una variable X como la definida más arriba
se distribuye binomialmente con valor esperado nrr y varianza nrr(l - rr). Pero si no hubiera
forma de conocer estos valores por procedimientos matemáticos, podríamos generar, por
ejemplo, 10.000 muestras como la referida más arriba y calcular en cada una de ellas el valor
de X. Tendríamos así 10.000 valores X que nos podrían dar una información bastante exacta
80 / Análisis de datos en psicologla 11
del verdadero valor esperado de X, de su varianza y de la forma de su distribución. Y eso nos

permitiría conocer la distribución muestral de X.
Lo mismo que hemos hecho con una variable distribuida binomialmente podríamos
hacerlo con otro tipo de variable. Consideremos el caso de una variable cuantitativa
cualquiera X; cuyas funciones de probabilidad y de distribución de probabilidad, en la
población, son las que se muestran en la tabla 1.10. Si queremos extraer de esa población una
muestra aleatoria de tamaño n = 100 podemos proceder de la siguiente manera: generamos
un número aleatorio u; entre O y l. Si u; es igual o menor que 0,23, consideraremos que
hemos obtenido un elemento muestral X;= O; si u; es mayor que 0,23 y menor o igual que
0,57, consideraremos que hemos obtenido un elemento muestral X;= 1; si u; es mayor que
0,57 y menor o igual que 0,80, consideraremos que hemos obtenido un elemento muestral
X;= 2; etc.
TABLA 1.10
x, .f(x,) F(x,)
o 0,23 0,23
1 0,34 0,57
2 0,23 0,80
3 0,12 0,92
4 0,06 0,98
5 0,02 1,00
Tras generar 100 números aleatorios u; tendríamos ya una muestra aleatoria de tamaño
n = 100. Si ahora repetimos el proceso, por ejemplo, 10.000 veces (tarea bastante simple de
realizar con un ordenador) tendremos 10.000 muestras aleatorias de tamaño n = 100. Y si en
cada una de esas muestras calculamos el estadístico X, podremos construir, de forma muy
aproximada, la distribución muestral de la media. Vemos, pues, que con el método Monte
Cario podemos extraer cualquier número de muestras aleatorias y de cualquier tamaño
siempre que la distribución poblacional muestreada sea conocida.
Por supuesto, cuanto más complejas son las distribuciones poblacionales, más complica-
do resulta generar muestras aleatorias. Los ejemplos que acabamos de presentar se refieren a
distribuciones bastante simples (la binomial y la multinomial) y por ello la obtención de
muestras aleatorias resulta también bastante sencilla. Con distribuciones más complejas
(como, por ejemplo, la normal), el método de extracción se vuelve algo más complicado y,
sobre todo, menos intuitivo. En el caso concreto de la distribución normal existen diferentes
procedimientos que permiten obtener muestras aleatorias de distribuciones N(O, 1). Algunos
de esos procedimientos se basan, al igual que los ejemplos comentados más arriba, en
números aleatorios distribuidos de forma uniforme en el rango (O, l); tal es el caso, por
ejemplo, de la muy conocida y utilizada técnica Box-Muller (ver Lewis y Orav, 1989, pági-
nas 45-47). Otros, más sofisticados, se basan en números aleatorios no distribuidos uniforme-
mente. Desde luego, no es nuestro propósito detallar aquí esos procedimientos, sino sólo
advertir de su existencia y, lo que es más importante, señalar que, en la mayor parte de los
programas de análisis estadístico (y, desde luego, en el SPSS), existen diferentes rutinas que
permiten extraer muestras aleatorias de prácticamente cualquier tipo de distribución.
Muestreo / 81
EJERCICIOS
1.1. Un sujeto responde al azar a un test que consta de 3 preguntas con dos alternativas de
respuesta cada una: V= Verdadero, F = Falso. Si formamos la variable aleatoria
X = «número de respuestas V dadas»:
a) ¿Cuál será la función de probabilidad de la variable X?

b) Calcular E(X) y ui.
1.2. Consideremos una población con N = 5 elementos en la que la variable aleatoria X

puede tomar los valores O, 2, 5, 12 y 16. Averiguar:
a) El número de muestras aleatorias de tamaño n = 2 que es posible extraer de esa
población con y sin reposición.
b) La distribución muestral de la media en ambos casos.
e) La media y la varianza de la población.
1.3. Con los datos del ejercicio 1.2, averiguar:

a) La media y la varianza de la distribución muestra( de la media (en ambos casos: con y
sin reposición).
b) La relación existente entre los estadísticos y los parámetros (en ambos casos: con y
sin reposición).
1.4. La población de niños españoles de enseñanza primaria se distribuye N(2,4) en una

prueba de discriminación visual. Extraemos de esa población una muestra aleatoria de 9
niños y aplicamos la prueba de discriminación visual. ¿Cuál será la probabilidad de obtener
en esa muestra una media aritmética mayor que -1 y menor que 2,5? Es decir, ¿cuánto
valdrá P( - 1 :::; X :::; 2,5)?
1.5. Supongamos que la población de universitarios de la especialidad de psicología se

distribuye normalmente con µ = 10 en una prueba de aptitud para las matemáticas. Como
sondeo, tomamos al azar una muestra de 10 sujetos y obtenemos una media de 16,5 y una
varianza de 36. ¿Qué probabilidad existe de que, siendo correcto el parámetro µ = 10,
aparezcan muestras con promedios superiores a 16,5?
1.6. Las puntuaciones de un test de frustración estandarizado se distribuyen normalmente

en la población de adultos. El distribuidor del test afirma que el 25 por 100 de los sujetos
obtiene puntuaciones menores de 20 y que otro 25 por 100 obtiene puntuaciones mayores de
50. Sabiendo esto,
a) ¿Cuánto valen la media y de la desviación típica de esa población?
b) ¿Cuál es la probabilidad de obtener una media igual o mayor que 40 en una muestra
aleatoria de 25 sujetos?
1.7. La variable aleatoria X; se distribuye según el modelo de probabilidad N(30, 10). A con-
tinuación ofrecemos la función de distribución de algunos de sus valores tipificados:
TABLA 1.11
x, o 10 20 30 40 50 60
z, ( ) ( ) ( ) ( ) ( ) ( ) ( )
F(z;) ( ) ( ) ( ) ( ) 0,840 0,978 0,999
a) Completa la tabla.
h) En una muestra aleatoria con n = 100, ¿cuánto valdrá P(X ~ 28)?
1.8. En el ejercicio 1.7, calcular la puntuación típica que corresponde a una puntuación X= 10
y la probabilidad de obtener puntuaciones mayores que 10.
1.9. Siendo X la media aritmética de una muestra aleatoria de tamaño 9 extraída de una
población distribuida N( 1, 3), calcular el valor de X sabiendo que vale 0,25 la probabilidad de
obtener medias como esa o mayores.
1.IO. ¿Cuál debe ser el tamaño de una muestra aleatoria extraída de una población en la
que X se distribuye N(40, 10) para que valga 0,99 la probabilidad de que la media X de dicha
muestra sea menor que 42?
1.11. La población de varones se distribuye N( 1O,6) en una escala de agresividad. Descono-

cemos estos datos en la población de mujeres, pero extraída una muestra aleatoria de 9
mujeres hemos obtenido X = 18,2 en la mencionada escala. ¿Cuál es la probabilidad de
obtener, si extraemos una muestra de tamaño 9 de la población de varones, una media igual
o mayor que la encontrada en la muestra de mujeres?
1.12. Consideremos una población constituida por los valores 1, 2 y 3. Extraigamos de ella,
con reposición, muestras aleatorias de tamaño 2.
a) Calcular p y u 1 .
h) Construir la distribución muestra! de s;; y s;;_ 1.
e) Determinar la relación existente entre los valores esperados de ambas vananzas
muestrales y la varianza de la población.
1.13. La población de estudiantes de COU se distribuye N(50, 10) en un test de cálculo

numérico. Ante la constatación de que el mencionado test es poco discriminativo en niveles
socioeconómicos elevados, un psicólogo decide construir otro con la misma media pero
intentando que sea más discriminativo (es decir, intentando que su varianza sea mayor).
Selecciona una muestra aleatoria de 31 alumnos de COU y, tras pasarles el test, obtiene una
media de 49 y una desviación típica de 12. ¿Cuál es la probabilidad de que se den valores
iguales o mayores que éstos con el primer test?
1.14. Supongamos que el peso (en gramos) de los recién nacidos españoles se distribuye
N(3.200, 200). Si seleccionamos una muestra aleatoria de 31 recién nacidos, cuál es la
probabilidad de que la desviación típica tome un valor inferior a 150 gramos?
Muestreo / 83
1.15. En un experimento sobre agudeza visual hemos presentado a un sujeto 50 pares de

estímulos luminosos para comprobar si era capaz de percibir la diferencia en intensidad entre
los dos estímulos de cada par. El sujeto debía pulsar un botón rojo cuando creía que los
estímulos diferían en intensidad luminosa y un botón verde cuando percibía que los
estímulos no diferían. Si consideramos que el sujeto ha estado pulsando los botones al azar,
¿cuál es la probabilidad de encontrarnos con más de 30 aciertos?
1.16. En una reciente encuesta sobre el divorcio realizada a una muestra de 10.000
universitarios madrileños, 6.500 afirmaron ser partidarios del mismo. Si tomáramos 120
muestras de 25 sujetos cada una,
a) ¿Cuál será la media y la varianza de la distribución muestra( del número de
estudiantes que se muestran partidarios del divorcio?
b) ¿En cuántas muestras cabe esperar que más de 18 o menos de 15 sujetos se muestren
partidarios del divorcio?
1.17. Al parecer, los pacientes aquejados de neurosis depresiva se recuperan espontánea-

mente, es decir, sin necesidad de tratamiento, en el 30 por 100 de los casos (transcurridos 2
meses desde el inicio del trastorno). En la lista de espera de un hospital hay 22 pacientes
diagnosticados con neurosis depresiva que no recibirán tratamiento antes de 2 meses. ¿Cuál
es la probabilidad de que, transcurridos 2 meses, al menos la mitad de esos 22 pacientes no
necesiten tratamiento?
1.18. Consideremos un test formado por 10 preguntas, cada una de las cuales consta de 4
alternativas con sólo una correcta. Si una muestra de 100 sujetos responde al azar a las 10
preguntas, ¿cuántos sujetos cabe esperar que acierten más de 4 preguntas?
1.19. En una distribución muestra( formada a partir de las medias obtenidas con muestras
de tamaño n = 49, a la media X = 76 le corresponde una puntuación típica z = 2. Si el error
típico de esa distribución muestra( vale 3,
a) ¿Cuál es el valor de la media poblacional?
b) ¿Cuál es el valor de la varianza poblacional?
1.20. Si de una población normal extraemos muestras aleatorias de tamaño n 1, la distribu-

ción muestra( de la media que resulta es tal que a la media X = 32 le corresponde una
puntuación típica z = 1,2. Si en lugar de muestras de tamaño n 1 utilizamos muestras de
tamaño n2 , la distribución muestra) de la media que resulta es tal que a la media X = 32 le
corresponde una puntuación típica z = 2,4. ¿Cómo de grande es n 1 respecto a n 2?
84 / Análisis de datos en psicologfa 11
SOLUCIONES
1.1. a)
X, f(x,)
o 1/8
1 3/8
2 3/8
3 1/8
b) E(X,) = 1,5; 11i = 3/4.

1.2. a) Con reposición: N" = 52 = 25.
Sin reposición: N!/(N - n)! = 5!/(5 - 2)! = 20.
b)
f(i) f(i)
X con rep. sin rep.
o 1/25 0/20
1 2/25 2/20
2 1/25 0/20
2,5 2/25 2/20
3,5 2/25 2/20
5 1/25 0/20
6 2/25 2/20
7 2/25 2/20
8 2/25 2/20
8,5 2/25 2/20
9 2/25 2/20
10,5 2/25 2/20
12 1/25 0/20
14 2/25 2/20
16 1/25 0/20
e) µ = 7; 11 2 = 36,8.
1.3. a) Con reposición: E(X) = 7; 11} = 18,4.
Sin reposición: E(X) = 7; 11} = 13,8.
b) Con reposición: E(X) = µ = 7; 11} = 11 2 /n = 18,4.
Sin reposición: E(X) = µ = 7; 11} = (11 2/n)[(N - n)/(N - I)] = 13,8.
1.4. z<d• -i> = -2,25; zcde 2 •5¡ = 0,37; P(-2,25 ~ Z ~ 0,37) = 0,6321.
1.5. T = 3,25; P(T~ 3,25) = 0,005 (en la distribución t 9 ).
Muestreo / 85
1.6. a) µ = 35; a = 22,39.

b) P( X> 40) = P(Z ~ 1,12) = 0,1314.
1.7. a) Completar la tabla 1.11 requiere saber tres cosas: 1) que una puntuación típica Z;
se obtiene restando a X; su media (30) y dividiendo la diferencia por su desviación típica
(10); 2) que si una variable X; se distribuye normalmente, sus puntuaciones típicas Z; tam-
bién se distribuyen normalmente; y 3) que una distribución normal es simétrica.
TABLA 1.11
X, o 10 20 30 40 50 60
Z; (- 3) (-2) (-1) (O) (1) (2) (3)
F(z¡) (0,001) (0,022) (0,160) (0,500) 0,840 0,978 0,999
b) - :::::; 28) = P ( Z :::::; (28 - 30)) = P(Z :::::; - 2) = 0,022.

P(X
10/J100
1.8. z = (10 - 30)/10 = - 2.

P(X; > 10) = P(Z; > - 2) = 1 - 0,022 = 0,978.
1.9. X= 1,67.
1.10. n ~ 136.
1.11. ;: = 4,1; P(Z ~ 4,1) = 0,000...
1.12. a) /l = 2 <1 2 = 2/3.

b)
s; f(s;) s;_I f¡s;_ 1l
o 3/9 o 3/9
0,25 4/9 0,5 4/9
1 2/9 2 2/9
e) E(S;) = 3/9 = 1/3; E(s;_ ¡) = 6/9 = 2/3.

E(S;) = (n - 1)a 2 /n = 1(2/3)/2 = 1/3; E(s;_i) = a 2 = 2/3.
1.13. P(X ~ 49) = P(Z ~ -0,56) = 0,7123.

P(S; ~ 12 2 ) = P(ns;¡a 2 ~ 44,64) < 0,05.
1.14. P(s; :::::; 22.500) = P(ns;¡a 2 :::::; 17,44) < 0,05.
1.15. Sin corrección por continudad: P(X ~ 31) = P(Z ~ 1,70) = 0,0446.
Con corrección por continuidad: P(X ~ 30,5) = P(Z ~ 1,56) = 0,0594.
«:J Ediciones Pirámide

1.16. a) E(X) = 16,25; u~= 5,6875.

b) Sin corrección por continuidad:
- en una muestra: P(15 >X> 18) = P(-0,94 ~ Z ~ 1,15) = 0,2987.
- con 120 muestras cabe esperar que ocurra en 120(0,2987) ~ 36 muestras.
Con corrección por continuidad:
- en una muestra: P(14,5 ~X~ 18,5) = P(-0,73 ~ Z ~ 0,94) = 0,4063.
- con 120 muestras cabe esperar que ocurra en 120(0,4063) ~ 49 muestras.
1.17. Sin corrección por continuidad: P(X ~ 11) = P(Z ~ 2,05) = 0,0202.
Con corrección por continuidad: P(X ~ 10,5) = P(Z ~ 1,81) = 0,0351.
1.18. Sin corrección por continuidad:

- Con un sujeto: P(X ~ 5) = P(Z ~ 1,83) = 0,0336.
- Con 100 sujetos, cabe esperar que acierten 5 preguntas o más 100(0,0336) ~ 3
sujetos.
Con corrección por continuidad:
- Con un sujeto: P(X ~ 4,5) = P(Z ~ 1,46) = 0,0721.
- Con 100 sujetos, cabe esperar que acierten 5 preguntas o más 100(0,0721) ~ 7
sujetos.
1.19. a) 11 = 70.
b) o- 2 = 441.
Estimación de parámetros
2
2.1. Estimación puntual.

2.1.1. Concepto.
2.1.2. Propiedades de un buen estimador.
2.1.3. Ejemplos de buenos estimadores.
2.2. Estimación por intervalos.
2.2.1. Concepto.
a) Un caso concreto.
b) El caso general.
e) Precisión del intervalo.
el) Resumiendo.
2.2.2. Intervalo de confianza para la media.
2.2.3. Intervalo de confianza para la varianza.
2.2.4. Intervalo de confianza para la proporción.
2.2.5. Precisión de la estimación y tamaño de la muestra.
a) El caso de la media.
b) El caso de la varianza.
e) El caso de la proporción.
Apéndice 2.
Estimación por máxima varosimilitud.
Estimación por mínimos cuadrados.
Ejercicios.
En el capítulo anterior sobre muestreo hemos comenzado señalando que el
objetivo final del análisis de datos (y de la estadística inferencia)) es el de extraer
conclusiones de tipo general a partir de unos pocos datos particulares. Después de
lo visto en el resto de ese capítulo ya sabemos lo suficiente para poder concretar
que al hablar de conclusiones de tipo general nos estamos refiriendo a alguna po-
blación y a alguno de sus parámetros, y al hablar de datos particulares nos estamos
refiriendo a alguna muestra de esa población y a alguno de sus estadísticos.
Según hemos señalado, la utilización de un método de muestreo apropiado ga-
rantiza que la muestra obtenida es representativa de la población. Esto significa
que la información proporcionada por una muestra es, en mayor o menor grado,
un reflejo de la información contenida en la población. Podemos, por tanto, utilizar
la información muestra) para formarnos una idea sobre las propiedades de la po-
blación. Es decir, podemos servirnos de las muestras para hacer inferencias sobre
las poblaciones.
Estas inferencias pueden adoptar diferentes formas, pero las más habituales y a
las que nosotros prestaremos atención aquí son dos: la estimación de parámetros y el
contraste de hipótesis. Mediante la estimación de parámetros se intenta dar respues-
ta a la pregunta: ¿cuál es el valor de tal parámetro? Con el contraste de hipótesis se
intenta dar respuesta a la pregunta: ¿es razonable pensar que un parámetro toma tal
valor? Ambas formas de inferencia son equivalentes en el sentido de que ambas nos
permiten llegar a la misma conclusión. Podríamos pensar en ellas como en las dos
caras de una misma moneda: en la estimación de parámetros utilizamos la informa-
ción muestra) para formarnos una idea sobre alguna propiedad de la población; en
el contraste de hipótesis establecemos una afirmación sobre la población y después
recurrimos a la información muestra) para comprobar si nuestra afirmación es
compatible con ella.
En el próximo capítulo hablaremos del contraste de hipótesis. De momento,
centraremos nuestra atención sobre el concepto de estimación y sobre sus diferentes
tipos.
2.1. Estimación puntual
2.1.1. Concepto
La estimación puntual constituye la más simple de las inferencias estadísticas

que podemos efectuar. Consiste en asignar un valor muestra! concreto al parámetro
poblacional que se desea estimar. Ese valor muestra! concreto será uno u otro
dependiendo del método de estimación que utilicemos. Uno de los métodos de
estimación más simples, ideado por Pearson y llamado método de los momentos,
consiste en atribuir al parámetro poblacional el valor tomado por su correspon-
diente estadístico en una muestra concreta. Así, estamos efectuando una estimación
puntual cuando utilizamos la media muestra! X para inferir el valor de la media
poblacional µ; o cuando nos servimos de la proporción muestra! P para inferir el
valor de la proporción poblacional n; etc.
El problema que se plantea en la estimación puntual es que, dado un parámetro
concreto, siempre es posible disponer de más de un estadístico diferente para
efectuar una estimación del mismo. Ya hemos señalado que un estadístico es un
valor numérico descriptivo de alguna propiedad muestra!. Esto significa que el
número de estadísticos que es posible calcular en una muestra cualquiera es
prácticamente ilimitado (además de los que ya conocemos, podríamos definir
estadísticos tan pintorescos como «el valor que ocupa el tercer lugar en la muestra»,
«el logaritmo del inverso del quinto valor muestra!», etc.). Es verdad que existen
unos cuantos estadísticos cuya utilidad ha sido repetidamente contrastada en la
práctica. Es verdad, también, que cualquier parámetro que deseemos estimar(µ, u 2 ,
n, etc.) siempre tiene en la muestra un estadístico paralelo (X, S2 , P, etc.). Sin
embargo, dada la definición de estadístico (valor numérico descriptivo de una
propiedad muestra!), siempre resulta posible, en una muestra cualquiera, definir
tantos estadísticos diferentes como deseemos. Y no existe una forma natural de
determinar cuál de todos ellos es el ideal para efectuar una estimación concreta. La
media poblacional, por ejemplo, podría ser estimada mediante la media aritmética,
o la media truncada, o la mediana, etc. Se hace necesario, por tanto, determinar
cuáles son las propiedades que debe reunir un estadístico para poder ser con-
siderado un buen estimador.
Señalaremos antes que, para referirnos a un parámetro cualquiera, utilizaremos
la letra griega e. y representaremos por (j a los estadísticos utilizados para efectuar
una estimación puntual, a los cuales llamaremos estimadores.
2.1.2. Propiedades de un buen estimador
Parece razonable pensar que un buen estimador debe cumplir, como primera
propiedad, la de ofrecer estimaciones correctas. No obstante, dado que un estima-
dor, en cuanto estadístico que es, no es una constante sino una variable, no siempre
tomará el mismo valor; su valor concreto, ya lo sabemos, dependerá de la muestra
en la que sea calculado. Por tanto, no todos los valores muestrales que obtengamos
Estimación de parámetros / 91
coincidirán exactamente con el valor del parámetro que deseamos estimar. Aun así,
podemos esperar de un buen estimador que ofrezca, al menos como promedio.
estimaciones correctas. A esta propiedad de ofrecer, en promedio, estimaciones
correctas se le llama carencia de sesgo y, se dice, por tanto, que un estimador es
insesgado si su valor esperado coincide con el parámetro que estima. Es decir, si:
E(U) =e (2.1)
Otra propiedad deseable en un estimador es la de consistencia. Se dice que un

estadístico U es un estimador consistente del parámetro e si, para n tendiendo a
infinito, se verifica:
P(IU - 81 < b) --+ 1 (2.2)
para una cantidad b infinitamente pequeña. De esta definición se deduce que todo
estadístico que verifique las siguientes dos condiciones, es consistente (aunque no
todo estadístico consistente tiene por qué verificarlas):
(2.3)
cuando n tiende a infinito. La consistencia como propiedad de un estimador

garantiza que, a medida que va aumentando el tamaño de la muestra, también va
aumentando la probabilidad de que el estadístico utilizado como estimador coinci-
da exactamente con el parámetro estimado.
Una tercera propiedad, no menos deseable que las dos anteriores, es la de
eficiencia. Un estimador es tanto más eficiente cuanto menor es su varianza. Imagine-
mos una población cualquiera y un parámetro e definido en ella. Supongamos que
disponemos de dos estadísticos U1 y U2 para estimar e. Decimos que ul es más
eficiente que U2 si:
(2.4)
Una mayor eficiencia indica que el estadístico en cuestión varía menos de

muestra a muestra, por lo que las estimaciones que se pueden efectuar con él serán
más precisas que las efectuadas con un estimador menos eficiente. Lo cierto es que,
aunque un estimador insesgado ofrece, en promedio, estimaciones correctas, si ese
estimador no es eficiente (es decir, si su varianza es muy grande) nos encontraremos
con que muchas de esas estimaciones estarán muy por encima del verdadero valor
del parámetro y otras muchas muy por debajo de ese verdadero valor. Aunque unas
y otras se contrarrestarán para ofrecer una estimación promedio correcta, al utilizar
una cualquiera de esas estimaciones correremos el riesgo de cometer un error muy
grande. De ahí la conveniencia de que un estimador, además de insesgado, sea
eficiente.
Como última propiedad deseable de un estimador señalaremos la de suficiencia.
Decimos que un estadístico o estimador Ues suficiente si al estimar el parámetro e
utiliza toda la información muestra[ relacionada con O. Es decir, si (J es un estimador

suficiente, nuestra estimación de () no puede ser mejorada considerando otros
aspectos de los datos no incluidos en O.
En general, no es demasiado dificil conseguir estadísticos suficientes. Sin
embargo, en ocasiones es necesario recurrir a más de un estimador, es decir, a un
grupo de estimadores, para conseguir verificar la propiedad de suficiencia. Una vez
conseguido un estimador suficiente, resulta relativamente sencillo obtener a partir
de él estimadores insesgados y consistentes.
2.1.3. Ejemplos de buenos estimadores
De acuerdo con las propiedades que acabamos de estudiar como deseables en

un buen estimador, podemos afirmar que un estadístico Oes tanto mejor estimador
del parámetro () cuanto mayor número de esas propiedades cumple.
En primer lugar, los estadísticos media aritmética X, varianza insesgada 1 y s;_
proporción P son estimadores insesgados de sus correspondientes parámetros µ, a 2
y n, pues:
E(X) = µ
E(S;_ 1) = a2
E(P) = n
Por el contrario, el estadístico varianza s; es un estimador sesgado de a 2 :
n- 1
E(S;) = - - a 2
n
El coeficiente de correlación de Pearson rxy es otro ejemplo de estimador sesgado:

su valor esperado no coincide con el parámetro que estima (excepto en el caso
concreto de que p sea cero).
En segundo lugar, los estadísticos media aritmética X, varianza insesgada 1 y s;_
proporción P, además de ser estimadores insesgados, también son estimadores
consistentes, pues:
(12
u 2- = - -+ O cuando n tiende a infinito
X n
2u 4
-+ O cuando n tiende a infinito
n- 1
2 7t(l - 7t)
uP = -+ O cuando n tiene a infinito
n
Por lo que se refiere a la varianza s;,

a pesar de no ser un estimador insesgado,
es un estimador consistente del parámetro a 2 , pues:
n
E(S;) = - - a2 -+ u2 cuando n tiende a infinito
n-1
n-1
u 2 = 2u 4 -- -+ O cuando n tiende a infinito
S! n2
En tercer lugar, no todos los estadísticos son igualmente eficientes. Sabemos, por
ejemplo, que en una distribución simétrica la media y la mediana coinciden.
Podemos, por tanto, utilizar la media aritmética X o la mediana Mdn para estimar
¡1. Sin embargo, es preferible, en general, utilizar X pues, además de ser un
estimador insesgado y consistente, es más eficiente que Mdn. En el caso concreto de
una distribución normal:
(l2 (l2
u}= - < uidn = 1,57-
n n
También para estimar el parámetro a 2 disponemos de dos estadísticos: y 1. s; s;_
Hemos visto que, aunque ambos son estimadores consistentes, sólo 1 es insesga- s;_
do. Veamos cuál de Jos dos es más eficiente. Sabemos que:
2 n- 1
us; = 2u4 ~
2 2u 4 n- 1
u = - - = 2u4 - - -2
s:; 1 n- 1 (n - 1)
Como (n - 1)/n 2 es menor que (n - 1)/(n - 1)2 , podemos afirmar que:

2 2
U S! < U S! ,
Jo cual significa que la varianza sesgada s;
es un estimador de a 2 más eficiente que
la varianza insesgada s; _
1•
Por último, la media, la varianza (la sesgada y la insesgada) y la proporción son

estimadores s~ficientes de sus respectivos parámetros. Si consideramos la definición
de cada uno de ellos:
- 1n
X =-LX;
n 1
n
s; = L(X¡ - X) 2 /n
1
n
s;_ I = L(X¡ - X)2/(n - 1)
1
P = X/n
podemos comprobar que en todos los casos se utiliza toda la información muestral:
los cuatro estadísticos están basados en todos los elementos muestrales. De alguna
manera, podríamos decir que todos ellos agotan la información muestra) disponible.
(Conviene señalar que el concepto de suficiencia es mucho más complejo de lo que
nuestra exposición puede dar a entender; no obstante, consideramos que lo expues-
to hasta aquí es adecuado para formarnos una idea lo bastante útil para nuestros
propósitos).
Para terminar, la figura 2.1 puede ayudarnos a comprender dos de las propieda-
des estudiadas; en concreto: carencia de sesgo y eficiencia. Los cuatro cuadros de la
figura 2.1 representan dianas sobre las que se han efectuado 10 disparos. Lógica-
mente, los disparos se han efectuado intentando buscar el centro de la diana. La
situación puede extrapolarse fácilmente al contexto de la estimación de parámetros:
el centro de la diana representaría al parámetro que deseamos estimar y los 10
disparos corresponderían a 10 estimaciones efectuadas con un determinado estima-
dor calculado en 10 muestras diferentes.
En la diana A los disparos están muy dispersos alrededor del centro. Podríamos
decir que se trata de una serie de disparos en los que, aun no existiendo una
desviación sistemática en ninguna dirección, el acierto es bastante escaso. En el
contexto de la estimación de parámetros se trataría de un estimador insesgado pero
poco eficiente. En la diana B los disparos están muy concentrados en torno al
blanco. No sólo no existe ningún tipo de desviación sistemática, sino que el acierto
es bastante alto. En el contexto de la estimación de parámetros podríamos hablar
de un estimador insesgado y eficiente. En la diana C los disparos están concentrados
en un punto alejado del blanco. Aunque podríamos decir que el acierto es bastante
alto, pues los disparos van siempre casi al mismo sitio, existe una desviación
sistemática del blanco. Esta situación reflejaría el comportamiento de un estimador
eficiente pero sesgado. En la diana D. por último, los disparos se encuentran
dispersos y alejados del blanco, al igual que en la diana A, pero además existe una
desviación sistemática hacia la derecha. Estaríamos ahora ante un estimador
sesgado y poco eficiente.
A B e D
Figura 2.1.-Situaciones ilustrativas del comportamiento de diferentes estimadores: A= lnsesgado-

ineficiente; B = Insesgado-eficiente; C =Sesgado-eficiente; D =Sesgado-ineficiente (adaptado de Wonna-
cott y Wonnacott, 1990, pág. 242).
2.2. Estimación por intervalos
2.2.1 . Concepto
Acabamos de ver que la estimación puntual consiste en atribuir a un parámetro

el valor concreto tomado por un estadístico utilizado como estimador. Esta forma
de proceder entraña un riesgo evidente: dificilmente el valor tomado por un
estadístico en una muestra concreta coincidirá exactamente con el valor del
parámetro que se desea estimar. Debido a la variación muestral, existirá, en general,
cierta discrepancia entre la estimación concreta efectuada y el valor real del
parámetro. Podemos llamar error muestra/ (E) a esa discrepancia y expresarlo de
esta manera:
E= 10- 01 (2.5)
En la estimación puntual no hay forma de conocer el valor de E, por lo que al

utilizar (J como estimador de O no sabemos si el error que estamos cometiendo es
grande o pequeño. Y sin embargo, cualquier investigador que efectúa una estima-
ción está interesado en conocer la precisión (y, por tanto, el error) con la que está
trabajando. Este problema, el de conocer el tamaño del error cometido en la
estimación. puede resolverse recurriendo a la estimación por interralos.
La estimación por intervalos consiste en atribuir al parámetro que se desea

estimar, no un valor concreto, sino un rango de valores entre los que se
espera que pueda encontrarse el verdadero valor del parámetro con una
probabilidad alta y conocida.
Procediendo de esta forma es posible determinar el tamaño del error muestra/

máximo (Emáx) cometido en la estimación, es decir, el tam.año de la distancia
máxima que, con una determinada probabilidad, esperamos que exista entre el
verdadero valor del parámetro estimado y el valor del estadístico utilizado como
estimador.
En términos generales, en la estimación por intervalos se trata de obtener dos
valores que permitan afirmar que existe una alta probabilidad de que el verdadero
valor del parámetro se encuentra entre ellos. Para obtener esos dos valores, a un
estimador puntual se le suma y resta una cantidad (Emáx) relacionada con el error
típico de su distribución muestral. Por tanto, para poder efectuar una estimación
por intervalos necesitamos utilizar estimadores con distribución muestra/ conocida.
a) Un caso concreto
Consideremos una población formada por los siguientes elementos X;=
= {1,2,3,4,5}. Si extraemos de ella, con reposición, todas las posibles muestras
aleatorias de tamaño n = 2 y en cada una calculamos el estadístico X, podemos
formar la distribución muestra) de la media 1 que aparece en la tabla 2.1. En ella se

recogen el total de las 25 muestras de tamaño n = 2 que podemos extraer de la
población definida, el valor tomado por el estadístico X en cada una de ellas y la
función de probabilidad correspondiente a X.
TABLA 2.1
Distribución muestra/ de la media formada a partir
de las muestras de tamaño n = 2 que es posible
extraer de una población de tamaño N = 5
Valor de la
Muestras posibles /'(.x)
media X
(1, 1) 1,0 1/25

(1, 2)(2, 1) 1,5 2/25
(1, 3)(2, 2)(3, 1) 2,0 3/25
(1,4)(2,3)(3,2)(4, 1) 2,5 4/25
(1,5)(2,4)(3,3)(4,2)(5, 1) 3,0 5/25
(2, 5)(3, 4)(4, 3)(5, 2) 3,5 4/25
(3, 5)(4, 4)(5, 3) 4,0 3/25
(4,5)(5,4) 4,5 2/25
(5,5) 5,0 1/25
Haciendo los cálculos oportunos obtenemos:
- u
E(X) =µ =3 y Ug =- =1
Jn
Nos encontramos en una situación en la que conocemos el parámetro µ y
deseamos saber qué ocurre si lo estimamos a partir de una cualquiera de las 25
posibles medias muestrales. Al efectuar 2 extracciones de nuestra población de 5
elementos podemos obtener una cualquiera de esas 25 muestras. El valor de X
dependerá de la muestra concreta que obtengamos. Pues bien, la estrategia utilizada
para estimar el parámetro µ consiste en pensar que el verdadero valor de µ no se
alejará del estadístico X obtenido en más de una determinada cantidad. Suponga-
mos que esa cantidad es un error típico (lag). Esto equivaldría a afirmar que el
verdadero valor del parámetro µ se encuentra entre:
L¡ = X - 1u x y L, = X + 1u x
1 Esta población de N = 5 elementos ya ha sido estudiada en el capítulo anterior. También en el
capítulo anterior hemos formado la distribución muestra! de la media a partir de muestras de tamaño
n = 2 extraídas de esa población (ver apartado 1.3.1.a).
lo cual significa que estamos atribuyendo al parámetro µ un rango de valores

comprendidos entre L¡ y L,.
Llamaremos intervalo de confianza al rango de valores comprendidos entre

L¡ y L,., ylí~ites de coefianza a los valores L¡ (límite inferior) y Ls (límite
superior).
Adoptar esta estrategia significa que el error muestra/ max1mo que estamos
dispuestos a admitir no es mayor de un error típico: Emax = 1a X· Ahora bien, ¿cuál
es la probabilidad de que nuestra estimación sea correcta? Para calcularla, veamos
lo que ocurre con cada una de las medias que es posible obtener al extraer muestras
de tamaño n = 2. Si extraemos la muestra (1, 1), la media aritmética X valdrá l. Al
construir el intervalo de confianza para efectuar la estimación, como Emáx =
= 1ax = 1, obtendremos:
L¡ = 1- 1= O y L, = 1+ 1= 2
lo que nos llevará a estimar que el verdadero valor del parámetro µ se encuentra
entre los valores O y 2. Dado que el verdadero valor del parámetro µes 3, con esta
muestra nos habríamos equivocado, es decir, habríamos asignado al parámetro µ
un rango de valores entre los que, de hecho, no se encuentra el verdadero valor
de ¡1.
Si en lugar de extraer la muestra ( 1, 1) extraemos las muestras (1, 2) o (2, 1), el
intervalo de confianza lo construiremos a partir de X = 1,5 y los límites de con-
fianza resultantes serán:
L¡ = 1,5 - 1 = 0,5 y L, = 1,5 + 1 = 2,5
Es decir, estimaremos que el verdadero valor de µ se encuentra entre los valores

0,5 y 2,5, lo que de nuevo habría sido una estimación incorrecta pues el verdadero
valor del parámetro µ es 3.
Si la muestra extraída es (1, 3), (2, 2) o (3, 1), construiremos el intervalo de con-
fianza a partir de la media muestral X = 2; lo cual nos llevará a los siguientes
límites de confianza:
L¡ = 2 - 1 = 1 y L. = 2 + 1 = 3
Ahora sí habríamos acertado en nuestra estimación, pues estamos afirmando
que el verdadero valor del parámetro (que esµ = 3) se encuentra entre los valores 1
y 3. Igualmente efectuaríamos una estimación correcta con las muestras: ( 1, 4), ( 1, 5),
(2.3). (2,4), (2,5), (3,2), (3,3), (3,4), (3,5), (4, 1), (4,2), (4,3), (4,4), (5, 1), (5,2) y (5,3),
pues todas ellas nos proporcionarían valores para X que nos permitirían construir
intervalos de confianza entre cuyos límites estaría incluido el verdadero valor del
parámetro µ. Sin embargo, además de con las muestras ( 1, 1), ( 1, 2) y (2, 1), también
construiríamos intervalos de confianza erróneos (intervalos entre cuyos límites no
se encontraría el parámetro µ) con las muestras (4, 5), (5, 4) y (5, 5).
En consecuencia, 19 de las 25 muestras posibles nos permitirán construir
intervalos correctos y 6 de esas 25 muestras posibles nos llevarán a construir
intervalos incorrectos. Existe, por tanto, una probabilidad de 19/25 = 0,76 de
construir un intervalo que capte el valor de µ; y una probabilidad de
6/25 = 1 - 0,76 = 0,24 de construir un intervalo que no capte el valor de µ. La
figura 2.2 muestra gráficamente esta situación: en la zona no rayada se encuentran
las 19 medias X que nos permitirán construir intervalos correctos; en la zona rayada
se encuentran las 6 medias que nos llevarán a construir intervalos incorrectos.
Llamamos nivel de confianza (1 - !X) a la zona no rayada: representa la

probabilidad de que el intervalo construido incluya el verdadero valor del
parámetro µ.
Llamamos nivel de riesgo (!X) a la zona rayada: representa la probabilidad de
que el intervalo construido no incluya el verdadero valor del parámetro µ.
f(X) 0,76
5/25
4/25
0,12 0,12
3/25
,---A-, ,---A-,
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
Figura 2.2. -Distribución muestra! de la media formada a partir de las muestras de tamaño n = 2 que es
posible extraer de una población de N = 5 elementos.
Según esto, al construir un intervalo con Emáx = lux= 1, podemos afirmar que
el verdadero valor del parámetro µ se encontrará dentro de ese intervalo con un
nivel de confianza de 0,76; o, de forma equivalente, con un nivel de riesgo de 0,24:
P(X - 1 ~µ~X+ 1) = 0,76

P(X - 1 >µ>X+ 1) = 0,24
Lo cual significa que el 76 por 100 de los intervalos que es posible construir
incluirán el verdadero valor de µ y el 24 por 100 de esos intervalos no lo incluirán.
Por lo que si de una población de N = 5 elementos seleccionamos aleatoriamente
una muestra de tamaño n = 2, calculamos la media aritmética X y construimos el

intervalo correspondiente con Emáx = lcrg, podremos afirmar con una confianza del
76 por 100 que el parámetro µ está incluido en ese intervalo.
Por supuesto, en lugar de tomar Emáx = lcrg = 1, podríamos adoptar cualquier
otra amplitud para nuestro intervalo, es decir, podríamos decidir establecer un
valor diferente para Emáx· Si, en lugar de tomar, como hemos hecho, un solo error
típico (lcrg), tomamos 1,5 errores típicos (Emáx = [l,5]crx = 1,5), el porcentaje de
intervalos que captarán el verdadero valor de µ será diferente. En concreto, habrá
23 muestras de las 25 posibles que nos llevarán a construir intervalos correctos.
Sólo las muestras (1, 1) y (5, 5) (es decir, sólo 2 muestras de las 25 posibles) nos
llevarían a construir intervalos erróneos (intervalos que no incluirían el valor deµ).
Por lo que:
P(X - 1,5 ~µ~X+ 1,5) = 23/25 = 0,92

P(X - 1,5 >µ>X+ 1,5) = 2/25 = 0,08
b) El caso general
Ciertamente, las poblaciones con las que se suele trabajar son tan grandes que
no resulta tarea fácil encontrar todas las muestras de tamaño n que es posible
extraer de ellas. Esto podría hacernos pensar que si estamos trabajando con
poblaciones muy grandes no podemos proceder como lo hemos hecho hasta ahora.
Sin embargo, ocurre que, para construir intervalos de confianza, todo lo que
necesitamos conocer es la distribución muestral2 del estadístico utilizado como
estimador. Conocida la distribución muestral del estimador, podremos conocer la
probabilidad asociada a cada uno de sus valores y eso nos permitirá seguir la
estrategia anterior.
Supongamos que un estadístico cualquiera O, utilizado como estimador del
parámetro (), se distribuye normalmente. Sabemos que, en una distribución normal:
entre ± lcr se encuentra un área de 0,6826,

entre ± l ,96cr se encuentra un área de 0,95,
entre ±2cr se encuentra un área de 0,9544,
entre ± 2,58cr se encuentra un área de 0,99.
Por tanto, si un estimador (J se distribuye normalmente con E(U) = (), la

probabilidad de que un valor de ese estimador no se separe del valor de su
parámetro () en más de, por ejemplo, 2 errores típicos (2crn) vale 0,9544. O, lo que
es equivalente, la probabilidad de que un valor de ese estimador se separe
2 Según hemos visto en el capítulo anterior, para conocer la distribución muestral de un estadístico
no es necesario contar con todas las muestras de tamaño n que es posible extraer de una población.
Existen procedimientos matemáticos que nos permiten conocer con exactitud la forma, el valor esperado
y el error típico de las distribuciones muestrales de diversos estadísticos.
1 00 / Análisis de datos en psicologla 11
del verdadero valor de su parámetro () en más de 2 errores típicos vale

1 - 0,9544 = 0,0456:
P(O - 2an ~ O ~ O+ 2crn) = 0,9544

P(O - 2an > O > O+ 2cro) = 0,0456
Es decir, existe una probabilidad de 0,9544 de que, al estimar () a partir de 0, el

verdadero valor de () no sea menor que L¡ = 0 - 2ao ni mayor que L, = 0 + 2crn,
valores estos que definen el intervalo de confianza construido a partir de con un n
Emáx de 2 errores típicos. Dicho de otro modo, esperamos con probabilidad 0,9544
que, extraída una muestra aleatoria y calculado el estimador O, el verdadero valor
del parámetro () no se aleje del valor 0 en más de la cantidad Emáx = 2an. Pero
sabemos que corremos un riesgo de 0,0456 de que el verdadero valor del parámetro
() se aleje de su estimador 0 en más de la cantidad Emáx = 2crn.
La figura 2.3 ilustra esta idea. Si en la muestra extraída el estimador 0 toma un
valor de las zonas rayadas, el parámetro () no se encontrará dentro del intervalo
construido. Por el contrario, si el estimador 0 toma un valor de la zona no rayada,
el parámetro () quedará incluido en el intervalo construido. Ahora bien, la probabi-
lidad de que el estimador n tome un valor de las zonas rayadas vale
0,0228 + 0,0228 = 0,0456, mientras que la probabilidad de que el estimador ntome
un valor de la zona no rayada vale 0,9544. Por tanto, la probabilidad de construir
un intervalo correcto valdrá 0,9544 y la probabilidad de construir un intervalo
incorrecto valdrá 0,0456.
0,0228 0,0228
Figura 2.3.-Probabilidades asociadas a los valores (} ± 2un con un estimador distribuido normalmente.
e) Precisión del intervalo
Exactamente el mismo razonamiento seguido hasta ahora con Emáx = 2crn puede
seguirse utilizando diferentes tamaños para Emáx: lera, l,96crn, 2,58crn, etc. El número
de errores típicos que utilicemos determinará el tamaño de Emáx y, dependiendo del
tamaño de Em,., construiremos uno u otro intervalo con un nivel de confianza y
un nivel de riesgo específicos. Lógicamente, cuanto mayor sea Emáx• mayor será la
amplitud del intervalo resultante y mayor también la probabilidad de que el inter-

valo construido incluya el verdadero valor de fJ. Sin embargo, cuanto mayor sea
Emáx> menor será la precisión de nuestra estimación, pues estaremos atribuyendo al
parámetro un rango más amplio de valores. Esto sugiere la necesidad de buscar
un equilibrio entre dos objetivos: 1) que el intervalo construido sea lo bastante
amplio como para garantizar que la probabilidad de incluir al parámetro estimado
sea alta, y 2) lo bastante estrecho como para proporcionar una precisión aceptable.
Este equilibrio se ha buscado tradicionalmente en la literatura estadística estable-
ciendo (más por convención que por otra razón) niveles de confianza comprendidos
entre 0,95 y 0,99 (y, por tanto, niveles de riesgo comprendidos entre 0,05 y 0,01).
Se consiguen, con estos niveles, intervalos de confianza con una precisión lo bastante
aceptable manteniendo al mismo tiempo un nivel de riesgo lo bastante pequeño.
Obviamente, dependiendo de la distribución muestral con la que estemos trabajan-
do, los mencionados niveles de confianza determinarán el número de errores típicos
que deberemos utilizar y, en consecuencia, el tamaño de Emáx·
Recordemos, antes de terminar, que el nivel de riesgo suele simbolizarse por la
letra griega :x y, en consecuencia, el nivel de confianza por 1 - :x. Por tanto, :x
representa la probabilidad de efectuar una estimación incorrecta y 1 - :x la probabi-
lidad de efectuar una estimación correcta.
d) Resumiendo
Para obtener el intervalo de confianza de un parámetro O cualquiera a partir de

un estimador puntual (J de ese parámetro, debemos proceder restando y sumando a
ti una cantidad a la que llamamos error máximo (Emáxl y que obtenemos a partir del
error típico de la distribución muestral de U. Esa operación nos proporciona los
límites de confianza inferior (LJ y superior (L,) que definen el intervalo de confianza
y entre los que estimamos que se encuentra el verdadero valor del parámetro O
con una determinada probabilidad a la que llamam0s nivel de confianza ( 1 - :x):
En el caso concreto de estar trabajando con un estimador (J distribuido normal-

mente, los pasos necesarios para construir un intervalo de confianza son los siguien-
tes (con otro tipo de distribución muestral los pasos serían similares):
1. Determinar el nivel de riesgo con el que se desea trabajar: :x.

2. Buscar la puntuación típica correspondiente a ese nivel de riesgo: lz,;Z!.
3. Calcular el error típico de la distribución muestra( del estimador: (J(I.
4. Establecer el valor del error máximo: Emáx = lz,dan.
5. Obtener los límites de confianza: L¡ = (j - Emáx y L.= (j + Emáx·
2.2.2. Intervalo de confianza para la media
Ya sabemos que, si estamos trabajando con una variable distribuida normal-

mente en la población, o si el tamaño de las muestras es lo bastante grande, la
distribución muestra! del estadístico media aritmética X es normal con:
E(X) =µ
ax= a/Jn
También sabemos que en la distribución normal estandarizada, es decir, en la
distribución N(O, 1):
Ahora bien, si el estadístico X se distribuye normalmente, la variable aleatoria:
X-µ
Z=--
a/Jn
se distribuirá N(O, 1); por lo que:
p ( Za/2 ::¡;; X-µ )

a/Jn ::¡;; Z1-a¡2 = J - OC
Multiplicando cada término de las desigualdades por a/Jn, nos queda:
Si ahora restamos X a cada término, obtenemos:
lo cual, multiplicando por -1 y teniendo en cuenta que zª 12 = -z 1 -a12 , se transfor-

ma definitivamente en:
(2.6)
Esto significa que, haciendo Emáx = lza 12 la/Jn, podemos afirmar, con un nivel de
confianza de 1 - ix, que el valor del parámetro µ no se alejará del estimador X en
más de la cantidad Emáx· En consecuencia, el intervalo de confianza para la media

vendrá definido por los siguientes límites de confianza:
- (1 - (1
L; = X - I=, 21 --.~ y L, =X+ lz 2 d7 (2.7)
.jn ...¡n
La figura 2.4 refleja una situación concreta con 1 - :x = 0,95. Con ese nivel de
confianza, el valor de Emax es 1,96u X· Cualquier media perteneciente a la zona
rayada nos llevará a construir intervalos incorrectos (intervalos que no captarán el
parámetro µ). La probabilidad de que eso ocurra es :x = 0,025 + 0,025 = 0,05. Por
el contrario, cualquier media de la zona no rayada nos permitirá construir inter-
valos correctos (intervalos que captarán el parámetro µ). La probabilidad de que
ocurra esto último es 1 - :x = 0,95.
0,025
X
Jl
X,
XJ
X1 x4
- l,96ax + l,96ax - l,96ax + l,96ax
Figura 2.4. -- Distribución muestra( de la media. Probabilidad de construir intervalos correctos e

incorrectos. Nivel de confianza de 0,95.
Si utilizamos otro nivel de confianza, como por ejemplo 0,99, el error máximo
valdrá Ema. = 2,58ux. Con este nuevo nivel de confianza perderemos precisión
(pues el intervalo construido será más amplio), pero disminuiremos el riesgo (de 0,05
a 0,01) y será mayor la probabilidad de que el parámetro estimado se encuentre
dentro de los límites de nuestro intervalo. En esta nueva situación, es decir, con
1 - :x = 0,99, cabe esperar que de cada 100 intervalos que construyamos, 99 sean
correctos (capten el parámetro µ) y 1 sea incorrecto (no capte el parámetro µ).
Si desconocemos u, sabemos que X no se distribuye normalmente y que la

variable T = (X - µ)/(Sn_ 1/Jn) no sigue la distribución normal tipificada N(O, l)
sino la distribución t de Student 3 con n - l grados de libertad. Aun así, si el tamaño
de la muestra es lo bastante grande, los valores de la distribución t serán similares a
Jos de la distribución normal tipificada y podremos seguir utilizando el procedi-
miento descrito. Sin embargo, si el tamaño de la muestra es pequeño, las cosas
cambian. Recordemos que:
X-µ X-µ
T= = =tn-1
Snlfn=I Sn-1/Jn
y que en la distribución t de Student con n - l grados de libertad se verifica que:
por lo que:
Siguiendo el razonamiento anterior llegamos a que:
Por tanto, haciendo Emáx = 1a12 tn- i1Snffn=I, podemos afirmar, con un nivel
de confianza de l - IX, que el valor del parámetro µ no se alejará del estimador X en
más de la cantidad Emáx· En consecuencia, el intervalo de confianza para la media,
cuando desconocemos u, vendrá definido por los siguientes límites de confianza:
(2.9)
Por supuesto, en lugar utilizar Sn/J~-=1 como error típico de la media,

podríamos utilizar sn- i1Jn
y nada cambiaría 4 •
3 Puede consultarse, en el capítulo anterior, el apartado 1.3.2 sobre la distribución muestra! de la

media.
4 En todo lo dicho hasta aquí sobre el intervalo de confianza para la media hemos supuesto po-
blación infinita o muestreo aleatorio simple (con reposición) en población finita. Recordemos que, en
EJEMPLO 2.1. Una muestra aleatoria de 100 estudiantes de psicología responde

a una prueba de inteligencia espacial, obteniendo una media de 80 y una desviación
típica insesgada de 10. ¿Entre qué límites se hallará la verdadera inteligencia espacial
media de los estudiantes de psicología, con un nivel de confianza de 0,99?
l. ex= 0,01
2. Jo.oost99J ~ 2,626
3.
A s._ 1 10
ux=--=--= 1
Jn ~
4. Em1.x =2,626(1) = 2,626
5. L; = 80 - 2,626 = 77,374
L, = 80 + 2,626 = 82,626
Hemos utilizado Ja distribución t de Student porque desconocemos u y la hemos

estimado mediante s.- 1 • Ahora bien, dado que la muestra es lo bastante grande
(n = 100), la distribución muestra) de la media será aproximadamente normal, de
modo que podemos utilizar la distribución normal en lugar de la distribución t de
Student y comprobar que llegamos a un resultado similar:
l. ex= 0,01
2. Jzo.oosJ ~ 2,575
3.
A s.-1
ªx =-- = - - = 1
10
Jn ~
4. Emh = 2,575(1) = 2,575
5. L; = 80 - 2,575 = 77,425
L, = 80 + 2,575 = 82,575
una situación de muestreo aleatorio sin reposición en población finita, el error típico de la distribución
muestral de la media (tanto si conocemos u como si no la conocemos) necesita ser corregido:
ux = '!...J(N - n)/(N - 1) (conocida u)

n
ax= lJ(N - n)/(N - 1) = 5•- 1 J(N - n)/(N - 1) (desconocida u)

n- 1 n
El procedimiento para construir un intervalo de confianza para la media sigue siendo el mismo. Sólo
debemos tener en cuenta que, si estamos trabajando con una población de tamaño N y el muestreo es sin
reposición, el error típico de la distribución muestra( de la media necesita ser corregido según acabamos
de señalar. Por supuesto, a medida que vaya aumentando N, el término corrector (N - n)/(N - 1) irá
tendiendo a 1, lo que significa que muestrear sin reposición una población finita grande será equivalente
a muestrearla con reposición.
2.2.3. Intervalo de confianza para la varianza
Al estudiar, en el capítulo anterior, la distribución muestra} de la varianza

hemos visto que:
(n - os;_ 1 ns; 2
u2 =----¡;:¡- = Xn-1
La figura 2.5 representa la distribución x2 con n - 1 grados de libertad. En esa

distribución, la probabilidad de que un valor tomado al azar se encuentre en la
zona no rayada vale 1 - oc. Es decir:
P( 2
•!2Xn-I
ns;
:::;;7:::;; 2
1-012Xn-1
,
)-
-1-oc
Figura 2.5. Distribución x2 con n - 1 grados de libertad. Probabilidades asociadas a los puntos , 12 ¿_ 1
y 1- ,,,x;_ ,.
Dividiendo por ns; los tres términos de las desigualdades del paréntesis,
obtenemos:
de donde:
ns;
p (- - 2 - ~u
2
~
ns;2 ) = 1 - or: (2.10)
012Xn-1 1-012Xn-1
Por tanto, el intervalo de confianza para la varianza vendrá definido por los
siguientes límites de confianza:
(2.11)
~J Ediciones Pirámide
Obviamente, en lugar de la varianza sesgada (S;) podemos utilizar como

estimador de a 2 la varianza insesgada (S;_ 1); en tal caso, deberemos sustituir, en las
ecuaciones de los límites de confianza, ns; por (n - l)s; _1 •
Conviene señalar que la tabla de la distribución x2 del apéndice final (tabla D)
sólo nos proporciona probabilidades para distribuciones con 30 grados de libertad
o menos. Para distribuciones con un número mayor de grados de libertad, podemos
utilizar una aproximación basada en la distribución normal para obtener valores x2
a partir de valores z. Para una probabilidad acumulada p y llamando gl a los
grados de libertad de x2 , podemos servirnos de la ecuación:
(2.12)
para transformar el cuantil IOOp de la distribución N(O, 1) en el cuantil lOOp de la

distribución x2 con gl grados de libertad. Así, por ejemplo, podemos conocer el
cuantil 97,5 de la distribución x2 con gl = 30 grados de libertad a partir del cuantil
97,5 de la distribución N(O, 1):
1
o.91sX~o::::::: z(l,96 + J2(30) - 1) 2 = 46,476
Con 30 grados de libertad, la tabla de x2 ofrece un valor de 46,98 para el

cuantil 97,5, lo cual nos puede dar una idea de la calidad de la aproximación.
Todavía una aproximación más exacta, aunque más complicada de obtener, nos
la proporciona la siguiente ecuación (Wilson y Hilferty, 1931 ):
px:1 : : : : g{ ( 1 - 9:/ + Z pJ2/(9?J/) y (2.13)
que aplicada a la misma situación anterior (cuantil 97,5 y 30 grados de libertad)

nos ofrece:
o 975 X~o::::::: 30(1 -

.
- 2-
9(30)
+ 3
1,96J2/[9(30)]) = 46,982
valor casi idéntico al cuantil 97,5 proporcionado por la tabla de x2 con 30 grados
de libertad.
Por último, recordemos 5 que cuando n es muy grande ( > 100) la distribución
muestra! de la varianza se aproxima a la normalidad, con:
E(S2) = a2
as, = ª2 Nn : : :. s2 Nn
5 Puede consultarse, en el capítulo anterior, el apartado 1.3.3 sobre la distribución muestr'l.I de la
varianza.
1 08 / Análisis de datos en psicología 11
donde S2 se refiere a os; s;_

1, indistintamente. Esto supuesto, podremos construir
el intervalo de confianza para la varianza a partir de la siguiente ecuación (sólo
con n muy grande):
(2.14)
EJEMPLO 2.2. Sabemos que, en la población española, los varones tienen una
altura media superior a la de las mujeres. Sabemos también que, según las últimas
tallas realizadas para el servicio militar, las alturas de los varones entre 18 y 20 años se
distribuyen normalmente con varianza 4,41. Sin embargo, no sabemos nada acerca del
valor de la varianza de la variable altura en la población de mujeres españolas de esa
edad. Tomamos al azar una muestra de 100 mujeres de edades comprendidas entre 18
y 20 años, medimos la altura y encontramos una desviación típica de 1,8. ¿Entre qué
límites se encontrará la verdadera varianza de las mujeres españolas de 18 a 20 años,
con un nivel de confianza de 0,99?
Si suponemos que la altura se distribuye normalmente en la población de mujeres,
la variable aleatoria:
ns; 100(1,8) 2
cr2 cr2
se distribuirá según x_ 2 con g/ = 99 grados de libertad. En consecuencia, los límites del

intervalo de confianza para cr 2 vendrán dados por:
L; = ns;1 0 . 995 x_~~ = 100(1,8) 2 /138,040 = 2,347

pues:
1
0,995°X.~9:::::: 2(2,58 + )2(99) - 1 )2 = 138,040
L, = nS;/o.oosX.~ 9 = 100(1,8) 2/65,616 = 4,938

pues:
1
o.oos'X.~9:::::: 2(-2,58 + )2(99) - 1) 2 = 65,616
Nuestra estimación consiste en afirmar que el verdadero valor del parámetro cr 2 se

encuentra entre 2,337 y 4,906. Esta afirmación la establecemos con una confianza del
99 por 100.
Como n es grade, podemos utilizar la aproximación normal para ver qué ocurre.
Tendremos:
L; = S2 - lz.dS 2 jVn = 1,8 2 - 2,58( 1,8) 2 ,j2¡100 = 2,058

L, = s 2 - lz. 12 1s 2 JVn = 1,8 2 + 2,58(1,8) 2 ,j2¡100 = 4,422
lo cual nos puede dar una idea de cómo funciona la aproximación basada en la
distribución normal, a pesar de que el tamaño muestral n es 100.
2.2.4. Intervalo de confianza para la proporción
Al estudiar la distribución muestral de la proporción hemos visto que la

distribución del estadístico P tiende a la normalidad a medida que n va aumentan-
do, con parámetros:
E(P) = 7t y Up = Jn(l - n)/n
Eso nos permite afirmar que la variable aleatoria:
P- n
Z=----;::c===
Jn(1-n)/n
se distribuye N(O, 1) y que, en consecuencia,
P-n ) (2.15)
P ( Za/2 ~ ~ Z¡ -a/2 = 1- OC
Jn(1 - n)/n
Siguiendo a partir de aquí exactamente el mismo razonamiento utilizado para

establecer el intervalo de confianza para la media, llegamos a los siguientes límites
de confianza para la proporción:
L¡ = P - lza12 l)n(l - n)/n

(2.16)
L, = P + lza12 l)n(l - n)/n
El problema de estas ecuaciones es que, para poder obtener L¡ y L, necesitamos

conocer justamente el parámetro que deseamos estimar. Y, obviamente, si deci-
dimos construir un intervalo de confianza para 7t es porque desconocemos su valor,
lo cual convierte en poco prácticas las ecuaciones que acabamos de proponer.
Veamos qué podemos hacer. Según la ecuación (2.15):
P-n )
p ( Za/2 ~ ~ Z¡ -a/2 = 1- iX
Jn(l - n)/n
Por tanto:
(P - n) 2 2 )
p( ~ Za/2 = 1- OC
n(l - n)/n
11 O / Análisis de datos en psicología 11
A partir de aquí podemos obtener límites de confianza en los que no exista

ninguna incógnita. Consideremos el suceso entre paréntesis:
(P - n)2
----=z;¡2
n(I - n)/n
donde n es la única incógnita. Las dos soluciones de esta ecuac10n de segundo

grado serán los límites del intervalo de confianza para n. Desarrollémosla:
(P - n)2 2
----=z
n(l - n)/n
nP 2 - 2nPn + nn 2 = nz 2 - n2z2
Resolviendo esta última ecuación, obtenemos los siguientes límites de confianza

para n:
n ( z2
L - = - - P+--z
JP(l - P) 2
+z-2 )
' n + z2 2n n 4n (2.17)
z2 P(l - P) z2 )
L . = n- - ( P+-+z ----+-
n + z2 2n n 4n 2
donde z se refiere a /z% 12 / o /z 1 -«12 /.

A medida que n va aumentando, el término n/(n + z 2 ) va tendiendo a 1 y los
términos z 2 divididos por 2n y 4n 2 van tendiendo a cero, de modo que las
ecuaciones para los límites de confianza de la proporción pueden reducirse, con n
grande, a:
(2.18)
que no son otra cosa que las ecuaciones presentadas e~ (2.16), pero sustituyendo P
por n (lo cual tiene sentido si consideramos que, al ser P un estimador consistente
de n, a medida que n va aumentando, <Tp va tendiendo a cero y, en consecuencia,
cualquier valor muestra! de P se va pareciendo más y más al verdadero valor de n).
EJEMPLO 2.3. Uno de los líderes de un colectivo laboral desea plantear una
cuestión a todos los miembros del grupo. Si más de la mitad respondieran no.
preferiría no plantearla para no minar su prestigio. Para salir de dudas, elige
aleatoriamente a 10 trabajadores a los que, independientemente, plantea la cuestión.
Solamente 3 responden no. ¿Entre qué límites cabe esperar que se encuentre la
verdadera proporción de trabajadores que responderán no a la cuestión, con un nivel
de confianza de 0,99?
Tenemos: n = 10; P = 3/10 = 0,30 y lzo.oosl = 2,58. Por tanto:
10 ( 2,58 2 0,30(1 - 0,30) 2,58 2 )

L . = - - - - 030+-- - 258 - - - - - + - - = 0,079
1
10 + 2,58 2 ' 2(10) ' 10 4(10) 2
10 ( 2,58 2 0,30(1 - 0,30) 2,58 2 )

L. = - - - - - 0,30 + - - + 2,58 + - - =0,680
' 10 + 2,58 2 2(10) 10 4(10) 2
Podemos afirmar, con una confianza del 99 por 100, que la verdadera proporción
de trabajadores que dirán no se encuentra entre 0,079 y 0,674. Es posible, por tanto,
que el líder de nuestro ejemplo, si plantea la cuestión a todo el colectivo de trabajado-
res, pueda encontrarse con que más de la mitad de ellos respondan no a su cuestión.
A pesar que n es pequeño, podemos utilizar, simplemente como ejemplo, la
aproximación propuesta en (2.18) para muestras grandes. Tendremos:
L¡ = 0,30 - 2,58)0,30(1 - 0,30)/10 <O
L, = 0,30 + 2,58)0,30(1 - 0,30)/10 = 0,674
Podemos comprobar que, a pesar de disponer de un tamaño muestra) pequeño, la

aproximación no es nada mala.
2.2.5. Precisión de la estimación y tamaiio de la muestra
En general, cuanto más estrecho es un intervalo de confianza, más informativo y

útil puede resultamos. Al estimar un mismo parámetro, un intervalo con límites 6 y
8 tiene, obviamente, menor amplitud que un intervalo con límites 4 y 10. El primer
intervalo nos informa sobre el parámetro estimado con mayor precisión de lo que lo
hace el segundo. Ahora bien, la amplitud de un intervalo de confianza depende de
dos factores: el nivel de confianza que decidamos utilizar y el tamaño del error
típico del estadístico utilizado como estimador. Si disminuimos el nivel de confian-
za, también lo hará la amplitud del intervalo, pero a costa de incrementar el riesgo,
lo cual no parece una solución razonable. Nuestro interés debe orientarse, más bien,
hacia la reducción de la amplitud del intervalo manteniendo constante el nivel de
confianza; y eso pasa, necesariamente, por la reducción del error típico del estima-
dor. Cualquier cosa que podamos hacer para reducir ese error típico tendrá como
consecuencia una reducción de la amplitud del intervalo.
En el caso de la media, ux depende tanto de la varianza de la población como
del tamaño de la muestra, pues ux = u/Jn. Por lo que se refiere a la varianza
poblacional, aunque es cierto que no podemos eliminarla por completo porque las
fuentes de error en una situación experimental son muchas y de muy diversa índole,
una cuidadosa elaboración del diseño de investigación puede contribuir de forma

eficaz a conseguir una importante reducción de la misma. Por lo que se refiere al
tamaño de la muestra n, es claro que un incremento del mismo tiene como
consecuencia directa una disminución del error típico ax. Lo cual implica que,
manipulando el tamaño de la muestra, podemos dar a nuestro intervalo el grado de
precisión que deseemos.
Veamos, pues, qué podemos hacer con el tamaño de la muestra para conseguir
disminuir el error típico y obtener, como consecuencia de ello, una mayor precisión
en la estimación. De acuerdo con el teorema de Tchebychev 6 :
1
=> P(IU - 01 > lklan) < k2 (2.19)
Conocida la distribución muestra) del estimador Uy siendo k un valor estandari-

zado de la misma:
(2.20)
De donde, para un nivel de confianza dado, tendremos:
(2.21)
Sirviéndonos de estas ecuaciones podemos determinar cuál ha de ser el tamaño

de la muestra para alcanzar una determinada precisión. Consideraremos el caso de
la media, el de la varianza y el de la proporción.
a) El caso de la media
Ya sabemos que a1' = a 2 /n. Haciendo k = z, tendremos:
2
2 Za/2
=> n=<T - (2.22)
n E2
que, para un nivel de riesgo dado, nos proporciona el tamaño muestra) n necesario
para obtener una precisión concreta.
Si desconocemos a 2 , ya sabemos que la tipificación del estadístico media no
sigue la distribución normal, sino la distribución t de Student. En tal caso, haciendo
k = t, tendremos:
=> (2.23)
" Ver Amón ( 1984. págs. 130-131 ).
EJEMPLO 2.4. Una lista de 4 dígitos se presenta a una muestra de 10 universita-

rios elegidos aleatoriamente de entre los alumnos de una facultad. A cada sujeto se le
hacen dos presentaciones de la lista con un tiempo de exposición de 1 centésima de
segundo. Si el sujeto no percibe la lista completa (los 4 dígitos) en ninguna de las dos
presentaciones, se vuelven a realizar otras dos presentaciones incrementando el tiempo
de exposición en una centésima de segundo. A cada sujeto se le hacen las presentacio-
nes necesarias hasta conseguir que perciba la lista completa. En cada par de presenta-
ciones se incrementa el tiempo de exposición en una centésima de segundo. Calculada
la media y la varianza del tiempo de exposición en la muestra de 10 sujetos se ha
obtenido: X= 4ys._1 = 1,2. Con un nivel de confianza de 0,95: a) ¿Entre qué límites
se hallará el verdadero tiempo medio de reconocimiento de la lista? b) ¿Cuáles serán
estos límites si duplicamos el número de sujetos?
Dado que desconocemos u 2 , las probabilidades asociadas a la variable
X = «tiempo medio de exposición» podremos encontrarlas, suponiendo normalidad
en la distribución de las respuestas dadas por los sujetos, en la distribución t de
Student con 9 grados de libertad. Por tanto:
l. iX = 0,05
2. lo.02st9I = 2,262
3. ux =s._ 1¡Jn = 1,2/jiO = 0,3795
4. Emáx = lo.02st9lux = 2,262(0,3795) = 0,8584
5. L¡ = 4 - 0,8584 = 3,14; L, = 4 + 0,8584 = 4,86
Con n = 20:
l. iX = 0,05
2. lo.02st 191 = 2,093
3. ux = s.-i!Jn = 1,2/fo = 0,2683
4. Emáx = lo.o2sl 1 9lax = 2,093(0,2683) = 0,5616
5. L¡ = 4 - 0,5616 = 3,44; L, = 4 + 0,5616 = 4,56
Comprobamos que al pasar de 10 a 20 sujetos disminuye el error típico de X y,

con él, el tamaño del error muestra) máximo. El resultado de esto es un intervalo más
estrecho, es decir, más preciso.
b) El caso de la varianza
Recordemos que, con muestras muy grandes, el error típico de la varianza, tanto
de la sesgada como de la insesgada, es:
z z 2cr4
<152 ~ U52 ~ -
n n-1 n
Por tanto:
2a 4
=> (2.24)
n
Dado que suponemos que estamos trabajando con muestras grandes, podemos
sustituir a 2 por o por s; s;_
¡, indistintamente, y ello nos permitirá obtener el
tamaño muestral n aproximado necesario para alcanzar una precisión determinada.
EJEMPLO 2.S. En un experimento sobre velocidad perceptiva, se ha presentado a

una muestra aleatoria de 100 sujetos un estímulo visual mediante taquistoscopio.
A cada sujeto se le ha presentado el estímulo 10 veces y se ha registrado el tiempo de
reacción medio en las 10 presentaciones. Entre otros objetivos, nos interesa estudiar la
variabilidad de los tiempos de reacción mostrados por los diferentes sujetos ante el
mencionado estímulo. Tabulados los datos, hemos encontrado, con las puntuaciones
de los 100 sujetos, una varianza de 124,4 centisegundos. Utilizando un nivel de
confianza de 0,99: a) ¿Entre qué límites se hallará la verdadera varianza de los tiempos
de reacción a ese estímulo? b) ¿Qué tamaño muestra( necesitaremos para conseguir
una precisión de ± 25 centisegundos?
Dado que la muestra es grande, podemos suponer que la distribución muestra( de
la varianza es aproximadamente normal. Por tanto:
l. IX = 0,01
2. lzo.oosl = 2,58
3. ªs~ = s;.jVn = 124,4j27100 = 17,593
4. Emáx = 2,58(17,593) = 45,39
5. L¡ = 124,4 - 45,39 = 79,01; L, = 124,4 + 45,39 = 169,79
Para que Emáx = 25:
n = 2a 4 -
z; 12
= 2(124,4) 2
(- 2,58) 2
= 329,63:::::: 330
E2 25 2
Es decir, para reducir el tamaño de Emáx de 45,39 a 25 centisegundos, necesitamos

utilizar, en lugar de 100 sujetos, 330 sujetos.
e) El caso de la proporción
Para tamaños muestrales grandes, el error típico de la proporción es:
ap = jP(I - P)/n
En consecuencia:
P(l - P) z2
=> n = P(I - P)~ (2.25)
n Ei
EJEMPLO 2.6. Deseamos saber hasta qué punto una lista de 7 pares asociados
puede ser memorizada con una sola presentación. Nuestro interés se centra en
averiguar si la proporción de sujetos capaces de memorizar la lista es superior a 0,75 o
inferior a 0,25, pues en tal caso consideraremos que la lista no es discriminativa y
deberá ser descartada como prueba de diagnóstico. Seleccionada una muestra aleato-
ria de 40 sujetos hemos encontrado que 18 de ellos han sido capaces de memorizar la
lista. Con un nivel de confianza de 0,95: a) ¿Entre qué límites se encontrará la
verdadera proporción de sujetos capaces de memorizar la lista? h) ¿Cuál debería ser el
tamaño de la muestra para lograr una precisión (amplitud) de O, 1?
Tenemos que P = 18/40 = 0,45. El tamaño de la muestra permite suponer que la
distribución muestral de P se aproxima a la normal; por tanto:
l. ex= 0,05
2. lzo.02sl = 1,96
3. up = [P(I - P)/n] 1' 2 = [0,45(0,55)/40] 1' 2 = 0,0787
4. Emáx = 1,96(0,0787) = 0,154
5. L; = 0,45 - 0, 154 = 0,296; L, = 0,45 + 0, 154 = 0,604
Para lograr una precisión de O, 1, es decir, un Emáx de 0,05, el tamaño muestra) debe
ser:
z2 (-1 96) 2
n = P(I - P)--'!!!_ = 0,45(0,55) ' = 380,32 ~ 380
E 2 0,05 2
Necesitamos, por tanto, pasar de 40 a 380 sujetos para reducir la amplitud del
intervalo de 2(0, 154) = 0,308 a O, l.
APÉNDICE 2
Estimación por máxima verosimilitud
En el apartado 2.1.2 hemos expuesto ya algunas de las propiedades que debe tener un
buen estimador. Para encontrar estimadores que posean todas o algunas de esas propiedades
existen diferentes métodos de estimación que, aunque sólo sea superficialmente, conviene
conocer.
Uno de estos métodos, debido a Fisher, se conoce con el nombre de máxima verosimilitud.
Consiste en seleccionar como estimador de un parámetro aquel valor capaz de maximizar la
verosimilitud del resultado muestra! concreto obtenido, entendiendo por verosimilitud la
probabilidad de, dados uno o más parámetros concretos, obtener el resultado muestra( de
hecho obtenido.
Consideremos una variable aleatoria X¡ con distribución de probabilidad poblacional
conocida (el método de máxima verosimilitud exige conocer la forma de la distribución de
probabilidad con la que se va a trabajar) y supongamos que de esa distribución de
probabilidad, aunque conocemos la forma, desconocemos el parámetro O (o los parámetros
0 1,0 2 , ••• ,0k) que la caracteriza. Extraigamos una muestra aleatoria de tamaño n y represente-
mos por (x 1 , x 2 , •.. , x.) el resultado muestra) concreto obtenido. Llamamos función de
rerosimilitud a la función de probabilidad (o de densidad de probabilidad) conjunta asociada
al resultado muestra( concreto (x 1 , x 2 , ..• , x.). dado el parámetro O:
(2.26)
Para cada posible valor de O, la función de probabilidad de ese resultado muestra)

concreto (x 1, x 2 , ••• , x.) tendrá un valor, probablemente, distinto. Pues bien, el método de
estimación de máxima verosimilitud consiste justamente en encontrar el valor de (} que hace
máxima la probabilidad conjunta de obtener un resultado muestra) como el obtenido. Se
trata, por tanto, de maximizar V. Este método de estimación puede ser fácilmente ilustrado
utilizando la distribución binomial. Supongamos que de una población cualquiera extraemos
una muestra aleatoria de tamaño n = 20 y que cada sujeto es clasificado como varón o como
mujer. Llamemos n a la proporción de varones en la población. La variable aleatoria
X = número de t•arones en la muestra será una variable distribuida binomialmente con
parámetros n y n. Conocemos el valor de n pero desconocemos n. ¿Cómo estimar n?
Supongamos que en esa muestra de n = 20 sujetos la variable X toma el valor 6. ¿Cuál es el
valor de n que hace más probable el resultado muestra) X = 6? La respuesta a esta pregunta
nos proporcionará la estimación de máxima verosimilitud para el parámetro n.
Puesto que la variable X se distribuye binomialmente, podemos calcular la probabilidad
de obtener X = 6, para los posibles diferentes valores de n, de la siguiente manera:
(2.27)
Por supuesto, también podemos utilizar la tabla de la distribución binomial del apéndice
final (tabla 8). De una u otra forma obtendremos, para n = 0,10:
P(X = 6Jn = 0,10) = (26º}0.10) 6 (0,90) 20 - 6 = 0,0089
Para n = 0,20:
P(X = 61n = 0,20) = (2:}0,20)6 (0,80) 20 - 6 = 0,1091
Para n = 0,30:
P(X = 61n = 0,30) = (26º}0,30) 6 (0,70) 20 - 6 = 0,1916
Podemos seguir calculando, para cada posible valor de rr, la probabilidad de obtener el
resultado muestral concreto X = 6. Pero a partir de 11: = 0,30 esas probabilidades comienzan
a disminuir (el lector puede comprobarlo fácilmente). De modo que el principio de máxima
verosimilitud nos llevará a concluir que el parámetro 11: = 0,30 es el que hace más probable
el resultado muestral X= 6. Por lo que decidiremos utilizar 1t = 0,30 como estimación
maximoverosímil del parámetro 11: = proporción de varones en la población.
Este sencillo ejemplo sirve para formarnos una idea de cómo funciona el método de
estimación de máxima verosimilitud. Pero para conocer cuál es el valor del parámetro que
maximiza la probabilidad de un resultado muestral concreto no necesitamos calcular una a
una todas las probabilidades de ese resultado muestral bajo todos los posibles valores
asumibles por el parámetro en cuestión. Podemos maximizar V utilizando procedimientos
matemáticos mucho más directos (ver, por ejemplo, Ríos, 1985, págs. 328-330; o Amón, 1984,
páginas 249-254).
Sin embargo, no es nuestro interés que el lector conozca la forma concreta de obtener una
estimación por el método de máxima verosimilitud. Nos interesa más destacar el importante
punto de vista general que subyace bajo el principio o método de máxima verosimilitud. Este
punto de vista se refiere a que las características poblaciona/es verdaderas deberán ser aquellas
que hagan probables nuestros resultados muestra/es. Si una situación teórica convierte en
improbables nuestros resultados empíricos, deberemos dudar de ella. La razón es sencilla de
entender. Si una situación teórica hace improbable la aparición de un resultado empírico
concreto y, de hecho, ese resultado empírico se produce, deberemos pensar que la situación
teórica planteada no puede ser la verdadera. Las afirmaciones teóricas son creíbles en la
medida en que los datos empíricos se muestran compatibles con ellas. (Por supuesto, los
datos de un único experimento nunca deben ser considerados definitivos a la hora de
confirmar o desconfirmar una teoría; se requieren varias réplicas, variaciones en el diseño,
diferentes tipos de medida, etc., y aun así la confirmación o desconfirmación dificilmente se
convierte en definitiva; sin embargo, el punto de vista subyacente en el principio de máxima
verosimilitud siempre está presente en los diferentes procedimientos de análisis de datos y,
consecuentemente, en la propia metodología científica).
Estimación por mínimos cuadrados
Otro importante método de estimación (muy útil en ciertos casos; ver capítulo 8) consiste
en utilizar como estimación de un parámetro aquel valor que hace mínimas las distancias al
cuadrado entre ese valor estimado y los resultados muestrales observados. Este método no
requiere conocer la forma de la distribución de probabildad con la que se está trabajando
(como ocurre con el método de máxima verosimilitud) pero no es válido para obtener
estimaciones con todo tipo de parámetros.
Consideremos el caso de la media. Extraigamos de una población cualquiera una muestra
aleatoria de tamaño n. Llamemos (y 1 ,y 2 ,. •.,y.) al resultado muestra! concreto obtenido.
Siguiendo el método de mínimos cuadrados utilizaremos como estimador de µ el valor {i. que
haga mínima la expresión:
I<lí - P.> 2 (2.28)
es decir, utilizaremos como estimador de µ el valor que consiga hacer mínimas las distancias
al cuadrado respecto a los n elementos del resultado muestral obtenido.
Sumando y restando Y en (2.28), agrupando y desarrollando, obtenemos:

n n n
¿{Y¡-,12)2 = I<l'í- Y+ Y-µ¡2 = L[(Y¡- Y)+ (Y-µ)]2
i i i
n
= L[(Y¡- Y)2 + (Y-µ¡2 + 2(Y¡- Y)(Y-,12)]
i
n n n
= ¿ ( l'í - n2 +¿ ( v- µ¡2 + ¿ 2( l'í - ñ v- µ¡
i i
Teniendo en .cuenta que:

n n
¿2(Y¡- Y)(Y-µ¡ = 2('f-J2lI(l'í- n =o
i
la ecuación (2.29) se reduce a:

n n n
¿ <l'í - µ¡2 = ¿ <l'í - n2 + ¿ <r - µ¡2 (2.30)
Ahora bien, el término:

n
I<l'í - n2
no es más que el numerador de la ya conocida fórmula de la varianza:
n
¿{Y¡- Y)2
n
s;=_i____ ~ ¿(l'í - n2 =ns;
n
Por tanto, sustituyendo en (2.30) y teniendo en cuenta que tanto Y como µ son términos
constantes y que el sumatorio de una constante es n veces esa constante, llegamos a:
n
I<l'í - µ) 2 =ns; + n(Y- J2) 2 (2.31)
Puesto que ninguno de los tres términos de la ecuación (2.31) puede ser negativo (en los
tres casos se trata de cantidades elevadas al cuadrado), la suma de las desviaciones (Y¡ - J2) 2
siempre será menor o igual que ns;. Y esa suma será mínima cuando n(Y- ,12) 2 valga cero, lo
cual sólo será posible si Y= µ. De modo que la media muestra) Y será el estimador
minimocuadrático de la media poblacional µ.
b) 11 2 (01) = 4
11 2(02) = 5,78
= 5,33
11 2 (03)
El estimador 01 es el más eficiente.
2.5. L; = 13,4; L, = 18,6.
2.6. L; = 0,448; L, = 0,752.
2.7. 1- :X = 0,9876.
2.8. L; = 0,351; L, = 0,509.
2.9. n ~ 603.
2.10. C 84 • 55 = 90. Proporción de sujetos normales= 0,1545.

L; = 0,043; L, = 0,426.
2.11. 1- :X = 0,9876.
2.12. Con menos de 16 o más de 34 aciertos.
2.13. L; = 99,87; L, = 108,13.

Dado que el valor 100 está comprendido entre L; y L, podemos concluir que la
verdadera media que corresponde a la nueva prueba es similar a la obtenida con el
WAIS.
2.14. L; = 101,936; L, = 106,064.

Dado que el valor 100 no está comprendido entre L; y L, podemos afirmar que la
verdadera media que corresponde a la nueva prueba no es similar a la obtenida con el
WAIS.
2.15. L,= 0,24: L, = 0,66

Este resultado es compatible con n = 0,30, por lo que podemos concluir que la terapia
no es más eficaz de lo que lo es la propia recuperación espontánea.
2.16. L; = 5,445; L. = 21,575.

La capacidad de discriminación de la prueba no ha cambiado.
2.17. Mínimo 41; máximo 59.
2.18. Menos de 4 o más de 1 1.
2.19. L; = 0,15; L, = 0,27.

El psicólogo tenía razón. La proporción inicialmente informada parece demasiado
alta.
2.20. Sólo es verdadera la alternativa c.
Contraste de hipótesis
3
3.1. La lógica del contraste de hipótesis.

3.1 .1. Las hipótesis estadísticas.
3.1 .2. Los supuestos.
3.1 .3. El estadístico de contraste.
3.1.4. La regla de decisión.
3.1 .5. La decisión.
3.2. Errores de tipo 1 y 11.
3.3. Potencia de un contraste.
3.4. Nivel crítico y tamaño del efecto.
3.5. Contrastes bilaterales y unilaterales.
3.6. Estimación por intervalos y contraste de hipótesis.
Apéndice 3.
Curva de potencias.
Efecto del tamaño de la muestra sobre la potencia.
Ejercicios.
Debemos comenzar recordando que el objetivo último del análisis de datos es el
de extraer conclusiones de tipo general a partir de unos pocos datos particulares. Es
decir, el de extraer conclusiones sobre las propiedades de una población a partir de
la información contenida en una muestra procedente de esa población. Ya hemos
señalado que este salto de lo concreto (la muestra) a lo general (la población) se
conoce con el nombre de if!ferencia estadística.
Al comienzo del capítulo anterior hemos hecho referencia a dos formas básicas
de inferencia estadística: la estimación de parámetros y el contraste de hipótesis.
Hemos estudiado en ese capítulo lo relativo a la estimación de parámetros, a la que
hemos caracterizado como el proceso consistente en asignar a las propiedades
desconocidas de una población las propiedades conocidas de una muestra extraída
de esa población. En este capítulo vamos a centrar nuestra atención sobre el
contraste de hipótesis, al que podemos comenzar refiriéndonos como un proceso
mediante el cual se trata de comprobar si una afirmación sobre alguna propiedad
poblacional puede ser sostenida a la luz de la información muestra) disponible.
En realidad, el contraste de hipótesis puede ser entendido como un método de
toma de decisiones: un contraste de hipótesis, también llamado prueba de significa-
ción o prueba estadística, es un procedimiento que nos permite decidir si una
proposición acerca de una población puede ser mantenida o debe ser rechazada.
Como tal, el contraste de hipótesis debe ser ubicado en el propio corazón del
método científico, formando parte esencial del mismo. Las líneas que siguen aclaran
esta idea.
En la investigación psicológica o de otro tipo, es frecuente encontrarse con
problemas de conocimiento (ciertamente, no todos igual de relevantes) surgidos a
partir de conocimientos ya existentes o a partir de la observación de nuevas
situaciones: ¿produce el estímulo a tiempos de reacción más cortos que el estímu-
lo b? ¿Es la técnica terapéutica a más apropiada que la b para aliviar los síntomas de
los pacientes depresivos? ¿Son los sujetos que se sienten inseguros más agresivos
que los que se sienten seguros? ¿Rinden los sujetos motivados mejor que los no
motivados? ¿Qué tipo de interacción entre los miembros de un grupo favorece más
la eficacia en la resolución de los problemas? ¿Difieren los varones y las mujeres en
inteligencia?, etc. Estos interrogantes son sólo un pequeño ejemplo de la multitud
de problemas que se generan en la investigación psicológica. Tales interrogantes
surgen, en general, en el seno de una teoría que intenta dar cuenta de alguna
parcela de la realidad y se plantean con la intención de cubrir alguna laguna

concreta de conocimiento que esa teoría no cubre o para corroborar una parte o el
total de esa teoría.
Surgido el problema, el paso siguiente consiste en aventurar algún tipo de
solución al mismo. Esta solución provisional suele tomar forma de afirmación
directamente verificable (es decir, empíricamente contrastable; de no ser así, nos
moveríamos en el terreno de la especulación y no en el de la ciencia) en la que se
establece de forma operativa el comportamiento de la variable o las variables
involucradas en el problema. Esa afirmación verificable recibe el nombre de
hipótesis cient(fica (ver Pereda, 1987, capítulo 5). Así, ante la pregunta (problema de
conocimiento) «¿difieren los varones y las mujeres en inteligencia?», podríamos
aventurar la hipótesis de que «los varones y las mujeres no difieren en inteligencia».
Por supuesto, deberíamos definir con precisión (operativamente) qué entendemos
por «inteligencia» y cómo medirla. Sólo entonces nuestra afirmación sería una
hipótesis científica.
Hecho esto, estaríamos ya en condiciones de iniciar el proceso de verificación de
esa hipótesis. Y el proceso de verificación habitualmente utilizado en las ciencias
empíricas sigue los pasos que en este capítulo vamos a describir bajo la denomina-
ción de contraste de hipótesis 1 •
3.1. La lógica del contraste de hipótesis
El primer paso del proceso de verificación de una hipótesis consiste en formular

estadísticamente la hipótesis cient(fica que se desea contrastar; es decir, en transfor-
mar la hipótesis científica en hipótesis estadística. Esto supone que una hipótesis
científica puede ser formulada en términos de la forma de una o varias distribucio-
nes poblacionales, o en términos del valor de uno o más parámetros de esa o esas
distribuciones. Así, por ejemplo, la hipótesis científica «los varones y las mujeres no
difieren en inteligencia» podría formularse, en términos estadísticos, de la siguiente
manera: µv = µm; es decir: en la población de varones, el promedio µ de la
distribución de la variable inteligencia es igual al promedio µ de esa misma
distribución en la población de mujeres.
Formulada la hipótesis estadística, el segundo paso del proceso de verificación
consiste en buscar evidencia empírica relevante capaz de informar sobre si la hipótesis
establecida es o no sostenible. Esto, en general, no resulta demasiado complicado de
1 Por supuesto, no todas las hipótesis científicas requieren de la utilización del contraste de hipótesis
para ser verificadas. Recordemos a este respecto lo dicho en la introducción sobre los fenómenos
deterministas y aleatorios. Una afirmación del tipo «este sujeto posee una inteligencia superior a la
media» puede ser verificada simplemente observando a ese sujeto. Sin embargo, una afirmación del tipo
«las personas radicales poseen un nivel intelectual superior a la media» no puede ser verificada
recurriendo a la observación: dificilmente podríamos observar a todas las personas radicales. Es
justamente en las situaciones en las que no tenemos acceso a todos los elementos de la población donde
se hace necesario recurrir a la inferencia estadística (y, por tanto, al contraste de hipótesis) para poder
verificar una hipótesis científica.
Contraste de hipótesis / 129
conseguir: parece razonable pensar que, si una hipótesis concreta referida a una
distribución poblacional es correcta, al extraer una muestra de esa población
debemos encontrarnos con un resultado muestra) similar al que esa hipótesis
propone para la distribución poblacional. O lo que es lo mismo: una hipótesis será
compatible con los datos empíricos cuando a partir de ella sea posible deducir o
predecir un resultado muestra! (un estadístico) con cierta precisión.
Supongamos que nuestra hipótesis consiste en afirmar que los varones y las
mujeres no difieren en inteligencia. En términos estadísticos: µv = µm. Si nuestra
hipótesis es correcta, debemos esperar que, al extraer una muestra aleatoria de la
población de varones y otra de la de mujeres, las medias observadas X v y X m en
inteligencia sean similares. Una discrepancia importante entre la afirmación pro-
puesta en nuestra hipótesis y el resultado muestral encontrado puede estar indicado
dos cosas diferentes: bien nuestra hipótesis es correcta y la discrepancia observada
es producto de fluctuaciones esperables por azar; bien nuestra hipótesis es incorrec-
ta y, por tanto, incapaz de proporcionarnos predicciones acertadas. La cuestión
clave que se nos plantea en ese momento es la de determinar cuándo la discrepancia
encontrada es lo bastante grande como para poder considerar que el resultado
muestral observado es incompatible con la hipótesis formulada y, en consecuencia,
para hacernos pensar que esa discrepancia encontrada no es explicable por fluctua-
ciones debidas al azar sino por el hecho de que la hipótesis planteada es incorrecta.
Necesitamos, y este es el tercer paso del proceso, una regla de decisión. Y esa
regla de decisión debe establecerse en términos de probabilidad. Si en el ejemplo
planteado sobre la inteligencia de los varones y de las mujeres pudiéramos trabajar
con las poblaciones completas de varones y mujeres (es decir, si pudiéramos medir
la inteligencia de todos los varones y todas las mujeres), no tendríamos que recurrir
a la teoría de la probabilidad porque tampoco sería necesario efectuar ningún tipo
de contraste de hipótesis: conoceríamos los valores de µ,, y µm, y sabríamos si son
iguales o no. Pero la necesidad de trabajar con muestras en lugar de poblacio-
nes nos obliga a establecer una regla de decisión en términos de probabilidad.
Ahora bien, el número de reglas de decisión que podemos establecer en una
situación particular es casi ilimitado. Por supuesto, unas reglas serán mejores o más
útiles que otras y, probablemente, ninguna de ellas será lo bastante buena como
para resultar de utilidad en todo tipo de situaciones. Afortunadamente, la teoría de
la decisión se ha encargado de proporcionarnos unos cuantos principios elementales
que podemos trasladar al contexto del contraste de hipótesis. En general, la regla de
decisión que utilizaremos será una afirmación de este tipo: si el resultado muestral
observado es, suponiendo correcta nuestra hipótesis, muy poco probable, considera-
remos que nuestra hipótesis es incompatible con los datos; por el contrario, si el
resultado muestral observado es, suponiendo correcta nuestra hipótesis, probable,
consideraremos que nuestra hipótesis es compatible con los datos 2 •
Imaginemos que deseamos averiguar si un psicólogo posee o no la capacidad de
detectar, por medio de la escritura, la presencia de trastornos de tipo neuróti\:O.
2 Sobre el significado de los términos probable y poco probable volveremos más adelante.
Podemos formular Ja hipótesis de que «el psicólogo no posee tal capacidad». Si

nuestra hipótesis es correcta, al presentar al psicólogo un par de muestras de
escritura, una perteneciente a un sujeto con trastorno y otra perteneciente a uno sin
trastorno, cabe esperar que éste responda al azar (repetimos: si nuestra hipótesis es
correcta), por Jo que Ja probabilidad de que acierte será de 0,5. Por el contrario, si
nuestra hipótesis es incorrecta (y, por tanto, el psicólogo sí posee Ja mencionada
capacidad), al presentarle el mismo par de muestras de escritura, Ja probabilidad de
que acierte será mayor de 0,5 (es decir, mayor que Ja probabilidad de acertar por
azar). Según esto, podemos plantear Ja siguiente hipótesis estadística: 7racierto ~ 0,5
(es decir, el psicólogo no posee Ja capacidad de diagnosticar a través de Ja escritura).
Para someter a contraste esa hipótesis podemos presentar, en Jugar de un par de
muestras de escritura, 10 pares. Si nuestra hipótesis es correcta, debemos encontrar-
nos con no más de 5 aciertos (es decir, con no más de los esperables por azar). Si
nuestra hipótesis es incorrecta debemos encontrarnos con un número de aciertos
superior a 5 (es decir, con más de Jos esperables por azar). En consecuencia, un
número de aciertos de 5 o menos, nos llevará a pensar que Ja hipótesis planteada es
compatible con Jos datos y a concluir que el psicólogo no posee Ja capacidad de
diagnosticar a partir de la escritura. Por el contrario, un número de diagnósticos
correctos superior a 5 nos llevará a pensar GUe Ja hipótesis planteada es incompati-
ble con Jos datos y a concluir que el psicólogo sí posee esa capacidad (pues si
7raciertos ~ 0,5 es una afirmación incorrecta, entonces Ja afirmación correcta debe ser
7raciertos > 0,5) 3 ·
Así pues. resumiendo:
Un contraste de /1ipútesis es un proceso de decisión en el que una hipótesis

formulada en términos estadísticos es puesta en relación con los datos
empíricos para determinar si es o no compatible con ellos.
Acabamos de exponer la lógica general de ese proceso. Ahora vamos a profundi-

zar en esa lógica estudiando más detalladamente cada uno de Jos pasos de que
consta ese proceso 4 .
3 Aunque este razonamiento será matizado más adelante, puede servirnos como primera aproxima-
ción a la lógica del contraste de hipótesis.
4 En la inferencia estadística no existe un único punto de vista. Es frecuente encontrarse con la
distinción entre el enfoque clásico, en el que se considera que la única información disponible sobre la
población es la contenida en la muestra, y el enfoque bayesiano, en el que, además de la información
muestra!, se hace uso de conocimientos previos. Las ideas sobre el contraste de hipótesis, tal como va ser
expuesto aquí, introducidas inicialmente por Ronald A. Fisher en varios trabajos (1925, entre otros) y
consolidadas más tarde por Neyman y Pearson (1932, 1933), deben ser enmarcadas dentro del enfoque
clásico.
3.1.1. Las hipótesis estadísticas

Una hipótesis estadística es una afirmación sobre una o más distribuciones de
probabilidad; más concretamente, sobre la forma de una o más distribuciones de
probabilidad, o sobre el valor de uno o más parámetros de esas distribuciones.
Las hipótesis estadísticas se suelen representar por la letra H seguida de una
afirmación que da contenido a la hipótesis:
H: la variable X se distribuye normalmente con µ = 100 y a = 15
H: n = 0,5
H: µ ~ 30
H: Mdn 1 #- Mdn 2
H: µ1 = µi = µ3 = µ4
En general, una hipótesis estadística surge a partir de una hipótesis científica.
Pero entre una hipótesis científica y una hipótesis estadística no existe una corres-
pondencia exacta. La primera proporciona la base para la formulación de la
segunda, pero no son la misma cosa. Mientras una hipótesis científica se refiere a
algún aspecto de la realidad, una hipótesis estadística se refiere a algún aspecto de
una distribución de probabilidad. Esto significa, por ejemplo, que la expresión
µ,. = µm que hemos presentado anteriormente no es la única formulación estadística
posióle de la hipótesis científica «los varones y las mujeres no difieren en inteligen-
cia». En lugar del promedioµ, podríamos utilizar el promedio Mdn y establecer esta
otra formulación estadística: Mdn,. = Mdnm. Y todavía podríamos transformar esa
hipótesis científica en hipótesis estadística utilizando otras estrategias; por ejemplo:
F,,(x) = F m(x), es decir, Ja función de distribución de la variable X = «inteligencia»
es la misma en la población de varones y en la población de mujeres. Lo cual signifi-
ca que, dado un valor cualquiera de la distribución de la variable inteligencia, el
número de sujetos que hay por debajo de ese valor en la población de los varones es
el mismo que el número de sujetos que hay por debajo de ese valor en la población
de las mujeres (lo que implica que los varones y las mujeres no difieren en
inteligencia).
Vemos, por tanto, que existen varias formas diferentes de expresar estadística-
mente una hipótesis científica concreta. A lo largo de este capítulo y de los que
siguen estudiaremos qué hipótesis estadísticas podemos plantear, cómo debemos
plantearlas y a qué tipo de hipótesis científicas corresponden. De momento, basta
con saber que el primer paso en el proceso de verificación de una hipótesis consiste
en formular en términos estadísticos la afirmación contenida en la hipótesis
científica que se desea verificar.
Dicho esto, es necesario advertir que, aunque hasta ahora hemos venido
proponiendo ejemplos en los que hemos formulado una sola hipótesis, lo cierto es
que todo contraste de hipótesis se hasa en la formulaci<'in de dos hipótesis:
l. La hipótesis 1111/a. representada por H 0 •

2. La hipótesis alternatirn. representada por H 1 •
l · Edu.:mne~ P1ram1de
La hipótesis nula H 0 es Ja hipótesis que se somete a contraste. Consiste

generalmente en una afirmación concreta sobre Ja forma de una distribución de
probabilidad o sobre el valor de alguno de los parámetros de esa distribución 5 :
H 0 : La variable X se distribuye normalmente con µ = 100 y u = 15
Ho: 7t1 = 7t2
Ho: µ¡ = µi
H 0 : p =O
H 0 : n = 0,5
La hipótesis alternativa H 1 es Ja negación de Ja nula. H 1 incluye todo Jo que H 0
excluye. Mientras H 0 suele ser una hipótesis exacta (tal cosa es igual a tal otra), H 1
suele ser inexacta (tal cosa es distinta, mayor o menor que tal otra):
H 1 : La variable X no se distribuye normalmente con µ = 100 y u = 15
H1:n1>7t2
H1:µ1<µ2
H 1 : p#O
H 1 : n < 0,5
Cuando en H 1 aparece el signo « # », decimos que el contraste es bilateral o
bidireccional. Cuando en H 1 aparecen Jos signos « < » o « > » decimos que el
contraste es unilateral o unidireccional. Más adelante trataremos detenidamente
esta cuestión.
Las hipótesis nula y alternativa suelen plantearse como hipótesis rivales. Son
hipótesis exhaustivas y mutuamente exclusivas, Jo cual implica que si una es
verdadera, Ja otra es necesariamente falsa. Considerando los ejemplos que hemos
venido comentando, podemos plantear, con Jo que ya sabemos, las siguientes
hipótesis:
a) Ho:µv=µm
H¡: µv "# µm
b) H o: 1tacierto ~ 0,5
H 1: 1tacierto > 0,5.
Las hipótesis a se refieren al ejemplo sobre diferencias en inteligencia entre
varones y mujeres. La hipótesis nula afirma que Jos varones y las mujeres no
difieren en inteligencia; Ja hipótesis alternativa afirma que sí existen diferencias. Son
hipótesis exhaustivas y mutuamente exclusivas. Las hipótesis b se refieren al
ejemplo del psicólogo capaz de diagnosticar a través de Ja escritura. La hipótesis
nula afirma que el psicólogo no posee esa capacidad; la hipótesis alternativa afirma
que sí la posee. También estas dos hipótesis son exhaustivas y mutuamente
exclusivas.
~ El nombre de hipótesis nula para la hipótesis que se somete a contraste se debe a que, cuando se
está trabajando con dos o más parámetros, H 0 suele afirmar que el valor de esos parámetros es el mismo,
es decir, que la diferencia entre ellos es nula.
Conviene no pasar por alto un detalle de especial importancia: el signo « = »,

tanto si va solo (µ. = µm) como si va acompañado (n ~ 0,5), siempre va en la
hipótesis nula. Según hemos dicho, H 0 es la hipótesis que se somete a contraste.
Esto significa que es a partir de la afirmación concreta establecida en H 0 (y la única
afirmación concreta establecida es la que corresponde al signo«=») desde donde se
inicia todo el proceso de contrastación. Es decir, tanto si H 0 es exacta (µ" = µm)
como si es inexacta (n ~ 0,5), todo el proceso de decisión va a estar basado en un
modelo probabilístico construido a partir de la afirmación concreta correspondiente
al signo « = » de H 0 . Ese modelo probabilístico, del que enseguida hablaremos, es
del que nos vamos a servir más tarde para tomar una decisión respecto a H 0
(¡siempre respecto a H 0 !, como veremos repetidamente).
3.1.2. Los supuestos

Para que una hipótesis estadística pueda predecir un resultado muestral con
cierta exactitud es necesario, en primer lugar, que la distribución poblacional con la
que se va a trabajar esté completamente especificada. Por ejemplo, hipótesis del
tipo:
H: La variable X se distribuye normalmente con µ = 100 y u= 15
H: n = 0,5
son hipótesis que especifican por completo las distribuciones poblacionales a las
que hacen referencia. La primera hipótesis define una distribución normal con
parámetros conocidos. La segunda hipótesis permitiría especificar por completo una
distribución binomial una vez establecido el tamaño de la muestra. A este tipo de
hipótesis se les llama simples.
Las hipótesis en las que la distribución poblacional no queda completamente
especificada reciben el nombre de compuestas. Hipótesis del tipo:
H: La variable X se distribuye normalmente con µ = 100
H: n < 0,50
son hipótesis compuestas pues en ninguna de ellas quedan completamente especifi-
cadas las distribuciones poblacionales a las que hacen referencia. La primera
hipótesis define una distribución normal con media conocida pero con varianza
desconocida. La segunda hipótesis, referida a una distribución binomial, no define
una única distribución sino muchas diferentes.
Lo ideal, por supuesto, sería poder plantear, siempre, hipótesis nulas simples,
pues eso nos permitiría definir con precisión la distribución poblacional a partir de
la cual se efectuarán las predicciones muestrales. Pero ocurre que ni los intereses del
investigador se corresponden siempre con el contenido de una hipótesis simple, ni
en todas las situaciones resulta posible formular hipótesis de ese tipo. Esto significa
que, con frecuencia, la hipótesis nula plateada no será simple, sino compuesta. Lo
cual nos obligará a establecer un conjunto de supuestos que, junto con la hipótesis,
permitan especificar por completo la distribución poblacional de referencia. Sólo
entonces será posible predecir con cierta precisión qué es lo que podemos encon-
trarnos al extraer una muestra aleatoria de esa población.
Un ejemplo sencillo nos ayudará a comprender mejor estas ideas. Supongamos
que deseamos contrastar la hipótesis nula H 0 : µ = 30 frente a la alternativa H 1 :
µ -:f. 30. En la hipótesis nula se hace referencia a una distribución poblacional con
media 30, pero nada más; nada sabemos sobre su forma ni sobre su varianza. Para
tomar una decisión respecto al valor de µ necesitamos recurrir a la evidencia
muestral. En concreto, necesitamos extraer una muestra de tamaño n y calcular el
valor de X. Si el valor de X es parecido a 30, diremos que la hipótesis nula
planteada es compatible con los datos. Pero si el valor de X es muy diferente de 30
diremos que la hipótesis nula es incompatible con los datos. Ahora bien, para
decidir cuándo el valor tomado por X es lo bastante parecido a 30 debemos
establecer, según veremos enseguida, una regla de decisión en términos de probabili-
dad. Y, según sabemos ya, para conocer las probabilidades asociadas a los diferen-
tes valores de X debemos servirnos de la distribución muestral de X. Esa distribu-
ción muestral es normal con parámetros µ y u/Jn. Como desconocemos u, pues
nada se ha dicho de ella en la hipótesis, tendremos que estimarla, en cuyo caso la
transformación T = (X - µ)/(S" _ d Jn)
seguirá el modelo de probabilidad t de
Student con n - 1 grados de libertad 6 ; de modo que la transformación T nos
permitirá conocer las probabilidades asociadas a los diferentes valores de X. Ahora
bien, para poder utilizar esa transformación, es decir, para que la transformación T
se distribuya según la t de Student, es necesario que la distribución poblacional de
partida sea normal y que la muestra utilizada para obtener X sea aleatoria. Y dado
que nada de eso está afirmado en H 0 , necesitamos formularlo como supuesto. Sólo
de este modo la distribución poblacional de partida quedará completamente
especificada: se tratará de una distribución normal, con parámetros µ = 30 y u
desconocida pero estimada a partir del valor tomado por sn - 1 en una muestra
aleatoria extraída de esa población. Bajo estas condiciones, la distribución muestral
de X es conocida y, por tanto, susceptible de ser utilizada para tomar una decisión
sobre H 0 en términos de probabilidad.
Otro ejemplo. Recordemos al psicólogo supuestamente capaz de detectar
trastornos de tipo neurótico a través de la escritura. Para verificar si el psicólogo
posee o no esa capacidad, planteábamos las hipótesis estadísticas: H 0 : nacierto ~ 0,5;
H 1 : 1tacierto > 0,5. Y para contrastar estas hipótesis presentábamos al psicólogo 1O
pares de muestras de escritura. Pues bien, si los 1O pares de muestras de escritura se
presentan de forma independiente y en cada presentación sólo hay dos resultados
posibles (acierto-error) con 1tacierto = 0,5 en cada presentación, la variable número de
aciertos tendrá una distribución de probabilidad completamente especificada 7 (la
binomial, con parámetros n = 10 y n = 0,5) y eso nos permitirá poder tomar una
decisión respecto a H 0 en términos de probabilidad.
Vemos, por tanto, que los supuestos de un contraste de hipótesis hacen referen-
6 Puede consultarse, en el capítulo 1, el apartado 1.3.2 sobre la distribución muestra! de la media.
7 Puede consultarse, en el capítulo 1, el apartado 1.3.4 sobre la distribución muestra! de la
proporción.
cia al conjunto de condiciones que deben cumplirse para poder tomar una decisión
sobre la hipótesis nula H 0 basada en una distribución de probabilidad conocida.
Pero ese conjunto de condiciones que hemos necesitado establecer no se refieren
únicamente a la distribución poblacional de partida. También hacen referencia a
ciertas características de los datos muestrales: si la muestra es aleatoria .... si las
presentaciones son independientes ... Esto significa que, para apoyar nuestra decisión
en una distribución de probabilidad conocida, necesitamos, por un lado, especificar
por completo la distribución poblacional a partir de la cual se establecen las
predicciones formuladas en H 0 (normalidad, simetría, etc.) y, por otro, definir las
características de los datos con los que se contrastarán esas predicciones (muestra
aleatoria, nivel de medida, etc).
Resumiendo:
Los supuestos de un contraste de hipótesis son un conjunto de afirmaciones

que necesitamos establecer (sobre la población de partida y sobre la muestra
utilizada) para conseguir determinar la distribución de probabilidad en la que
se basará nuestra decisión sobre H 0 .
Algunos de estos supuestos son más restrictivos o exigentes que otros. Para
contrastar la hipótesis H 0 : µ = 30 del primer ejemplo comentado hemos necesitado
suponer que la distribución poblacional de partida era normal y que la muestra
extraída de ella era aleatoria. Sin embargo, para contrastar la hipótesis H 0 :
1tacierto :::;; 0,5 del segundo ejemplo, sólo hemos necesitado suponer que las 1O
presentaciones eran independientes (muestra aleatoria de 10 elementos) y que la
probabilidad de acierto en cada presentación era la misma (1tacierto = 0,5). Es más
difícil conseguir que se cumplan los supuestos necesarios para contrastar H 0 :
µ = 30 que los necesarios para contrastar 1tacierto = 0,5 y, en ese sentido, decimos de
los supuestos del primer contraste que son mas restrictivos o exigentes que los del
primero.
Es importante tener presente que el incumplimiento de uno o varios supuestos
podría invalidar el contraste y llevarnos a una decisión errónea. Conviene, por
tanto, que los supuestos sean pocos y poco exigentes. Aun así, en muchas ocasiones
nos veremos en la necesidad de establecer varios y muy exigentes. No obstante,
veremos que existen procedimientos para comprobar el cumplimiento de la mayor
parte de los supuestos que necesitemos establecer.
3.1.3. El estadístico de contraste
Un estadístico de contraste es un resultado muestra! que cumple la doble

condición de 1) proporcionar información empírica relevante sobre la afirma-
ción propuesta en la hipótesis nula y 2) poseer una distribución muestra!
conocida.
~;) Ediciones Piramide

Si la hipótesis que deseamos contrastar es H 0 : µ = 30, debemos recurrir a un

estadístico que sea capaz de detectar cualquier desviación empírica de la afirmación
establecida en H 0 • Obviamente, ni Sn, ni P. ni r_,,,, por citar algunos estadísticos
conocidos, nos proporcionarán información relevante sobre µ. Para contrastar la
hipótesis H 0 : µ = 30, lo razonable será utilizar la información muestra) proporcio-
nada por el estadístico X. Del mismo modo, si la hipótesis que deseamos contrastar
es H 0 : 7t ~ 0,5, lo razonable será recurrir a un estadístico que pueda proporcionar-
nos información relevante sobre n, por ejemplo, X = «número de aciertos», o
P = «proporción de aciertos», etc.
La segunda condición que debe cumplir un resultado muestral para poder ser
utilizado como estadístico de contraste es la de poseer una distribución muestra/
conocida. Un estadístico, no lo olvidemos, es una variable aleatoria y, como tal,
tiene su propia función de probabilidad a la que denominamos distribución
muestral. Es precisamente en la distribución muestra) del estadístico de contraste en
la que nos vamos a apoyar para tomar una decisión respecto a H 0 en términos de
probabilidad.
Por tanto, una vez planteadas las hipótesis, es necesario seleccionar el estadísti-
co de contraste capaz de proporcionarnos información relevante sobre ellas y
establecer los supuestos necesarios para conseguir determinar la distribución
muestra) de ese estadístico. En nuestro ejemplo sobre el psicólogo supuestamente
capaz de diagnosticar trastornos de tipo neurótico a través de la escritura habíamos
planteado las siguientes hipótesis: H 0 : 1tacierto ~ 0,5; H 1: 1tacierto > 0,5. Existen dos
estadísticos (en realidad los dos son el mismo, pues uno es transformación lineal del
otro) capaces de proporcionarnos información relevante sobre las hipótesis plantea-
das (utilizaremos T para referirnos, de forma genérica, a un estadístico de contraste
cualquiera):
T 1 =X (número de aciertos o de diagnósticos correctos)

T 2 = P (proporción de aciertos o de diagnósticos correctos)
Suponiendo, según hemos señalado antes, que las presentaciones de los to pares
de muestras de escritura son independientes y que la probabilidad de cada uno de
los dos resultados posibles (acierto-error) es la misma en cada presentación,
la distribución muestral de las variables o estadísticos de contraste X y P será la
binomial con parámetros n = 10 y n = 0,5. Según esto, la probabilidad asociada
a cada uno de los valores de X y P (tabla 3.1) vendrá dada por la función 8 :
8 Por supuesto, las probabilidades asociadas a los estadisticos X y P también pueden obtenerse a
partir de la tabla de la distribución binomial, con n = 10 y n: = 0,5, sin necesidad de realizar cálculos.
TABLA 3.1
Distribución muestra/ de X y P
con n = 0,5 y n = l O
X p f(x)
o 0,0 0,001
1 0,1 0,010
2 0,2 0,044
3 0,3 0,117
4 0,4 0,205
5 0,5 0,246
6 0,6 0,205
7 0,7 0,117
8 0,8 0,044
9 0,9 0,010
10 1,0 0,001
La distribución muestra! de X o de P (tabla 3.1) nos proporciona la probabili-

dad asociada a cada uno de sus posibles valores bajo H 0 : n = 0,5. Vemos, por
ejemplo, que la probabilidad de encontrarnos, suponiendo n = 0,5, con 10 aciertos
(es decir, con X = 10, o P = 1) vale 0,001. Y vemos también, por ejemplo, que la
probabilidad de encontrarnos con 9 aciertos o más (es decir, con X ~ 9, o P ~ 0,9),
siempre suponiendo n = 0,5, vale 0,010 + 0,001 = 0,011. En estas probabilidades
nos apoyaremos más tarde para tomar una decisión respecto a H 0 .
Así pues, los estadísticos X y P sirven como estadísticos de contraste para poner
a prueba la hipótesis H 0 : 1tacierto:;;;; 0,5 porque ambos cumplen las condiciones
exigidas a un estadístico de contraste: l) proporcionan información relevante sobre
H0 y 2) su distribución muestra! es conocida.
3.1.4. La regla de decisión
La regla de decisión es el criterio que vamos a utilizar para decidir si la hipótesis

nula planteada debe o no ser rechazada. Este criterio se basa en la partición de la
distribución muestra! del estadístico de contraste en dos zonas mutuamente exclusi-
vas: la zona de rechazo y la zona de aceptación.
La zona de rechazo, también llamada zona crítica, es el área de la distribución
muestra) que corresponde a los valores del estadístico de contraste que se encuen-
tran tan alejados de la afirmación establecida en H 0 , que es muy poco probable que
ocurran si H 0 , como se supone, es verdadera. Su probabilidad es oc, valor al que ya
en el capítulo anterior hemos llamado nivel de significación o nivel de riesgo.
La zona de aceptación es el área de la distribución muestra! que corresponde a
los valores del estadístico de contraste próximos a la afirmación establecida en H 0 .

Es, por tanto, el área correspondiente a los valores del estadístico de contraste que
es probable que ocurran si H 0 , como se supone, es verdadera. Su probabilidad es
1 - tx, valor al que ya en el capítulo anterior hemos llamado nivel de confianza.
Definidas las zonas de rechazo y aceptación:
La 1'eyla de decisión consiste en reclw::ar H 0 si el estadístico de contraste toma

un valor perteneciente a la zona de rechazo o crítica; mantener H 0 si el
estadístico de contraste toma un valor perteneciente a la zona de aceptación.
Así pues, se rechaza una hipótesis sometida a contraste cuando el valor del
estadístico de contraste cae en la zona crítica; y se rechaza porque eso significa que
el valor tomado por el estadístico de contraste se aleja demasiado de la predicción
establecida en esa hipótesis, es decir, porque, si la hipótesis planteada fuera
verdadera, el estadístico de contraste no debería haber tomado ese valor (sería muy
poco probable que lo tomara); como de hecho el estadístico ha tomado ese valor, la
conclusión más razonable será que la hipótesis planteada no es verdadera.
El tamaño de las zonas de rechazo y aceptación se determina fijando el valor de
tx, es decir, fijando el nivel de significación con el que se desea trabajar. Por
supuesto, si tenemos en cuenta que tx es la probabilidad que vamos a considerar
como lo bastante pequeña para que valores con esa probabilidad o menor no
ocurran bajo H 0 verdadera, comprenderemos que tx será, necesariamente, un valor
pequeño. Cómo de pequeño es algo que debe establecerse de forma arbitraria 9 , si
bien los niveles de significación habitualmente propuestos para :x en la literatura
estadística y utilizados en la investigación empírica son 0,01 y 0,05 (también
referidos como 1 por 100 y 5 por 100, respectivamente).
Recordemos ahora que, dependiendo de cómo formulemos H 1 • los contrastes de
hipótesis pueden ser bilaterales o unilaterales:
l. Contraste bilateral: H 0 : µ .. = µm
H1: µ,. # µm
2. Contraste unilateral: H 0 : 1tacierto ~ 0,5
H 1: 1tacierto > 0,5.
La forma de dividir la distribución muestra! en zona de rechazo o crítica y zona
de aceptación depende de si el contraste es bilateral o unilateral. La zona crítica
debe estar situada allí donde puedan aparecer los valores muestrales incompatibles
con H 0 , es decir, allí donde puedan aparecer los valores muestrales que apunten en
la dirección propuesta en H 1 • Así, en el contraste 1, dada la afirmación establecida
en H 1 , la zona crítica debe recoger tanto los valores muestrales que vayan en la
" En ocasiones, no tan arbitrariamente. Más adelante veremos que, en todo contaste, pueden
cometerse dos tipos de errores. Pues bien, hay ocasiones en que el nivel de significación :x conviene fijarlo
buscando minimizar la probabilidad de comerter uno de esos dos errores.
dirección X,. - Xm >O, como los que vayan en la dirección X,. - Xm <O. Dicho de
otra forma: si H 0 : µ,, = µm es falsa, lo será tanto si µ,. es mayor que µm como si µ,. es
menor que µm, por lo que la zona crítica deberá recoger ambas posibilidades. Por
esta razón, en los contrastes bilaterales, la zona crítica se encuentra, generalmente 10 ,
repartida a partes iguales entre las dos colas de la distribución muestra/ (figura 3.1.A).
A B
Figura 3.1.--Ejemplo de zonas críticas en un contraste bilateral (figura A) y un contraste unilateral
derecho (figura B) con una distribución muestra! de forma normal.
En el contraste 2, por el contrario, los únicos valores muestrales incompatibles

con H 0 serán los que vayan en la dirección P > 0,5, que es la dirección apuntada en
H 1 . Los valores muestrales que estén por debajo de P = 0,5 no serán incompati-
bles con H 0 y la zona crítica deberá reflejar esta circustancia quedando ubicada en
la cola derecha de la distribución muestral. Por tanto, en los contrastes unilaterales,
la zona crítica se encuentra en una de las dos colas de la distribución muestra[ (figu-
ra 3.1.B).
Según esto, las reglas de decisión para cada uno de estos dos contrastes (para el
referido a las diferencias en inteligencia entre varones y mujeres, y el referido al
psicólogo capaz de diagnosticar a través de la escritura) pueden concretarse de la
siguiente manera:
1. Rechazar H 0 : µ,, = µm si el estadístico de contraste cae en la zona crítica, es
decir, si toma un valor mayor que el percentil 100(1 - a./2) o menor que el
percentil IOO(a./2) de su distribución muestral.
O bien: rechazar H 0 : µv = µm si el estadístico de contraste toma un valor
tan grande o tan pequeño que la probabilidad de obtener un valor tan
extremo o más que ése es menor que a./2.
2. Rechazar H 0 : 1tacierto ~ 0,5 si el estadístico de contraste cae en la zona
crítica, es decir, si toma un valor mayor que el percentil 100(1 - a.) de su
distribución muestral.
O bien: rechazar H 0 : 1tacierto ~ 0,5 si el estadístico de contraste toma un
valor tan grande que la probabilidad de obtener un valor como ése o mayor
es menor que a..
1 0 Decimos generalmente porque. dependiendo del tipo de distribución muestra! que utilicemos, nos
encontraremos con excepciones a esta regla.
3.1 .5. La decisión
Planteada la hipótesis, formulados los supuestos, definido el estadístico de

contraste y su distribución muestral, y establecida la regla de decisión, el paso
siguiente consiste en obtener una muestra aleatoria de tamaño n, calcular el
estadístico de contraste y tomar una decisión. Tal decisión, ya lo sabemos, se toma,
siempre, respecto a H 0 , y consiste en rechazarla o mantenerla de acuerdo con el
valor tomado por el estadístico de contraste y las condiciones establecidas en la
regla de decisión: si el estadístico de contraste cae en la zona crítica, se rechaza H 0 ; si
el estadístico de contraste cae en la zona de aceptación, se mantiene H 0 .
La decisión, así planteada, parece no revestir ningún tipo de problema. Pero eso
no es del todo cierto. Conviene resaltar un aspecto importante de este proceso de
decisión que no siempre es adecuadamente tenido en cuenta en la investigación
empírica. Una decisión, en el contexto del contraste de hipótesis, siempre consis-
te en rechazar o mantener una H 0 particular. Si la rechazamos, estamos afirmando
que esa hipótesis es falsa; es decir, estamos afirmando que, basándonos en argu-
mentos probabilísticos, hemos conseguido probar que esa hipótesis es falsa. Por el
contrario, si la mantenemos, no estamos afirmando, ni mucho menos, que hemos
probado que esa hipótesis es verdadera; simplemente estamos afirmando que no
disponemos de evidencia empírica suficiente para rechazarla y que, por tanto, po-
demos considerarla compatible con los datos 11 . Así pues:
Cuando decidimos mantener una hipótesis nula, queremos significar con ello
que consideramos que esa hipótesis es compatible con los datos.
Cuando decidimos rehazar una hipótesis nula, queremos significar con ello
que consideramos probado que esa hipótesis es falsa.
La razón de que esto sea así es doble. Por un lado, dada la naturaleza
inespecífica de H 1 , raramente es posible afirmar que H 1 no es verdadera; las
desviaciones pequeñas de H 0 forman parte de H 1 • por lo que al mantener una H 0
particular, también se están manteniendo, muy probablemente, algunos valores de
H 1 ; debe concluirse, por tanto, que se mantiene o no rechaza H 0 , pero nunca que se
acepta como verdadera. Por otro lado, en el razonamiento estadístico que lleva a la
toma de una decisión respecto a H 0 , puede reconocerse el argumento deductivo
modus tollens, aunque de tipo probabilístico: si H 0 es verdadera, entonces, muy
probablemente. el estadístico de contraste T tomará valores comprendidos entre a y b;
T no toma un valor comprendido entre a y b; luego, muy probablemente, H 0 no es
verdadera. Este argumento es impecable, nada hay en él que lo invalide desde el
11 El propio Fisher mantendría una postura más radical en este punto: si una hipótesis sometida a
contraste no puede ser rechazada, debemos suspender el juicio, no decidir nada, porque nada podemos
probar sobre esta hipótesis (Fisher, 1955).
punto de vista lógico. Sin embargo, si una vez establecida la primera premisa se
continúa de esta otra manera: T toma un valor comprendido entre a y b; luego H 0 ,
muy probablemente, es verdadera, se comete un error lógico llamado falacia de la
afirmación del consecuente: obviamente, T puede haber tomado un valor comprendi-
do entre a y b por razones diferentes de las contenidas en H 0 12 .
Estas ideas proporcionan una valiosa pista a la hora de decidir cómo plantear
las hipótesis nula y alternativa en un contraste concreto. Si estamos interesados en
determinar si una afirmación sobre una distribución poblacional es falsa, debemos
plantear esa afirmación como hipótesis nula; así, si la rechazamos, podremos
concluir que hemos probado que esa hipótesis es falsa. Si, por el contrario, estamos
interesados en determinar si esa afirmación es verdadera, debemos plantearla como
hipótesis alternativa; así, si rechazamos la hipótesis nula, lo haremos en favor de la
alternativa (pues la hipótesis alternativa es, recordémoslo, la negación de la nula).
Todo esto sin olvidar que el signo « = » siempre debe ir en la hipótesis nula.
EJEMPLO 3.1. Al describir cada uno de los pasos de que consta un contraste de
hipótesis hemos comentado, entre otros, un ejemplo referido a un psicólogo supuesta-
mente capaz de diagnosticar trastornos de tipo neurótico a través de la escritura.
Vamos a utilizar ahora ese mismo ejemplo para resumir los pasos descritos.
Supongamos que presentamos al psicólogo los 10 pares de muestras de escritura
(recordemos que en cada par de muestras de escritura el psicólogo debe decidir cuál de
las dos escrituras corresponde al paciente con trastornos de tipo neurótico) y que éste
consigue efectuar un diagnóstico correcto en 7 de ellos. Con este resultado muestra),
¿qué podemos concluir sobre la supuesta capacidad del psicólogo?
l. Hipótesis:
H 0: 0,5. (H 0 : el psicólogo no posee capacidad de diagnóstico).
1tacierto :::;;
H 1: 1tacierto > 0,5. (H 1 : el psicólogo posee capacidad de diagnóstico).
2. Supuestos:
- 1O ensayos independientes con dos resultados posibles en cada ensayo: acierto
y error.
- La probabilidad de cada resultado permanece constante en cada ensayo; en
concreto, 1tacierto = 1terror = 0,5.
12 Este punto de vista, por otra parte, es perfectamente coherente con el comúnmente aceptado por
los filósofos de la ciencia sobre la verificación de una hipótesis científica: nunca podemos afirmar la
verdad de una hipótesis o teoría científica; podemos, simplemente, sentirnos más seguros de ella a medida
que se va mostrando repetidamente conforme con la evidencia empírica; en realidad, sólo podemos
considerarla como provisionalmente verdadera (Popper, 1982; Hempel, 1984; etc.). De ahí que la labor
investigadora deba ir más orientada hacia la falsación o refutación de teorías que hacia la verificación de
las mismas (sobre esta temática puede consultarse la discusión de Klayman y Ha, 1987).
3. Estadístico de contraste y distribución muestra):

T = número de aciertos = 7.
T se distribuye según el modelo binomial con parámetros n = 10 y n = 0,5.
4. Regla de decisión:
Rechazar H 0 si T toma un valor tan grande que la probabilidad de obtener un
valor como ése o mayor es menor que :x.
Los valores habituales de :x son, según hemos señalado, 0,05 y 0,01. Pero en
este ejemplo concreto, por sencillez (y por conveniencia, según veremos más tarde
al estudiar el concepto de potencia), vamos a fijar un :x de 0,011. Fijar un :x de
0,011 equivale a establecer la siguiente regla de decisión: rechazar H 0 si T toma un
valor igual o mayor que 9 (ver la distribución muestra) de Ten el apartado 3.1.3).
5. Decisión:
Dado que en la muestra de 10 presentaciones hemos obtenido 7 aciertos y que
7 es menor que 9 (o, de otro modo, dado que la probabilidad de obtener valores
mayores o iguales que 7 vale 0,172 y que 0,172 es mayor que :x = 0,011), debemos
tomar la decisión de mantener H 0 •
Podemos concluir que no disponemos de evidencia empírica suficiente para
rechazar H 0 ; por lo que no podemos pensar que el psicólogo posea la capacidad
de diagnosticar correctamente trastornos de tipo neurótico a través de la escritura.
A pesar de que 7 aciertos son más de los que cabría esperar por puro azar (cabría
esperar 5), es un número de aciertos cuya probabilidad de ocurrencia, suponiendo
n = 0,5, es mayor que el riesgo que nosotros estamos dispuestos a asumir en nuestra
decisión. Es decir, respondiendo al azar, la probabilidad de obtener 7 o más aciertos es
mayor que 0,05, por lo que podemos pensar que ese resultado es compatible (puede
ocurrir) si la hipótesis n :o::; 0,5 es verdadera.
(A lo largo de las páginas que siguen volveremos repetidamente sobre este ejemplo;
presentaremos además gráficos de diferente tipo que nos ayudarán a entender mejor
cada uno de los pasos seguidos.)
EJEMPLO 3.2. Algunos trabajos sobre memoria icónica indican que el promedio
de letras recordadas en presentación taquistoscópica de 1 segundo, por un sujeto
normal, es de 4,5, con una desviación típica de 1,4. Sin embargo, los trabajos que se
vienen realizando en la Universidad Autónoma de Madrid no parecen estar de
acuerdo con esa hipótesis. Deseamos, por tanto, contrastar la hipótesis 11 = 4,5. Para
ello. hemos seleccionado una muestra aleatoria de 25 sujetos y. tras presentarles un
conjunto de letras por taquistoscopio. hemos encontrado un promedio de palabras
recordadas de 5,1. Utilizando un nivel de significación de :x = 0,05, ¿a qué conclusión
llegaremos?
1. Hipótesis:
H 0 : µ = 4,5.
H 1 : µ '# 4,5 (contraste bilateral).
2. Supuestos:
El estadístico de contraste capaz de proporcionarnos información relevante
sobre µ es X. Debemos, por tanto, establecer las condiciones necesarias para
conocer la distribución muestra( de X:
- La variable número de palabras recordadas se distribuye normalmente en la
población.
- La muestra de 25 observaciones es aleatoria.
3. Estadístico de contraste y distribución muestra(:
- Z =(X - µ)/(u/Jn) =:> z = (5,1 - 4,5)/(l,4/j25) = 2,14.

- Z se distribuye según la normal estandarizada N(O, 1).
Rechazar H 0 si el estadístico de contraste Z toma un valor mayor que el per-
centil 100(1 - '1./2) = 100(1 - 0,025) = 97,5 o menor que el percentil 100('1./2) =
= 100(0,025) = 2,5 de la distribución N(O, 1), es decir, un valor mayor que 1,96 o
menor que -1,96.
5. Decisión:
Dado que z = 2,14 es mayor que 1,96, debemos rechazar H 0 y concluir que el
promedio de letras recordadas es distinto de 4,5. La figura 3.2 nos ilustra la
situación.
z = 2,14
z, 12 = -1,96 Z1 -2/2 = 1,96
Figura 3.2.-Probabilidades asociadas a los puntos críticos correspondientes a un nivel de

confianza de 0,95 en la distribución normal estandarizada.
3.2. Errores de tipo 1 y 11

Según acabamos de ver, todo contraste de hipótesis desemboca en una decisión
consistente en mantener o rechazar la H 0 planteada. La realidad también es doble:
H 0 puede ser verdadera o puede ser falsa. Si H 0 es verdadera y la mantenemos,
estaremos tomando una decisión correcta; si es falsa y la rechazamos, también esta-

remos tomando una decisión correcta. Pero si H 0 es verdadera y la rechazamos,
estaremos cometiendo un error; e igualmente estaremos cometiendo un error si H 0
es falsa y la mantenemos.
Llamamos error de tipo I al que se comete cuando se decide rechazar una H 0

que en realidad es verdadera. La probabilidad de cometer ese error es :x.
Llamamos error de tipo 11 al que se comete cuando se decide mantener una
H 0 que en realidad es falsa. La probabilidad de cometer ese error es ff.
Por tanto, 1 - :x será la probabilidad de tomar una decisión correcta cuando H 0

es verdadera. Y 1 - f3 será la probabilidad de tomar una decisión correcta cuando
H 0 es falsa. El siguiente cuadro resume estas ideas:
Naturaleza de Ha
Verdadera Falsa
Decisión correcta Error tipo 11

Mantener Ha p = 1- IX P=P
Decisión
Error tipo 1 Decisión correcta
Rechazar Ha P= IX P=l-P
La probabilidad de cometer un error de tipo 1 con nuestra decisión es una

probabilidad conocida, pues el valor de IX lo fija el propio investigador. Sin
embargo, la probabilidad de cometer un error de tipo 11, es decir, {3, es un valor
desconocido que, en un contraste concreto, depende de tres factores: 1) la verdadera
H 1, 2) el valor de IX y 3) el tamaño del error típico de la distribución muestra!
utilizada para efectuar el contraste.
La figura 3.3 puede ayudarnos a comprender estas ideas. En ella están represen-
tadas las áreas correspondientes a cada una de las probabilidades descritas en el
cuadro anterior. Se trata de una situación hipotética referida a un contraste
unilateral derecho sobre el parámetroµ (con H 0 : µ = µ 0 yH 1: µ = µ 1 ) utilizando la
información muestra! proporcionada por el estadístico X, cuya distribución mues-
tra! es normal. La situación es fácilmente trasladable a otras distribuciones muestra-
les con una forma diferente.
La curva de la izquierda representa la distribución muestra! de la media 13 bajo
1 3 La probabilidad asociada a una media cualquiera en su distribución muestra( es la misma que la
asociada a su correspondiente puntuación típica en la distribución N(O, 1) o t.- 1• En términos de
probabilidad. por tanto, es equivalente hablar de la distribución muestra( de la media y de la distribución
muestra( de la media tipificada.
Zona de aceptación Zona de rechazo
Figura 3.3. -Áreas correspondientes a las probabilidades !X, p, 1 - :x y 1 - p en un contraste unilateral

derecho sobre el parámetro µ.
H 0 : µ = µ 0 (µ 0 se refiere a un valor concreto cualquiera). En la cola derecha de esa

curva (recordemos que estamos hablando de un contraste unilateral derecho)
se encuentra, marcada con rayas inclinadas, la probabilidad de cometer un error de
tipo 1: :x. Es decir, la zona de rechazo. Todo lo que en esa curva no es zona
de rechazo es zona de aceptación; su probabilidad: 1 - :x. Ambas zonas, la de rechazo
y la de aceptación, se encuentran separadas por una línea vertical. Cualquier valor
muestra) X perteneciente a la zona situada a la derecha de esa línea nos llevará a
tomar la decisión de rechazar H 0 ; por el contrario, cualquier valor muestra) X
perteneciente a la zona situada a la izquierda de esa línea nos llevará a tomar la
decisión de mantener H 0 •
La curva de la derecha representa la distribución muestral de la media para una
hipótesis alternativa concreta: H 1 : µ = µ 1 (µ 1 se refiere a un valor concreto
cualquiera mayor que µ 0 ). En la cola izquierda de esa curva se encuentra, marcada
con líneas horizontales, el área {J, es decir, la probabilidad de cometer un error de
tipo 11 (la probabilidad de que, siendo H 1 la hipótesis verdadera, obtengamos
valores muestrales X que nos lleven a mantener H 0 ). La zona que se encuentra a la
derecha de la línea vertical es l - p, es decir, la probabilidad de rechazar una
hipótesis nula que en realidad es falsa. Lógicamente, siendo el contraste unilateral
derecho, la hipótesis alternativa afirmará H 1 : µ > µ 0 , es decir, la hipótesis alternati-
va atribuirá diferentes valores al parámetro µ, todos ellos mayores que µ 0 . Cada
uno de esos valores atribuidos a µ en H 1 permitirá generar una distribución
muestra) concreta para X. Y aunque todas esas distribuciones muestrales tendrán la
misma forma, unas estarán más alejadas que otras de la curva de H 0 , es decir, unas
serán distintas de otras únicamente en el valor asignado a µ. Según esto, fJ tomará
diferentes valores dependiendo del valor concreto considerado de entre los afirma-
dos por H 1 . Por lo que existirá toda una familia de valores fJ dependiendo del valor
concreto µ 1 que consideremos. Fijándonos en la figura 3.3 podremos comprobar

que, cuanto más se aleje el valor µ 1 de µ 0 , más hacia la derecha se desplazará la
curva H 1 y, en consecuencia, más pequeña se hará el área fJ (permaneciendo todo lo
demás constante). Y al contrario, cuanto más se aproxime µ 1 a µ 0 , más hacia la
izquierda se desplazará la curva H 1 y más grande se hará el área fJ (permaneciendo
todo lo demás igual). El valor de {J, por tanto, depende, en primer lugar, de la
hipótesis alternativa que consideremos verdadera, es decir, del valor concreto µ 1
que consideremos verdadero dentro de todos los afirmados por H 1 . Comparando
las figuras 3.3 y 3.4 comprenderemos mejor esta idea. En la figura 3.4 hemos
tomado un valor µ 1 más próximo a µ 0 que en la figura 3.3. Como consecuencia
directa de ese cambio, el valor de fJ ha aumentado de forma considerable.
Figura 3.4.~Áreas correspondientes a las probabilidades !X, p, 1 - !X y 1 - P en un contraste unilateral

Una vez seleccionado un valor concreto µ 1 en H 1 , el tamaño del área fJ depende,

en segundo lugar, del valor fijado para IX. Los valores de IX y P se relacionan de
forma inversa: permaneciendo todo lo demás constante, cuanto mayor sea IX, menor
será p; cuanto menor sea IX, mayor será p. Si desplazamos mentalmente la línea
vertical de las figuras 3.3 o 3.4 hacia la izquierda, podremos constatar que el área IX
va aumentando y el área P va disminuyendo. Si la desplazamos hacia la derecha
podremos constatar que ocurre justamente lo contrario.
En tercer y último lugar, el tamaño del área P depende del error típico de la
distribución muestral del estadístico concreto utilizado para efectuar el contraste. Es
obvio que, para una distancia dada entre µ 0 y µ 1 , el solapamiento entre las curvas
correspondientes a uno y otro parámetro será tanto mayor cuanto mayor sea el
error típico de la distribución muestral representada por esas curvas (pues, cuanto
eontraste de hipótesis / 147
mayor es el error típico de una distribución, más ancha es esa distribución). Y

cuanto mayor sea el solapamiento, mayor será el valor de {3.
En la figura 3.5 podemos observar con claridad que, al estrecharse las distribu-
ciones como consecuencia de una disminución del error típico, el solapamiento es
menor y menor también el tamaño del área {3. A pesar de que, por ejemplo, la
distancia entre µ 0 y µ 1 es similar en las figuras 3.4 y 3.5, el tamaño de f3 es
proporcionalmente mucho menor en la figura 3.5 que en la 3.4. Si las distribuciones
muestrales de las dos figuras tuvieran el mismo error típico, cabría esperar, según
hemos visto anteriormente, el mismo tamaño para {3.
Figura 3.5.-Áreas correspondientes a las probabilidades <X, p, 1 - <X y 1 - p en un contraste unilateral

En el caso que nos ocupa, estamos contrastando la hipótesis H 0 : µ = µ 0 . Esto

significa que las curvas de las figuras 3.3, 3.4 y 3.5 se refieren a la distribución
muestra! de la media (o, lo que es equivalente en términos de probabilidad, a la
distribución muestra! de las medias tipificadas). Ahora bien, sabemos que la
distribución muestra! de la media es normal con parámetros µ y u/Jn. Lo cual
significa que disminuyendo u (la desviación típica de la población) o aumentando n
(el tamaño de la muestra), conseguiremos disminuir el error típico de la distribución
muestra! de la media. Y la consecuencia de esto será que con una operación tan
sencilla como aumentar n (disminuir u resulta algo más complicado), podremos
obtener una reducción de la probabilidad de cometer un error de tipo 11.
Como un ejercicio de representación espacial, podemos fijarnos en la figura 3.5 e
intentar imaginar lo que ocurriría si, manteniendo fija la distancia entre µ 0 y µ 1 y el
mismo tamaño para a, vamos ensanchando poco a poco las dos distribuciones: el
resultado será que el tamaño del área f3 irá aumentando.
En el siguiente apartado, al hablar de la potencia (1 - /3), aprenderemos a
calcular el valor de {3. Pero antes, debemos hacer un último comentario sobre los
errores de tipo 1 y 11. En general, un buen contraste o una buena regla de decisión
debe tender a minimizar los dos tipos de error inherentes a toda decisión. Ya
sabemos que el valor de a lo establece arbitrariamente el investigador procurando
que sea un valor pequeño (habitualmente, 0,05 o 0,01). Por tanto, disminuir la
probabilidad de cometer un error de tipo 1 (a) en un determinado contraste es tan
sencillo como seleccionar para a un valor tan pequeño como deseemos. Pero
acabamos de ver que disminuir a tiene como resultado directo un aumento de {3. La
reducción arbitraria de a, por tanto, no representa una solución razonable.
Más razonable parece detenerse a considerar cuál de los dos errores que
podemos cometer podría resultar más grave en una situación concreta y procurar
disminuirlo a costa del otro. Así, si es importante evitar cometer un error de tipo 1
(por ejemplo, decidir aplicar un tratamiento que conlleva graves efectos secundarios
cuando en realidad no es necesaria la aplicación del mismo), será conveniente
seleccionar un valor muy pequeño para a (0,001, por ejemplo). Si es importante
evitar cometer un error de tipo 11 (por ejemplo, mandar a alguien a casa cuando de
hecho necesita tratamiento inmediato), será conveniente seleccionar para a un valor
más grande (0,10 o 0,20, por ejemplo). Con todo, de entre los diferentes factores de
los que depende el valor de {3, la manipulación del tamaño muestral n es el que
proporciona una solución más eficaz, al tiempo que sencilla (en el apéndice 3 tra-
tamos esta cuestión).
3.3. Potencia de un contraste
Hasta hace pocos años, la mayor parte de los procedimientos estadísticos

utilizados para analizar resultados experimentales han estado orientados a minimi-
zar (o, al menos, controlar) la probabilidad de cometer errores de tipo 1 (a),
descuidando por completo la probabilidad de cometer errores de tipo 11 (/3). La
mayor parte de los trabajos aparecidos en las revistas científicas se han limitado a
establecer un nivel arbitrario para a (tal como 0,05) ignorando f3 por completo. Es
verdad que, en algunos casos, eso es todo lo que es posible hacer; pero en otros,
según veremos, es posible hacer algo más 14 .
14 Probablemente (como sugiere Howell, 1992, pág. 204) existen varias razones históricas que
justifican este descuido. Entre ellas, la escasa atención prestada en los manuales de estadística a los
problemas relacionados con la potencia, o un tratamiento de los mismos poco apropiado para ser
digerido por el nivel de preparación medio de la comunidad investigadora. Hoy, sin embargo, después de
los trabajos aparecidos en los últimos años, especialmente impulsados por Cohen (ver Cohen, 1988), las
cuestiones relacionadas con la potencia parecen lo basta!He clarificadas y divulgadas como para merecer
nuestra atención.
La potencia ( 1 - /l) de un contraste es la probabilidad de rechazar una

hipótesis nula que en realidad es falsa.
Cuando hablamos de la potencia de un contraste, por tanto, nos estamos

refiriendo a la capacidad de ese contraste para detectar que una hipótesis nula
concreta es falsa.
Veamos cómo se calcula la potencia (1 - /3) de un contraste y, por consiguiente,
también la probabilidad de cometer un error de tipo 11 (/3). Para ello, recordemos
el ejemplo del psicólogo supuestamente capaz de diagnosticar trastornos de tipo
neurótico a través de la escritura. Las hipótesis estadísticas que planteábamos en
ese ejemplo eran las siguientes: H 0 : n ~ 0,5 y H 1 : n > 0,5.
Para poder calcular la potencia de un contraste necesitamos referirnos a una
afirmación concreta de las muchas definidas en H 1 . Por ejemplo, H 1 : n = O, 7 15 .
Para contrastar estas hipótesis habíamos definido dos estadísticos:
T1 = X (número de aciertos)
Ti = P (proporción de aciertos)
La distribución muestra} de T1 o Ti es, según vimos en el ejemplo 3.1, la
binomial con parámetros n y n. Por tanto, para un n dado, tendremos dos
distribuciones muestrales: la especificada en H 0 : n = 0,5 y la especificada en H 1 :
n = 0,7. Esas dos distribuciones muestrales aparecen en la tabla 3.2. (Para simplifi-
car la explicación, vamos a referirnos únicamente al estadístico T1 = X).
Nuestra regla de decisión debe ser tal que nos permita rechazar H 0 si obtenemos
un resultado muestra! incompatible con ella en términos de probabilidad. De entre
las posibles reglas de decisión que podríamos adoptar, ya en el ejemplo 3.1
habíamos establecido la siguiente: rechazar H 0 si T1 toma un valor igual o mayor
que 9 (por supuesto, 9 se refiere al número de aciertos). Esta regla de decisión
equivale a: rechazar H 0 si T 1 (o Ti. indistintamente) toma un valor tan grande que
la probabilidad de obtener un valor como ése o mayor es menor que O!= 0,011 16 •
Con esta regla de decisión, sabemos que la probabilidad de cometer un error de
tipo 1 valdrá justamente 0,011, es decir, el valor fijado para O!. Pero, ¿cuál será la
probabilidad de cometer un error de tipo 11? Es decir, ¿cuál será el valor de {3?
Veamos. Sólo cometeremos un error de tipo 11 cuando, siendo verdadera la
hipótesis H 1 : n = 0,7, tomemos Ja decisión de mantener Ja hipótesis H 0 : n = 0,5.
Y esa decisión únicamente Ja tomaremos cuando nos encontremos con un resultado
muestral (T¡) perteneciente a Ja zona de aceptación, es decir, cuando nos encontre-
15 Ya hemos visto en el apartado anterior que el valor de {i depende, en primer lugar, de la H 1

concreta que consideremos como verdadera. Al igual que ocurre con {l. existe toda una familia de valores
1 - {i dependiendo de los diferentes valores concretos que seleccionemos de entre todos los definidos
en H 1 •
16 Los valores habitualmente utilizados para :x son, según hemos señalado ya, 0,05 y 0.01; pero en
este ejemplo concreto, dadas las probabilidades individuales de la distribución muestra! de T1 bajo H 0 ,
un a de 0,011 nos permite simplificar el problema.
TABLA 3.2
Distribuciones muestra/es de T 1 bajo H 0 : n = 0,5
y H 1 : n = 0,7
H 0 : n = 0,5 H 1: n = 0,7
T, P(T,=t.) T, P(T, = r 1 )
o 0,001 o 0,000
1 0,010 1 0,000
2 0,044 2 0,001
3 0,117 3 0,009
4 0,205 1-IX 4 0,037 /f
5 0,246 5 0,103
6 0,205 6 0,200
7 0,117 7 0,267
8 0,044 8 0,233
0,010 0,121
9
10 0,001 } iX
9
10 0,028
} 1- /f
mos con un número de aciertos inferior a 9. Ahora bien, si H 1 es verdadera, la

probabilidad de tomar la decisión de mantener H 0 (es decir, fJ) será la probabilidad
de encontrar valores muestrales por debajo de 9 aciertos en la distribución definida
por H 1 . La tabla 3.2 nos proporciona esa probabilidad. Sumando las probabili-
dades individuales desde T1 =O hasta T1 = 8, obtenemos: fJ = P(T1 ~ 8) = 0,851.
En consecuencia, la potencia del contraste, para H 1 : n = 0,7, será 1 =
= fJ = 1 - 0,851 = 0,149. Lo cual significa que, si suponemos que el verdadero
valor del parámetro n es 0,7 (es decir, si consideramos que H 1 : n = 0,7 es verdadera)
al contrastar la hipótesis H 0 : n = 0,5 con oc= 0,011, la probabilidad de que nuestro
contraste detecte que H 0 : n = 0,5 es falsa vale 0,149. De otro modo: si el verdadero
valor den es 0,7, sólo en 15 de cada 100 veces que contrastemos (con oc= 0,011 y
una muestra de n = 10 presentaciones independientes) la hipótesis de que el
parámetro n vale 0,5 decidiremos que n = 0,5 es una afirmación falsa; y tomaremos
una decisión equivocada, por tanto, en 85 de cada 100 contrastes.
La figura 3.6 puede ayudarnos a entender mejor lo que acabamos de explicar.
La probabilidad de cometer un error de tipo 11 (/J = 0,851) está representada por la
zona rayada, mientras que la potencia (1 - p = 0,149) está representada por la zona
no rayada de la distribución H 1 • Si el verdadero valor de n es 0,7, el número de
aciertos con el que nos podemos encontrar en una muestra aleatoria de n = 10
presentaciones será cualquiera de los asumibles por la distribución H 1 : n = 0,7.
Como cada vez que obtengamos un resultado muestra) T1 menor que 9 (9 aciertos:
zona situada a la izquierda de la línea vertical) decidiremos mantener H 0 : n = 0,5,
la probabilidad de tomar una decisión errónea (recordemos que estamos suponien-
do que el verdadero valor de n es 0,7) será la probabilidad de obtener valores
0.25
0.20
0.15
0.10
0.05
o 2 3 4 5 6 7 8 9 10
Zona de aceptación Zona de

rechazo
Figura 3.6. Error tipo 11 y potencia en un contraste unilateral derecho con H 1: rr = 0,7 y n = 10.
menores que 9 en una distribución binomial con parámetros n = 10 y n = 0,7. Del

mismo modo, como cada vez que obtengamos un resultado muestral T 1 igual o
mayor que 9 (zona situada a la derecha de la línea vertical) decidiremos rechazar
H 0 : n = 0,5, la probabilidad de tomar una decisión correcta (decisión correcta que
sólo ocurrirá si decidimos rechazar H 0 : n = 0,5) será la probabilidad de obtener
valores iguales o mayores que 9 en una distribución binomial con parámetros
n = 1O y n = O, 7 (los parámetros de la distribución de H ¡).
Por supuesto, si en lugar de considerar que la hipótesis verdadera es H 1 :
n = 0,70, consideramos que la verdadera hipótesis es, por ejemplo, H 1 : n = 0,9, la
distribución muestra) de T1 se encontrará todavía más alejada de la de H 0 y eso
hará que los valores de /3 y 1 - /3 cambien. En la figura 3.7 se muestra este cambio.
Al pasar de H 1 : n = O, 7 a H 1 : n = 0,9, la probabilidad de cometer un error de tipo
11 (/J) ha disminuido y, en consecuencia, la potencia (1 - /3) ha aumentado. Si el
verdadero valor de n es 0,9, la probabilidad de que T1 tome un valor menor que 9
es más pequeña que si el verdadero valor den es 0,7 y, por tanto, la probabilidad de
tomar una decisión errónea (/3) es menor con n = 0,9 que con n = 0,7. Como
ejercicio práctico, pueden calcularse las probabilidades exactas a partir de las cuales
se ha construido la distribución de T1 bajo H 1 : n = 0,9 en la figura 3.7.
Todo lo dicho hasta aquí ha estado referido a una distribución binomial, pero el
razonamiento es válido para cualquier otro tipo de distribución. Sigamos con el
ejemplo del psicólogo supuestamente capaz de diagnosticar a través de la escritura.
Planteemos las mismas hipótesis: H 0 : n = 0,5, H 1 : n = O, 7, pero, en lugar de utilizar
P(T, =1 1 )
0,40
0,35
0,30
0,25
0,20
0,15
0,10·
0,05
o 2 3 4 5 6 7 8 9 10
Zona de aceptación Zona de

rechazo
Figura 3.7.-Error tipo 11 y potencia en un contraste unilateral derecho con H 1 : '/[ = 0,9 y n = 10.
el estadístico de contraste T 1 , utilicemos este otro basado en la aproximación

normal a la distribución binomial 17 :
z = (X ± 0,5) - mi:
(3.1)
Jmr(l - n)
Ya sabemos que Z se distribuye aproximadamente N(O, 1). Si mantenemos la

misma regla de decisión que antes (rechazar H 0 si T1 toma un valor igual o mayor
que 9), podemos calcular el valor de 1:1. utilizando la distribución N(O, 1):
(9 - 0,5) - 10(0,5)
z= = 2 21
jl0(0,5)(0,5) '
El valor de 1:1. vendrá dado por la probabilidad de obtener valores T1 iguales o

mayores que 9 (en realidad, mayores que 8,5, utilizando la corrección por continui-
dad); o lo que es equivalente, por la probabilidad de obtener valores iguales o
1 7 Puede consultarse, en el capítulo 1, el apartado 1.3.4 sobre la distribución muestra) de la
proporción.
mayores que z = 2,21. Esa probabilidad, suponiendo que el verdadero valor del
parámetro n es 0,5, puede obtenerse en la tabla de la distribución normal estandari-
zada: P(Z ~ 2,21) = 0,0136. Así pues, con la regla de decisión adoptada y utilizando
el estadístico Z, la probabilidad de cometer un error de tipo 1 (oc) vale 0,0136 (valor
muy parecido al utilizado anteriormente con el estadístico T1 y la distribución
binomial).
Ahora bien, si la hipótesis H 0 : n = 0,5 es falsa, corremos el riesgo de cometer un
error de tipo 11, el cual, como sabemos, se proáucirá cuando tomemos la decisión de
mantener esa H 0 . ¿Cuál será la probabilidad de cometer ese error? Es decir, ¿cuál
será el valor de f3? Si suponemos que la hipótesis verdadera es H 1 : n = 0,7, el valor
de f3 vendrá dado por la probabilidad de encontrar valores menores que 9 (único
caso en el que decidiríamos mantener H 0 : n = 0,5) en la distribución definida por
n = 0,7. Utilizando el estadístico Z obtenemos:
(9 - 0,5) - 10(0, 7)
z= = 1,04
jl0(0,7)(0,3)
La probabilidad de obtener valores menores de 1,04 es justamente {3, es decir, la

probabilidad de cometer un error de tipo 11: la probabilidad de decidir mantener
H 0 : n = 0,5 cuando en realidad la hipótesis verdadera es H 1 : n = O, 7. Del mismo
modo, la probabilidad de obtener valores mayores que 1,04 es 1 - {3, es decir, la
potencia: la probabilidad de decidir rechazar H 0 : n = 0,5 siendo falsa y siendo
verdadera la hipótesis H 1 : n = 0,7. Esas probabilidades podemos encontrarlas en la
tabla de la distribución normal estandarizada: P(Z::::;; 1,04) = /3 = 0,8508; y,
P(Z ~ 1,04) = 1 - {3 = 1 - 0,8508 = 0,1492. La figura 3.8 muestra cada una de
estas probabilidades 18 . Así pues, resumiendo, al contrastar en nuestro ejemplo la
hipótesis nula H 0 : n = 0,5 frente a la alternativa H 1 : n = 0,7 con la regla de decisión
ya comentada y con el estadístico de contraste Z:
l. Si H 0 es verdadera, la probabilidad de tomar una decisión incorrecta (la
probabilidad de cometer un error de tipo 1) vale 0,0136.
2. Si H 0 es falsa y la hipótesis verdadera es H 1 , la probabilidad de tomar una
decisión incorrecta (la probabilidad de cometer un error de tipo 11) vale
0,8508, y la probabilidad de detectar que esa hipótesis es falsa (la potencia
del contraste) vale 0,1492.
18 En la figura 3.8 (al igual que en las figuras 3.12 y 3.13 que aparecerán posteriormente), el eje de
abcisas de ambas distribuciones es doble. En él están representados 1) el estadístico T1 y 2) su tipificación

Z. Aunque las distribuciones de probabilidad de T1 y de Z no son iguales en su forma (a pesar de que el
dibujo lo dé a entender), sí son equivalentes en términos de probabilidad (la probabilidad asociada a un
valor cualquiera de T1 es, aproximadamente, la misma que la asociada a su correspondiente valor
tipificado Z). Por esta razón hemos optado por presentar una única distribución para T1 y para Z.
Perdemos con ello rigor (un rigor que nos parece innecesario en este momento), pero creemos que
ganamos claridad. También por claridad hemos optado por presentar las distribuciones de H 0 y H 1 en
distinto plano, a diferencia ·de como hicimos en las figuras 3.6 y 3.7. La razón de esto es sencilla: a un
mismo valor de T1 le corresponde una puntuación típica Z diferente dependiendo de que esa tipificación
se efectúe en la curva de H 0 o en la curva de H 1, y esto es algo que no puede verse fácilmente si no se
presentan las distribuciones en planos diferentes.
p= 0,8508
o
Figura 3.8.--Áreas correspondientes a las probabilidades ex. {J. 1 - ex y 1 - fJ en un contraste unilateral
derecho (H 1 : ¡¡ = 0,7; n = 10).
3.4. Nivel crítico y tamaño del efecto
Hemos definido el nivel de significación IX como la probabilidad de cometer un

error de tipo 1, es decir, como la probabilidad de rechazar una hipótesis nula
cuando en realidad es verdadera. Esa probabilidad, IX, se establece antes de efectuar
el contraste para evitar que influya en la decisión final. En ese sentido, podemos
entender el nivel de significación como el riesgo máximo que estamos dispuestos a
asumir al tomar la decisión de rechazar una hipótesis concreta.
Efectuar un contraste estableciendo previamente un nivel de significación es lo
que se ha venido haciendo, desde los años 30, en la mayor parte de las áreas de
conocimiento por la mayor parte de los investigadores. Sin embargo, esto no
significa que esta forma de proceder esté libre de inconvenientes. Los tiene, y, en
nuestra opinión, no pequeños. Dos de ellos son éstos:
1. La decisión sobre H 0 puede depender decisivamente del nivel de significa-
ción establecido. Podemos decidir mantener una hipótesis con IX= 0,01 y,
sin embargo, rechazarla con IX = 0,05.
2. Decidir si H 0 es o no falsa no proporciona ningún tipo de información sobre
el grado en el que la evidencia muestra) se muestra incompatible con esa
hipótesis.
En relación con el primero de estos inconvenientes, aunque es cierto que existe

un acuerdo evidente acerca de que ai debe ser un valor pequeño, cómo de pequeño es
algo que nos vemos obligados a establecer de forma arbitraria. Y aunque los niveles
de significación habitualmente utilizados son 0,05 y 0,01, no existe ningún argumen-
to serio que impida utilizar otro nivel de significación cualquiera, por ejemplo, 0,03
o 0,005. En principio, si consideramos que cometer un error de tipo 1 es muy ~¡ralle,
adoptaremos para ai un valor más pequeño que si consideramos que cometer ese
tipo de error no tiene consecuencias graves. Pero recordemos que, al hacer más
pequeño el valor de oi, la potencia del contraste disminuye automáticamente (o, lo
que es lo mismo, la probabilidad de cometer un error de tipo 11 (fJ) se incrementa
automáticamente). Y eso puede llevarnos a, por ejemplo, cometer un error de tipo 11
por intentar evitar comenter un error de tipo l.
Podemos, incluso, servirnos de conocimientos previos (resultados arrojados por
otras investigaciones o por trabajos piloto; predicciones deducibles de alguna teoría;
etc.) para establecer un nivel de significación más grande o más pequeño dependien-
do de si esos conocimientos previos apuntan en la dirección de H 0 o en otra
dirección. Pero incluso así, el valor adoptado para ai seguirá siendo arbitrario
(arbitrario, al menos, en un rango de posibles valores asumibles con cierta cohe-
rencia).
Y siendo el valor de ai arbitrariamente establecido, resulta obligado hacer
referencia al primero de los inconvenientes mencionados. Recordemos el ejemplo
3.2. En él hemos puesto a prueba la hipótesis nula H 0 : µ = 4,5 frente a la alternativa
H 1 : µ # 4,5, con un nivel de confianza de 0,95 (oi = 0,05). Con ese nivel de confianza,
la zona crítica está formada por los valores mayores que 1,96 y lós menores que
- 1,96. Como el estadístico de contraste obtenido (Z = 2, 14) ha caído en la zona
crítica, hemos tomado la decisión de rechazar H 0 . Lo curioso de este contraste es
que, si en lugar de haber establecido para ai un valor de 0,05 hubiéramos adoptado
un valor de 0,01, la zona crítica habría estado formada por los valores mayores que
2,58 y los menores que - 2,58, y eso nos habría llevado a tomar la decisión de
mantener H 0 . En consecuencia, si en el ejemplo 3.2 utilizamos ai = 0,05, tomaremos
la decisión de rechazar H 0 ; si utilizamos ai = 0,01, tomaremos la decisión de
mantenerla. En la figura 3.9 están recogidas y comparadas ambas situaciones.
2,14
A
Figura 3.9. ·-Zonas críticas en un contraste bilateral con ac = 0,05 (figura A) y ac = 0,01 (figura B).
Esto es así porque la probabilidad de encontrar valores como el obtenido o

mayores vale P(Z ~ 2,14) = 0,0162, valor comprendido entre rx./2 = 0,025 y
rx./2 = 0,005. Necesitaríamos un nivel de significación mm1mo de 0,0324
( =0,0162 + 0,0162, pues el contraste es bilateral) para que el estadístico de contras-
te obtenido nos llevara al rechazo de H 0 • Cualquier valor rx. menor que 0,0324 nos
llevará a tomar la decisión de mantener H 0 .
Estas consideraciones nos permiten introducir un concepto de fundamental
importancia en el contexto del análisis de datos:
Llamamos nitiel crítico, y lo representamos por p, al nivel de significación más

pequeño al que una hipótesis nula puede ser rechazada con el estadístico de
contraste obtenido.
Podemos definir el nivel crítico, más brevemente, como la prohahilidad asociada

al estadístico de contraste. En términos generales, en un contraste unilateral, el nivel
crítico es la probabilidad asociada a los valores mayores (contraste unilateral
derecho) o menores (contraste unilateral izquierdo) que el estadístico de contraste
obtenido; en un contraste bilateral. el nivel crítico es la probabilidad asociada a los
valores que se encuentran tan alejados de H 0 como, al menos, el estadístico de
contraste 19 . Según esto, el nivel crítico se obtiene, a diferencia de lo que ocurre con
el nivel de significación, después de efectuar el contraste, es decir, una vez obtenido
el estadístico de contraste.
Muchos investigadores, en lugar de establecer a priori un nivel de significación rx.,
prefieren esperar a obtener el estadístico de contraste y su nivel crítico para tomar
la decisión apoyándose en el valor de ese nivel crítico: si el nivel crítico es pequeño,
la decisión será la de rechazar H 0 ; si el nivel crítico es grande, la decisión será la de
mantener H 0 . Por supuesto, de nuevo nos encontramos con la arbitrariedad de
tener que determinar cuándo un nivel crítico es grande y cuándo es pequeño. Pero
este problema tiene mejor salida que el de establecer a priori un valor para rx.. Una
regla bastante razonable podría ser esta: a) rechazar H 0 si el nivel crítico es
claramente menor que 0,05; b) mantenerla si es claramente mayor que 0,05;
c) repetir el contraste con una muestra diferente si el nivel crítico toma un valor en
torno a 0,05. Por supuesto, las consideraciones ya mencionadas sobre la gravedad
de cometer cada uno de los dos tipos de errores y los conocimientos previos que se
tengan sobre la hipótesis sometida a contraste podrían ayudarnos a matizar el
significado de las expresiones claramente mayor, claramente menor y en torno a
referidas en la regla propuesta.
La utilización del nivel crítico p en lugar del nivel de significación rx. tiene una
19 En los contrastes en los que se utilizan las dos colas de la distribución muestra(, el nivel crítico p
se obtiene, generalmente, multiplicando por 2 la probabilidad asociada a los valores mayores (si el
estadístico de contraste cae en la cola derecha) o menores (si el estadístico cae en la cola izquierda) que el
estadístico de contraste. Pero, como veremos en próximos capítulos, existen contrastes bilaterales en los
que la zona crítica está situada, toda ella, en la cola derecha de la distribución muestral. En estos casos,
el nivel crítico es la probabilidad asociada a los valores mayores que el estadístico de contraste.
ventaja adicional que nos permite superar, en parte, el segundo de los inconvenien-
tes atribuidos líneas más arriba a la utilización de un nivel de significación
establecido a priori. El nivel crítico, no sólo nos ayuda a tomar una decisión sobre
H 0 , sino que su tamaño nos informa sobre el grado de compatibilidad o discrepan-
cia existente entre la evidencia muestra) observada y esa H 0 . Un nivel crítico de
0,70, por ejemplo, nos está indicando que el resultado muestral obtenido es
perfectamente compatible con la hipótesis planteada; es decir, un nivel crítico de ese
tamaño nos está indicando que, si suponemos que la H 0 planteada es verdadera, la
probabilidad de encontrar un resultado muestra) como el encontrado o más
extremo vale 0,70. Un nivel crítico de 0,05 nos está indicando que el resultado
muestra) observado es poco compatible con H 0 ; sólo encontraríamos un valor como
ese o más extremo en 5 de cada 100 contrastes idénticos que lleváramos a cabo. Un
nivel crítico de 0,000001 nos está indicando que el resultado muestra) observado se
encuentra tan alejado de la predicción efectuada en H 0 que sólo en 1 de cada millón
de contrastes idénticos encontraríamos un resultado semejante; con un nivel crítico
de 0,000001 podríamos sentirnos razonablemente seguros de que la H 0 planteada es
falsa. Podemos decir, por tanto, que el tamaño del nivel crítico nos está inforinando
sobre el grado en el que la evidencia empírica obtenida se muestra incompatible con
la H 0 planteada (información ésta que pasa desapercibida cuando nos limitamos a
tomar la decisión de mantener o rechazar H 0 apoyados en un nivel de significación
previamente establecido).
Pero recordemos en este momento que el tamaño del error típico de la distribu-
ción muestra) de un estadístico se ve fuertemente afectado por el tamaño de la
muestra utilizada (en el apartado 3.2 de este mismo capítulo hemos tratado esta
cuestión). Permaneciendo todo lo demás constante, el valor del estadístico de con-
traste será tanto más extremo (es decir, tomará un valor tanto más alejado de la
predicción formulada en H 0 ) cuanto mayor sea el tamaño de la muestra. En el
estadístico Z utilizado en los ejemplos 3.2 y 3.3 se puede apreciar claramente este
hecho. Cuanto mayor sea n, menor será el denominador (el error típico de la me-
dia) y más extremo el valor de Z. De manera que con la misma media muestra)
X, la misma media poblacional µ y la misma varianza poblacional a 2, aumentando
n obtendremos un valor Z más extremo y, en consecuencia, un nivel crítico más
pequeño.
Por supuesto, lo que ocurre con el estadístico Z puede generalizarse a otro tipo
de estadísticos. Con todos ellos el nivel crítico tiende a O y, por tanto, a indicar gran
discrepancia entre H 0 y el estadístico de contraste, a medida que el tamaño
muestra) n va aumentando (lo que tiene relación directa con el hecho de que la
potencia tienda a 1 a medida que n va aumentando; puede consultarse, en este
mismo capítulo, el apéndice 3 y, en especial, el ejemplo 3.4).
Estos comentarios sugieren que la utilización del nivel crítico como una medida
del grado de discrepancia entre la H 0 planteada y la evidencia muestra) observada
tiene el inconveniente de que el valor del nivel crítico está condicionado por el
tamaño de la muestra concreta utilizada. Necesitamos, por tanto, otra medida de
ese grado de discrepancia que no dependa del tamaño de la muestra. Precisamente
la búsqueda de una medida de ese tipo es lo que se ha venido haciendo en los

últimos años bajo el nombre genérico de tamaño del efecto.
Decidir si una hipótesis es o no falsa no constituye, en la mayor parte de las
situaciones experimentales, un criterio suficiente para determinar si el experimento
realizado contribuye o no de forma significativa al desarrollo de una teoría o de una
línea de investigación. Esto es así porque la decisión a la que se llega en un
contraste de hipótesis sobre la base del grado de discrepancia existente entre la H 0
planteada y la evidencia muestra! observada depende directamente, según hemos
señalado ya, del tamaño de la muestra utilizada. Tamaños muestrales grandes
pueden llevarnos a considerar como estadísticamente significativas discrepancias
muy pequeñas; y tamaños muestrales muy pequeños pueden llevarnos a considerar
estadísticamente insignificantes discrepancias teóricamente relevantes 20 •
Desde los años sesenta se ha venido produciendo una creciente insistencia en la
conveniencia de acompañar la decisión propia de un contraste de hipótesis (mante-
ner o rechazar la H 0 planteada) con alguna medida del grado de discrepancia
existente entre esa H 0 y la evidencia muestra! disponible. Acabamos de destacar la
importancia de la información proporcionada por una medida de este tipo, pero no
hemos ofrecido ninguna solución aceptable (el nivel crítico como medida de esa
discrepancia no constituye una solución lo bastante buena).
En general, puede obtenerse una buena medida del tamaño del efecto en
términos de la proporción de varianza explicada. Si estamos interesados en estudiar
la relación entre las variables X¡ e Y; y utilizamos una muestra de 100 sujetos, un
coeficiente de correlación de Pearson de rxy = 0,20 nos llevará a concluir que la
relación entre las variables X¡ e Y; es estadísticamente significativa 21 . Sin embargo,
la proporción de la variación de Y; debida a (o explicada por) la variable X¡ es
r;Y = 0,04. Aunque un contraste de hipótesis nos llevaría a pensar que existe una
relación significativa entre ambas variables, una medida del tamaño del efecto nos
estaría advirtiendo de que lo que podemos conocer de una variable a partir de la otra
es bastante poco: de hecho, sólo el 4 por 100 de la variación de Y; queda explicado
por la variable X¡.
De momento, en este apartado, basta con que nos formemos una idea general
sobre el importante concepto de tamaño del efecto y sobre la conveniencia de
acompañar la decisión propia de un contraste de hipótesis con algún índice capaz
de proporcionarnos información más concreta sobre la decisión tomada. Más
adelante, a medida que vayamos estudiando cada uno de los procedimientos de
análisis aplicables a diferentes situaciones concretas, haremos referencia explícita a
la forma de evaluar el tamaño del efecto en cada una de ellas.
20 En León (1984) puede encontrarse una interesante discusión sobre el significado del concepto
significativo utilizado en el contexto del análisis de datos y fuera de él. Decir que un resultado muestra( es
estadísticamente significativo no implica necesariamente que ese resultado es teóricamente relevante.
21 Ver capítulo 8.
3.5. Contrastes bilaterales y unilaterales
En el apartado 3.1.4 hemos hecho referencia ya a la distinción entre contrastes

bilaterales y unilaterales. Se trata de una distinción importante sobre la que
debemos profundizar algo más.
Cuando un investigador desea comprobar si un parámetro toma o no un
determinado valor, si dos grupos difieren entre sí en alguna variable, si dos
variables son independientes, etc., puede someter a contraste hipótesis como éstas:
l. H0: n = 0,5
H 1: n # 0,5
2. Ho: µ¡ = µ2
H1: µ1 #µ2
3. Ho: Pxy =O
H1: Pxy #O
En situaciones de este tipo, el investigador o bien no posee una idea previa sobre
la dirección en la que se pueden producir resultados muestrales incompatibles con
H 0 , o bien considera relevante que los resultados muestrales se muestren incompati-
bles con H 0 tanto en una dirección como en la otra. En el caso 1, H 0 será rechazada
tanto sin es mayor que 0,5 como si es menor; en el caso 2, H 0 será rechazada tanto
si µ 1 es mayor que µ 2 como si µ 1 es menor que µ 2; en el caso 3, H 0 será rechazada
tanto si la relación es positiva como si es negativa. A este tipo de contrastes se les
llama bilaterales o bidireccionales. Las hipótesis formuladas no contienen ninguna
predicción sobre la dirección en la que se puede producir un resultado muestra)
incompatible con la afirmación establecida en H 0 . Lo cual está reflejado en H 1 con
el signo « # ».
Así, por ejemplo, si se quiere estudiar si los varones y las mujeres difieren en
inteligencia, y no existe una expectativa justificada (estudios previos, intereses
concretos, etc.) sobre cuál de los dos grupos es más inteligente, lo razonable será
plantear un contraste bilateral: H 0 : µv = µm; H 1 : µv # µm.
Cuando se utiliza la distribución normal o la distribución t de Student en un
contraste bilateral, la zona crítica está repartida, generalmente en partes iguales,
entre las dos colas de la distribución muestra) (ver figura 3.lA). De ahí el nombre
de bilateral. No obstante, existen contrastes bilaterales en los que la zona crítica se
encuentra, toda ella, en la cola derecha de la distribución. Tal es el caso de algunos
contrastes en los que se utiliza la distribución x2 o la F. Esto es algo que tendremos
ocasión de estudiar con detalle en los próximos capítulos.
La situación cambia cuando un investigador desea comprobar si el valor de un
parámetro ha aumentado, si un grupo supera o es mejor que otro en alguna
variable, si dos variables se encuentran negativamente relacionadas, etc., puede
someter a contraste hipótesis como éstas:
l. H 0 : n ~ 0,65
H 1 : n > 0,65
2. H 0 : µ 1 ~ µ2
H1: µ¡ >µ2
3. H 0 :p~O
H 1 : p <0
Aquí, el investigador, o bien posee una idea previa sobre la dirección en la que
se producirán los resultados muestrales incompatibles con H 0 , o bien considera que
sólo son relevantes los resultados muestrales que se muestren incompatibles con H 0
en una de las dos direcciones. En el caso 1, H 0 será rechazada si n es mayor que
0,65, pero no si es menor; en el caso 2, H 0 será rechazada si µ 1 es mayor que µ 2 ,
pero no si es menor; en el caso 3, H 0 será rechazada si la relación es negativa, pero
no si es positiva. A este tipo de contrastes se les llama unilaterales o unidireccionales.
Las hipótesis contienen una predicción concreta sobre la dirección en la que se
puede producir un resultado muestral incompatible con la afirmación establecida en
H 0 . Lo cual está reflejado en H 1 con los signos « < » y « > ».
Si deseamos comprobar, por ejemplo, si un psicólogo posee o no la capacidad
de diagnosticar correctamente trastornos de tipo neurótico a través de la escritura,
consideraremos que el psicólogo posee tal capacidad cuando, al presentarle pares de
muestras de escritura pertenecientes a un sujeto con trastorno y a otro sin trastor-
no, su proporción de aciertos sea mayor que la proporción de aciertos que cabe
esperar por azar; y consideraremos que no posee esa capacidad cuando su propor-
ción de aciertos sea igual o menor que la esperable por azar. Las hipótesis que
tendrá sentido plantear serán: H 0 : 7l:acierto ~ 0,5; H 1 : nacierto > 0,5.
Cuando se utiliza la distribución normal o la distribución t de Student en un
contraste unilateral, la zona crítica está en una de las dos colas de la distribución
(ver figura 3.1 B). De ahí el nombre de unilateral. Con otras distribuciones ocurre algo
parecido, pero esto también es algo que tendremos ocasión de estudiar con más
detenimiento en los próximos capítulos.
Conviene saber que los contrastes bilaterales y los unilaterales no poseen la
misma potencia. Dada una situación experimental concreta, si la verdadera H 1 se
separa de H 0 en la dirección de la zona crítica, los contrastes unilaterales son más
potentes que los bilaterales para cualquier valor posible de oc Por el contrario, si la
verdadera H 1 se aleja de H 0 en dirección contraria a la zona crítica, los contrastes
unilaterales son menos potentes que los bilaterales (en estos casos, la potencia de los
contrastes unilaterales no será mayor que ex).
Estas consideraciones, sin embargo, no deben guiar nuestra decisión sobre si en
una situación concreta debe utilizarse un contraste bilateral o unilateral. Esto debe
decidirse únicamente atendiendo a los intereses del investigador, es decir, atendien-
do a aquello que el investigador desea poner a prueba. Si deseamos comprobar si
un nuevo método terapéutico supera en proporción de mejoras al método tradicio-
nal, el contraste deberá ser unilateral: concluiremos que el nuevo método no
consigue aumentar la proporción de mejoras tanto si con él se obtienen menos
mejoras que con el tradicional, como si obtienen las mismas. Pero si lo que estamos
interesados en comprobar es si los pacientes histéricos difieren de los obsesivos en
ansiedad, tendremos que utilizar un contraste bilateral: tanto si los pacientes

histéricos son más ansiosos que los obsesivos, como si éstos lo son más que los
histéricos, la conclusión será que ambos tipos de pacientes difieren en ansiedad. Es
el tipo de hipótesis que deseamos contrastar lo que básicamente determina el tipo
de contraste que debemos utilizar.
3.6. Estimación por intervalos y contraste de hipótesis
Al estudiar el concepto de intervalo de confianza hemos visto que, a partir de un

valor muestral, era posible determinar la probabilidad (1 - et) con la que podíamos
esperar que un parámetro poblacional se encontrara entre el rango de valores
definidos por los límites del intervalo. Este modo de proceder se encuentra íntima-
mente relacionado con el contraste de hipótesis. No en vano nos hemos referido ya
a la estimación y al contraste como las dos caras de la misma moneda. Ha llegado el
momento de aclarar esta relación.
Al construir un intervalo para cualquier parámetro con un nivel de confianza
de, por ejemplo, 0,95 (1 - r:1. = 0,95), estamos afirmando que, de cada 100 intervalos
que construyamos con muestras del mismo tamaño extraídas en las mismas condi-
ciones, 95 incluirán el verdadero valor de ese parámetro. Lo cual significa que
ninguno de los valores asumibles por ese parámetro dentro del rango de valores
definido por el intervalo podrá ser rechazado como falso en un contraste bilateral
con r:1. = 0,05.
En este sentido, el intervalo de confianza de un parámetro puede ser interpre-
tado como el conjunto de hipótesis aceptables en un contraste bilateral sobre ese
parámetro. Si, por ejemplo, el valor propuesto para el parámetro µ en H 0 en un
contraste bilateral se encuentra dentro del intervalo construido a partir de X con
un nivel de confianza de 1 - r:1., el contraste nos llevará a tomar la decisión de
mantener H 0 con un nivel de significación oc Por el contrario, si el valor propuesto
para el parámetro µ en H 0 no se encuentra dentro del intervalo construido a partir
de X con un nivel de confianza de 1 - ex, el contraste nos llevará tomar la decisión
de rechazar H 0 con un nivel de significación r:1..
La figura 3.1 O puede ayudarnos a comprender mejor la relación entre intervalo
de confianza y contraste de hipótesis. Supongamos que deseamos contrastar la hipó-
tesis nula H 0 : µ = µ 0 frente a la alternativa H 1 : µ =f. µ 0 con un nivel de confianza
de 0,95. En la figura 3.10 aparece la distribución muestra) de la media. Cualquier
valor muestral X perteneciente a la zona rayada nos llevará al rechazo de H 0 . Del
mismo modo, cualquier valor muestra) X perteneciente a la zona rayada nos llevará
a construir un intervalo de confianza que no captará el valor propuesto para µ en
H 0 . Por el contrario, cualquier valor muestral X perteneciente a la zona no rayada
nos llevará tanto a mantener H 0 como a construir un intervalo de confianza que
incluirá el valor propuesto para µ en H 0 . Por tanto, al construir un intervalo de
confianza para el parámetro µ con un nivel de confianza de 0,95, estamos asumien-
do que todas las hipótesis nulas referidas a los valores de µ no incluidos en ese
0,025
µo+ l,96ux
Figura 3.10. -Distribución muestra! de la media. Zonas críticas correspondientes a un contraste

bilateral.
intervalo son falsas. Y lo mismo ocurnra con cualquier otro parámetro sobre el
que deseemos construir un intervalo de confianza o efectuar un contraste de hipó-
tesis.
EJEMPLO 3.3. La escala C de conservadurismo se distribuye N(23, 10) en la

población de estudiantes de una determinada universidad madrileña. Ciertos sucesos
políticos acaecidos hacen sospechar que dicha población ha alterado su promedio en
la mencionada escala. Para comprobarlo, decidimos seleccionar una muestra aleatoria
de 100 estudiantes de esa universidad. Obtenemos en esa muestra una media de 26.
Utilizando :x = 0,05, ¿podemos afirmar que el promedio en conservadurismo se ha
alterado?
Podemos responder a la pregunta efectuando un contraste de hipótesis sobre el
parámetro fl· El contraste debe ser bilateral pues estamos interesados en averiguar si el
promedio en conservadurismo se ha alterado (independientemente de que lo haya
hecho en una dirección o en otra).
a) Hipótesis:
H 0 : /1 = 23.
H 1 : f1 # 23 (contraste bilateral).
b) Supuestos:
Muestra aleatoria de 100 observaciones.
Las puntuaciones en conservadurismo se distribuyen normalmente.
e) Estadístico de contraste y distribución muestra(:
- z =(X - µ)/(a/JnJ = (26 - 23)/(10/j!OO) = 3.

- Z se distribuye según la normal estandarizada N(O, 1).
d) Regla de decisión:
Rechazar Ha si el estadístico de contraste Z toma un valor mayor que el
percentil 100(1 - 'Y./2) = 100(1 - 0,025) = 97,5 o menor que el percentil 100(':1./2) =
= 2,5 de la distribución N(O, 1), es decir, un valor mayor que za. 975 = 1,96 o menor
que za.a 25 = -1,96.
e) Decisión:
Dado que Z = 3 es mayor que za. 975 = 1,96, debemos rechazar Ha y concluir
que disponemos de evidencia empírica suficiente para pensar que Ha: µ = 23 es
falsa. Podemos concluir que la población estudiada ha alterado su promedio en
conservadurismo.
Veamos qué ocurre si, en lugar de efectuar un contraste de hipótesis, intentamos
responder a la pregunta construyendo un intervalo de confianza para µ:
L;=X - lz.dax = 26 - 1,96(10/JIOO) = 24,04

L.= X+ lz 212 lax =26 + 1.96(10/JIOO) = 27,96
Vemos que en el intervalo construido no queda incluido el valor propuesto para µ

en Ha· Podemos afirmar, con un nivel de confianza de 0,95, que el verdadero prome-
dio se encuentra entre 24,04 y 27,96. El valor 23 propuesto para µ en Ha queda fuera
del intervalo construido y, por tanto, debemos rechazar la hipótesis Ha= µ = 23.
AP~NDICE 3
Curva de potencias
Hemos visto que la potencia de un contraste se ve afectada (al igual que ocurre con la
probabilidad de cometer un error de tipo 11) por el valor concreto de H 1 • Ya sabemos que H 1
es una afirmación inexacta, en el sentido de que asigna diferentes valores al parámetro de
referencia o a la forma de una distribución. La hipótesis H 1: n: > 0,5, por ejemplo, está
asignando al parámetro n: todos los posibles valores mayores de 0,5 y, por tanto, no está
asignando un valor concreto, sino muchos. Pues bien, tanto la potencia como la probabilidad
de cometer un error de tipo 11 dependen de cuál de todos esos valores incluidos en H 1
consideremos como verdadero. Según hemos visto, cuanto más alejado se encuentre el
verdadero parámetro del valor propuesto para él en H ª' menor será la probabilidad de
encontrar valores compatibles con Ha y menor también, por tanto, la probabilidad de tomar
una decisión incorrecta (/J). Lo cual significa que existirán tantos valores para fJ (y, por tanto,
para 1 - /J) como valores para el parámetro en cuestión estén definidos en H 1 • En este
sentido, se habla de curva o función de potencias para expresar, en un contraste concreto, la
relación entre cada uno de los valores asignados al parámetro en H 1 y la potencia correspon-
diente a esos valores. permaneciendo todo lo demás constante.
Sigamos con nuestro ejemplo del psicólogo supuestamente capaz de diagnosticar a través
de la escritura. Habíamos planteado las hipótesis: Ha: n: :::;; 0,5, H 1 : n: > 0,5. Como H 1 es una
hipótesis compuesta, si H 0 es falsa, el valor verdadero de rr puede ser cualquiera de los

propuestos en H 1 , es decir, cualquier valor mayor que 0,5. Cada uno de esos valores
propuestos para rr en H 1 nos dará una potencia diferente al contrastar H 0 . La tabla 3.3
recoge la distribución muestra( de T1 para algunos valores rr > 0,5. Para obtener la potencia
que corresponde a esos valores rr > 0,5, basta con sumar, en la columna correspondiente a
cada valor rr 1 , las probabilidades individuales de los valores 9 y 10 de T1 . Eso, suponiendo,
como hemos hecho hasta ahora, que deseemos fijar para IX un valor de 0,011 (lo que, como
sabemos, equivale a establecer la siguiente regla de decisión: rechazar H 0 si T1 toma un valor
igual o mayor que 9). Pero podemos, además, ver qué ocurre con la potencia si utilizamos
valores diferentes para IX, por ejemplo, 0,001 y 0,055. Con IX= 0,055, la potencia para cada
valor tomado por rr 1 puede obtenerse sumando, en la columna correspondiente a cada valor
rr 1, las probabilidades individuales de los valores 8, 9 y 10 de T1 (pues establecer para IX un
valor de 0,055 equivale a establecer la siguiente regla de decisión: rechazar H 0 si T1 toma un
valor igual o mayor que 8). Y con oc= 0,001, la potencia para cada valor rr 1 viene dada por la
probabilidad de que T1 tome el valor 10 (pues establecer para IX un valor de 0,001 equivale a
establecer la siguiente regla de decisión: rechazar H 0 si T1 toma un valor igual a 10).
Por supuesto, dada la relación existente entre IX y /3, debemos esperar que, al aumentar el
valor de IX disminuya el valor de f3 y, por tanto, aumente el de 1 - {3, es decir, aumente la
potencia; y debemos esperar que al disminuir el valor de IX ocurra justamente todo lo
contrario, es decir, que disminuya la potencia.
En la tabla 3.4 hemos calculado la potencia que corresponde a los diferentes valores de rr 1
propuestos en la tabla 3.3. Y lo hemos hecho para IX= 0,001, IX= 0,011 y IX= 0,055. A partir
de esos valores hemos formado las curvas de potencias de la figura 3.11. En ella pueden
observarse algunas de las relaciones comentadas. En concreto, pueden observarse cla-
ramente dos cosas: 1) a medida que el valor de rr 1 se va alejando del valor de rr 0 , la po-
tencia va aumentando (este es el hecho básico reflejado en una curva de potencias); y 2) al
aumentar el valor de ex también aumenta la potencia. En la figura 3.11 queda ilustrada, por
tanto, la relación existente entre la potencia y dos de los factores de los que depende 22 : el
TABLA 3.3
Distribución muestra/ del estadístico T1 con n = 1O y diferentes valores de rr
T, 110 = 0,50 11, = 0,60 11, = 0,70 11¡ = 0,80 11, = 0,90 11, = 0,95 11, = 0,99
10 0,001 0,006 0,028 0,107 0,349 0,599 0,904

9 0,010 0,040 0,121 0,268 0,387 0,315 0,091
8 0,044 0,121 0,233 0,302 0,194 0,075 0,004
7 0,117 0,215 0,267 0,201 0,057 O,QIO 0,000
6 0,205 0,251 0,200 0,088 0,011 0,001 0,000
5 0,246 0,201 0,103 0,026 0,001 0,000 0,000
4 0,205 0,111 0,037 0,006 0,000 0,000 0,000
3 0,117 0,042 0,009 0,001 0,000 0,000 0,000
2 0,044 0,011 0,001 0,000 1
0,000 0,000 0,000
1 0,010 0,002 0,000 0,000 0,000 0,000 0,000
o 0,001 0,000 0,000 0,000
1
0,000 0,000 0,000
22 Todo lo dicho sobre la curva de potencias y los factores de los que depende ha estado referido a
un contraste unilateral (H 0 : 7t .;; 0,5; H 1 : 7t > 0,5). En un contraste bilateral es posible obtener la potencia
y la curva de potencias utilizando razonamientos similares a los expuestos. Estos razonamientos pueden
consultarse, por ejemplo, en San Martín, Espinosa y Fernández, 1987, apartado 6.7.
1 - {J
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
o
0,50 0,60 0,70 0,80 0,90 0,99
0,95
Figura 3.11.-Curvas de potencias para diferentes valores de H 1 y :x.
TABLA 3.4
Potencia asociada a diferentes valores de n: 1 y oc
(resultados obtenidos a partir de la tabla 3.3)
"• 2 = 0,001 2 = 0,011 0,055
0,50 0,001 0,011 0,055

0,60 0,006 0,046 0,167
0,70 0,028 0,149 0,382
0,80 0,107 0,375 0,667
0,90 0,349 0,736 0,930
0,95 0,599 0,914 0,989
0,99 0,904 0,995 1,000
verdadero valor de H 1 y el tamaño de oc. En el siguiente apartado de este apéndice nos

ocuparemos de la relación existente entre la potencia y el tercero de los factores de los que
depende: el tamaño de la muestra.
Efecto del tamaño de la muestra sobre la potencia
Según hemos estudiado en el apartado 3.3, el primero de los factores que afectan a la
potencia es el valor concreto de H 1 considerado como verdadero. Pero lo cierto es que saber
esto no nos sirve de mucho a la hora de intentar aumentar la potencia de un contraste. Por
un lado, el verdadero valor de un parámetro concreto no es algo que dependa de nuestros
intereses, por lo que dificilmente podremos manipular ese valor para conseguir con ello
modificar la potencia de un contraste. Por otro lado, puesto que desconocemos cuál es el
verdadero valor del parámetro estudiado (si lo conociéramos no necesitaríamos efectuar un
contraste sobre él) ni siquiera podemos determinar cuál de todas las afirmaciones abarcadas
por H 1 es la verdadera para, con ello, conocer la potencia del contraste.
En segundo lugar, ya sabemos que un aumento de IX tiene como consecuencia directa una
reducción de la probabilidad de cometer un error de tipo 11 (fi) y, por tanto, un aumento de
la potencia. Podríamos, pues, aumentar arbitrariamente IX y conseguir, de esa forma tan
sencilla, una reducción automática de p y un aumento de la potencia. Pero ya sabemos que
aumentar IX significa aumentar la probabilidad asociada al error de tipo l. Por lo que un
aumento de IX con la finalidad de conseguir hacer más potente el contraste no parece
constituir una solución lo bastante razonable (excepto en el caso de que cometer un error de
tipo 11 sea claramente más grave que cometer un error de tipo 1).
Más razonable parece intentar conseguir un aumento de la potencia a través de una
reducción del error típico de la distribución muestra( del estadístico utilizado en el contraste.
Según hemos visto en el apartado 3.2, con una operación tan sencilla como aumentar el
tamaño de la muestra podemos obtener una reducción del tamaño del error típico de la
distribución muestra( del estadístico utilizado y, como consecuencia de ello, una disminución
de P y un aumento de la potencia.
Continuando con nuestro ejemplo del psicólogo supuestamente capaz de diagnosticar
trastornos de tipo neurótico a través de la escritura, recordemos que al contrastar la hipótesis
nula H 0 : n: = 0,5 frente a la alternativa H 1 : n: = 0,7 mediante el estadístico Z y con un
tamaño muestra( n = 10, hemos obtenido una potencia de 0,1492 (apartado 3.3.1).
Manteniendo la misma regla de decisión que entonces y, por tanto, el mismo valor para IX (es
decir, 0,0136), veamos qué ocurre ahora si, en lugar de utilizar una muestra de tamaño
n = 10, utilizamos una muestra de tamaño n = 25 (permaneciendo igual lo demás).
Dado que IX vale 0,0136, rechazaremos H 0 cuando el estadístico Z tome un valor igual o
mayor que 2,21 (ver figura 3.8; esto no ha cambiado respecto a la situación anterior: 2,21 era
y sigue siendo el valor en puntuaciones Z que corresponde a la línea vertical en la
distribución de H 0 ). Esto equivale a decir que rechazaremos H 0 cuando T1 (el número de
aciertos) tome un valor mayor o igual que 18,525, pues:
(T1 - 0,5) - 25(0,5)

2,21 = ~ T1 = 18,525
)25(0,5)(0,5)
La probabilidad de encontrar, en la distribución definida por H 1 : n: = 0,7, un número de

aciertos igual o mayor que 18,525 (es decir, la potencia del contraste), podemos obtenerla a
partir de la puntuación Z correspondiente a 18,525 en la distribución de H 1 :
(18,525 - 0,5) - 25(0,7)

z = = 0,23
)25(0,7)(0,3)
La probabilidad de encontrar valores Z mayores o iguales que 0,23 vale (buscando en la

tabla de la distribución normal estandarizada) P(Z ~ 0,23) = 0,4090. De modo que, aumen-
tando el tamaño muestral de 10 a 25, la potencia del contraste ha pasado de 0,1492 a 0,4090.
La figura 3.12 recoge estas probabilidades.
Cl = 0,0136
17,5 18,525
--------..-------z
o 0,23
Figura 3.12. Áreas correspondientes a las probabilidades ex, p, 1 - ex y 1 - p en un contraste unilateral
derecho (H i: n = O, 7; n = 25).
El efecto del tamaño de la muestra sobre la potencia de un contraste quedará, creemos,

definitivamente ilustrado si repetimos la misma operación utilizando un tamaño muestral
aún mayor. Siguiendo con la misma regla de decisión, veamos qué ocurre si aumentamos el
tamaño de la muestra de 25 a 100. Al igual que antes, :x = 0,0136, de modo que rechazaremos
H 0 cuando el estadístico Z tome un valor igual o mayor que 2,21 (ver de nuevo la figura 3.8;
2,21 era y sigue siendo el valor en puntuaciones Z que corresponde a la línea vertical en la
distribución de H 0 ). Esto equivale a decir que rechazaremos H 0 cuando T1 (número de
aciertos) tome un valor mayor o igual que 61,55, pues:
(Ti - 0,5) - 100(0,5)
2,21 = => Ti = 61,55
J 100(0,5)(0,5)
Por tanto, la potencia del contraste será la probabilidad de obtener, en la distribución
definida por Hi: n = 0,7, un número de aciertos igual o mayor que 61,55. Transformando
61,55 en puntuación Z en la distribución de H 1 podemos determinar esa probabilidad:
(61,55 + 0,5) - 100(0,7)

Z= = -1,73
J 100(0, 7)(0,3)
La probabilidad de encontrar valores Z mayores o iguales que -1,73 vale:

P(Z;;:::: -1,73) = 0,9582. De modo que, al aumentar el tamaño muestra! de 25 a 100, la
potencia del contraste ha pasado de 0,4090 a 0,9582. La figura 3.13 recoge estas probabili-
dades 23.
~ = 0,0136
Figura 3.13.-Áreas correspondientes a las probabilidades ~, {J, 1 - ~ y 1 - fJ en un contraste unilateral

derecho (H 1: n = 0,7; 11 = 100).
El efecto del tamaño muestra! sobre la potencia puede apreciarse con toda claridad
observando la curva de potencias. Para un nivel de significación ex dado, la curva de potencias
muestra un notable incremento en la potencia de un contraste a medida que el tamaño
muestra! va aumentando. La figura 3.14 ilustra esta idea. En ella están representadas las
curvas de potencias obtenidas al contrastar H 0 : n = 0,5 frente a H 1 : n > 0,5. Esas curvas se
han dibujado a partir de los datos de la tabla 3.5, los cuales se han obtenido utilizando la
tabla de la distribución binomial con: n = 0,5, 0,6, ... , 0,99; n = 10, 20; y ex = 0,001.
Por supuesto, al decir que la potencia de un contraste aumenta conforme lo hace el
tamaño muestra), lo que estamos diciendo es que la probabilidad de rechazar la H 0 sometida
a contraste es tanto mayor cuanto mayor es el tamaño de la muestra utilizada. La consecuen-
cia de esto es tan llamativa que no nos puede pasar desapercibida: cualquier hipótesis que se
nos ocurra plantear puede terminar siendo rechazada con la única condición de que el
23 La relación entre la potencia y el tamaño de la muestra es similar a la relación antes vista entre la
potencia y el verdadero valor de H 1 • Hemos visto que, a medida que el valor propuesto para el
parámetro en H 1 se va alejando del valor propuesto en H 0 , la potencia va aumentando. Del mismo
modo, a medida que 11 va aumentando, también la potencia lo va haciendo, permaneciendo todo lo
demás igual.
1-P
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
o
0,50 0,60 0,70 0,80 0,90 0,99
0,95
Figura 3.14.-Curvas de potencias para dos tamaños muestrales diferentes.
TABLA 3.5
Potencias asociadas a diferentes tamaños muestra/es
( n = 10 y n = 20) al contrastar
H 0 : n = 0,5 frente a H 1 : n > 0,5 con :x = 0,001
1 - p con n = 10 1-Pconn=20
"•
0,50 0,001 0,001
0,60 0,006 0,015
0,70 0,028 0,108
0,80 0,107 0,412
0,90 0,349 0,867
0,95 0,599 0,984
0,99 0,904 1,000
tamaño de la muestra sea lo bastante grande (siempre, claro está, que esa hipótesis no sea
exactamente verdadera; es decir, siempre que exista una ligera discrepancia, por pequeña que
sea, entre la hipótesis plateada y la situación verdadera). Un sencillo ejemplo nos ayudará a
comprender esta idea.
EJEMPLO 3.4. La variable cociente intelectual (CI) se distribuye, en la población

española, normalmente con media 100 y desviación típica 15: N(IOO, 15). Parece ser
que las personas con ideas políticas radicales poseen un CI superior a la media aunque
igualmente distribuido. Para confirmar esta sospecha, un psicólogo selecciona aleato-
riamente una muestra de 25 personas radicales y, tras medir su CI obtiene una media
de 102. ¿Podemos, con estos datos y con un nivel de confianza de 0,95, afirmar que la
inteligencia media de las personas radicales es superior a la de la población española?
Se trata de un contraste sobre la media de una población. El procedimiento que
debemos seguir es idéntico al expuesto en el ejemplo 3.2.
l. Hipótesis:
H 0 : µ = 100.
H 1 : µ > 100 (contraste unilateral derecho).
2. Supuestos:
Podemos suponer, como se nos dice, que la variable CI se distribuye normal-
mente en la población.
Extraemos una muestra aleatoria de 25 observaciones.
3. Estadístico de contraste y distribución muestra(:
z =(X - ~ z = (102 - 100)/(15/j25) = 0,67.

µ)/(a/Jnl
Z se distribuye según la normal estandarizada N(O, 1).
Rechazar H 0 si el estadístico de contraste Z toma un valor mayor que el
percentil 100(1 - oc)= 100(1 - 0,05) = 95 de la distribución N(O, 1), es decir, un
valor mayor que z0 . 95 = 1,64 (contraste unilateral derecho).
5. Decisión:
Dado que z = 0,67 es menor que z0 • 95 = 1,64, debemos mantener H 0 y
concluir que no disponemos de evidencia suficiente para pensar que H 0 : µ = 100
es falsa. No podemos concluir que la población de personas radicales poseen un
CI superior al del resto de la población.
A esta conclusión hemos llegado utilizando una muestra de 25 sujetos. Veamos qué
ocurre si vamos aumentando el tamaño de la muestra y suponemos que el CI
observado es siempre el mismo: 102. Comencemos con un tamaño muestra! de 50:
z = (102 - 100)/(15/.jSo) = 0,94. Dado que z = 0,94 es menor que z0 •95 = 1,64, con
n = 50 seguimos manteniendo H 0 .
Con n = 100: z = (102 - 100)/(15/..jTOO) = 1,33. Como z = 1,33 es menor que
z0 •95 = 1,64, también con n = 100 mantenemos H 0 .
Con n = 200: z = (102 - 100)/(15/)200) = 1,89. Como z = 1,89 es mayor que
z0 , 95 = 1,64, rechazamos H 0 •
A pesar de que una discrepancia de 2 puntos (la que hay entre 100 y 102) es
bastante pequeña en términos de CI, aumentando el tamaño muestra) lo suficiente
(hasta 200) hemos terminado rechazando la hipótesis H 0 : µ = 1OO.
Llegados a este punto, cabe preguntarse cuál ha de ser el tamaño de la muestra para
conseguir que un contraste concreto alcance una determinada potencia. Continuemos con el
ejemplo del psicólogo supuestamente capaz de diagnosticar a través de la escritura. Plantee-
mos la hipótesis nula H 0 : n = 0,5 frente a la alternativa H 1 : n = O, 7 y llamemos Pe al punto
que separa la zona crítica de la zona de aceptación. Si nos fijamos en la figura 3.13 podremos
constatar que, en la distribución correspondiente a H 0 , se verifica:
(3.2)
Algo parecido ocurre en la distribución correspondiente a H 1:

P, - nn 1
Zp = => P, = nn 1 + zpjnn 1(1 - n 1) (3.3)
Jnn 1(1 - n 1)
De (3.2) y (3.3) se deduce que:
(3.4)
por lo que:
(3.5)
La ecuación (3.5) nos permite obtener el tamaño muestra! necesario para alcanzar una
determinada potencia, con un nivel de significación oc y una distancia dada entre n 0 y n 1 . Es
decir, el tamaño necesario para que el contraste sea capaz de detectar, con una probabilidad
1 - p, que H 0 : n = n 0 es falsa (y siendo verdadera H 1 : n = n ¡). En todo momento nos
estamos refiriendo a un contraste unilateral (derecho o izquierdo, indistintamente). Si el
contraste es bilateral, basta con sustituir z 1 - · por z 1 _ 012 •
En ocasiones, obtener una determinada potencia requerirá un tamaño muestra! demasia-
do grande, un tamaño tal vez dificil de conseguir. Muchas de las investigaciones llevadas a
cabo en el contexto de las ciencias sociales, y especialmente en psicología, necesitan utilizar
diseños en los que resulta muy costoso y nada fácil trabajar con muestras grandes. Es el
investigador quien debe evaluar la importancia de cometer cada tipo de error en una
situación concreta y si la ganancia que se obtiene al aumentar la potencia del contraste
compensa el esfuerzo necesario para incrementar el tamaño muestra!.
La ecuación (3.5) es fácilmente generalizable a otro tipo de situaciones. Incluso puede
simplificarse considerablemente cuando el error típico de la distribución muestra! utilizada
sea el mismo bajo H 0 y H 1 , como en el caso de la media. Dado que ax= a/Jn,
tendremos,
de acuerdo con (3.4):
(J (J
µ1 - µO= Z1 -• Jn- Zp Jn (3.6)
por lo que:
(3.7)
nos permitirá obtener el tamaño muestra) necesario para alcanzar una determinada potencia,
para un nivel de significación IX y para una distancia dada entre µ 0 y µ 1 • Si desconocemos u 2 ,
podemos estimarla.
EJEMPLO3.5. Al contrastar la hipótesis nula H 0 : n = 0,5 frente a la alternativa

H 1: n 0,7 con un nivel de significación IX= 0,05, ¿cuál debe ser el tamaño de la
=
muestra para que la potencia del contraste valga 0,80?
Aplicamos la ecuación 3.5:
n = (zo.9sJ0,5(1 - 0,5) - z0 •20 J0,7{1=-0,7}) 2
0,7 - 0,5
l,64J0,25 - (-0,84)J0,21) 2
=( = 36 297
0,2 '
Redondeando al entero mayor, vemos que el tamaño necesario para obtener una
potencia de 0,80, con IX = 0,05 y n 1 - n 0 = 0,2 es de 37.
EJERCICIOS
3.1. ¿Cuáles de las hipótesis que siguen están bien formuladas?

a) H 0 : 11 = 3; H 1: 11 ~ 3 e) H 0: µ ~ 3; H 1: µ ~ 3
b) H 0 : µ > 3; H 1: 11 < 3 f) H 0 : n ~ 0,5; H 1: n i' 0,5
e) H 0 : n ~ 0,5; H 1: n < 0,5 g) H 0 : µ i' 3; H 1: µ = 3
d) H 0 : n = 0,5; H 1: n > 0,5 h) H 0 : µ < 3; H 1: µ ~ 3
3.2. Asigne a cada concepto el número de la definición que le corresponde:

1. Probabilidad de rechazar H 0 siendo falsa ()IX
2. Probabilidad de aceptar H 0 siendo falsa ( ) fJ

3. Probabilidad de rechazar H 0 siendo verdadera ( ) 1- IX
4. Probabilidad de aceptar H 0 siendo verdadera () 1 -P
3.3. Sean H 0 : µ = 30 y H 1 : µ = 40 las hipótesis nula y alternativa acerca de una población

normal con a 2 = 100. Si extraemos de esa población una muestra aleatoria de 25 sujetos,
¿que valor debe tomar la probabilidad de cometer un error de tipo 1 para que al contrastar
las mencionadas hipótesis valga 0,9962 la probabilidad de rechazar H 0 siendo falsa?
3.4. Queremos contrastar la hipótesis de que el nivel de ingresos medio de cierto colectivo
español es de 115.000 pesetas, con u = 30.000, frente a la hipótesis alternativa de que el nivel
de ingresos medio es de 100.000 pesetas. Si utilizamos una muestra aleatoria de 25 sujetos y
un nivel de confianza de 0,95, ¿cuál será la potencia del contraste?
3.5. ¿Cuánto disminuiríamos la probabilidad de cometer un error de tipo 11 en el contraste

del ejercicio anterior si, permaneciendo todo exactamente igual, utilizáramos una muestra de
50 sujetos?
3.6. ¿Cuánto vale, utilizando un nivel de riesgo de 0,01, la probabilidad de cometer un error
de tipo 11 al contrastar la hipótesis nula H 0 : µ = 60 frente a la alternativa H 1 : µ = 65 con una
muestra aleatoria de 40 sujetos extraída de una población normal con a 2 = 160?
3.7. ¿Qué tamaño debería tener la muestra del ejercicio anterior para que la potencia del
contraste aumentara un 15 por ciento? (ver apéndice 3).
3.8. En un contraste sobre H 0 : µ = 420, ¿para qué valores de X rechazaríamos H 0

utilizando una muestra aleatoria de tamaño 36 extraída de una población normal con
a 2 = 324? (considérese ex = 0,01 y el contraste bilateral).
3.9. Utilizando ex= 0,05 y una muestra aleatoria de 20 sujetos extraída de una poblaciór1
normal con a 2 = 80, trace la curva de potencias que se obtendría al contrastar la hipótesis
nula H 0 : µ = 30 frente a las alternativas H 1 : µ = 31, H 1 : µ = 32, H 1 : µ = 33, H 1 : µ = 34, H 1 :
µ = 35, H 1 : µ = 36 y H 1 : µ = 37 (ver apéndice 3).
3.10. ¿Qué curva de potencias obtendríamos si efectuáramos los contrastes del ejercicio
anterior con el mismo nivel de significación pero con una muestra de 80 sujetos? (ver
apéndice 3).
3.1 t. Un estadístico de contraste V tiene las funciones de distribución de probabilidad que

aparecen en la tabla 3.6. Llevado a cabo un contraste unilateral izquierdo con una determi-
nada muestra obtenemos V= - l.
TABLA 3.6
V -1 -0,5 o 0,5 1 1,5 2
F(v) bajo H 0 verdadera 0,03 0,05 0,37 0,65 0,90 0,97 1

F(v) bajo H 0 falsa 0,15 0,35 0,63 0,77 0,85 0,94 1
a) Establezca una regla de decisión en términos de probabilidad.

b) ¿Qué decisión tomará sobre H 0 ? ¿Por qué?
e) ¿Cuál será el valor del nivel crítico?
d) ¿Cuál será la potencia del contraste si utilizamos ex = 0,05?
3.12. El estadístico de contraste X se distribuye según se muestra en la tabla 3.7.
TABLA 3.7
X o 1 2 3 4
f(x) con 7t = 0,40 0,130 0,345 0,345 0,154 0,026

f(x) con 7t = 0,60 0,026 0,154 0,345 0,345 0,130
Si planteamos, con :x = 0,05, el siguiente contraste: H 0 : n = 0,40, H 1 : n = 0,60,

a) ¿Cuál será la decisión respecto a H 0 si x = 3?
b) ¿Qué tipo de error podríamos estar cometiendo con nuestra decisión?
c) ¿Cuál es la probabilidad de cometer tal error?
d) ¿Cuál es la potencia del contraste?
3.13. (Diga cuál de las siguientes afirmaciones es verdadera). Si en un contraste unilateral

derecho utilizamos como nivel de significación 0,005:
a) La probabilidad de mantener H 0 siendo falsa es 0,005.
b) La probabilidad de rechazar H 0 siendo falsa es 0,005.
c) La probabilidad de rechazar H 0 siendo verdadera es 0,005.
d) La probabilidad de mantener H 0 siendo falsa es 0,995.
e) La probabilidad de rechazar H 0 siendo verdadera es 0,995.
3.14. (Diga cuál de las siguientes afirmaciones es verdadera). En un contraste cualquiera

obtenemos un estadístico de contraste H = 6,13 tal que P(H < 6,13) = 0,05. Si el contraste es
unilateral derecho:
a) Decidiremos mantener H 0 •
b) Decidiremos rechazar H 0 •
c) La probabilidad de rechazar H 0 , siendo falsa. vale 0.9.5
d) Podemos rechazar H 0 con una probabilidad de equivocarnos de 0,05.
e) Al mantener H 0 siendo verdadera, la probabilidad de equivocarnos es de al menos
0,05.
3.15. Supongamos que la variable aleatoria C¡ se distribuye N(µ, 10) en una determinada
población. Planteamos dos hipótesis acerca del parámetro desconocido µ:
H 0 : µ = 50
H 1 : µ = 58
Para efectuar el contraste, extraemos una muestra aleatoria de 25 observaciones. Razone

sobre cuál de las siguientes dos regiones criticas es mejor teniendo en cuenta los valores de
:x y P:
(46 ~e~ 54)

(C ~ 53,4)
3.16. Para contrastar la hipótesis de que el 50 por 100 de los sujetos de una ciudad española
se encuentran en paro se adoptó la siguiente regla de decisión: rechazar dicha hipótesis si en
una muestra de tamaño 100 seleccionada aleatoriamente de esa ciudad se obtienen menos de 40
o más de 60 sujetos en paro: mantenerla en caso contrario. Averiguar:
a) La probabilidad de rechazar la hipótesis cuando en realidad es verdadera.
b) La probabilidad de mantener la hipótesis cuando en realidad hay un 70 por 100 de
parados.
3.17. Los habitantes de Niagara-Falls (Estados Unidos) corren el riesgo de sufrir taras
genéticas irremediables debidas a ciertos desechos químicos enterrados en el subsuelo. Las
autoridades proponen evacuar la ciudad si más de la quinta parte de la población presenta
anomalías cromosómicas.
Hace unas semanas se tomaron aleatoria e independientemente muestras de sangre de 36
habitantes, 11 de los cuales presentaron anomalías cromosómicas. Ante los datos obtenidos
en la muestra:
a) ¿A partir de qué nivel de significación se tomará la decisión de evacuar la población?
b) ¿Cuál es la potencia del contraste frente a la hipótesis de que la verdadera proporción
de afectados es de un tercio?
3.18. ¿Cuál es el nivel de significación utilizado en un determinado experimento si al

contrastar la hipótesis nula H 0 : µ = 15 frente a la alternativa H 1 : µ = 21, utilizando una
muestra aleatoria de de tamaño 20 extraída de una población normal con u 2 = 180, vale 0,80
la probabilidad de rechazar la hipótesis nula siendo falsa?
3.19. Un test de inteligencia baremado en la población argentina se distribue N(l00, 15). Al

trasladarlo a la población española se supone que el promedio será superior a 100. Extraída
una muestra aleatoria de 100 sujetos españoles se obtiene una media de 103,5.
a) ¿Qué podemos inferir con un nivel de confianza de 0,99?
b) Supongamos que sea absolutamente necesario reestandarizar el test (adaptar los
baremos) si el promedio poblacional para los españoles es de al menos 103. ¿Cuál
sería la potencia del contraste del apartado anterior?
e) ¿Cuál habría de ser el tamaño de la muestra para alcanzar una potencia de 0,95?
(Ver apéndice 3).
3.20. Consideremos una población en la que la variable aleatoria Y¡ se distribue N(µ, 15). Se
desea contrastar la hipóteis nula H 0 : µ = 30 frente a la alternativa H 0 : µ = 33, con una
muestra de tamaño 100. Deseamos que la probabilidad de mantener H 0 siendo verdadera
valga como mínimo 0,95.
a) ¿Cuál será el valor de rY.?
b) ¿Cuál será el valor de fJ?
e) ¿Cuál ha de ser el tamaño de la muestra para que, sin modificar rY., el valor de Pquede
reducido a la mitad?
SOLUCIONES
3.1. La e y la d.
3.2. (3) (1.
(2) p
(4) 1 -(1.
(1) 1 -P
3.3. rx = P(Z ~ 2,33) = 0,01.
3.4. 1- p= P(Z::::; 0,86) = 0,8051.
3.5. O, 1651.
3.6. p= P(Z ::::; -0, 17) = 0,4325.
3.7. n = 47.
3.8. Rechazaríamos H 0 paraX<412,26yX>427,74.
3.9. XC= 33,28.

Con H 1: µ = 31, (1 - p) = 0,1271 1-P
1,00
Con H 1: µ = 32, (1-P)=0,2611
0,90
Con H 1: µ = 33, (1 - p) = 0,4443 0,80
Con H 1: µ = 34, (1 - p) = 0,6406 0,70
0,60
Con H 1: µ = 35, (1 - p) = 0,8051 0,50
0,40
Con H 1: µ = 36, (1 - p¡ = 0,9131
0,30
Con H 1: µ = 37, (1 - p¡ = 0,9686 0,20
0,10
0-1-'IA.~~~~~~~~~ H,
31 32 33 34 35 36 37
3.10. XC= 31,64.

Con H 1: µ = 31, (1 - p) = 0,2611 1-p
Con H 1: µ = 32, (1 - p) = 0,6406 1,00
0,90
Con H 1: µ = 33, (1 - p) = 0,9131 0,80
Con H 1: µ = 34, (1 - p) = 0,9909 0,70
0,60
Con H 1: µ = 35, (1 - p¡ = 0,9996 0,50
Con H 1: µ = 36, (1 - p) = 0,9999 0,40
0,30
Con H 1: µ = 37, (1 - p) = 0,9999 0,20
0,10
o~-.---,----r~..--.---,----r-H 1
31 32 33 34 35 36 37
3.11. a) Rechazar H 0 si P( V::::; vk) ::::; 0,05.

b) Rechazarla. Por que P( V::::; - 1) < 0,05.
e) P(V::::; -1) = 0,03.
d) 1 - p = 0,35.
3.12. a) Mantenerla, pues P(X ~ 3) = 0,180 > 0,05.

b) Error de tipo 11.
e) p = 0,870.
d) 1 - p = O, 130.
3.13. Sólo es verdadera la afirmación c.
3.14. Sólo es verdadera la afirmación a.
3.15. Con la primera región crítica: IX= 0,0456 y p = 0,0228.

Con la segunda región crítica: IX= 0,0446 y p = 0,0107.
La segunda región crítica parece mejor (IX es parecida en las dos, pero p es el doble de
grande en la primera).
3.16. a) IX= P(-2,1~Z~2,1) = 0,0358 (con corrección por continuidad).

b) fl = P(-6,66 ~ Z ~ -2,07) = 0,0192 (con corrección por continuidad).
3.17. a) p = P(Z ~ 1,37) = 0,0853 (con corrección por continuidad).

b) 1 - fl = P(Z ~ -0,53) = 0,7019 (con corrección por continuidad).
3.18. IX= P(Z ~ 1,16) = 0,123.
3.19. a) P(Z ~ 2,333) < 0,01; por tanto, rechazamos H 0 y concluimos que, con los datos
disponibles, existe evidencia suficiente para pensar que la media de la población
española es mayor que 100.
b) 1 - p = P(Z ~ 0,33) = 0,3707.
e) /1 = 395.
3.20. a) IX = 0,05 (probabilidad de rechazar H 0 cuando es verdadera).

b) /1 = P(Z ~ -0,36) = 0,3594.
e) n = 164.
PARTE SEGUNDA
Análisis de datos cuantitativos
Estudiados Jos conceptos fundamentales relacionados con Ja inferencia estadísti-
ca, Ja estimación y el contraste, nuestro interés quedará centrado a partir de ahora
en Ja descripción de diferentes procedimientos inferenciales concretos. Estos proce-
dimientos concretos, a Jos que generalmente llamaremos técnicas de análisis, poseen
peculiaridades específicas dependiendo del tipo de situación experimental para la
que han sido diseñados: unos procedimientos permiten comparar dos grupos, otros
permiten comparar más de dos grupos; unos procedimientos permiten analizar
datos obtenidos con grupos de sujetos diferentes, otros permiten analizar datos
obtenidos con los mismos sujetos; unos procedimientos aprovechan las propiedades
cuantitativas de Jos datos, otros se limitan a las propiedades cualitativas de Jos
mismos; etc.
Atendiendo a estas peculiaridades, podríamos agrupar o clasificar las diferentes
técnicas de análisis de datos utilizando diferentes criterios. De entre ellos, nosotros
hemos optado aquí por clasificar Jos procedimientos inferenciales o técnicas de
análisis basándonos en el tipo de datos que permiten manipular. Este criterio nos ha
llevado distinguir entre a) técnicas de análisis para datos cuantitativos; b) técnicas de
análisis para datos semicuantitativos; y c) técnicas de análisis para datos cualitativos.
Con datos cuantitativos nos estamos refiriendo a datos obtenidos utilizando una
escala de medida de intervalo o de razón. Con datos semicuantitativos nos referimos
a datos obtenidos utilizando una escala de medida ordinal. Con datos cualitativos
nos referimos, por último, a datos cuyas propiedades se corresponden con las del
nivel de medida nominal. Cualquier otra clasificación podría resultar igualmente
válida. Esta nuestra obedece al hecho de que Jos datos obtenidos con una escala de
medida concreta poseen ciertas propiedades que no se dan en Jos obtenidos con
otra escala de medida diferente; lo cual queda reflejado de forma definitiva en el
hecho de que los procedimientos de análisis diseñados para cada tipo de datos
poseen, según tendremos ocasión de comprobar, peculiaridades propias.
En esta segunda parte nos vamos a ocupar de Ja descripción de los procedimien-
tos de análisis diseñados para el tratamiento de datos de tipo cuantitativo. Cual-
quiera que sea el nivel de medida de Jos datos con Jos que trabajemos, las técnicas
de análisis de mayor utilidad son, generalmente, las que permiten comparar grupos
de sujetos y estudiar Ja relación entre dos o más variables. Con datos cuantitativos,
en concreto, para comparar grupos y estudiar la relación entre variables nos
serviremos de Jos estadísticos media y correlación, pues esos son Jos estadísticos que
resulta relevante estudiar (al menos en una primera aproximación) cuando el nivel
de medida de los datos es de intervalo o razón (es decir, esos son los estadísticos
que nos proporcionan la información más completa en esos niveles de medida).
Es muy importante señalar en este momento que, aunque el tipo de datos
disponibles condiciona en gran medida el tipo de análisis que es posible efectuar, la
elección de la técnica de análisis apropiada viene también, y tal vez principalmente,
condicionada por el diseño de investigación utilizado. Por supuesto, éste no es el
lugar para profundizar en el concepto de diseño de investigación (ver, para ello,
León y Montero, 1997), pero sí nos parece necesario recordar brevemente algunas
ideas básicas de especial utilidad para el resto de los contenidos que siguen.
Los diseños experimentales y cuasiexperimentales (o selectivos), que son a los
que se aplican las técnicas de análisis incluidas en esta parte, pueden ser
clasificados, en primer lugar, atendiendo al número de variables independientes
utilizadas. Si sólo hay una variable independiente (VI), el diseño es de un factor o
unifactorial; si hay dos o más VI, el diseño es factorial. También pueden distinguirse
los diseños por el número de variables dependientes utilizadas, pero nosotros aquí
únicamente haremos referencia a diseños con una variable dependiente.
En los diseños unifactoriales resulta útil establecer una distinción relacionada
con el número de valores o niveles de la VI. Una VI puede tomar dos valores o más;
cuando toma dos valores hablamos de diseños de dos muestras; cuando toma más
de dos valores, hablamos de diseños de J muestras. Un caso especial lo constituye
aquel en el que no existe ninguna VI; simplemente medimos una variable para
estudiarla y ver qué ocurre con ella; hablamos entonces de diseño de una muestra.
Una última característica de los diseños tiene que ver con el tipo de muestras
que se utilizan. En Diseño de investigaciones (León y Montero, 1997) se establece la
distinción entre diseños con sujetos diferentes y diseños con los mismos sujetos.
Dentro de los diseños con sujetos diferentes podemos distinguir entre diseños de
grupos aleatorios y diseños de bloques aleatorios. En primer lugar, desde el punto
de vista del análisis de datos, hablar de grupos aleatorios es equivalente a hablar de
muestras independientes: se forman tantos grupos de sujetos (de cualquier tamaño y,
por tanto, no necesariamente del mismo) como niveles tiene la VI y cada grupo es
asignado aleatoriamente a cada uno de los niveles de la VI. Así mismo, hablar de
bloques aleatorios (en el caso de más de un sujeto por nivel y bloque) equiva-
le también a hablar de muestras independientes. Por tanto, las técnicas de análisis de
datos para muestras independientes permiten analizar tanto los datos de un diseño
de grupos aleatorios como los datos de un diseño de bloques aleatorios con más de
un sujeto por nivel y bloque.
En segundo lugar, hablar de diseños con los mismos sujetos equivale, en el
contexto del análisis de datos, a hablar de muestras relacionadas: a los mismos
sujetos se les toma J ( J = niveles de la VI) medidas. En estos casos hablamos de
diseños intrasujetos o de medidas repetidas: bien porque se miden J variables
diferentes en los mismos sujetos, bien porque la misma variable es medida en los
mismos sujetos en J momentos diferentes. Así mismo, hablamos de muestras
relacionadas cuando, como en el caso de los diseños de bloques aleatorios con un
Análisis de datos cuantitativos / 183
sujeto por nivel y bloque, esas J medidas no se toman al mismo sujeto sino a J
sujetos igualados o emparejados utilizando algún criterio considerado relevante. Por
tanto, las técnicas de análisis de datos para muestras relacionadas permiten analizar
tanto los datos de un diseño con los mismos sujetos (diseños intrasujetos o de
medidas repetidas) como los datos de un diseño de bloques aleatorios con un sujeto
por nivel y bloque.
Por ejemplo, en una investigación sobre memoria se quiere evaluar el efecto de
cierto distractor sobre el recuerdo; tenemos una VI con dos niveles: presencia del
distractor y ausencia del distractor; y tenemos una variable dependiente: el recuerdo
(el cual puede medirse de diferentes maneras). Para evaluar el efecto del distractor
sobre el recuerdo podemos proceder de tres maneras diferentes: l) seleccionando
dos grupos de sujetos y asignado cada uno de ellos a cada nivel de la VI; 2)
seleccionando un solo grupo de sujetos y aplicando a todos ellos ambos niveles de
la VI; 3) seleccionando un grupo de pares 1 de sujetos igualados en alguna variable
considerada de interés (CI, edad, nivel de estudios, etc.) y asignando al azar un
miembro de cada par a cada uno de los niveles de la VI. En el caso l estaríamos
utilizando dos muestras independientes (grupos aleatorios); en los casos 2 y 3, dos
muestras relacionadas (medidas repetidas en el caso 2 y bloques aleatorios con un
sujeto por nivel y bloque en el caso 3). En los tres casos podemos determinar si
existe efecto del distractor comparando el recuerdo obtenido con distractor y el
obtenido sin distractor. En general, es preferible (cuando es posible) el uso de
muestras relacionadas pues de esa forma se elimina variación debida a las diferen-
cias entre sujetos 2 •
Conviene señalar, para terminar esta breve introducción, que el concepto
de muestra no debe ser confundido con el concepto de grupo. En el contexto del
análisis de datos, muestra se refiere, no a grupo de sujetos, sino a un conjunto de
datos. Siempre hay una muestra de datos para cada nivel de la VI. En los diseños
de grupos aleatorios muestra y grupo coinciden: cada grupo de sujetos genera una
muestra de datos. Pero en los diseños de medidas repetidas, por ejemplo, muestra y
grupo no coinciden: cada grupo genera más de una muestra de datos. Resulta
posible, por tanto, disponer de más de una muestra de datos con un único grupo de
sujetos.
1 Decimos pares porque los niveles de la VI son dos. Si fueran tres, seleccionaríamos tríos de sujetos,
etcétera.
2 Si utilizamos muestras independientes, la variabilidad en el recuerdo medio puede deberse no sólo
a las condiciones del experimento, sino a factores no sujetos a control como el sexo, la edad, el CI, el
nivel cultural, etc. Si se utilizan los mismos sujetos o sujetos emparejados, es mucho más probable que
la variabilidad observada se deba a las condiciones experimentales.
Contrastes de hipótesis
sobre medias
4
4.1. Contraste de hipótesis sobre una media.

4.2. Contraste de hipótesis sobre dos medias independientes.
4.2.1. Suponiendo varianzas iguales.
4.2.2. Suponiendo varianzas distintas.
4.3. Contraste de hipótesis sobre dos medias relacionadas.
4.3.1. Observaciones perdidas.
4.4. Tamaño del efecto en los contrastes sobre medias.
Apéndice 4.
Distribución muestra! de Y, - Y2 suponiendo a, = a2 •
Contraste de hipótesis sobre igualdad de varianzas.
Cálculo de la potencia en los contrastes sobre medias.
Ejercicios.
4.1. Contraste de hipótesis sobre una media
El contraste de hipótesis sobre una media sirve para tomar decisiones acerca del
verdadero valor poblacional que corresponde a la media de una variable. Nos
encontramos, por tanto, ante un diseño con una muestra. Ya hemos estudiado en el
capítulo 1 (apartado 1.3.2) la distribución muestral de la media. Además, al describir
la lógica general del contraste de hipótesis, hemos utilizado ejemplos referidos a la
media. Esto ayudará, sin duda, a que los procedimientos concretos diseñados para
contrastar hipótesis sobre la media sean fácilmente asimilables ahora.
Sabemos que si extraemos una muestra aleatoria de tamaño n de una población
normal N(µ, u) y calculamos la media Y, esa media es un estadístico (una variable
aleatoria) distribuido normalmente N(µ, u/Jn). Sabemos también, por el teorema
central del límite, que, aun desconociendo la forma de la población de donde
extraemos la muestra, el estadístico Ytiende a distribuirse normalmente N(µ,u/Jn)
a medida que el tamaño de la muestran va aumentando. Y también sabemos, por
último, que, bajo las mencionadas circunstancias, la transformación:
(Y-µ)
Z=-- (4.1.)
u/Jn
se distribuye según el modelo normal N(O, 1), por lo que podemos utilizar la
distribución normal estandarizada para conocer las probabilidades asociadas a los
diferentes valores de Y.
Precisamente el conocimiento de esas probabilidades es el que nos proporciona
la posibilidad de tomar decisiones respecto al parámetro µ. Para ello, basta con
seguir los pasos descritos en el capítulo anterior al hablar de la lógica del contraste
de hipótesis. En el ejemplo 3.2 hemos seguido esos pasos. Y el ejemplo 4.1 que
aparece a continuación también los sigue.
EJEMPLO 4.1. En un centro de educación especial se utiliza un método de

comprensión lectora con el que se viene obteniendo un promedio de 6 y una
desviación típica de 2 en una prueba estandarizada de comprensión lectora. Un
educador especialista en problemas de lectura ofrece al centro la posibilidad de utilizar
un nuevo método que, según él, es más económico y eficaz. El centro estaría dispuesto
a adoptar ese nuevo método siempre que no se demostrara que con él el rendimiento
es inferior al obtenido con el método antiguo. Se selecciona una muestra aleatoria de
36 niños y, durante un periodo de tiempo, se aplica el nuevo método. Tras la
instrucción, se pasa la prueba estandarizada de comprensión lectora y se obtiene una
media de 5. Si asumimos que la desviación típica es la misma con los dos métodos,
¿qué decisión deberá tomarse? (oc = 0,01).
l. Hipótesis: H 0 : µ ~ 6; H 1 : µ < 6 (contraste unilateral izquierdo).
2. Supuestos: No conocemos la distribución de las puntuaciones en comprensión

lectora, pero la muestra es lo bastante grande (n > 30) como para suponer que la
distribución muestral de la media será normal; la muestra es aleatoria; u= 2.
3. Estadístico de contraste:
Y-µ 5-6
Z = - - = - - = -3
u/Jn 2/fi
4. Distribución muestra(: Z se distribuye N(O, 1).
5. Zona crítica: Z ~ z0 , 01 = -2,33.
6. Decisión: Como - 3 < - 2,33, rechazamos H 0 • Concluimos que el promedio

obtenido con el nuevo método es significativamente inferior al obtenido con el
método antiguo; en consecuencia, el centro decidirá no adoptar el nuevo método.
La situación descrita en el ejemplo anterior, aunque simple y útil para exponer

la lógica del contraste de hipótesis, es bastante infrecuente en la investigación
empírica. Generalmente, si conocemos la desviación típica a de una población,
también conoceremos la media µ de esa población y, por tanto, no necesitaremos
hacer ningún tipo de inferencia sobre ella. Por otra parte, si conociendo ambos
parámetros deseamos ver si la media ha cambiado como consecuencia de, por
ejemplo, algún tipo de intervención, lo razonable será suponer que también la
varianza habrá podido cambiar y, por tanto, dejado de ser conocida.
Estas consideraciones sugieren que, al contrastar hipótesis sobre la media de
una población, la situación con la que generalmente nos encontraremos será aquella
en la cual los parámetros poblacionales (tanto µ como a) serán desconocidos.
Y cuando esto es así, la forma de proceder difiere de la descrita en el último ejemplo.
Si de una población normal extraemos una muestra aleatoria de tamaño n y
calculamos en ella el estadístico media Y, la transformación:
Y-µ Y-µ
T=---- (4.2)
Sn_ifJn S,J~
Contraste de hipótesis sobre medias / 189
es una variable aleatoria que se distribuye 1 según el modelo probabilístico t de

Student con n - 1 grados de libertad. Por tanto, podemos utilizar Ja transformación
T y Ja distribución de probabilidad t de Student para conocer las probabilidades
asociadas al estadístico Y cuando desconocemos cr; Jo cual nos permitirá tomar
decisiones sobre el parámetroµ. El procedimiento que debemos seguir, de acuerdo
con la lógica expuesta en el capítulo anterior, puede quedar resumido según se
muestra en el cuadro 4.1.
CUADRO 4.1
Contraste de hipótesis sobre una media. Resumen del procedimiento
1. Hipótesis:
a) Contraste bilateral: H 0 : µ = µ 0 ; H 1: µ ':#. µ 0 •
b) Contraste unilateral derecho: H0 : µ :S µ 0 ; H 1: µ > µ 0 •
e) Contraste unilateral izquierdo: H0 : µ ~ µ 0 ; H 1: µ < µ 0 •
2. Supuestos:
a) Población de partida normal.
b) Muestra aleatoria de tamaño n.
3. Estadístico de contraste 2:
T= =-----
Y-µº
S,/...ffi""=l
4. Distribución muestra]: T se distribuye t 11 _ 1•
5. Zona crítica:
a) Contraste bilateral: T:S al'.!.t 1 y T~ 1 _a12f
11 _ 11 _1.
b) Contraste unilateral derecho: T ~ 1 _ªt11 _ 1•

e) Contraste unilateral izquierdo: T:S ªt11 _ 1.
6. Regla de decisión: se rechaza H0 si el estadístico de contraste cae en la zona crí-

tica; en caso contrario, se mantiene.
1 Ver, en el capítulo 1, el apartado referido a la distribución muestral de la media (apartado 1.3.2.).

2 Si el tamaño muestra( es lo bastante grande, este procedimiento coincide con el descrito en el
ejemplo 4.1, donde a es un valor conocido (lo cual significa que, a medida que el tamaño muestra! va
aumentando, va resultando irrelevante el hecho de que a sea conocida o desconocida). Recordemos que,
a medida que el tamaño de la muestra va aumentando, la distribución t de Student se va pareciendo más
y más a la normal. Por ejemplo, el percentil 95 de la distribución normal estandarizada vale 1,645; y en
la distribución t. con 11 = 10, el percentil 95 vale 1,812; con n = 50. 1,676: con n = 90, 1,662; etc. Si el
tamaño muestral es lo bastante grande, siempre resulta imposible utilizar la distribución normal para cono-
cer las probabilidades asociadas a la media, tanto si conocemos a como si no.
En lugar de establecer un nivel de significación y a partir de él una zona crítica,

podemos proceder, alternativamente, sirviéndonos del nivel crítico (p). Recordemos
que el nivel crítico representa la probabilidad asociada al valor concreto adoptado
por el estadístico de contraste. Si el contraste es bilateral, el nivel crítico viene dado
por p = 2[P(T :; .-: ltkl)], siendo tk el valor concreto tomado por el estadístico T; si el
contraste es unilateral derecho, el nivel crítico vale p = P(T :; .-: tk); y si el contraste es
unilateral izquierdo, el nivel crítico vale p = P(T ~ tk). Calculado el nivel crítico, p,
decidiremos rechazar H 0 si p es menor que a (pues si p es menor que a eso
significará que la probabilidad de obtener un valor tan extremo o más que el
encontrado es menor que el riesgo que estamos dispuestos a asumir en nuestra
decisión).
Y, alternativamente también, podemos, de acuerdo con lo expuesto en el
apartado 3.6 sobre la relación entre estimación por intervalos y contraste de
hipótesis, tomar una decisión sobre el valor del parámetro µ construyendo un
intervalo de confianza a partir del estadístico Y:
(4.3)
El rango de valores comprendidos entre L¡ y L, equivale al rango de valores de

Y que nos llevarían a mantener H 0 en un contraste bilateral. Por tanto, rechazare-
mos H 0 si el valor propuesto en ella para el parámetro µ no se encuentra dentro del
intervalo definido por L¡ y L,.
EJEMPLO 4.2. De acuerdo con los datos recogidos durante los últimos años por
un psicólogo escolar, los estudiantes de COU que no reciben orientación vocacional
obtienen una media de 190 en una prueba de madurez (Y). El psicólogo opina que los
estudiantes que sí reciben orientación vocacional obtienen un promedio superior en la
mencionada prueba. Para obtener alguna evidencia sobre su sospecha, toma una
muestra aleatoria de 65 estudiantes de COU que habían recibido orientación voca-
cional y les pasa la prueba de madurez. Obtiene una media de 198 y una desviación
típica de 24. ¿Podemos pensar, con un nivel de significación de 0,05, que estos datos
apoyan la opinión del psicólogo?
l. Hipótesis: H 0 : µ ~ 190
H 1 : µ > 190 (contraste unilateral derecho).
2. Supuestos: suponemos que la distribución de las puntuaciones en la prueba de

madurez es normal y que la muestra es aleatoria.
Y-µ 198 - 190

T=---- ---=2,667
s./Jn"=i 24/j64
4. Distribución muestra!: T se distribuye según t 64 .
5. Zona crítica: T ~ 0 •95 t 64 ~ 1,67.
6. Decisión: Como 2,667 > 1,67, rechazamos H 0 • Concluimos que el promedio

obtenido en la prueba de madurez por los estudiantes de COU que reciben
orientación vocacional es significativamente superior al obtenido por los estudian-
tes que no la reciben. Los datos, por tanto, apoyan la opinión del psicólogo.
7. Nivel crítico 3 : p = P(T~ 2,667) < 0,005 ( <ix). También nos lleva al rechazo de H 0 .
4.2. Contraste de hipótesis sobre dos medias independientes
A pesar de su simplicidad, el contraste de hipótesis sobre dos medias indepen-

dientes es una técnica de análisis de datos frecuentemente utilizada en la investiga-
ción empírica. Cuando, por ejemplo, se desea evaluar la eficacia de algún tratamien-
to o algún tipo de intervención, se seleccionan aleatoriamente dos grupos de sujetos;
a uno de ellos se le aplica el tratamiento y al otro no; tras esto, se comparan las
medias de los dos grupos en la variable de interés para determinar si difieren o no y,
por tanto, si el tratamiento aplicado es o no eficaz. Si se dan las condiciones
apropiadas, el contraste de hipótesis sobre dos medias independientes es el idóneo
para comparar dos grupos de sujetos en alguna variable de interés.
Al trabajar con dos medias independientes lo estamos haciendo con dos
poblaciones distintas de las que extraemos, independientemente, dos muestras
aleatorias de tamaños n 1 y n2 • En cada una de esas muestras medimos la variable
aleatoria Y¡, calculamos el estadístico Y en cada una de ellas (tendremos Y1 y Y2 ) y
utilizamos esa información muestral para determinar si las dos poblaciones poseen
o no la misma media µ (es decir, utilizamos la información muestra! Y1 y Y2 para
determinar si µ 1 es o no igual a µ 2 ). Por supuesto, dado que Y1 y Y2 son valores
muestrales, difícilmente serán iguales (incluso aunque las poblaciones de donde
proceden sus respectivas muestras tengan la misma media: µ 1 = µ 2 ); pero la
cuestión que interesa responder es si esas medias muestrales son lo bastante
diferentes como para pensar que proceden de poblaciones con diferente media. Es
decir, si esas medias muestrales son lo bastante diferentes como para pensar que los
grupos comparados difieren significativamente en la variable estudiada. Veamos
cómo proceder.
Del mismo modo que la media muestra! nos proporciona la mejor estimación de
la media poblacional, la mejor estimación que podemos obtener sobre la diferencia
entre dos medias poblacionales es justamente la diferencia entre dos medias
3 La tabla de la distribución t que aparece en el apéndice final no es lo bastante amplia como para
permitirnos obtener el nivel crítico exacto. Sin embargo, esto no debe ser considerado un inconveniente
importante; es suficiente con disponer de información relativa a si el nivel crítico es mayor o menor que
el nivel de significación establecido.
muestrales. Pero según sabemos ya, una estimación de este tipo (una estimación
puntual) está sujeta a error muestral (ver apartado 2.2.1 ). No existe ninguna garantía
de que la estimación efectuada sea correcta.
Podemos extraer dos muestras de tamaños n 1 y n 2 (una de cada población) y
calcular Y1 - Y2 . El valor de Y1 - Y2 dependerá, obviamente, de las muestras
concretas extraídas. Si repetimos el proceso de nuevo, obtendremos un nuevo valor
para Y1 - Y2 que será, seguramente, diferente del anterior. Y si repetimos el proceso
un número indefinido de veces obtendremos todos los posibles valores de Y1 - Y2 y
la frecuencia con la que cada uno de ellos se repite; es decir, obtendremos la
distribución muestral de Y1 - Y2 , la cual nos permitirá conocer las probabilidades
asociadas a cada valor de Y1 - Y2 • En consecuencia, para efectuar inferencias sobre
µ 1 - µ 2 , podemos basarnos en Y1 - Y2 y en su distribución muestral y, de esta
manera (al igual que ocurría al estimarµ a partir de Y) conocer el error de nuestra
estimación. Veamos, pues, cuáles son las características de la distribución muestral
de Y 1 - Y2.
Si de la población 1 extraemos una muestra aleatoria de tamaño n 1 y de la
población 2 extraemos, independientemente, una muestra aleatoria de tamaño n 2 , y
en ambas muestras medimos la variable aleatoria Y¡, tendremos, de acuerdo con lo
que ya sabemos:
E(Y) = µ1
(4.4)
<To
CTy, = '~
- V 11,
Como Y1 - Y2 es una variable aleatoria resultado de combinar linealmente dos

variables aleatorias independientes, tendremos:
(4.5)
2 2
2 2 2 O'¡ 0'2
O'- -
Y, - Y,
= O'-
Y,
+ O'-
Y,
= -n1 + -n2
Ahora bien, si las dos distribuciones poblaciones mencionadas son normales,

también serán normales las distribuciones muestrales de Y1 y Y2 ; y puesto que
Y1 - Y2 es combinación lineal de Y1 y Y2 , también la distribución muestral de
Y1 - Y2 será normal. Y todavía más, de acuerdo con el teorema central del límite, a
medida que los tamaños muestrales n 1 y n 2 vayan aumentando, las distribuciones
muestrales de Y1 y Y2 tenderán a la normalidad, cualquiera que sea la forma de las
distribuciones poblacionales originales. Y lo mismo ocurrirá, consecuentemente, con
Y1 - Y2 . De modo que el estadístico Y1 - Y2 , bajo las mencionadas circunstancias,
se distribuirá normalmente con:
(4.6)
Por tanto, la transformación:
(Y1 - Y2) - E(Y1 - Y2)

Z=~~~~~~~~~- (4.7)
O"y, - Y,
se distribuirá N(O, 1), es decir, según la distribución normal estandarizada. Y co-

nociendo la distribución muestral del estadístico Y1 - Y2 podemos, sirviéndonos
de la lógica del contraste de hipótesis ya expuesta, diseñar un procedimiento para
contrastar hipótesis referidas al parámetro µ 1 - µ 2 • El ejemplo 4.3 ilustra este
procedimiento.
EJEMPLO 4.3. La distribución de las puntuaciones en una eseala de actitudes

hacia el aborto es, tanto en la población de varones como en la de mujeres, normal
con media 12 y desviación típica 4. Un psicólogo social sospecha que, en los últimos
años, las mujeres han pasado a tener una actitud más favorable hacia el aborto
(puntuaciones más altas en la escala) que los hombres. Para obtener alguna evidencia
sobre su sospecha, selecciona aleatoriamente un grupo de 30 varones y otro de 30
mujeres y les pasa la mencionada escala, obteniendo los siguientes resultados: Y,, = 11,
Y., = 13. ¿Podemos afirmar, con un nivel de significación de 0,05, que las mujeres
muestran actitudes más favorables hacia el aborto que los hombres?
t. Hipótesis: H 0 : µ. ;;;?: µ.,; H 1: µ. < µ., (contraste unilateral izquierdo).
2. Supuestos: Las puntuaciones en la escala se distribuyen normalmente en las

dos poblaciones, con <1 = 4; las muestras se han extraído de forma aleatoria e
independientemente una de otra.
(Y1 - f 2) - (µ 1 - µ 2) (11 - 13) - (12 - 12)

Z= = =-194
J<Jf/n 1 + u~/n 2 )16/30 + 16/30 '
5. Zona crítica: Z:;;;; z0 , 05 = -1,65.
6. Decisión: Como -1,94 < -1,65, rechazamos H 0 . Concluimos que el promedio

obtenido por las mujeres es significativamente más alto que el obtenido por los
varones (con IX = 0,05). Los datos, por tanto, apoyan la sospecha del psicólogo.
7. Nivel crítico: p = P(Z:;;;; -1,94) = 0,0262 (<IX). También nos lleva al rechazo
de H 0 .
4.2.1. Suponiendo varianzas iguales
El estadístico presentado en la ecuación (4.7) y utilizado en el ejemplo 4.3 posee

una utilidad bastante escasa, pues raramente la investigación empírica genera
situaciones en las que, siendo desconocidas las medias poblacionales (razón por la
cual se efectúa un contraste de hipótesis sobre ellas), las varianzas poblacionales
resulten conocidas. Lo habitual es, más bien, que las varianzas poblacionales sean,
al igual que las medias, desconocidas; en cuyo caso el error típico de la distribución
muestra! de Y1 - Y2 será igualmente desconocido y hará falta estimarlo.
Si suponemos (y este supuesto, al que llamaremos homocedasticidad o igualdad
de varianzas, es, como veremos más adelante, muy importante) que las varianzas
poblacionales son iguales (es decir, si suponemos que ai = ªª
= a2 ) sólo será
necesario estimar un parámetro: a 2 . Y puesto que los dos estimadores insesgados de
que disponemos (Si y Sª) son independientes, lo apropiado será utilizar ambos
estimadores para obtener una única estimación de a 2 , pues lo más probable es que
la combinación ponderada de ambos estimadores nos proporcione una estimación
más exacta de a 2 que la de cada uno por separado. Esta estrategia nos conduce a:
• (n 1 - l)Si + (n 2 - l)S~
a2 = --------- (4.8)
n1 + n2 - 2
como estimador ponderado insesgado de a 2 . Por tanto:
(4.9)
será un estimador insesgado de uy _y.

A partir de aquí, es fácil demo~tr~r 4 que
(4.10)
se distribuye según el modelo de probabildad t de Student con n 1 + n 2 - 2 grados

de libertad. Podemos, pues, utilizar la ecuación (4.10) para conocer las probabilida-
des asociadas al estadístico Y1 - Y2 cuando, desconociendo las varianzas poblacio-
nales ai y uª,
suponemos que son iguales. Es decir, podemos poner a prueba
hipótesis referidas a µ 1 - µ 2 a partir de la información proporcionada por el
estadístico T. El procedimiento puede resumirse según se muestra en el cuadro 4.2.
4 Ver, en el apéndice 4, el apartado referido a la distribución muestra! de Y - Y2 cuando suponemos

1
a 1 = a 2 • Puede resultar útil, para entender el contenido de este apartado, recordar algunos conceptos del
capítulo 1 relacionados con las distribuciones muestrales de la media y de la varianza.
CUADRO 4.2
Contraste de hipótesis sobre dos medias independientes.
Resumen del procedimiento
1. Hipótesis 5 :
a) Contraste bilateral: H 0 : µ 1 - J1 2 = k: H 1: µ 1 -11 2 #- k.
b) Contraste unilateral derecho: H 0 : µ 1 - µ 2 ~ k: H 1: J1 1 - J1 2> k.
e) Contraste unilateral izquierdo: H 0 : µ 1 - µ 1 ~ k: H 1: J1 1 - µ 2 < k.
2. Supuestos:
a) Dos poblaciones de partida normales con cr 1 y u 2 desconocidas pero supuestas
iguales.
b) Dos muestras aleatorias de tamaños 11 1 y 11 2 extraídas independientemente.
3. Estadístico de contraste 6 :
4. Distribución muestra!: T se distribuye según r., +n,- 2 •
5. Zona crítica:
a) Contraste bilateral: T ~ 212 t 01 +n, - 2 y T ~ 1 -2 2t., +n, - 2·
b) Contraste unilateral derecho: T~ i-.Cn,+n,-2·

e) Contraste unilateral izquierdo: T ~ 2 101 +n, _ 2 .
5 Generalmente k = O, pues la hipótesis que habitualmente interesa contrastar es si las medias de

ambas poblaciones son iguales. De modo que µ 1 - µ 2 = k será, generalmente, 11 1 - µ 2 = O, lo cual
equivale a µ 1 = µ 2 •
6 Puesto que, generalmente, la hipótesis nula afirmará µ 1 = µ 2 , la expresión µ 1 - µ 2 desaparecerá del
numerador del estadístico de contraste, es decir, de la ecuación (4.10). Esto será así incluso en un
contraste unilateral con Ha: µ 1 ,,;; µ 2 o Ha: µ 1 ;;;. µ 2 , pues, según hemos explicado ya en el capítulo 3, el
modelo estadístico del que nos servimos para efectuar el contraste de hipótesis se construye a partir del
signo «=»contenido en Ha.
Además, cuando los tamaños muestra/es son iguales (o aproximadamente iguales), es decir, cuando
n 1 = n 2 = n, la ecuación (4.9) equivale a:
ªr,-r, =
y el estadístico T de la ecuación (4.10) queda reducido a:
(Y1 - Y2) - (µ1 - µ1)

T=--------
j(S~ + SD/n
('{'ADRO 4.::!. f conti1111aciá11 J
6. Regla de decisión: se rechaza /1 0 si el estadistico de contraste cae en la zona

critica: en caso contrario. se mantiene.
7. Nivel critico:
al Contraste bilateral: p = 2[P(T ~ l1k1l]. siendo 11 el valor concreto tomado por
el estadistico T.
hl Contraste unilateral derecho: p = P( T ~ t kl·
d Contraste unilateral izquierdo: p = P(T ~ tkl·
8. Intervalo de confianza:
L;=ll\- >"1 1+, 11,,,.,,, 1, Sfn 1 +S~n 1

(4.11)
L,=(}\->"1 1+ 1 , 1 1., .• , 1 ,sf11 1 +S~11 1
EJEMPLO 4.4. Se ha llevado a cabo un experimento para determinar si los dibujos

actúan como facilitadores o entorpecedores del aprendizaje de palabras en niños de 3
y 4 años. Se han seleccionado aleatoriamente 80 niños de una escuela infantil y a la
mitad de ellos se les ha intentado enseñar nuevas palabras sin utilizar ilustraciones
(grupo 1) y a la otra mitad se les ha intentado enseñar las mismas palabras ilustradas
con sencillos dibujos (grupo 2). Tras el entrenamiento se ha evaluado el número de
palabras aprendidas por cada niño y se han obtenido los siguientes resultados:
Y; S;
Grupo 1 19 16
Grupo 2 30 21
A la vista de estos resultados y utilizando un nivel de significación de 0,05, ¿qué

podemos decir sobre la hipótesis de que ambas muestras proceden de poblaciones con
la misma media?
l. Hipótesis: H 0 : µ 1 = µ 2; H 1: µ 1 "# µ 2 (contraste bilateral).
2. Supuestos: Independientemente de que las poblaciones de origen sean normales,

los tamaños muestrales son lo bastante grandes como para garantizar que Y1 - Y2
se distribuirá normalmente; suponemos varianzas poblacionales iguales; las mues-
tras se han extraído de forma aleatoria e independientemente una de otra.
19 - 30
39(16) 2 + 39(21) 2
40+40-2
J
----;:======--;:::::=== =
1 + 1
40 40
- 2,64
4. Distribución muestra): T se distribuye según t 78 .
5. Zona crítica: T~ 0 , 025 t 78 ~ -1,99.
6. Decisión: Como -2,64 < -1,99, rechazamos H 0 • Concluimos que el promedio de

palabras aprendidas utilizando ilustraciones es mayor que el obtenido sin ilustra-
ciones (con oc= 0,05).
7. Nivel crítico: p = 2[P(T~ 2,64)] ~ 0,01 (<oc). También nos lleva al rechazo de H 0 •
El procedimiento que acabamos de describir es, bajo el nombre de prueba t

sobre diferencia de medias, el tradicionalmente pre¡;entado en todos los manuales de
estadística para comparar las medias de dos grupos independientes. No obstante, a
pesar de su amplia difusión (y, en muchos casos, indiscriminada utilización), el
procedimiento no parece estar completamente libre de inconvenientes.
Por un lado, para que T se distribuya según el modelo t de Student con
n 1 + n 2 - 2 grados de libertad es necesario que las poblaciones originales sean
normales. Por lo que se refiere a este supuesto, si los tamaños muestrales son
razonablemente grandes (mayores de 20 o 25) e iguales o aproximadamente iguales,
el incumplimiento de esta condición no tiene consecuencias relevantes sobre las
conclusiones del contraste (ver, por ejemplo, Sawilowsky y Blair, 1992). De manera
que, con tamaños apropiados, el procedimiento sigue siendo válido independiente-
mente de la forma de las poblaciones de origen (incluso con poblaciones sensible-
mente alejadas de la normalidad).
Sin embargo, en lo relativo al supuesto de homocedasticidad (varianzas pobla-
cionales iguales), las cosas no parecen tan favorables. Si los tamaños muestrales son
iguales y el supuesto de normalidad no se incumple, el procedimiento es válido
incluso con varianzas poblacionales muy diferentes (ver Ramsey, 1980). Pero si, aun
siendo normales las poblaciones de origen, los tamaños de las muestras son muy
diferentes, suponer que las varianzas poblacionales son iguales puede conducir a
conclusiones equivocadas 7 (ver, por ejemplo, Boneau, 1960).
Estas consideraciones sirven para alertarnos sobre la necesidad de planificar
cuidadosamente la utilización de la ecuación (4.10). En primer lugar, es conveniente
que los tamaños muestrales sean grandes para poder garantizar que, independiente-
mente de la forma de las poblaciones de origen, la distribución muestra! de Y1 - Y2
se aproxime al modelo de distribución de probabilidad normal. En segundo lugar,
es conveniente también que los tamaños muestrales sean iguales, pues si son iguales
7 Ya sabemos que los supuestos de un contraste de hipótesis son las condiciones necesarias para que
un determinado estadístico de contraste siga la distribución muestra! propuesta. Cuando decimos que un
estadístico se ve afectado por la violación o incumplimiento de algún supuesto, o que la violación de
algún supuesto tiene consecuencias no deseables sobre las conclusiones del contraste queremos significar
con ello que ese estadístico ya no sigue exactamente la distribución muestra! propuesta. Esto se traduce
en que la probabilidad de cometer un error de tipo I (es decir, ot) cambia, pasando a ser mayor o menor
que el valor propuesto.
podremos suponer sin riesgo grave que las varianzas poblacionales también lo son.
Ahora bien, si nos vemos en la necesidad de trabajar con muestras de diferente
tamaño, no podremos suponer, sin más, que las varianzas poblacionales son iguales.
Es justamente en esos casos donde hay que ser prudentes en el uso del estadístico T.
Una estrategia bastante útil en la práctica consiste en: a) utilizar T (la ecuación
[ 4.10]) si los tamaños muestrales son iguales o aproximadamente iguales, o b)
utilizar alguno de los procedimientos alternativos que presentamos en el siguiente
apartado si los tamaños muestrales son distintos. En cualquiera de los casos,
conviene que los tamaños muestrales sean razonablemente grandes.
4.2.2. Suponiendo varianzas distintas
Si las varianzas poblacionales no son iguales, carece de sentido obtener una

única estimación de las mismas a partir de la combinación ponderada de los dos
estimadores disponibles: Si y S~. Más bien, cada uno de ellos deberá ser considera-
do un estimador de la varianza de su propia población. Podemos, así, definir el
estadístico:
(4.12)
donde Si y S~ son los estimadores insesgados de sus respectivas varianzas poblacio-

nales (las cuales, no lo olvidemos, no suponemos iguales). El problema de esta
forma de proceder es que el estadístico T' no se distribuye, necesariamente, según el
modelo de probabilidad t de Student con n 1 + n 2 - 2 grados de libertad. Pero se
trata de un problema poco importante, pues disponemos de algunos procedimientos
que nos permiten conocer de forma aproximada la distribución muestral de T'.
Los primeros intentos de obtener la distribución exacta de T' fueron iniciados
por Behrens y continuados por Fisher (de ahí que el problema de la heterogeneidad
de varianzas sea referido en muchos contextos como el problema Behrens-Fisher).
Pero las soluciones prácticas fueron aportadas por otros autores. Cochran y Cox
(1957), por ejemplo, fueron de los primeros en diseñar un método de aproximación
a los puntos críticos de la distribución de T' definida por Behrens y Fisher. El
método propuesto por Cochran y Cox consiste en obtener los puntos críticos de la
distribución de T' mediante:
tcritico = (4.13)
donde t 1 y t 2 se refieren a los puntos de la distribución t de Student (con n 1 - 1 y

n 2 - 1 grados de libertad, respectivamente) que dejan por debajo de sí una
probabilidad p; y siendo p igual a oc si se trata de un contraste unilateral izquierdo;

a l - oc si se trata de un contraste unilateral derecho; y a oc/2 (para el punto crítico
izquierdo) y l - oc/2 (para el punto crítico derecho) si se trata de un contraste
bilateral. Comparando T' con tcriiico podemos tomar decisiones respecto a µ 1 - µ 2
en los términos ya conocidos.
Welch (1938) ha propuesto 8 una aproximación alternativa que acapara las
preferencias de muchos investigadores. En esta aproximación T' se concibe como
una variable aleatoria distribuida según la t de Student, pero con un número
desconocido de grados de libertad. La solución pasa por determinar los grados de
libertad (y/') que corresponden a la distribución de T' mediante la ecuación:
(4.14)
El resultado obtenido para gl' se redondea al entero más próximo 9 . Se obtienen

así unos grados de libertad comprendidos entre un mínimo y un máximo conocidos:
el mínimo es el valor más pequeño de n 1 - l y n2 - l; el máximo es n 1 +ni - 2.
Comparando el valor de T' con los correspondientes puntos críticos de la distribu-
ción t de Student con y/' grados de libertad podemos tomar decisiones respecto a
µ¡ - µi.
La solución propuesta por Welch posee una ventaja práctica. Dado que los
valores de la distribución t van disminuyendo a medida que van aumentando los
grados de libertad, antes de calcular g/' podemos evaluar T' utilizando el g/' mínimo
(es decir, el menor de n 1 - l y ni - l); si rechazamos H 0 : µ 1 = µi, también Ja
rechazaremos con el valor proporcionado por (4.14) para g/' (y, por tanto, no será
necesario calcular el valor exacto de gl'); si no rechazamos H 0 : µ 1 - µi, podemos
evaluar T' con el g/' máximo (n 1 + ni - 2); si seguimos sin rechazar H 0 , tampoco la
rechazaremos calculando el valor exacto de g/'. De modo que el único caso en el
que necesitaremos hacer uso de (4.14) para calcular el valor exacto de g/' será aquel
en el que manteniendo H 0 con el g/' mínimo, la rechacemos con el g/' máximo.
" Satterthwaitc ( 1946) ha llegado. al parecer de forma independiente. a la misma solución propuesta
por Welch.
" El propio Welch (1947) ha sugerido posteriormente que hacer:
(~+~)2]
g/'
.
=
f 111
(SU11 1) 2
111 - 1
112
+ (S~/11 2 ) 2
112 - 1
- 2
puede ofrecer una solución más exacta para g/'. No obstante, la diferencia entre ambas soluciones es, en
la mayor parte de los casos, insignificante.
Si estamos interesados en obtener el intervalo de confianza para µ 1 - ¡t 2 , el

propio Welch (1938; ver Fenstad, 1983) ha diseñado un procedimiento válido para
el caso en que no podamos suponer que las varianzas poblacionales son iguales. El
intervalo de confianza de Welch viene dado por:
(4.15)
donde ti es el cuantil 100(1 - a./2) de la distribución t de Student con ni - 1 grados

de libertad y mi= (ni - 3)/(ni- 1). El subíndicej se refiere a los grupos:j = 1,2. Se
rechaza la hipótesis H 0 : µ 1 = µ 2 si el intervalo construido no incluye el cero. En las
condiciones en las que T es aplicable (normalidad, homocedasticidad), el intervalo
de confianza de Welch coincide con T. Pero si las varianzas poblacionales no son
iguales, entonces el intervalo propuesto por Welch muestra mejor comportamiento
que T.
El ejemplo 4.5 ilustra los procedimientos recién expuestos para aproximarse al
problema de la heterogeneidad de varianzas. Se trata de una réplica del ejemplo 4.4,
pero utilizando tamaños muestrales diferentes.
EJEMPLO 4.5. Se ha llevado a cabo un experimento para determinar si los dibujos

actúan como facilitadores o entorpecedores del aprendizaje de palabras en niños de 3
y 4 años. Se han seleccionado aleatoriamente 80 niños de una escuela infantil. A 50 de
ellos se les ha intentado enseñar nuevas palabras sin utilizar ilustraciones (grupo 1) y a
los 30 restantes se les ha intentado enseñar las mismas palabras ilustradas con
sencillos dibujos (grupo 2). Tras el entrenamiento, se ha evaluado el número medio de
palabras aprendidas por cada niño y se han obtenido los siguientes resultados:
Y1 = 19, Y2 = 30, S 1 = 16, S2 = 21. A la vista de estos resultados y utilizando un nivel
de significación de 0,05, ¿qué podemos decir sobre la hipótesis de que ambas muestras
proceden de poblaciones con la misma media?
2. Supuestos: independientemente de que las poblaciones de origen sean normales,

los tamaños muestrales son lo bastante grandes como para garantizar que Y1 - Y2
se distribuirá normalmente; las muestras se han extraído de forma aleatoria e
independientemente una de otra (como los tamaños muestrales son distintos,
decidimos no suponer homocedasticidad).
3. Estadistico de contraste:
19- 30
-----;::==== -2,47
16 2 21 2
-+-
50 30
4. Distribución muestra): T se distribuye según la t de Student con:
(~+~)2
50 30
g/' = = 49,19
. (16 2/50) 2 (21 2/30) 2
---+---
50 - 1 30 - 1
grados de libertad. Redondeando al entero más próximo: g/' = 49.
5. Zona crítica: T ~ 0 , 02 5 t 49 : : : : - 2,0 l.
6. Decisión: Como -2,47 < -2,01, rechazamos H 0 • Concluimos que el promedio de

palabras aprendidas utilizando ilustraciones es mayor que el obtenido sin ilustra-
ciones (con oc = 0,05).
Por supuesto, en esta situación concreta no es necesario calcular el valor exacto
de g/'. Con el g/' mínimo, es decir, con n 2 - 1 = 29 grados de libertad, ya rechaza-
mos H 0 •
7. Nivel crítico: p = 2[P(T ~ 2,47)] < 0,02 (<oc).
r1 Fi = 0 •975 t 49 J(n 1 - 3)/(n 1 - 1) = 2,01J47/49 = 1,968
t2.J;;; = o,91st 29J(n 2 - 3)/(n 2 - 1) = 2,045J27fi.9 = 1,973
Vemos que máx[ti~] = 1,973. Por tanto, el intervalo de confianza vendrá

definido, de acuerdo con (4.15), por los límites:
16 2 21 2
(19-30)± 1,973 ----+----
50(0,9592) 30(0,9310)
Es decir, por los límites:
L; (19 - 30) - 9,07 = -20,07

=
L, = (19 - 30) + 9,07 = -1,93
Puesto que el intervalo construido no incluye el cero, decidimos rechazar H 0 con

un nivel de riesgo de 0,05.
Utilizando la solución propuesta por Cochran y Cox, los puntos críticos de la
distribución muestra( de T serán, de acuerdo con (4.13):
-2,01(16) 2 -2,045(21) 2
----+-----
50 30
tcritico(izquicrdo) = - - - -1-6-2- -2-1-2- - - = -2,036
-+-
50 30
202 / Análisis de datos en psicología //
2,01(16) 2 2,045(21) 2
---+----
50 30
lcritico(derecho) = - - - - - - - - = 2,036
16 2 21 2
-+-
50 30
lo cual nos lleva a exactamente la misma conclusión alcanzada mediante el

procedimiento de Welch.
4.3. Contraste de hipótesis sobre dos medias relacionadas
En los contrastes de hipótesis sobre dos medias independientes descritos en el

apartado 4.2, Y1 e Y2 son tratadas como variables aleatorias independientes. En la
práctica, esta independencia queda garantizada asignado al primer tratamiento un
grupo de sujetos aleatoriamente seleccionado y al segundo tratamiento otro grupo
de sujetos diferente del anterior y también aleatoriamente seleccionado. Hay
ocasiones, sin embargo, en las que resulta conveniente, e incluso deseable, que Y1 e
Y2 sean variables aleatorias relacionadas. En estos casos es cuando hablamos de
muestras relacionadas.
Ya hemos señalado que hablamos de dos muestras relacionadas cuando un
grupo de sujetos es evaluado dos veces. Si queremos comparar el rendimiento de un
grupo de sujetos con problemas de aprendizaje en dos tareas de habilidad diferen-
tes, podemos evaluar el rendimiento de cada sujeto en ambas tareas y comparar los
promedios obtenidos en ellas; tendremos dos muestras de puntuaciones relaciona-
das porque ambas pertenecen a los mismos sujetos: los sujetos menos afectados por
problemas de aprendizaje tenderán a puntuar alto en ambas tareas, mientras que
los sujetos más afectados tenderán a puntuar bajo en ambas tareas.
Las medidas repetidas no son la única forma (aunque tal vez sí la más frecuente)
de generar muestras relacionadas. También tenemos dos muestras relacionadas
cuando, en lugar de medir a los mismos sujetos en dos ocasiones, utilizamos pares
de sujetos. Por ejemplo, en un estudio sobre relaciones maritales podría intere-
sarnos preguntar a los miembros de una muestra de matrimonios por su grado
de satisfacción marital a fin de evaluar si los maridos se sienten, en promedio, más
satisfechos o menos que sus esposas. Aquí, a cada individuo sólo le tomamos una
medida, pero cada matrimonio, como una unidad, contribuye con un par de
puntuaciones. Parece razonable asumir que si un miembro de una pareja se siente
muy satisfecho con su matrimonio, el otro miembro de la pareja también se sentirá
satisfecho, y viceversa; por lo que las puntuaciones de ambas muestras estarán
relacionadas.
Muchos diseños experimentales utilizan muestras relacionadas. Y todos ellos
tienen una cosa en común: el conocimiento de una de las puntuaciones de un par
nos proporciona alguna -puede que no mucha, pero alguna- información sobre
la otra puntuación del mismo par. Por esta razón utilizamos el término muestras
relacionadas 10 .
Cuando éste es el caso, puesto que las puntuaciones de cada par pertenecen al
mismo sujeto o a dos sujetos emparejados, podemos transformar las puntuaciones
originales en diferencias: D¡ = Y¡ 1 - Y¡ 2 , haciendo así que a cada sujeto o par
corresponda una única puntuación. Estas puntuaciones D¡ informan sobre el
cambio producido entre las puntuaciones de cada par: D; valdrá cero cuando las
dos puntuaciones del mismo par sean iguales; será menor que cero cuando la
segunda puntuación del par sea mayor que la primera (lo que indicará que se ha
producido una ganancia); y será mayor que cero cuando la segunda puntuación del
par sea menor que la primera (lo que indicará que se ha producido una pérdida).
Tendremos así una única variable D; con media D de la que podremos servirnos
para efectuar inferencias sobre µ 0 = µ 1 - µ 2 •
Así pues, desde el punto de vista del análisis de datos, en el contraste sobre dos
medias relacionadas disponemos de una única población (la población de las
diferencias) con media µ 0 y varianza u~. Si de esa población extraemos aleatoria-
mente n observaciones D;, el estadístico D = "í:.D;/n será una variable aleatoria con
valor esperado E(D) = E(Y1 - Y2 ) = µ 1 - µ 2 = µ 0 y error típico UiJ = u 0 / Jn. Nos
encontramos, por tanto, ante una situación idéntica a la descrita en el apartado 4.2
al hablar del contraste de hipótesis sobre una media. Si conociéramos UiJ, la
transformación:
iJ - E(D) D - (µ1 - µ1)
Z= =~~~~~- (4.16)
UiJ Uo/Jn
nos permitiría conocer las probabilidades asociadas a D y, a partir de ellas,

podríamos tomar decisiones respecto a µ 1 - µ 2. Pero como lo habitual es que UiJ
sea un valor desconocido, tendremos que estimarlo mediante:
•
O'jj = -So (4.17)
Jn
donde S 0 se refiere a la desviación típica insesgada de la muestra de n diferencias.

Es decir: S~ = "í:.(D; - D) 2 /(n - 1).
De esta forma, el estadístico:
(4.18)
'º El término muestras relacionadas se aplica de forma genérica tanto si utilizamos un grupo de
sujetos al que tomamos dos medidas, como si utilizamos sujetos emparejados. Para referirnos a las
situaciones en las que se utilizan los mismos sujetos también utilizaremos el término medidas repetidas
¡en el contexto de los diseños se habla de diseños con los mismos sujetos o diseños intrasujetos). Y para
referirnos a las situaciones en las que se utilizan sujetos emparejados (pares, tríos, etc.) también
utilizaremos el término muestras dependientes (en el contexto de los diseños, se habla de bloques con
un sujeto por nivel y bloque).
se distribuirá, si la población de diferencias es normal o el tamaño muestra) lo

bastante grade 11 , según el modelo t de Student con n - 1 grados de libertad (siendo
n el número de diferencias D;). Podemos, en consecuencia, utilizar la ecuación (4.18)
para diseñar un procedimiento que nos permita contrastar hipótesis referidas a
µ 1 - µ 2 cuando disponemos de dos muestras relacionadas (cuadro 4.3).
CUADR04.3.
Contraste de hipátesis sohre dos medias relacionadas. Res11111en del procedimiento
l. Hipótesis 12 :
a) Contraste bilateral: H 0 : µ 0 = µ 1 - µ 2 = c5 0 ; H 1 : µ 0 = µ 1 - µ 2 # Ó0 •
b) Contraste unilateral derecho: H 0 : µ 0 = J1 1 - µ 2 ~ 80 ; H 1 : Jln = J1 1 - J1 2 > 80 .
e) Contraste unilateral izquierdo: H 0 : µ 0 = µ 1 - µ 2 ~ c5 0 ; H 1 : Jln = µ 1 - µ 2 < 80 .
2. Supuestos:
a) La población de diferencias es normal.
b) Muestra aleatoria de n pares o diferencias.
fj -(µ¡ - µ2)
T=----- (siendo S 0 = J~(D; - l5) /(n -
2 1))
So/Jn
4. Distribución muestral: T se distribuye según la t de Student con n - 1 grados de
libertad.
5. Zona crítica:
a) Contraste bilateral: T ~ •12 1. _ 1 y T ~ 1 - • 12 1. - 1.
b) Contraste unilateral derecho: T ~ 1 -.t.- 1•

e) Contraste unilateral izquierdo: T ~ .r._ 1.
6. Regla de decisión: se rechaza H 0 si el estadístico de contraste cae en la zona

crítica; en caso contrario, se mantiene.
7. Nivel crítico:
a) Contraste bilateral: p = 2[P(T ~ lttl)], siendo tk el valor concreto tomado por
el estadístico T.
b) Contraste unilateral derecho: p = P(T ~ ltl·
e) Contraste unilateral izquierdo: p = P(T ~ ltl·
11 Recordemos los supuestos relacionados con la distribución muestra! de la media (apartado 1.3.2.).
12 Al igual que en el contraste sobre dos medias independientes. generalmente 60 = O, pues la
hipótesis que habitualmente tendrá sentido contrastar será H 0 : µ 1 = µ,. es decir, µ 0 =O.
CU ADRO 4.3. (continuación)
L; = i5 +,!t., y /,_, = jj + 1 '!111 (4.19}

" 11 "11
EJEMPLO 4.6. Según sugieren algunos trabajos, los niños con problemas percepti-
vos aumentan su rendimiento, con entrenamiento adecuado, en preguntas del test de
Raven que habitualmente no resuelven por carecer de las estrategias adecuadas. Con el
fin de obtener evidencia adicional sobre esta afirmación, un investigador seleccionó
una muestra aleatoria de 10 niños con problemas perceptivos y les pasó el test de
Raven para obtener una medida inicial de los 10 niños en el test. Después los entrenó
durante 2 meses en tareas similares, pero no iguales, a las planteadas por el test de
Raven y, terminado el entrenamiento, volvió a pasarles el test para obtener una
medida post-tratamiento. Los resultados obtenidos aparecen en la tabla 4.1.
TABLA 4.1
Sujetos 1 2 3 4 5 6 7 8 9 10
Antes 70 72 80 75 77 80 74 81 76 73
Después 74 73 84 75 84 95 88 86 80 79
¿Hay evidencia suficiente en los datos para afirmar, con un nivel de significación de
0,01, que el tipo de entrenamiento efectuado consigue aumentar el rendimiento en el
test Raven de los sujetos con problemas perceptivos?
l. Hipótesis: H 0 : Jlantes ~ Jldespues; H 1: Jlantes < Jldespues (contraste unilateral izquierdo).
2. Supuestos: suponemos que la población de las diferencias antes-después es normal

y que la muestra de 10 pares es aleatoria.
3. Estadístico de contraste: construir una tabla como la 4.2 nos facilita los cálculos
necesarios para la obtención del estadístico de contraste.
TABLA 4.2
Sujetos 1 2 3 4 5 6 7 8 9 10 I
Antes 70 72 80 75 77 80 74 81 76 73 758
Después 74 73 84 75 84 95 88 86 80 79 818
D; -4 -1 -4 o -7 -15 -14 -5 -4 -6 -60
Df 16 1 16 o 49 225 196 25 16 36 580
- 758
Yantes = - = 75,8
10
fj = Y.ntes - f.tespués = 7,58 - 81,8 = -6
- 818
l'después = - = 81,8
10
580 10
sn =--(-6)
2
10
2 =22 = s;_ 1 =--22=24,44
10 - 1
= s._ 1 =Sd=4,94
l5 - (µ¡ - µ2) -6 - o
T = = = -3,84
Sv/Jn 4,94/j!O
4. Distribución muestra): T se distribuye según t 9 •
5. Zona crítica: T ~ o.o 1 t 9 = - 2,821.
6. Decisión: Como -3,84 < -2,821, rechazamos H 0 • Concluimos que el entrena-

miento efectuado consigue mejorar el rendimiento medio de los sujetos con
problemas perceptivos.
7. Nivel crítico: p = P(T~ td < 0,005. Por tanto, p <'.X.
4.3.1. Observaciones perdidas
Al trabajar con muestras relacionadas (más concretamente, con medidas repeti-

das) el sujeto que participa en el pre-test también lo hace en el post-test. En una
situación ideal, dispondremos de un par de puntuaciones para todos y cada uno de
los sujetos participantes en el experimento. Pero las situaciones ideales no siempre
(o, mejor, raramente) se presentan. Desafortunadamente, es frecuente que alguno de
los sujetos que participan en el pre-test no lo haga en el post-test. En un experimen-
to concreto podemos encontrarnos, por ejemplo, con que de los 50 sujetos seleccio-
nados para el pre-test sólo 42 han completado el post-test.
Si utilizamos sujetos emparejados podemos encontrarnos con el mismo proble-
ma. En un estudio sobre satisfacción marital, por ejemplo, puede ocurrir que al
entrevistar a un conjunto de matrimonios, uno de los dos miembros no colabore
por alguna razón. Nos encontraremos así con pares en los que faltarán datos
referidos al marido o a la mujer.
La forma habitual de proceder en estos casos en los que nos encontramos con
observaciones perdidas consiste en eliminar los pares incompletos (es decir, los
pares en los que falta una de las dos puntuaciones) y trabajar con los pares
restantes. Si los pares eliminados son proporcionalmente pocos (no más allá del 1O
o el 15 por 100) y la pérdida se ha producido de forma aleatoria, la supresión de los

pares incompletos puede constituir un procedimiento simple y eficaz.
Si la mera supresión implica gran pérdida de información, existen procedimien-
tos alternativos a ella diseñados específicamente para este tipo de situaciones. El
lector interesado en profundizar en este problema puede consultar el excelente
trabajo de Little y Rubio (1987).
4.4. El tamaño del efecto en los contrastes sobre medias
En el capítulo 3, apartado 3.4, hemos adelantado ya el concepto de tamaño del

efecto para referimos al grado en que el efecto estudiado está presente en la
población (es decir, para referimos al grado en que una hipótesis nula es falsa: el
grado en que dos grupos difieren, el grado de eficacia de un tratamiento, etc.).
También hemos señalado en ese mismo apartado que la significación estadística de
un resultado empírico es un concepto muy diferente de la significación o importancia
real de ese resultado.
Ahora es el momento de insistir en una importante idea: aunque un contraste de
hipótesis nos permite afirmar si una hipótesis nula es falsa, no nos permite, sin
embargo, conocer si el efecto estudiado posee o no, de hecho, alguna relevancia.
Un contraste de hipótesis no nos permite precisar el grado de falsedad de una
hipótesis nula; para ello necesitamos otro tipo de medidas que, en el contexto de
los contrastes sobre medias, se denominan medidas del tamaño del efecto.
Ya hemos hablado del nivel crítico (p) como de un índice que puede aportarnos
más ieformación que el mero rechazo de una hipótesis tras la obtención de un
estadístico significativo (ver apartado 3.4). Pero debemos advertir que el nivel crítico
no es una medida apropiada del tamaño del efecto. Si al comparar, por ejemplo, un
grupo control con un grupo experimental, rechazamos la hipótesis H 0 : µe = µ. con
un nivel crítico tan pequeño como p = 0,0001, seguramente nos sentiremos inclina-
dos a concluir que H 0 es muy falsa y que, por tanto, entre µe y µ. existe una gran
distancia (es decir, un gran efecto del tratamiento administrado al grupo experimen-
tal). Pero esa conclusión no sería necesariamente correcta. Puesto que la potencia
de un contraste va creciendo conforme los tamaños muestrales aumentan (ver
apéndice 3), si los tamaños muestrales son muy grandes, podremos llegar a esa
conclusión incluso cuando la diferencia entre µe yµ. sea insignificante (si ne y n. son
muy grandes en relación a s; s:,
y T será muy grande incluso cuando la diferencia
~ - Y. sea muy pequeña). Parece pues que la utilización del nivel crítico como
medida del tamaño del efecto (es decir, como medida de la verdadera diferencia entre
µe y µ.) posee, precisamente por su relación con los tamafios muestrales, serios
inconvenientes.
Para superar estos inconvenientes, se han propuesto numerosos y variados
índices intentando ofrecer una adecuada cuantificación del tamaño del efecto. En el
contexto de los contrastes sobre medias, quizá el más popular de estos índices sea el
consistente en estandarizar la diferencia entre las dos medias poblacionales compa-

radas (Cohen, 1969, Glass, 1976):
(4.20)
el cual puede ser estimado mediante 13 :
(4.21)
Si existe grupo control, Glass (1976) propone sustituir a en (4.21) por la

desviación típica insesgada del grupo control. Pero Hedges (1981) ha demostrado
que utilizar la desviación típica del grupo control conduce a un estimador d sesga-
do y que ese sesgo se ve reducido, tanto si hay grupo control como si no, utilizando
como estimador de a el promedio ponderado de las desviaciones típicas insesgadas
de los dos grupos comparados 14:
(n 1 - l)Si + (n 2 - l)S~
a= n1 + n2 - 2
(4.22)
Si deseamos obtener el tamaño del efecto a partir de algún informe de investiga-

ción publicado nos encontraremos, muy propablemente, con que la información
proporcionada se limita a las medias, los tamaños muestrales y el valor del
estadístico de contraste; raramente se ofrece el valor de las desviaciones típicas. No
13 Esta formulación de {¡ está referida al caso de dos medias; en el caso de los contrastes sobre una
media:
. lµo - µ,I
Ó=---
<1
donde µ 0 se refiere al valor propuesto paraµ en H 0 , µ 1 se refiere al valor propuesto para µ 1 enH 1 (valor
que estimamos mediante ñ. y u se refiere a la desviación típica poblacional (valor que estimamos
mediaPtt: S._ 1 ).
14 Aunque utilizando (4.22) d sigue siendo un estimador sesgado, el sesgo puede ser eliminado
(suponiendo que se dan las condiciones de aplicación del estadístico T: normalidad y homocedasticidad)
multiplicando d por un término corrector llamado c(m) (Hedges, 1982):
3
c(m)~ l---
4m- 1
siendo m = n 1 + n2 - 2. Por supuesto, con tamaños muestrales razonablemente grandes la diferencia

entre utilizar o no el término corrector c(m) es insignificante (ver, por ejemplo, Bangert, Kulik y Kulik,
1983), de modo que, con tamaños muestrales razonablemente grandes, la discusión sobre la elección de
uno u otro estimador carece de relevancia.
obstante, basándonos en la ecuación que relaciona el estimador d con el estadístico

de contraste T:
(4.23)
podemos obtener una estimación del tamaño del efecto incluso a partir de informes
de investigación en los que no se ofrece el valor de las desviaciones típicas
muestrales.
Podremos captar mejor el significado del parámetro fJ si observamos las dis-
tribuciones de la figura 4.1. fJ expresa la diferencia entre dos medias poblacionales en
términos de la desviación típica poblacional (seguimos suponiendo que las distri-
buciones poblacionales son normales y que sus varianzas son iguales). Una diferen-
cia de una desviación típica (b = 1) es en realidad una puntuación z = 1 de la distribu-
ción N(O, 1), lo que significa que puede ser interpretada como que el 84,13 por 100
(pues P(Z ~ 1) = 0,8413) de los sujetos del grupo con menor media están por debajo
de la media del otro grupo. De igual forma, una diferencia de dos desviaciones
típicas (b = 2) significa que el 97,72 por 100 (P(Z ~ 2) = 0,9772) de los sujetos del
grupo con menor media se encuentran por debajo de la media del otro grupo.
Ó=2
Figura 4.1.-Tamaño del efecto expresado por el parámetro b (distancia entre las medias poblacionales
en número de desviaciones típicas).
Las ecuaciones recién propuestas son apropiadas para estimar el tamaño del
efecto en los diseños con muestras independientes. Con muestras relacionadas,
Gibbons, Hedeker y Davis (1993) proponen utilizar como estimador del tamaño del
efecto:
(4.24)
donde fj se refiere a la media de las n diferencias D¡ y <10 a la desviación típica de

esas n diferencias. Es decir:
¿vi
D=-i-= Y1 - Y2
n
(4.25)
De nuevo podemos encontrarnos con que en los informes de investigación

publicados no aparezca el valor de la desviación típica de las diferencias. En esos
casos, todavía es posible obtener d' calculando la desviación típica de las diferencias
a partir de los datos disponibles, pues:
Sv=--
vJn (4.26)
T
Otra medida del tamaño del efecto muy utilizada en los diseños de dos muestras
es el coeficiente de correlación r de Pearson (inicialmente propuesto para tal
finalidad por Friedman, 1968; y muy recomendado, entre otros, por Rosenthal,
1984). Tanto si se está trabajando con muestras independientes como si se está
haciendo con muestras relacionadas, la correlación se calcula entre las puntuaciones
de la variable dependiente (la variable en la cual se desea comparar a los dos
grupos) y la variable grupo (variable dicotómica cuyos niveles vienen definidos por
la pertenencia a uno u otro grupo) 15 . El cálculo de r es directo a partir del
estadístico T:
r = jT2 /(T 2 + gl) (4.27)
donde gl = n 1 + n 2 - 2 (es decir, los grados de libertad asociados al estadístico T).

Elevando al cuadrado el coeficiente de correlación r se obtiene la proporción de
varianza de la variable continua que es explicada por la variable dicotómica (es
decir, la proporción de varianza de la variable dependiente que es explicada por la
pertenencia a uno de los dos grupos).
Las preferencias por una u otra medida del tamaño del efecto (d o r) están
divididas. Quizá la utilización de d está más extendida; tiene la ventaja de ser
fácilmente interpretable al tratarse de una distancia estandarizada, pero su uso
requiere suponer que las distribuciones poblacionales son normales y homocedásti-
cas. La interpretación de r es menos intuitiva para el profesional no experto en
estadística (proporción de varianza explicada), pero tiene una propiedad muy
deseable en un índice estadísico: posee un mínimo y un máximo. De cualquier
manera, conocer, en una situación concreta, la equivalencia entre ambas medidas es
una tarea poco costosa, pues una es fácilmente transformable en la otra mediante:
,2
d= (4.28)
p(l - p)(l - r 2 )
d
r = ----;======= (4.29)
Jd2 + 1/[p(l - p)]
15 Cuando el coeficiente de correlación r de Pearson se aplica a una variable dicotómica (es decir, a
una variable con dos valores, O y 1; en nuestro caso: O = pertenencia al primer grupo. 1 = pertenencia al
segundo grupo) y a una variable continua, recibe el nombre de correlación hiserial-puntual (ver San
Martín y Pardo, 1989, págs. 464-470).
siendo p = n¡/(n 1 +ni); es decir, siendo p la proporción de sujetos que pertenecen al

primer grupo (o, indistintamente, p = ni/(n 1 + ni); es decir, la proporción de sujetos
que pertenecen al segundo grupo).
Por supuesto, los dos índices comentados (d y r) no son los únicos disponibles
para obtener una medida del tamaño del efecto (aunque, sin duda, los más
utilizados). El lector interesado en conocer otros índices puede consultar, por
ejemplo, Levy ( 1967; proporción de casos incorrectamente clasificados), Rosenthal y
Rubín, (1982; binomial e.ffect size display, BESO), McGraw y Wong (1992; common
language, CL), etc. También se han diseñado estimadores no-parámetricos del
tamaño del efecto (ver, por ejemplo, Kraemer y Andrews, 1982; o Hedges y Olkin,
1984).
EJEMPLO 4.7. En el ejemplo 4.4 nos hemos servido de dos grupos de tamaño
n 1 =ni = 40 para estudiar el efecto de Ja utilización de ilustraciones en el aprendizaje
de palabras. Tras rechazar la hipótesis de igualdad de medias hemos concluido que los
niños a los que se les enseñan palabras con ilustraciones aprenden más palabras que
los niños a Jos que no se les enseña con ilustraciones. ¿Cómo podemos ahora
cuantificar el tamaño de efecto? Es decir, ¿cómo podemos cuantificar la mejora
obtenida en el aprendizaje de palabras como consecuencia de la utilización de
ilustraciones?
Recordemos que las medias y desviaciones típicas obtenidas con cada grupo fueron
las siguientes:
y sn- 1
1Grupo 1 19 16
Grupo 2 30 21
Por tanto:
IY1 - Yil 119 - 301

d=-----;:=======
(n 1 - l)S~ +(ni - l)S~
--:::=====
39(16)i + 39(21 )i
= 0,59
n 1 +ni - 2 40+40-2
'-Í~
-2,64i
r = T2+9/ = ----=0,29
-2,64i + 78
En la tabla de la distribución normal estandarizada nos encontramos que

P(Z ~ 0,59) = 0,7224, por lo que d = 0,59 nos está indicando que el 72 por 100 de Jos
niños no entrenados con ilustraciones está por debajo del promedio de Jos niños
entrenados con ilustraciones (o, lo que es lo mismo, el 28 por 100 de Jos niños no
entrenados con ilustraciones supera el promedio de los niños sí entrenados).
Por otro lado, elevando al cuadrado r = 0,29 obtenemos r 2 = 0,084, lo que

significa que sólo el 8,4 por 100 de la varianza de las puntuaciones en aprendizaje está
explicado por el tipo de entrenamiento.
Aunque las medias de ambos grupos difieren más de lo que es esperable por azar
(razón por la cual hemos rechazado H 0 en el ejemplo 4.4), el tamaño de efecto no
parece demasiado grande. Siguiendo las sugerencias de Cohen (por ejemplo, 1992, pág.
157), que clasifica el tamaño del efecto como pequeño (d ~ 0,20; r ~ O, 10), medio
(d ~ 0,50; r ~ 0,30) y grande (d ~ 0,80; r ~ 0,50), podríamos calificar el tamaño del
efecto encontrado en este ejemplo como de medio.
AP~NDICE 4
Distribución muestra! de Y, - Y2 suponiendo a, =a 2
Según sabemos 16 :
(n - os;_.
-----x2 (12 - ·- 1
En consecuencia:
(n 1 - l)Si (n 2 - l)S~
----=x;,-•
(12
Y
(1
2 = x;,-•
Y de acuerdo con la propiedad aditiva 1 7 de x2 :
x;, -1 + x;,-. = x;, +n,-2
Por tanto:
(n 1 - l)Si + (n 2 - l)S~ 2
(1
2 =x.,+.,-2 (4.30)
Recordemos ahora 18 que una variable T sigue el modelo de distribución de probabilidad

t de Student si:
z
T=-;:.::::;::==
Jx
2 /(n - 1)
16 Ver, en el capítulo 1, el apartado sobre la distribución muestra( de la varianza (apartado 1.3.3).

17 Ver Análisis de datos en psicología I (Botella, León y San Martín, 1993, págs. 328-329).
18 Ver Análisis de datos en psicología I (Botella, León y San Martín, 1993, pág. 331).
siendo Z una variable distribuida normalmente y xi una variable distribuida según xi con
n - 1 grados de libertad. En consecuencia, haciendo, de acuerdo con las ecuaciones (4.7) y
(4.30):
z = 0'1 - Yi) - (µ. - µil

y X
i (n 1 -
= ---------
l)Sf + (n 1 - l)S~
Jui/n 1 + ui/ni ui
la variable aleatoria:
(4.31)
se distribuirá según el modelo t de Student con n 1 +ni - 2 grados de libertad. Simplificando

(4.31) nos queda:
(4.32)
El paso de (4.31) a (4.32) es posible únicamente si las varianzas poblacionales uf y u~ son

iguales, es decir si uf =u~= ui y, por tanto, uf/u~ = l. Sólo de esa manera la ecuación (4.31)
tiene solución y por esta razón decimos que, en el contraste sobre dos medias independientes
con varianzas poblacionales desconocidas, necesitamos suponer que esas varianzas poblacio-
nales son iguales (supuesto éste al que nos hemos referido ya como igualdad de varianzas u
homocedasticidad).
Contraste sobre igualdad de varianzas
Aunque hasta ahora hemos hablado de la heterogeneidad de varianzas como de algo

relacionado con la prueba T sobre diferencia de medias y, por tanto, como algo poco
deseable, lo cierto es que la heterogeneidad de varianzas puede constituir, ella misma, un
resultado experimental relevante. Esto significa que, en ocasiones, el estudio de la variabili-
dad puede ser un fin en sí misma y no sólo un paso previo para la comparación de medias
(ver, por ejemplo, Bryk y Raudenbush, 1988).
Imaginemos que deseamos evaluar el nivel de desarrollo cognitivo alcanzado por dos
grupos de niños que han seguido programas de instrucción diferentes. Si estamos interesados
simplemente en constatar cuál de los dos grupos ha alcanzado, en promedio, mayor nivel de
desarrollo, podemos limitarnos a comparar las medias de ambos grupos con alguno de los
procedimientos ya estudiados. Pero esta forma de proceder pasaría por alto una cuestión de
cierta importancia: podría ocurrir que uno de los métodos de instrucción consiguiera
incrementar el nivel de desarrollo de los niños de forma generalizada (todos los niños
mejoran su nivel de desarrollo) y que el otro método de instrucción consiguiera el mismo
objetivo con sólo unos pocos niños, aunque de forma más marcada. Estas diferencias entre
ambos métodos no quedarían reflejadas en las medias, pero sí en las varianzas, por lo que
sólo acompañando el contraste de medias con un contraste de varianzas podríamos obtener
información real sobre lo que ha ocurrido. .
Existen diferentes procedimientos para contrastar la hipótesis de que dos varianzas
poblacionales son iguales. Uno de los más simples, debido a Levene (1960), consiste en
transformar los valores originales Y¡i U se refiere al j-ésimo grupo: j = 1,2; i se refiere al i-
ésimo sujeto; por tanto: i = 1, 2, ... , n 1 cuando j = 1, i = 1, 2, ... , n 2 cuando j = 2) en puntuacio-
nes diferenciales en valor absoluto:
Dij= 11-;i - }ji

Se obtienen así unas nuevas puntuaciones que reflejan el grado de variabilidad presente
en cada muestra (cuanto mayor sea la varianza de una muestra, mayores serán las puntuacio-
nes Dij y mayor, en consecuencia, su media). Sobre esas puntuaciones se aplica el estadístico
T sobre diferencia de medias (ecuación [ 4.10]) para contrastar, a partir de:
t5 1 = "LD; 1/n 1
D2 = "LD;2/n2
la hipótesis de que ambas muestras proceden de poblaciones con la misma media, es decir:
H 0 : Jlv;, = µ 0 ;,. Si las varianzas poblacionales son iguales, las medias D 1 y D2 serán
parecidas; si las varianzas poblacionales son distintas, las medias D1 y D2 serán distintas. Por
tanto, si el estadístico T nos lleva al rechazo de H 0 : µ 01 = 11 0 ,. podremos concluir que las
varianzas poblacionales son distintas (es decir, podremos rechazar H 0 : af = an.
Este y otros procedimientos 19 se han propuesto como alternativas a la tradicional prueba
F sobre igualdad de varianzas 20 (Hartley, 1940, 1950):
F = s;;s~ (4.33)
donde Si representa la varianza insesgada más grande de las dos que se están comparando
y S~ la más pequeña. Si las poblaciones de partida son normales, este estadístico F sigue el
modelo de distribución de probabilidad F de Fisher-Snedecor con ng - 1 y nP - 1 grados de
libertad (siendo ng y nP los tamaños muestrales correspondientes a Sg y Sp). De modo que
podremos utilizarlo para tomar decisiones respecto a H 0 : ai = ªª·
En concreto, rechazare-
mos la hipótesis de igualdad de varianzas si F toma un valor mayor que el punto crítico
l -2¡2Fn 9 -1.np-1·
EJEMPLO 4.6. En el ejemplo 4.5 hemos utilizado dos muestras de diferente

tamaño (n 1 = 50 y n 2 = 30) en las que hemos obtenido Si = 16 2 y S~ = 21 2 . Con estos
datos podemos contrastar la hipótesis de igualdad de varianzas utilizando la prueba F
y un nivel de significación de 0,02. Veamos:
l. Hipótesis: H 0 : ai = ªª; H 1: ai # ªª (contraste bilateral).

19 Ver, por ejemplo, O'Brien, 1981; en Conover et al. (1981) se comparan 60 procedimientos para
contrastar la igualdad de varianzas.
20 Aunque todavía muchos de los grandes programas de análisis estadístico incluyen el estadístico F
sobre igualdad de varianzas, lo cierto es que otros procedimientos, como el propuesto por Levene, son
más robustos y potentes.
2. Supuestos: La prueba F exige normalidad en las poblaciones de origen; con los

tamaños muestrales de que disponemos podemos suponer normalidad sin riesgo
grave.
s2 21 2
F=_!__=-=172
s;
16 2 '
4. Distribución muestra): F se distribuye según la distribución F con n9 - 1 = 29 y

nP - 1 = 49 grados de libertad.
5. Zona crítica: F ~ 0 •99 F 29 •49 ~ 2,10.
6. Decisión: Como 1,72 < 2,10, mantenemos H 0 • Concluimos que, con los datos
disponibles, no existe evidencia suficiente para pensar que las varianzas poblacio-
nales son distintas.
Si las muestras están relacionadas podemos contrastar la hipótesis H 0 : 11~ = 11~ recurrien-
do (ver, por ejemplo, Snedecor y Cochran, 1967) a:
(F- l)Jn"=2
T=---;:::==:- (4.34)
2jF(l - r 2 )
donde F = Sif S~ y r se refiere al coeficiente de correlación de Pearson entre las puntuaciones

de ambas muestras. Este estadístico T sigue la distribución t de Student con n - 2 grados de
libertad.
Cálculo de la potencia en los contrastes sobre medias

Recordemos (apartado 3.3) que la potencia de un contraste depende de tres factores: 1) la
verdadera diferencia entre las afirmaciones establecidas en H 0 y H 1 (es decir, el tamaño del
efecto), 2) el valor de :x (nivel de significación) y 3) el error típico de la distribución muestra)
del estadístico de contraste utilizado (que según sabemos es tanto más pequeño cuanto
mayor es el tamaño muestra) n).
Las consideraciones del apartado 4.4 sobre el tamaño del efecto son de especial utilidad
para estudiar los problemas relacionados con la potencia de una prueba de significación.
Después de lo estudiado en él disponemos ya de todos los elementos de información
necesarios para abordar ahora las cuestiones referidas al calculo de la potencia en los
contrastes sobre medias.
Una media
El cálculo de la potencia, tal como será abordado aquí, consiste en obtener un valor, al
que llamaremos ~ (delta mayúscula), a partir del cual es posible conocer directamente la
potencia de un contraste recurriendo a la tabla L del apéndice final. Para llegar a .1

necesitamos el valor del tamaño del efecto {> y una función de n que depende de cada
situación concreta. En el caso del contraste de hipótesis sobre una media:
(4.35)
siendo f> el tamaño del efecto obtenido a partir de:
(4.36)
El término 1µ 0 - µ 1 1recoge la diferencia, en valor absoluto, que consideramos relevante

detectar en nuestro estudio y para la cual deseamos conocer la potencia del contraste; y u es
la desviación típica poblacional, que puede ser conocida o puede ser estimada a partir de la
información procedente de estudios previos.
La tabla L del apéndice final ofrece la potencia asociada a diferentes valores de .1 y oc. Las
probabilidades oc de esa tabla corresponden a contrastes unilaterales. Si el contraste es
bilateral debemos tomar la columna correspondiente a oc/2.
Recordemos el ejemplo 4.1. Supongamos que nos interesa conocer la potencia del
contraste para detectar una diferencia de 1 punto entre las medias de las puntuaciones en la
prueba de compresión lectora. Tendremos: µ 0 = 6; µ 1 = 5 (recordemos que el contraste era
unilateral izquierdo); u = 2; n = 36; y oc = 0,01. Con estos datos obtenemos:
lµo-µil 16-51
f>=
(J
=--
2 =05
,
.1 = t>Jn = 0,5)36 = 3
La tabla L, para .1 = 3 y :x = 0,01, nos ofrece una potencia de 0,75. Lo cual significa que,
siendo µ = 5 el verdadero valor de la media poblacional, rechazaremos la hipótesis nula H 0 :
µ = 6 en 75 de cada 100 veces que la contrastemos.
La pregunta sobre la potencia de un contraste puede transformarse fácilmente en la
pregunta sobre el tamaño muestra! necesario para alcanzar una determinada potencia. A
partir de (4.35) obtenemos la ecuación necesaria para conocer ese tamaño muestra!:
,12
n=- (4.37)
1>2
¿Qué tamaño muestra! necesitaríamos para alcanzar, en el contraste anterior, una

potencia de 0,90? En la tabla L vemos que, con :x = 0,01, a una potencia de 0,90 le
corresponde un valor .1 de 3,6. Por tanto:
,12 3 62
n= - = -'- = 5184
f>2 0,52 ,
Necesitaríamos una muestra de 52 sujetos (redondeamos al entero mayor) para que,

siendo µ = 5 el verdadero valor de µ, valga 0,90 la probabilidad de rechazar la hipótesis nula
H 0 : µ = 6.
Si no conocemos u y la estimamos en (J a partir de s._ 1, todavía podemos obtener el

valor de la potencia de un contraste bilateral mediante la siguinete aproximación (Hays,
1988, págs. 304-306):
(4.38)
siendo z una variable distribuida N(O, 1). Utilizando la ecuación (4.38), la potencia viene dada
por la probabilidad de obtener valores mayores o iguales que z. Por supuesto, esta
aproximación será tanto mejor cuanto mayor sea el tamaño muestra!. Supongamos que al
contrastar H 0 : µ = 10 frente a H 1: µ f:- 10 con una muestra de 50 sujetos obtenemos una
desviación típica insesgada de 3. Queremos conocer la potencia del contraste para detectar
una diferencia de 1,5 puntos utilizando rx = 0,05. Tendremos:
! = SJn = 0,5)65 = 4,03

1 -o¡itgl - ! 2,01 - 4,03
z :::::: -----;======= -;:::==== = - 1,99
J1 + (1 -o¡itg,)i/(2gl) Ji + (2,0l)i/128
En la tabla de la distribución normal estandarizada encontramos: P(z;;,, - 1,99) = 0,9767.
Podemos estimar, por tanto, que la potencia del contraste es aproximadamente de 0,98.
Dos medias independientes
Al trabajar con dos medias independientes, el tamaño del efecto viene dado por:
(4.39)
(recordemos que suponemos poblaciones normales con varianzas iguales). Si los tamaños
muestrales son iguales (n 1 =ni = n), !l puede obtenerse mediante:
(4.40)
Y, consecuentemente:
!li
n=2- (4.41)
(Ji
Puesto que n se refiere al tamaño de una cualquiera de las dos muestras, el obtenido con
(4.41) se refiere también al tamaño de cada una de las dos muestras.
Si los tamaños muestrales son diferentes, podemos calcular la media armónica de n 1 y ni:
_ 2n 1 ni
na=--- (4.42)
n1 + n,
y utilizar, en la ecuación (4.40), ñ en lugar de n para obtener !l.
0
Recordemos el ejemplo 4.3 en el que una muestra de 30 varones y otra de 30 mujeres

fueron evaluadas en su actitud hacia el aborto. Supongamos que deseamos conocer la
potencia del contraste para detectar una diferencia de 2 puntos entre las medias de los
varones y de las mujeres. Tendremos:µ"= 12; µm = to (contraste unilateral izquierdo); a= 4;
nv = nm = 30; y oc = 0,05. Por tanto:
y:
ii = bJrJi = 0,5J30¡2 = 1,94

Con ii = 1,94 y oc = 0,05, la tabla L del apéndice final ofrece para la potencia un valor
comprendido entre 0,60 y 0,64. Si quisiéramos aumentar la potencia hasta, por ejemplo, 0,90,
¿qué tamaño muestra( deberíamos utilizar? En la tabla L vemos que, con oc = 0,05, a una
potencia de 0,90 le corresponde un valor ii de 2,90. En consecuencia:
ii 2 2 90 2
n = 2- = 2-'- = 67 28
[J2 0,52 •
Necesitamos 67 sujetos en cada grupo para que el contraste detecte una diferencia de 2
puntos con una probabilidad de 0,90. Es decir, necesitamos 67 sujetos para que al contrastar
la hipótesis nula H 0 : µv - µm =O frente a la alternativa H 1 : µv - Jlm = -2, siendo verdadera
H 1 • la potencia del contraste sea de 0,90.
Si desconocemos a, podemos estimarla mediante el promedio ponderado de las desviacio-
nes típicas muestrales (tal como hemos hecho en [4.22]) y utilizar, para calcular la potencia,
la ecuación (4.38) de idéntica manera a como hemos hecho en el apartado anterior.
Dos medias relacionadas
El procedimiento que nos permite obtener la potencia de los contrastes sobre dos medias
relacionadas es idéntico al expuesto en el apartado anterior excepto (y esto es fundamental)
en lo que se refiere al parámetro b. Ahora:
(4.43)
donde a 0 se refiere a la desviación típica poblacional de las n diferencias entre las puntuacio-
nes de cada par. Esto, en la práctica, supone una dificultad añadida, pues ahora no sólo
necesitamos conocer (o estimar), como en el caso anterior, el parámetro a sino, además, el
parámetro p (coeficiente de correlación entre las puntuaciones de ambas poblaciones), pues:
a 0 = aj2(1 - p) (4.44)
Con todo, en aquellas situaciones en las que exista posibilidad de conocer u y p

(generalmente a partir de estudios previos), pueden utilizarse las ecuaciones (4.43) y (4.40)
para calcular la potencia de idéntica manera a como hemos hecho en el apartado anterior
con dos medias independientes.
EJERCICIOS
4.1. Un investigador sospecha que los hombres y las mujeres difieren en sus actitudes hacia
el aborto. Para confirmar sus sospechas selecciona aleatoriamente 30 varones y 30 mujeres y
les pasa una escala para medir la mencionada actitud. Los resultados obtenidos fueron los
siguientes:
Y; S;
1Varones 38 6
Mujeres 31 5
Sabiendo que cuanto mayores son las puntuaciones en la escala más favorable es la
actitud hacia el aborto, ¿qué concluirá el investigador con un nivel de confianza de 0,95?
4.2. Las puntuaciones que se obtienen en la Escala de Inteligencia para Adultos de Wechsler
(WAIS) se distribuyen normalmente conµ= 100 y u= 16. Un psicólogo ha construido una
nueva prueba de inteligencia y desea saber si la media estandarizada que se obtiene con ella
se parece o no a la proporcionada por el WAIS. Para ello, selecciona una muestra aleatoria
de 100 sujetos y, tras pasarles la prueba, obtiene una media de 104. ¿A qué conclusión llegará
el psicólogo, con un nivel de confianza de 0,95?
4.3. Un investigador cree que los introvertidos y los extrovertidos se diferencian en la

resistencia de unos y otros a experimentar el síndrome de indefensión aprendida (déficit
cognitivo, motivacional y afectivo) que aparece en ocasiones tras una experiencia aversiva
inescapable. Para comprobarlo, diseña una situación experimental en la que 22 introvertidos
y 16 extrovertidos son puestos a trabajar en una tarea de resolución de problemas. La
peculiaridad de estos problemas es que no tienen solución. Tras esto, todos los sujetos pasan
por una nueva situación en la que se les presenta un conjunto de problemas parecidos a los
anteriores pero con la diferencia de que éstos sí tienen solución. La expectativa del
investigador es que los sujetos que hayan creado indefensión en la primera situación
rendirán, en la segunda situación, peor que los sujetos que no la hayan creado. El investiga-
dor anota el número de problemas resueltos por cada sujeto en la segunda situación
experimental y obtiene estos resultados:
Y¡ S¡
1 Introvertidos 3,5 1,8

Extrovertidos 6,3 3,2
Con estos resultados y utilizando '.1. = 0,05, ¿qué concluirá el investigador sobre la
resistencia de los introvertidos y extrovertidos a manifestar indefensión?
4.4. El método tradicionalmente utilizado para la enseñanza de las matemáticas en un

determinado colegio viene consiguiendo que la nota media de los alumnos de secundaria sea,
durante los últimos 3 años, de 6,4. Un psicólogo escolar convence al director del centro de la
existencia de un método más eficaz y éste decide aplicarlo durante un año en dos aulas de 25
niños cada una. Al final del curso, los 50 niños obtienen una media de 6,8 y una varianza
insesgada de 2. ¿Podemos concluir, con un nivel de confianza de 0,95, que el nuevo método
ha mejorado significativamente el rendimiento en matemáticas obtenido con el método
tradicional?
4.5. Con el fin de conocer la utilidad de una técnica de enriquecimiento motivacional, un

educador adopta como criterio de eficacia una mejora significativa en una prueba de
rendimiento académico. Selecciona una muestra de 24 sujetos y les pasa la mencionada
prueba. Después aplica su técnica de enriquecimiento motivacional y, completado el
entrenamiento, vuelve a obtener una medida del rendimiento de los sujetos. Los resultados
obtenidos por los 24 sujetos antes y después de la aplicación del entrenamiento aparecen en
la tabla 4.3. ¿Qué concluirá el educador sobre la eficacia de su técnica, con '.1. = 0,01?
TABLA 4.3
Sujetos 1 2 3 4 5 6 7 8 9 JO 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Antes 8 12 14 11 16 6 11 9 JO JO 19 12 17 8 13 12 16 15 15 9 19 14 12 16
Después 9 16 23 21 17 JO 14 8 11 12 19 16 16 13 17 11 18 14 15 16 20 19 17 15
4.6. Las puntuaciones obtenidas en una prueba de inteligencia se distribuyen normalmente

tanto entre los varones como entre las mujeres. Sin embargo, aun siendo ambas distribucio-
nes normales, parece ser que los parámetros que las caracterizan son dif.:rentes. Para
confirmar este supuesto, un psicólogo seleccionó al azar dos muestras, una de 60 varones y
otra de 50 mujeres, y les aplicó la mencionada prueba. En la muestra de varones obtuvo una
media de 107 y una desviación típica insesgada de 15; y en la muestra de mujeres, una media
de 98 y una desviación típica insesgada de 11. Con estos resultados:
a) ¿Podemos decir que la población de los varones es significativamente más dispersa
que la población de las mujeres? ('.1. = O, 10).
b) ¿Puntúan los varones en inteligencia significativamente más alto que las mujeres?
('.J. = 0,05).
4.7. Supongamos que la población de niños de enseñanza primaria se distribuye, en una

prueba de rapidez lectora, N(µ, 4). Planteamos las siguientes hipótesis sobre el parámetro
desconocido µ:
H 0 : µ = 10
H 1 : µ > 10
En una muestra aleatoria de 9 sujetos obtenemos una media de 12. ¿Hay evidencia suficiente
en los datos para rechazar H 0 con un nivel de significación de 0,005?
4.8. Deseamos medir el nivel medio de ansiedad de los alumnos de l.º y 2.º de psicología de
la UAM. Para ello utilizamos la escala de ansiedad de Spielberger y una muestra aleatoria de
4 alumnos de l.º y 6 de 2.º. Hemos obtenido los siguientes datos:
l.º: 25 40 50 45
2. 0 : 27 30 32 39 31 33
Suponiendo que ambas poblaciones se distribuyen normalmente en la escala de ansiedad,
¿podemos concluir, con a:= 0,05, que los alumnos de l.º y 2. 0 difieren en ansiedad?
4.9. Con el fin de estudiar el posible influjo del tipo de instrucciones sobre la ejecución de
una tarea se seleccionó aleatoriamente una muestra de 13 sujetos. Cinco de ellos realizaron la
tarea tras recibir instrucciones breves y sencillas; el resto, tras recibir instrucciones largas y
explícitas. Suponiendo normalidad en las distribuciones poblacionales de origen y a la vista
de los resultados obtenidos, ¿qué podemos concluir acerca del efecto del tipo de instrucciones
sobre la ejecución de esa tarea? (a: = 0,05).
Grupo A (instrucciones breves): 3 6 7 8
Grupo B (instrucciones largas): 3 5 6 5 8 9 8 4
4.10. En un estudio diseñado para comparar dos métodos de enseñanza de las matemáticas
se seleccionó una muestra aleatoria de 20 sujetos. Los sujetos fueron agrupados en parejas a
partir de su cociente intelectual. Los miembros de cada pareja fueron asignados aleatoria-
mente a cada uno de los dos métodos. Al final de la instrucción, todos los sujetos realizaron
una prueba de matemáticas con los resultados que aparecen en la tabla 4.4. El método B es
más cómodo y sencillo a la hora de ser aplicado y se prefiere sobre el A a menos que se
demuestre que el A es más eficaz. ¿Qué decisión se tomará con un nivel de significación
de 0,05?
TABLA 4.4
Pares l.º 2.º 3.º 4.º 5.º 6.º 7.º 8.º 9.º 10.°
Método A 19 33 31 28 29 37 25 30 26 32
Método B 15 34 28 25 29 25 30 27 20 33
4.11. Un investigador desea comprobar si la ingestión de alcohol reduce !a capacidad de los

sujetos para reaccionar a letras presentadas mediante taquistoscopio. Para ello, forma 10
parejas aleatorias de tal forma que los sujetos de cada pareja están igualados en agudeza
visual. Un sujeto de cada pareja, seleccionado al azar, recibe una determinada dosis de
alcohol. Al cabo de un tiempo preestablecido se presenta la serie de letras y se registra el
número de aciertos de cada sujeto. Los resultados obtenidos aparecen en la tabla 4.5.
¿Podemos concluir, con a: = 0,01, que la dosis de alcohol administrada afecta a las respuestas
dadas por los sujetos?
TABLA 4.5
Pares l.° 2.° 3.° 4.° 5.° 6.° 7.° 8.° 9.° 10.º
Sin alcohol 4 3 5 7 8 5 4 6 4 5
Con alcohol 2 1 1 3 2 5 1 3 3 2
4.12. Un estadístico T se distribuye, bajo H 0 verdadera, según se muestra en la tabla 4.6.

Siendo el contraste unilateral izquierdo, con rx. = 0,01, y habiéndose obtenido T = 1 en una
muestra aleatoria, ¿rechazaremos H 0 ? ¿Por qué?
TABLA 4.6
T o 1 2 3 4 5 6 7
Fm 0,001 0,022 0,o70 0,125 0,231 0,562 0,862 1,000
4.13. Un psicólogo industrial dispone de dos pruebas de selección: A y B. Ambas están

estandarizadas de tal forma que proporcionan promedios parecidos. El psicólogo cree que las
dos pruebas son buenas, pero está decidido a utilizar aquella que le proporcione valores más
extremos en relación al promedio. Para decidir cuál de ellas debe elegir, mezcla todos los
items de las dos pruebas en una sola y los aplica a una muestra de 50 sujetos seleccionados al
azar. Después de recogidos los resultados analiza por separado los items de cada una de las
dos pruebas y obtiene: A = 62, s;
= 25, B = 59, St = 36. Sabiendo que la correlación entre
las puntuaciones de ambas pruebas es de 0,90, ¿qué prueba decidirá utilizar el psicólogo?
(rx. = 0,05).
4.14. Existe evidencia empírica que apoya la hipótesis de que Ja mujeres que han sufrido
algún tipo de abuso sexual en la infancia desarrollan en Ja edad adulta ciertas pautas de
comportamiento que reflejan Ja presencia de secuelas importantes derivadas del abuso expe-
rimentado. Entre otras cosas, son más ansiosas que las mujeres que no han sufrido tal abuso
y muestran con frecuencia síntomas depresivos y fóbicos. Nada sabemos, sin embargo, sobre
su conducta de afrontamiento.
Para estudiar esto último, hemos formado dos grupos: uno de mujeres en cuyo historial
clínico existe algún episodio de abuso sexual y otro de mujeres sin la presencia de tales
episodios; y tras evaluar en ambos grupos la respuesta de afrontamiento hemos obtenido
los resultados que muestra la tabla 4.7.
TABLA 4.7
Y; S'1
"
1Grupo experimental 39,5 20 20
Grupo control 43,0 15 60
¿Podemos afirmar, con rx. = 0,01, que las mujeres que han sufrido abuso sexual (grupo
experimental) puntúan en afrontamiento más bajo que las mujeres que no Jo han sufrido
(grupo control)?
4.15. Un investigador afirma que el número de cigarrillos/día que fuman los varones es
más alto, en promedio, que el que fuman las mujeres. Tras efectuar una encuesta a una
muestra aleatoria y comparar las medias de los varones y de las mujeres, ha obtenido un
estadístico de contraste T = 2,681. La tabla 4.8 ofrece la función de distribución de algunos
de los valores del estadístico T:
TABLA 4.8
T -0,539 0,000 0,539 1,356 1,782 2,179 2,681 3,055
F(tllH 0 0,300 0,500 0,700 0,900 0,950 0,975 0,990 0,995
Responde a las siguientes preguntas utilizando ex = 0,05:

a) ¿Qué hipótesis estadísticas debemos plantear?
b) ¿Apoyan los datos la hipótesis del investigador? ¿Por qué?
4.16. Si contrastamos H 0 : µ 1 - µ 2 :s:; O frente a H 1: µ 1 - µ 2 >O utilizando ex= 0,05 y ob-

tenemos un estadístico de contraste T = - 2 tal que P(T :s:; - 2) = 0,045:
a) ¿Qué decisión deberemos tomar sobre H0 ? ¿Por qué?
b) ¿Cuál es el valor del nivel crítico?
4.17. (Señale la/s alternativa/s correcta/s) La distribución muestra) de la media, con n

observaciones independientes procedentes de una población no normal, se aproxima al
modelo de probabilidad normal si:
a) ª2 es infinita y n grande.
b) es finita
(12 y n grande.
e) es finita
(12 y n pequeño.
(12 y µ son finitas, independientemente del tamaño de n.
d)
e) Ninguna de las anteriores alternativas es correcta.
4.18. Para contrastar una determinada hipótesis nula utilizamos dos estadísticos: V y W
Sabemos que V se distribuye según el modelo t de Student y W según el modelo normal
N(O, 1). En una muestra aleatoria obtenemos V = W = k. Según esto, siendo k un valor
cualquiera y dado un mismo nivel de significación (señale la/s alternativa/s correcta/s):
a) Si mantenemos H0 con V, es imposible rechazarla con W
b) Si rechazamos H 0 con V, necesariamente la rechazaremos con W
e) Es más probable que rechacemos H 0 con V que con W
d) Si mantenemos H 0 con V, necesariamente la mantendremos con W
e) Si rechazamos H 0 con V, es posible que la mantengamos con W
4.19. En la situación descrita en el ejercicio 4.2:

a) ¿Cuál es la potencia del contraste para detectar una diferencia de 4 puntos?
b) ¿Cuál debe ser el tamaño de la muestra para que la potencia del contraste valga 0,85?
4.20. ¿Cuál sería la potencia del contraste del ejercicio 4. 7 si el verdadero valor de µ fuera
12 y utilizáramos un nivel de significación de 0,01?
SOLUCIONES
4.1. Contraste sobre dos medias independientes. Suponemos varianzas poblacionales iguales,
pues n 1 = n 2 •
Ho: µ,, = µm; H¡: µ,,'f. µm.
T = 4,91; o,915l5s:::::: 2; rechazamos H 0 .
Concluimos que los varones mantienen hacia el aborto una actitud más favorable que
la de las mujeres.
4.2. Contraste sobre una media con u conocida.

H 0 : µ = 100; H 1 : µ '/. 100.
Z = 2,50; zo,975 = 1,96; rechazamos H 0 •
La nueva prueba proporciona una media significativamente diferente de la del W AIS.
4.3. Contraste sobre dos medias independientes. Suponemos varianzas poblacionales distintas.
H o: µinlrovertidos = /lextrovertidos; H l: µintrovertidos '#- l'extrovertidos·
T' = - 3,16; gl' = 21,87; 0 , 025 t 22 = -2,074; rechazamos H 0 •
Concluimos que los introvertidos son menos resistentes a la indefensión que los
extrovertidos.
4.4. Contraste sobre una media con rT desconocida.
H 0 : µ ~ 6,4; H 1 : µ > 6,4.
T= 2; o,95l49 = 1,676; rechazamos H 0 .
El nuevo método ha hecho mejorar significativamente la nota media de los alumnos.
4.5. Contraste sobre dos medias relacionadas.
H O: l'antes ~ l'después; H 1 : l'antes < µdes pu&·
T= -4,07; 0 , 01 t 23 = -2,500; rechazamos H 0 .
Podemos concluir que, dado que se ha producido una mejora significativa en el ren-
dimiento, la técnica de entrenamiento es eficaz.
4.6. a) Contraste sobre dos varianzas independientes (ver apéndice 4).

H0 : u;arones ~ u!u;ercs; H 1: u;arones > u!u;eres·
F = 1,86; o,95F59,49:::::: 1,60; rechazamos H 0 •
La población de los varones es más dispersa que la de las mujeres.
b) Contraste sobre dos medias independientes. Suponemos varianzas poblacionales dis-
tintas.
H o: µvarones ~ µmujeres; H ¡: µvarones > ~ujeres·
T = 3,62; glm1nimo = 49; o,95t49:::::: 1,676; rechazamos H 0 .
La media de los varones es superior a la de las mujeres.
4.7. Contraste sobre una media con u conocida.

Z = 1,5; zo,995 = 2,575; mantenemos H 0 •
No podemos rechazar H 0 al nivel de significación establecido.
Ha: µ1 .. =µ2 .. ; H1: µ¡ .. #µ2"·
T' = 1,42; y/máximo= 8; a,91sts = 2,306; mantenemos Ha·
No podemos afirmar que los promedios poblacionales de ambos grupos sean difere!ltes.
Ha: µA= µB; H1: µA#- µB.
T' = -0,66; y/máximo= 11; a.a2st11 = -2,201; mantenemos Ha.
No podemos concluir que las instrucciones dadas afecten al rendimiento.

Ha: µA~ µB; H¡: µA> µB.
T = 1,64; a,9st9 = 1,833; mantenemos Ha.
No podemos afirmar que el método A sea más eficaz que el B.

Ha: /lsin ~ µcon: H 1: /lsin > µcon·
T = 5,25; a,99t9 = 2,821; rechazamos Ha.
Los sujetos a los que no se les ha administrado alcohol obtienen un número de
aciertos significativamente más alto.
4.12. No. Porque p = 0,022 > :x = 0,01.
4.13. Contraste sobre dos varianzas relacionadas (ver apéndice 4).

Ha: u~ = uÜ; H 1 : u~ #- u~.
T = 2,91; a.91st4 8 ::::: 2,01; rechazamos Ha.
Podemos concluir que las varianzas son significativamente distintas; el psicólogo
decidirá utilizar la prueba B.
4.14. Contraste de hipótesis sobre dos medias independientes. Suponemos varianzas pobla-
cionales distintas.
Ha: Jlcxperimcntat ~ µcontrol; H 1: µexperimcn1a1 < µcontrol·

T' = - 3, 13; y/mfnimo = 19; a.99t 19 = - 2,539; rechazamos Ha·
Podemos concluir que el grupo de mujeres que ha sufrido abuso obtiene, en prome-
dio, puntuaciones en afrontamiento más bajas que el grupo de mujeres que no ha
sufrido abuso.
4.15. a) Ha: µvarones ~ µmujeres; H 1 : µvarones > µmujeres·

b) Sí. Porque la probabilidad de obtener valores mayores o iguales que 2,861 (es
decir, el nivel crítico) vale p = 1 - 0,990 = 0,01, y este valor es menor que
:X= 0,05.
4.16. a) Mantenerla. La probabilidad de obtener valores T mayores o iguales que - 2

(contraste unilateral derecho) vale 1 - 0,045 = 0,955, y este valor es mayor que
:x = 0,05. (Nótese que el estadístico de contraste cae en la cola izquierda de Ja
distribución, mientras que Ja zona crítica se encuentra en Ja cola derecha.)
b) p = 1 - 0,045 = 0,955.
4.17. b.
4.18. b.
4.19. a) !!.. = 2,5; 1 - p= 0,71 (ver apéndice 4).

b) n = 144.
4.20. !!.. = 1,5; 1 - p = 0,20 (ver apéndice 4).
Análisis de varianza
de un factor
5
5.1. El modelo lineal general.

5.2. Introducción al análisis de varianza.
5.2.1. Modelos de ANOVA.
5.2.2. La lógica del ANOVA.
5.3. Anova de un factor, efectos fijos, completamente aleatori-
zado (A-EF-CA).
5.3.1. Estructura de los datos y notación.
5.3.2. El modelo.
5.3.3. Los supuestos.
5.3.4. El estadístico de contraste.
5.3.5. Resumen del modelo de ANOVA A-EF-CA.
5.4. ANOVA de un factor, efectos fijos, con medidas repetidas
(A-EF-MR).
5.4.2. El modelo.
5.4.3. Los supuestos.
5.4.4. El estadístico de contraste.
5.4.5. Resumen del modelo de ANOVA A-EF-CA.
5.5. Efectos fijos y efectos aleatorios.
5.6. Medidas del tamaño del efecto.
Apéndice 5.
Importancia de los supuestos del ANOVA. Alternativas al esta-
dístico F.
Transformación de las puntuaciones.
Cálculo de la potencia en el ANOVA de un factor.
Ejercicios.
5.1. El modelo lineal general
El propósito del análisis de varianza o ANOVA (del inglés analysis of variance)

es ayudar al investigador a formular un modelo lineal capaz de describir los datos
obtenidos en un estudio empírico.
En el contexto del ANOV A, un modelo es, simplemente, una afirmación alge-
braica (una ecuación matemática) acerca de cómo se relacionan dos o más varia-
bles. Por supuesto, existen muchas clases diferentes de formulaciones algebraicas o
modelos capaces de representar la relación entre dos o más variables. Pero el más
simple y flexible de todos ellos se conoce como modelo lineal. En esencia, un modelo
lineal intenta describir una variable dependiente como el resultado de la suma
ponderada de varios efectos.
Ahora bien, los eventos sometidos a estudio dependen de multitud de factores
diferentes. Cuando un sujeto obtiene una puntuación en una variable psicológica o
de otro tipo, es realista pensar que los factores (causas) que han determinado esa
puntuación son numerosos y variados. Y también es realista pensar que en una
investigación concreta sólo será posible manipular y medir un número reducido de
las múltiples causas atribuibles a un evento cualquiera.
Estas ideas nos dan pie para formular la estructura de los modelos lineales, en
su nivel más elemental, según muestra la figura 5.1.
Valor observado Suma de efectos Suma de efectos

en la variable debidos a factores + debidos a factores no
dependiente tenidos en cuenta tenidos en cuenta
Figura 5.1.-Estructura básica de un modelo lineal.
En su más simple expresión, un modelo lineal intenta describir el valor observa-

do en una variable dependiente recurriendo a 1) un conjunto de efectos atribuibles a
factores tenidos en cuenta (es decir, a factores explícitamente incluidos en el modelo),
y 2) un conjunto de efectos atribuibles a factores no tenidos en cuenta. Los factores
tenidos en cuenta se refieren a las variables que el investigador incluye en el
experimento para estudiar su efecto sobre la variable dependiente. Los factores no
tenidos en cuenta se refieren a variables cuyo efecto, aun pudiendo ser importante
para describir la variable dependiente, no interesa estudiar de forma inmediata o no

resulta posible hacerlo.
Sobre estos factores no tenidos en cuenta el investigador puede decidir ejercer o
no algún tipo de control. Puede ejercerse control sobre una variable manteniéndola
constante: seleccionando sujetos de la misma edad podemos controlar el efecto de la
edad; utilizando las mismas condiciones ambientales podemos controlar el efecto
del contexto; etc. Sobre otras variables no se ejerce control, bien por que no se
desea (en un estudio sobre rendimiento la inteligencia es una variable importante,
pero el investigador puede no estar interesado en controlar su efecto, es decir, puede
decidir utilizar sujetos con diferentes niveles de inteligencia, simplemente porque
desea que sus resultados posean más generalidad), bien porque no resulta posible
hacerlo (la historia individual de cada sujeto, por ejemplo, es algo en lo que los
sujetos claramente difieren pero sobre lo que un investigador no posee conocimien-
to). Todas las variables no controladas son las responsables de la parte de la
variable dependiente que no es capaz de describir el conjunto de variables controla-
das; constituyen, por tanto, aquello que escapa al investigador, razón por la cual se
utiliza el término error para caracterizar al conjunto de efectos debidos a las
variables no sujetas a control en un experimento.
Estas consideraciones nos permiten retocar la primera formulación del modelo
lineal expuesta en la figura 5.1. La figura 5.2 muestra estos retoques.
Valor observado Efecto debido Efecto debido a Efecto debido a

en la variable a factores + factores tenidos + factores no con-
dependiente constantes en cuenta trolados (error)
Figura 5.2. Estructura básica de un modelo lineal.
Un ejemplo concreto nos ayudará a entender mejor la estructura de un modelo

lineal. De entre los muchos factores de los que parece depender el rendimien-
to académico, en un estudio concreto podemos estar interesados en evaluar el efecto
ejercido sobre el rendimiento por dos variables: el nivel cultural de los padres y el
cociente intelectual de los estudiantes. Si formulamos esto en términos de un
modelo lineal (es decir, según la estructura de la figura 5.2) obtenemos como
resultado el propuesto en la figura 5.3.
Puntuación Puntuación media Efecto del nivel Efecto debido

observada en en rendimiento cultural de los a factores no
la variable (común a todos + padres + controlados
rendimiento los sujetos) + efecto del CI (error)
Figura 5.3. . Estructura básica de un modelo lineal.
Ahora podemos dar un paso más e intentar formular matemáticamente el

modelo propuesto en la figura 5.3:
Y¡= fioXiO + fi1X;1 + fi2X;2 +E¡
Análisis de varianza de un factor / 231
Y¡ representa la puntuación obtenida en la variable dependiente por el sujeto i

(el subíndice i se refiere, por tanto, a cada uno de los sujetos); Xw. X; 1 y X; 2 son los
diferentes factores tenidos en cuenta en el modelo a la hora de intentar explicar el
comportamiento de la variable dependiente; y {3 0 , /3 1 y /3 2 son valores desconocidos
(llamados parámetros) que necesitamos estimar y que nos informan sobre la
importancia de cada uno de los factores presentes en la ecuación. El primer término
de la ecuación (/J 0 X¡ 0 ) recoge el conjunto de efectos debidos a los factores manteni-
dos constantes, es decir, aquellos factores que son comunes a todos los sujetos: X; 0
suele tomar el valor 1 para todos los sujetos (lo que significa que los factores
mantenidos constantes forman parte de la ecuación una vez para cada sujeto) y /3 0
es, generalmente, la media poblacional (que es justamente la parte de la variable
dependiente que es común a todos los sujetos). El término final (E;) representa el
efecto debido al conjunto de factores no tenidos en cuenta y que se supone q_ue
varían aleatoriamente. Ya nos hemos referido a él como término error: refleja la
diferencia existente entre la realidad y las predicciones que se derivan del modelo.
Si en lugar de utilizar un modelo con sólo dos factores tenidos en cuenta (X; 1 y
X; 2 ), utilizamos cualquier número de factores (por ejemplo, k), llegamos a la
formulación del modelo lineal general en su forma definitiva:
(5.1)
Tendremos ocasión de constatar repetidamente la gran utilidad de este modelo:

a pesar de su simplicidad, es lo bastante general para dar fundamento a la mayor
parte de las técnicas de análisis de datos utilizadas en la investigación empírica.
Ahora bien, su formulación no es siempre como se muestra en (5.1). Cada una de las
situaciones concretas que vamos a estudiar requiere una reformulación particular
de (5.1) que haremos explícita cuando esas situaciones se vayan presentando.
5.2. Introducción al análisis de varianza
En el capítulo anterior hemos comenzado ya a estudiar la relación entre dos

variables: una independiente con dos niveles definidos por los dos grupos cuyas
medias comparábamos, y una dependiente medida con una escala de intervalo o
razón. El análisis de varianza (ANOVA) permite extender esas ideas al caso en el
que la variable independiente tiene más de dos niveles (definidos por más de dos
grupos: ahora no existen restricciones sobre el número de medias que es posible
comparar) y, además, ofrece la posibilidad de estudiar más de una variable indepen-
diente. Tal vez debido a esto el ANOV A ha sido durante muchos años (y probable-
mente sigue siendo) la técnica de análisis de datos más frecuentemente utilizada en
la investigación psicológica.
5.2.1. Modelos de ANOVA
A pesar de que los modelos de ANOVA son muy variados puede obtenerse una
clasificación bastante simple de los mismos atendiendo a unos pocos criterios.
Nosotros no vamos a estudiar todos los posibles modelos de ANOVA, pero sí los
más representativos, los cuales, por un lado, son los más frecuentemente utilizados
en la investigación empírica y, por otro, permiten resolver la mayor parte de las
situaciones experimentales con las que un investigador se puede encontrar en la
práctica. Tres criterios nos bastan para clasificar los modelos de ANOV A a los que
vamos a prestar atención: el número de factores, el tipo de aleatorización seguida y
el tipo de muestreo efectuado sobre los niveles de los factores.
a) Número de factores
El término factor en el contexto del ANOVA es sinónimo de variable indepen-

diente. Así, al modelo de ANOVA diseñado para analizar los datos obtenidos
utilizando un diseño con una variable independiente lo llamamos ANOV A de un
factor (en inglés, one way ANOV A). Si el diseño consta de dos variables independien-
tes, al modelo de ANOV A que permite analizar los datos se le llama ANOV A de
dos factores (two way ANOV A). Con tres variables independientes hablamos de
ANOVA de tres factores (three way ANOVA), etc.
b) Tipo de a/eatorización
Aleatorización es el término utilizado para denominar el proceso consistente en

asignar aleatoriamente (es decir, al azar) las unidades experimentales (generalmente
sujetos) a cada uno de los niveles del factor. Con la aleatorización se intenta
garantizar que todos los sujetos tengan la misma probabilidad de pertenecer a cada
uno de los niveles del factor. Se pretende con ello que el conjunto de posibles
variables extrañas asociadas a las características personales de los sujetos queden
distribuidas de forma similar en todos los niveles del factor. La aleatorización, por
tanto, debe entenderse ante todo como una forma de control.
La aleatorización se puede llevar a cabo de diferentes formas. Si la aleatoriza-
ción se efectúa sobre cada uno de los sujetos hablamos de ANOVA completamente
aleatorizado: cada sujeto, uno a uno, es asignado al azar a cada uno de los niveles
del factor. Supongamos que estamos interesados en establecer la cantidad de
fármaco idónea para reducir el insomnio de determinado tipo de pacientes. Tene-
mos una variable independiente o factor (cantidad de fármaco) en la que definimos
cuatro niveles: A 1 =O mg, A 2 = 100 mg, A3 = 250 mg, A4 = 500 mg. Y una
variable dependiente (insomnio) que podemos medir de diferentes maneras. Para
determinar el efecto del fármaco sobre el insomnio podemos comenzar seleccionan-
do una muestra aleatoria de, por ejemplo, N = 40 pacientes. Después podemos
formar 4 grupos de sujetos, de tamaños n 1 , n2 , n3 y n4 , asignando al azar cada uno
de los 40 sujetos a uno de los 4 grupos. Por último, podemos asignar, aleatoria-
mente también, cada grupo a uno de los cuatro niveles del factor. Procediendo de
esta manera habremos construido un diseño completamente aleatorizado.
Pero este tipo de aleatorización no es el único disponible. Si sospechamos que
existe alguna variable extraña que puede alterar de forma apreciable las conclusio-
nes de nuestro experimento, podemos ejercer sobre ella un control directo modifi-
cando el tipo de aleatorización. Supongamos que el fármaco cuya influencia sobre
el insomnio deseamos determinar posee la peculiaridad de afectar de forma diferen-
ciada a los pacientes dependiendo del grado de insomnio padecido. Podemos
controlar ese efecto formando bloques: si clasificamos a los 40 sujetos de nuestra
muestra como pacientes con insomnio severo, pacientes con insomnio moderado y
pacientes con insomnio leve (tres bloques) 1 y, tras esto, asignamos aleatoriamente
los sujetos de cada bloque a cada uno de los niveles del factor, habremos consegui-
do que dentro de cada nivel haya tanto pacientes con insomnio severo, como
pacientes con insomnio moderado y pacientes con insomnio leve: el efecto de la
variable extraña habrá quedado controlado al estar todos los grupos igualados en
grado de insomnio. Procediendo de esta manera habremos construido un diseño de
bloques aleatorios. Y el ANOVA que permite analizar los datos así obtenidos recibe
el nombre de ANOVA de un factor aleatorizado en bloques (equivalente a un
diseño de dos factores).
Un caso extremo de bloqueo es aquel en el que cada bloque está formado por
un único sujeto. Es decir, aquel en el que a todos y cada uno de los sujetos se les
aplican todos y cada uno de los niveles de la variable independiente o factor. La
homogeneidad dentro de cada bloque es máxima (y por tanto mínima la presencia
de variables extrañas atribuibles a diferencias entre los sujetos) porque todas las
puntuaciones dentro de un mismo bloque pertenecen a un mismo sujeto. Cuando
éste es el caso ya no se habla de diseño de bloques, sino que de diseño intrasujetos: y
al ANOVA que permite analizar los datos obtenidos con un diseño de ese tipo se le
llama ANOVA de medidas repetidas.
Estas distinciones basadas en el concepto de aleatorización son equivalentes a
las ya establecidas en el capítulo anterior (págs. 182-183) al hablar de muestras
independientes y muestras relacionadas: hablar de diseños completamente aleatori-
zados es equivalente a hablar de muestras independientes (a cada nivel del factor
se asigna un grupo distinto de sujetos); y hablar de diseños intrasujetos es equiva-
lente a hablar de muestras relacionadas (bien porque los sujetos de un mismo
bloque -tantos sujetos como niveles- han sido igualados -emparejados- aten-
diendo a algún criterio, bien porque todos los grupos están formados por los mis-
mos sujetos).
1 Aunque en este ejemplo concreto hemos establecido tres bloques, el número de bloques que pueden
establecerse es arbitrario. Oscila entre un mínimo de dos (o formamos al menos dos bloques o no
formamos ninguno) y un máximo de N/k, siendo N el tamaño de la muestra y k el número de niveles del
factor (en cada bloque debe haber, como mínimo, tantos sujetos como niveles tenga el factor).
e) Muestreo de niveles
En los diseños experimentales un factor es, en general, una variable controlada

por el propio experimentador. Sus valores serán muchos o pocos dependiendo,
normalmente, de los intereses del investigador. En el ejemplo recién comentado
hemos establecido 4 niveles de fármaco, pero igualmente podríamos haber estableci-
do 3, o 5, o 7, o cualquier otro número.
Estos niveles pueden establecerse de dos formas diferentes: fijando sólo aquellos
niveles del factor que realmente estamos interesados en estudiar, o seleccionando
aleatoriamente un conjunto de niveles de entre todos los posibles niveles del factor.
Si establecemos, por ejemplo, 4 niveles de fármaco (O mg, 100 mg, 250 mg y 500
mg) porque esos niveles de fármaco son los que realmente nos interesa estudiar y
porque, en consecuencia, nuestras inferencias se limitarán a esos 4 niveles, entonces
el modelo de ANOVA es de efectos fijos o sistemático (también llamado modelo /).
Los niveles que interesa estudiar son justamente los que se están estudiando, de
modo que, si se replicara el estudio, los sujetos serían diferentes pero los niveles del
factor serían exactamente los mismos. El propósito del diseño es determinar si esos
niveles (tratamientos, métodos, etc.) concretos difieren entre sí. Utilizando un
modelo de efectos fijos podríamos determinar cuál de los niveles de fármaco
utilizados (O mg, 100 mg, 250 mg y 500 mg) es más eficaz a la hora de reducir el
insomnio.
Si en lugar de fijar los niveles que se desea estudiar se procede seleccionando al
azar unos pocos niveles de entre todos los posibles (por ejemplo, utilizando la tabla
de números aleatorios para elegir 4 niveles de fármaco entre O y 1.000 mg) porque
las inferencias que interesa realizar se refieren, no a unos niveles concretos, sino a
cualquiera de los posibles, entonces el modelo de ANOV A es de efectos aleatorios o
componentes de varianza (también llamado modelo JI). Aquí no interesa estudiar
unos niveles concretos sino cualquiera de los posibles niveles del factor. Si se llevara
a cabo una réplica del mismo estudio, los sujetos serían diferentes y también serían
diferentes (muy probablemente) los niveles seleccionados 2 . Utilizando un modelo de
efectos aleatorios podríamos determinar si la utilización de diferentes niveles de
fármaco produce efectos diferenciados sobre la reducción del insomnio.
1 Los modelos utilizados con mayor frecuencia en la investigación psicológica son los de efectos fijos.
pero existen situaciones concretas donde resulta apropiado recurrir a un modelo de efectos aleatorios.
Veamos un ejemplo. Es posible que la eficacia de una determinada terapia venga condicionada por las
características personales del terapeuta que la aplica. Pero no poque haya algunas características
personales conocidas que determinen tal efecto, sino, simplemente, porque distintos terapeutas obtienen
diferentes resultados. Podemos seleccionar aleatoriamente unos pocos terapeutas (no necesitaríasmos
seleccionar a todos los terapeutas posibles) y asignar una muestra aleatoria de pacientes a cada uno de
ellos. Los resultados del experimento podrían informarnos, no sobre si tal terapeuta concreto difiere de
tal otro, sino sobre si la variable tipo de terapeuta se relaciona con los resultados de la terapia. Si
eligiéramos otros terapeutas diferentes el resultado al que llegaríamos sería el mismo (cosa que no
podemos afirmar cuando el factor con el que trabajamos es de efectos fijos).
5.2.2. La lógica del ANOVA
Imaginemos dos poblaciones con la misma media y la misma varianza. Si

mezclamos las dos poblaciones el resultado es una población con la misma media y
la misma varianza. Si, por ejemplo, mezclamos las poblaciones A = {1, 2, 3, 4, 5}
y B = {1,2,3,4,5}, ambas con media 3 y varianza 2, la población resultante
C = {1, 2, 3, 4, 5, 1, 2, 3, 4, 5} sigue teniendo media 3 y varianza 2 (figura 5.4). En esta
situación, es razonable pensar que, si estimamos la varianza poblacional a partir de
una muestra de las poblaciones A o B obtendremos un resultado similar al que
obtendríamos si la estimación la efectuáramos a partir de una muestra de la
población C. Con más de dos poblaciones ocurre exactamente lo mismo.
0.41
o.2 i. .I...===============...._
1
2
1
3 4
1 1
5
e
Media= 3 Varianza = 1
:::11
......_~,~~¡r---r-¡-r¡-T¡~-
B
2 3 4 5
0.41 Media = 3 Varianza = 2
0.2 i r - ¡- - - - - - - - - .
......_~,~~¡r---r¡~T¡~~.~-
2 3 4 5
Media = 3 Varianza = 2
Figura 5.4. La mezcla de dos distribuciones con la misma media y con la misma varianza da como
resultado una nueva distribución con la misma media y la misma varianza.
Consideremos ahora dos poblaciones con distinta media pero con la misma
rarian:a. Al mezclarlas, no sólo cambia la media, sino que también lo hace la va-
rianza. Por ejemplo, si mezclamos la población A = [ 1, 2, 3, 4, 5 }, con media 3 y
varianza 2, con la población B = {6, 7, 8, 9, 10}, con media 8 y varianza 2, la
población resultante C = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10] tiene de media 5,5 y de varianza
8,25. La figura 5.5 refleja esta situación. Ahora, es razonable pensar que una
estimación de la varianza poblacional a partir de una muestra extraída de las
poblaciones A o B será sustancialmente diferente de una estimación efectuada a
partir de una muestra extraída de la población C. Con más de dos poblaciones
ocurre exactamente lo mismo.
:1' Ediciones Pirámide
º'j
0.2 ,
1
1
2
1
3
1
4 5 e
Media= 3 Varianza= 2 º'0.111
.........,.......,.,~r¡--i¡r--~1~r1--.1~T1~~1.....,,_._
2345678910
B
º'j
0.2 ,
1 1 1 1 1
Media= 5.5 Varianza= 8,25
6 7 8 9 10
Media= 8 Varianza= 2
Figura 5.5.-La mezcla de dos distribuciones con distinta media y con la misma varianza da como
resultado una nueva distribución con media distinta a las dos anteriores y con varianza también distinta.
Esta simple observación es el punto de partida del análisis de varianza, el cual

nos va a permitir comparar las medias de varios grupos a partir del estudio de las
varianzas de esos grupos. Para ello, según se desprende de los párrafos anteriores,
necesitamos comenzar suponiendo que las poblaciones con las que vamos a
trabajar poseen la misma varianza.
Supongamos que de J poblaciones, todas ellas normales y con idéntica varianza
(es decir, af =a~ = ·· · = aj = a;), extraemos J muestras aleatorias de tamaño nen
las cuales medimos una variable Y¡i (i se refiere a los diferentes elementos de la
misma muestra: i = 1, 2, ... , n; j se refiere a las diferentes muestras: j = 1, 2, .. ., J; así,
Y52 , por ejemplo, representa la puntuación obtenida por el 5. 0 sujeto de la 2.ª
muestra). Obviamente, cada varianza muestra! SJ podría ser considerada un
estimador de la varianza de su correspondiente población. Pero como estamos
suponiendo que todas las poblaciones tienen la misma varianza, podemos mejorar
nuestra estimación utilizando el promedio de las J varianzas muestrales para
obtener una única estimación de esa varianza poblacional 3 :
J
L SJ
c12 = j;l (5.2)
e J
3 Si los tamaños muestrales ni son distintos podemos promediar los J estimadores SJ ponderando
cada uno con sus grados de libertad:
J
L (ni - l)Sf
... 2 - j= 1
rr, -~J----
L (ni - 1)
i'·=l
Este promedio nos proporciona un estimador de la varianza poblacional al que

llamaremos MCE (media cuadrática error). Conviene ya desde ahora empezar a
familiarizarse con este término.
Supongamos ahora por un momento que las J poblaciones normales de las que
venimos hablando, además de la misma varianza, también tienen la misma media.
Si ese es el caso, las J muestras aleatorias obtenidas pueden ser consideradas
muestras aleatorias extraídas de la misma población (pues han sido extraídas de J
poblaciones idénticas) y, en consecuencia, las medias de esas muestras podrán ser
utilizadas para obtener un nuevo estimador de la varianza poblacional. Sabemos 4
que la varianza poblacional (aD se relaciona con la varianza de la distribución
muestral de la media (a}) de la siguiente manera:
2
2 O'e
O'-=-
x n
En consecuencia, podemos utilizar la varianza de la distribución muestral de la

media para obtener un segundo estimador de la varianza poblacional:
a-2e = nu2-
X (5.3)
A este estimador lo llamaremos MCI (media cuadrática intergrupos). También

con este término conviene empezar a familiarizarse.
Así pues, tenemos dos estimadores de la varianza poblacional Uno de ellos, a;.
MCE, es independiente del valor de las medias poblacionales; se obtiene a partir de
las puntuaciones individuales de cada muestra 5 • El otro, MCI, depende del valor de
las medias poblacionales: sólo es un estimador de a;
cuando las J muestras son
extraídas de la misma población (con media µ) o de J poblaciones idénticas (y, por
tanto todas ellas con la misma media, además de con la misma varianza). Por tanto,
si en una situación concreta los dos estimadores ofrecen estimaciones iguales,
podremos pensar que las medias poblacionales también son iguales. Por el contra-
rio, si esas dos estimaciones difieren, deberemos pensar que las medias poblaciona-
les son distintas (recordemos el argumento expuesto al comentar las figuras 5.4 y
5.5).
Ahora bien, como MCE y MCI son valores muestrales, raramente serán
idénticos. Cabe esperar que, aun siendo iguales las medias poblacionales, entre
MCE y MCI existan ligeras diferencias atribuibles al proceso de muestreo. La
cuestión estriba precisamente en encontrar un método que nos permita determinar
• Recuérdese que las medidas obtenidas a partir de muestras aleatorias de tamaño 11 extraídas de una pobla-
ción normal se distribuyen normalmente con mediaµ y varianza cr 2/11 (ver apai1ado 1.3.2).
' Recordemos que la varianza de un conjunto de puntuaciones no se ve alterada si a esas
puntuaciones se le añade una constante. Por tanto, aunque las medias poblacionales difieran entre sí (es
decir, aunque las puntuaciones de las distintas poblaciones difieran en un valor constante), como las
varianzas poblacionales siguen siendo iguales, la estimación (5.2) no se verá afectada por el valor de las
medias.
cuándo la diferencia entre MCE y MCI es lo bastante grande como para pensar que
no puede ser atribuida al azar propio del muestreo. Justamente ese método es el que
se describe, para diferentes situaciones concretas, en los apartados que siguen.
5.3. ANOVA de un factor. de efectos fijos, completamente

aleatorizado {ANOVA A-EF-CA)
Vamos a comenzar estudiando el modelo de ANOVA más simple de todos.
Muchos de los conceptos relacionados con el ANOVA se entenderán mejor
refiriéndolos a este modelo. Una vez asimilados esos conceptos serán fácilmente
generalizables al resto de los modelos.
Comenzaremos haciendo referencia al tipo de datos que este modelo nos va a
permitir analizar y a la notación que utilizaremos para referirnos a ellos. A
continuación describiremos los diferentes aspectos del modelo A-EF-CA utilizando
un esquema similar al que hemos seguido al hablar de otros contrastes de hipótesis.
5.3.1. Estructura de los datos y notación

Nos encontramos en una situación en la que los datos se han obtenido mediante
un diseño con muestras independientes (completamente aleatorizado) y utilizando
una variable independiente (un factor) con J niveles establecidos por el investiga-
dor (efectosfijos). Un grupo de N sujetos es aleatoriamente repartido en J grupos
de tamaño ni y cada grupo asignado a uno de los niveles del factor. Tenemos, pues,
J poblaciones en las que definimos una variable (Y, medida con una escala de
intervalo o razón) y de las cuales extraemos J muestras aleatorias con el objetivo de
efectuar inferencias sobre las medias poblacionales. La tabla 5.l muestra la disposi-
ción de los datos.
TABLA 5.1
Estructura de los datos y notación correspondientes a un
diseño de un factor, de efectos fijos, completamente
aleatorizado
Niveles del
factor
Observaciones T; Yj
A1 Y11 Y21 Y;1 Y.,1 TI Y1

Ai Y12 Y22 Y;2 Y.,2 T2 Y2
... ... . .. ... ... . .. . ..
Ai ylj Y2i Y;i Yn;i Ti Yj
... ... ... . .. ... ... ...
A1 YIJ Y21 yiJ Y,,~) T1 Yi
T y
Los niveles del factor están representados por A 1 , A 2 , ••• ,AJ. La notación genéri-
ca de para esos niveles es Ai" Por tanto, j es el subíndice que utilizaremos para
referirnos a uno cualquiera de los distintos niveles de la variable independiente o
factor: j = 1, 2, ... ,J. En el contexto de los diseños experimentales esos diferentes
niveles del factor (los A) suelen recibir el nombre de tratamientos o condiciones
experimentales.
Y;i son las puntuaciones obtenidas en la variable dependiente por los diferentes
sujetos. Y21 , por ejemplo, representa la puntuación obtenida por el sujeto 2 en el
tratamiento, grupo o muestra l. El subíndice i, por tanto, se refiere a uno cualquiera
de los sujetos a los que se les ha aplicado un tratamiento. Cuando j = 1,
i = 1, 2, ... , n 1 ; cuando j = 2, i = 1, 2, ... , n2 ; etc.
Los totales de cada tratamiento o grupo están representados por Ti. Así, si
sumamos las puntuaciones de todos los sujetos del grupo 1 obtenemos T 1 ; si
sumamos las puntuaciones de todos los sujetos del grupo j obtenemos Ti
(5.3)
De igual forma, Yi representa la media de uno cualquiera de los tratamientos:
- Ti
Y.=- (5.4)
1 n·J
T y Y representan, respectivamente, la suma total y la media total, es decir, la

suma (n y la media (Y) de todas las puntuaciones:
- ~Ti T
T = L L yij = L Tj Y=-1-=- (5.5)
i N
j j
¿ni
j
5.3.2. El modelo
Los diferentes aspectos del análisis de varianza se sustentan sobre una serie de
modelos matemáticos acompañados de un conjunto de supuestos referidos a las
distribuciones de las variables aleatorias que forman parte de esos modelos. El
modelo de ANOV A de un factor, de efectos fijos, completamente aleatorizado no es
más que una versión del modelo lineal general ya presentado (ecuación [5.1])
adaptado al caso de una sola variable independiente o factor. Tal modelo intenta
describir la variable dependiente Yii a partir de tres componentes (recuérdense las
ideas expuestas en el apartado 5.1): el efecto debido a factores mantenidos constan-
tes, el efecto debido al factor tenido en cuenta y el efecto debido a los factores no
tenidos en cuenta 6 :
(5.6)
Este modelo establece que la puntuación obtenida por el sujeto i bajo el

tratamiento j puede ser explicada recurriendo a tres componentes que se mezclan de
forma aditiva: la media total de las J poblaciones (que es la parte común a todas las
puntuaciones Y¡), el efecto atribuible a la variable independiente (es decir, el efecto
atribuible al tratamiento bajo el cual se obtiene esa puntuación Yij, y que definimos
como lo que la media de cada grupo (µ) se aleja de la media total, rx.i = µi - µ,
pues lo que cada tratamiento tiene de específico es justamente aquello en lo que
se diferencia del promedio total µ) y el efecto atribuible al conjunto de posibles
variables no contempladas en el modelo (variables extrañas cuyo efecto es desco-
nocido; variables cuyo efecto, aun siendo conocido, no se desea estudiar; errores
de medida; etc.) 7 .
Por supuesto, los términos µ y 'Y.i incluidos en el modelo son parámetros (es
decir, valores poblacionales; por eso utilizamos letras griegas) y, por tanto, suelen
ser valores desconocidos. Para trabajar con ellos es necesario estimarlos. Utilizare-
mos Y como estimador deµ, ~como estimador de µi y ~ - Y como estimador de
'Y.i (pues 'Y.i = µi - µ). Los tres estimadores son insesgados, pues en los tres casos
estamos utilizando medias muestrales para estimar medias poblacionales (puede
consultarse el capítulo 2 sobre estimación).
Veamos con un ejemplo lo que significa cada uno de los términos que forman
parte del modelo. Supongamos que de una población seleccionamos una muestra
aleatoria de 5 elementos y que a esos 5 elementos aplicamos un tratamiento j.
Después de la aplicación del tratamiento medimos, en todos los elementos, algún
criterio relacionado con la efectividad de ese tratamiento (variable dependiente).
Supongamos, además, que este proceso lo repetimos en dos poblaciones más (J = 3)
utilizando para cada una de las muestras seleccionadas un tratamiento diferente.
Supongamos, por último, que los datos obtenidos son los que aparecen en la tabla
5.2.
Todas las puntuaciones son iguales, lo que significa, en principio, que los 3
tratamientos aplicados poseen la misma eficacia. Esto queda reflejado también en
las medias muestrales, las cuales son iguales entre sí(~= 5, en las tres muestras) e
iguales, en consecuencia, a la media total (Y= 5). En una situación de este tipo, para
describir cualquiera de las puntuaciones nos basta con recurrir a la media global µ.
" Para profundizar en los diferentes aspectos teóricos relacionados con los modelos de ANOVA
pueden consultarse las excelentes obras de Winer, Brown y Michels (1991) o Kirk (1995), las cuales
cubren estos aspectos de forma razonablemente asequible.
7 Conviene señalar que un modelo matemático de las características del propuesto en (5.6) nunca es
fil/so. Cada puntuación se intenta explicar a partir de algo (µ + :x¡) más /o demás (E,). Un modelo así
formulado puede resultar más o menos útil (dependiendo de la importancia real de la variable
independiente considerada a la hora de explicar el comportamiento de la variable dependiente), pero
nunca falso.
TABLA 5.2
Niveles
del factor
Observaciones Yj
A1 5 5 5 5 5 5
Ai 5 5 5 5 5 5
AJ 5 5 5 5 5 5
Y= 5
Por tanto, el modelo matemático capaz de describir esta situación será bastante
simple:
Imaginemos ahora que, siguiendo el procedimiento descrito, obtenemos unos

resultados algo más realistas, en concreto, Jos que aparecen en la tabla 5.3.
TABLA 5.3
Niveles
del factor
Observaciones Yj
A1 2 2 2 2 2 2
Ai 6 6 6 6 6 6
AJ 7 7 7 7 7 7
Y= 5
Ahora las medias de Jos 3 tratamientos son diferentes, pero dentro de cada
tratamiento, todos Jos sujetos tienen Ja misma puntuación. Para describir Ja
puntuación de un sujeto cualquiera en esta nueva situación necesitamos, además de
Ja media total (que todos los sujetos comparten) Jo que cada grupo tiene de
específico. Un modelo matemático recogiendo ambas cosas podría ser:
Y;j = µ + (Xj
Este modelo recoge, por una lado, Ja parte de Y;i que todos Jos sujetos tienen en
común (µ) y, por otro, Ja parte de Y;i específica de cada grupo (rxJ Y puesto que,
según se desprende de Jos datos de Ja tabla 5.3, Jo que cada tratamiento (muestra)
tiene de específico es justamente su desviación del promedio total, podemos resaltar
de nuevo Ja importante idea de que el efecto asociado a cada tratamiento (rxi) es
interpretado como Ja diferencia entre Ja media de ese tratamiento y Ja media total:
(Xj = µj - µ.
Así pues, cuando existe variabilidad entre los tratamientos (tabla 5.3) necesita-
mos recurrir aµ y a rxi para poder describir lo que está ocurriendo. Pero ocurre que
las situaciones reales son más complicadas de lo que la tabla 5.3 da a entender:
además de variabilidad entre los tratamientos también suele darse variabilidad
dentro de los tratamientos. Es decir, lo que suele ocurrir en los experimentos reales
es, no sólo que los distintos tratamientos difieren entre sí, sino que también los
sujetos de un mismo tratamiento pueden mostrar diferencias entre ellos. La tabla
5.4 recoge unos datos más parecidos a los que podríamos obtener en un experimen-
to real.
TABLA 5.4
Niveles
del factor
Observaciones Yj
A1 3 o 2 1 4 2
A2 8 5 4 6 7 6
A3 5 6 8 7 9 7
Y= 5
Aquí, no sólo las medias de los tres tratamientos son diferentes sino que, dentro
de cada tratamiento, los sujetos muestran variabilidad respecto a la media de su
propio tratamiento. Para describir ahora la puntuación Y¡i de un sujeto cualquiera
necesitamos, además de los términos µ y rxi ya utilizados, un nuevo término que
recoja la variabilidad existente dentro de cada tratamiento, es decir, la variabilidad
existente entre los sujetos del mismo grupo:
(5.6)
Vemos, por tanto, que para poder describir un conjunto de puntuaciones Y¡i
correspondientes a J grupos aleatoriamente asignados a los J niveles (tratamientos)
de una variable independiente, el modelo propuesto debe incluir tres términos: uno
referido a la parte de Y¡i que es común a todos los sujetos (µ, media total) otro
referido a la parte de Y¡i que es específica de cada grupo (rxi, efecto del tratamiento)
y un último referido a la parte de Y¡i que es específica de cada sujeto (Eii, errores).
El modelo recién propuesto para el ANOVA A-EF-CA nos va a permitir poner
a prueba la hipótesis de que las J medias poblacionales (las J medias correspon-
dientes a los J tratamientos) son iguales: µ 1 = µ 2 = · · · =µJ. Lo cual equivale a
afirmar que los J tratamientos poseen la misma eficacia o que el efecto del factor es
nulo: rxi = O, para todo j. Tenemos, pues, dos formas alternativas de plantear H 0 en
un ANOVA A-EF-CA:
l. Ho:µ1=µ2=···=µJ=µ.
2. H 0 : '1:.rxJ =O.
En el segundo caso, utilizamos 1XJ porque, por definición, los valores IX.i suman
cero (pues son puntuaciones diferenciales: IXi = µi - µ).Siempre se verifica I:1Xi =O.
Por tanto sólo si I: 1XJ es distinto de cero podemos afirmar que hay algún IX.i distinto
de cero y, en consecuencia, alguna µi distinta de alguna otra.
En la tabla 5.2 podemos comprobar que:
iX 1 = Y1 - Y= 5 - 5 =o
iX 2 = Y2 - Y= 5- 5=o
IÍ3 = y3 - y= 5- 5= o
Estimamos que todos los IXi valen cero y que, por tanto: I: 1XJ =O. O, de for-
ma equivalente, estimamos que las tres medias poblacionales son iguales:
µ¡ = µ2 = µ3 = µ.
La tabla 5.3 refleja una situación muy diferente. Si estimamos el efecto de cada
tratamiento obtenemos:
iX 1 = Y1 Y= 2 - 5 = - 3
-
iX 2 = Y2 - Y= 6 - 5 = 1
IÍ3 = y3 - y= 7 - 5 = 2
Efectivamente, de nuevo I: !Xi= O, pero a diferencia de lo que ocurre en la tabla
5.2, ahora las ~son diferentes unas de otras, por lo que estimamos que no todos los
IXi valen cero y, en consecuencia, que los 1XJ no suman cero: I: 1XJ "#O. Lo mismo
ocurre en la situación descrita en la tabla 5.4.
Resumiendo, la hipótesis nula que el modelo (5.6) nos permite poner a prueba
puede plantearse de dos maneras: afirmando que todas las medias µi son iguales, o
afirmando que todos los IXi valen cero. De cualquiera de las dos formas lo que
estamos afirmando es que el efecto atribuible a la variable independiente (factor)
tenida en cuenta en el modelo es nulo, no existe.
Ya sabemos que los supuestos de un contraste son el conjunto de condiciones

que necesitamos establecer para que las distribuciones de probabilidad con las que
vamos a trabajar queden completamente especificadas. En cualquier contraste de
hipótesis suele haber involucradas dos clases de distribuciones de probabilidad: las
distribuciones poblacionales de donde se extraen las muestras y la distribución
muestral del estadístico que se va a utilizar para tomar una decisión sobre H 0 . Los
supuestos de un contraste suelen ser afirmaciones sobre las distribuciones poblacio-
nales y sobre la forma de extraer muestras de ellas, y se establecen con el único
objetivo de hacer posible la obtención de la distribución muestral del estadístico de
contraste.
En el modelo de ANOV A que nos ocupa necesitamos formular tres supuestos a
los que podemos referirnos, de forma resumida, como a) independencia. b) normali-

dad y c) homocedasticidad (igualdad de varianzas).
a) Independencia
Cada observación es aleatoriamente seleccionada de su población y/o aleatoria-

mente asignada a uno de los J tratamientos del factor (la aleatoriedad, según hemos
señalado ya, garantiza la validez de un experimento). Esto significa que la puntua-
ción obtenida por cada sujeto es independiente de la obtenida por los demás: la
puntuación obtenida por uno cualquiera de los sujetos no nos proporciona ninguna
información sobre las puntuaciones de los restantes sujetos.
Como consecuencia de esto, lo que una puntuación se desvía del promedio de su
grupo (Eii) es independiente de lo que se desvía otra puntuación cualquiera de ese
mismo grupo: cov(Eii, E;)= O (siendo i e i' dos sujetos diferentes del grupo j). Y,
como una consecuencia más, puesto que las observaciones de cada grupo constitu-
yen una muestra aleatoria, las desviaciones (errores) de cada puntuación respecto de
su promedio también serán aleatorias y unas se anularán con otras: E(E;) =O.
b) Normalidad
Este supuesto se refiere a que las J muestras aleatorias son extraídas de J

poblaciones normales. Aunque el estadístico de contraste F que utilizaremos más
adelante para tomar una decisión sobre H 0 es robusto frente al incumplimiento de
este supuesto, lo cierto es que, según veremos, para obtener la distribución del
estadístico F necesitamos establecer el supuesto de normalidad.
Este supuesto puede quedar referido también al término error E;i· Los errores,
además de ser independientes unos de otros y de tener media cero, se distribuyen
normalmente.
e) Igualdad de varianzas (homocedasticidad)
Con este último supuesto se afirma que las J poblaciones de donde son
extraídas las muestras, además de ser normales, tienen todas ellas la misma
varianza.
Puesto que las observaciones han sido aleatoriamente asignadas a cada uno de
los J tratamientos, podemos pensar que la variación observada entre las observa-
ciones de una misma muestra será independiente del tratamiento concreto al que
haya sido asignada esa muestra. Ahora bien, si cada una de las J muestras se
considera aleatoriamente extraída de una población y las J varianzas muestrales
son similares, debemos suponer que esas poblaciones tienen, todas ellas, la misma
varianza:
(5.7)
Además, puesto que los errores son la única fuente de variación presente .en el
modelo, pues µ y rx.i son constantes para cada tratamiento, la variación mostrada
por las puntuaciones Y¡i en un tratamiento cualquiera no será más que la variación
propia de los errores Eii de ese tratamiento. De modo que la varianza de los errores
será igual a las varianzas poblacionales u~= uf= u~= ··· = uJ = u 2 •
Estos tres supuestos referidos al modelo de ANOVA A-EF-CA podemos
resumirlos de la siguiente manera: vamos a trabajar con J muestras aleatoriamente
extraídas de J poblaciones normales con la misma varianza. Algunas de las conse-
cuencias que se derivan de esta afirmación ya las hemos mencionado; otras irán
apareciendo en los próximos apartados.
5.3.4. El estadístico de contraste
Partiendo del modelo (5.6) y de los supuestos que acabamos de establecer

podemos derivar un estadístico de contraste con distribución muestra) conocida que
nos va a permitir poner a prueba la hipótesis de que las J medias poblacionales son
iguales. Veamos cómo se obtiene ese estadístico y cuál es su distribución muestral.
a) Fuentes de variación
En el apartado 5.3.2 hemos visto ya de forma intuitiva que, con J tratamientos

(grupos, muestras) definidos por los J niveles de una variable independiente o
factor, podemos hablar de dos tipos de variación: la que se da entre los tratamientos
o grupos y la que se da dentro de cada tratamiento o grupo. Vamos a detenernos
algo más en esta idea.
Recordemos el modelo (5.6): Y¡i = µ + rx.i + Eii. Si sustituimos los valores
poblacionales por sus correspondientes estimadores muestrales, tendremos:
(5.8)
Trasladando a la izquierda el término Y obtenemos:
(5.9)
La parte izquierda de la ecuación (5.9) representa lo que una puntuación

cualquiera Y¡i se desvía de su media total. La parte derecha nos está diciendo que
esa desviación total puede descomponerse en dos partes: 1) lo que la media de su
grupo (del grupo al que pertenece esa Y¡j) se desvía de la media total (Y¡ - Y;
variación entre los grupos) más 2) lo que esa puntuación se desvía de la media de su
grupo (Y¡i - Y¡; variación dentro de los grupos o variación error).
De modo que podemos empezar a hablar ya de tres tipos de variación: la
variación total (T ), la variación intergrupos (/) y la variación intragrupos o error (E).
b) Sumas de cuadrados
Si en lugar de referirnos a una única puntuación, tal como se muestra en (5.8) y

(5.9), lo hacemos al conjunto de las N puntuaciones, tendremos:
LL(Y¡j - Y)= LL[(Yj- Y)+ (Y¡j - Yj)J

i j i j
Elevando al cuadrado:
¿¿(Y¡j - Yl 2 = I I [(Yj -
i j
n + (Y¡j - YjlJ 2 (5.10)
Y desarrollando:
i ; i j
=¿¿(Y¡-
; j
n2 + ¿¿(Y¡j - i j
Yjl2 + 2¿¿(Yj-
i j
Y)(Y¡j - Yjl
Y, puesto que 1: 1: ( Yj - Y)( Y¡i - Yj) = O, tendremos:

(5.11)
i j i j i j
Llamaremos sumas de cuadrados (SC) a los términos de la ecuación (5.11) pues

en todos los casos se trata de desviaciones elevadas al cuadrado y sumadas. Y
retomando los conceptos de variación total, intergrupos y error, llamaremos suma
de cuadrados total (SCT) a 1: 1: ( Y¡i - Y) 2 ; suma de cuadrados intergrupos (SCI) a
1: 1: ( Yj - Y) 2 ; y suma de cuadrados error (SCE) a 1: 1: ( Y¡i - Yj) 2 ; es decir:
1: 1: ( Y¡i - Y) 2 = 1: 1: ( Yj - Y) 2 + 1: 1: ( Y¡i - Yj)2

SCT SC/ + SCE
Las sumas de cuadrados total, intergrupos y error pueden calcularse más

fácilmente si hacemos algunas transformaciones (ver San Martín y Pardo, 1989,
páginas 165-166):
Ti
SCT = L Li y~. -
¡ •1
--
N
T~ T2
SCI =I- 1 -- (5.12)
i ni N
Ti
SCE = LL Yl - L )
¡ i i ni
e) Grados de libertad
La suma de cuadrados total (SCT) es la suma de N desviaciones al cuadrado

alrededor de un punto, la media total. El hecho de que ese punto alrededor del cual
hemos tomado las N desviaciones tenga que ser estimado (estimamos µ mediante Y)
nos hace perder un grado de libertad, por lo que SCT tendrá asociados N - 1
grados de libertad. De otro modo, SCT está sujeta a la restricción ~ ~ ( Y¡i - Y) = O,
de modo que las puntuaciones que podrán fluctuar libremente serán todas me-
nos una; es decir, cualquier observación de las N posibles podrá tomar cualquier
valor libremente, excepto la última, cuyo valor deberá ser tal que permita veri-
ficar la restricción impuesta. Por tanto, SCT llevará asociados N - 1 grados de li-
bertad.
La suma de cuadrados intergrupos (SCI) es la suma al cuadrado de J desviaciones
(las J medias ~) alrededor de la media total. De nuevo la media total necesita ser
estimada y eso nos hace perder un grado de libertad. Por lo que SC/ tendrá J - 1
grados de libertad. De otro modo, SCI está sujeta a la restricción ~ ( ~ - Y) = O,
de modo que las medias ~ que podrán fluctuar libremente serán, de nuevo,
todas menos una; es decir, cualquiera de las J medias posibles podrá tomar cualquier
valor libremente, excepto la última, cuyo valor deberá ser tal que permita veri-
ficar la restricción impuesta. Por tanto, SCJ llevará asociados J - 1 grados de li-
bertad.
Por último, la suma de cuadrados error (SCE) es la suma al cuadrado de N
puntuaciones alrededor de J puntos, las J medias ~- Como necesitamos estimar J
medias perderemos J grados de libertad, por lo que SCE tendrá N - J grados de
libertad. De otro modo, SCE está sujeta a la restricción ~ ( Y¡i - Y) = O, dentro de
cada grupo. Una vez más, las puntuaciones que pueden fluctuar libremente dentro
de cada grupo serán todas menos una. Perdemos, por tanto, 1 grado de libertad por
grupo. De modo que nos quedarán ni - 1 grados de libertad en cada grupo y,
consecuentemente, ~(ni - 1) en los J grupos. Es decir, N - J, pues ~(ni - 1) =
= N-1.
d) Medias cuadráticas
Una media cuadrática (MC) se define como una suma de cuadrados dividida por
sus grados de libertad. En realidad, una media cuadrática es un estimador de la
varianza poblacional u 2 , pues se trata de desviaciones respecto a algún promedio
elevadas al cuadrado, sumadas y divididas por sus grados de libertad.
La media cuadrática intergrupos (MCI) se obtiene dividiendo SCJ por sus grados
de libertad: MC/ = SCI/(J - 1). Esto equivale a obtener un estimador de la
varianza poblacional a partir de la varianza de la distribución muestral de la media
(de la cual tenemos J observaciones, las J medias ~).
La media cuadrática error (MCE) se obtiene dividiendo SCE por sus grados de
libertad: MCE = SCE/(N - J). Se trata de un estimador de la varianza poblacional
obtenido a partir de las varianzas insesgadas de cada tratamiento (grupo, muestra).

En realidad es el promedio ponderado de las J varianzas muestrales 8 .
e) Estadístico de contraste F
Acabamos de ver que, tanto MC/ como MCE son estimadores de la varianza
poblacional a 2 . Pero, obviamente, se trata de estimadores diferentes. Mientras MC/
se obtiene a partir de las medias de cada tratamiento, MCE se obtiene a partir de
las observaciones de cada tratamiento. Veamos qué clase de estimadores son cada
uno de ellos atendiendo a sus valores esperados 9 .
[
LL(Y¡- Y)2] ¿npJ
E(MCI) = E ¡ i = a2 + _i_ _ (5.13)
J-1 J-1
¿¿(Y¡j - f;) 2 ]
E(MCE) = E [ ¡ i = a2 (5.14)
N-J
Por un lado, vemos que MCE es un estimador insesgado de a 2 pues

E(MCE) = a 2 ; por otro, vemos que MCI no lo es, pues E(MC/) #- a 2 • Ahora bien, si
H 0 : µ 1 = µ 2 = ··· = µ 1 es verdadera, entonces 'f.:J.j =O, en cuyo caso, E(MCI) = a 2 •
Así pues, si H 0 es verdadera, tanto MCI como MCE serán estimadores insesga-
dos de a 2 • Es decir, ambos estarán estimando la misma cosa y, en consecuencia,
podemos esperar que MCI y MCE sean parecidos. Esto significa que, si H 0 es
verdadera, el cociente entre MCI y MCE será aproximadamente l. Por el contrario,
si H 0 no es verdadera, ocurrirá que MCI será mayor que MCE (pues si H 0 es falsa,
E(MCI) > a 2 ) y el cociente entre MCI y MCE será mayor que l.
Ahora bien, incluso siendo H 0 verdadera, dado que MCI y MCE son valores
muestrales, cabe esperar que, calculadas en unos datos concretos, existan entre ellas
diferencias atribuibles al propio proceso de muestreo. La cuestión clave radica
precisamente en determinar cómo de grande tienen que ser esas diferencias para
empezar a pensar que H 0 no es verdadera. La respuesta a esta pregunta pasa por
encontrar la distribución muestra! asociada al cociente entre MCI y MCE. Veamos.
Sabemos 10 que una variable del tipo
(n - J)S;_ 1
(J2
8 La media cuadrática total (MCT) no será utilizada aquí para nada y, por tanto, nos basta con saber
de ella que se trata de un estimador de la varianza poblacional basado en las N - 1 observaciones como
si todas ellas pertenecieran a la misma población (MCT es. en realidad. la varianza insesgada de todas
las observaciones que forman parte del diseño).
0 No prestaremos atención aquí a los pasos concretos que llevan a la obtención de los valores
esperados de MCI y MCE. El lector interesado puede consultar San Martín y Pardo (1989. págs. 167-
168) o, si está dispuesto a profundizar algo más, la excelente exposición de Kirk (1982, págs. 64-73).
'º Puede consultarse, en el capítulo 1, el apartado 1.3.3 sobre la distribución muestra! de la varianza.
" © Ediciones Pirámide
es una variable aleatoria distribuida según x2 con n - 1 grados de libertad. Se trata,

en realidad, de un estimador insesgado multiplicado por sus grados de libertad y
dividido por la varianza poblacional. Por consiguiente, si H 0 es verdadera (y, por
tanto, E(MCJ) = a 2 ), la variable aleatoria:
(J - l)MCJ
(5.15)
ª2
seguirá el modelo de distribución de probabilidad x2 con J - 1 grados de liber-

tad 11 .
Y por el mismo razonamiento,
(N - J)MCE
(5.16)
será, tanto si H 0 es verdadera como si no, una variable aleatoria distribuida según
x2 con N - J grados de libertad (pues tanto si H 0 es verdadera como si no, MCE es
un estimador insesgado de la varianza poblacional).
Ahora bien, el cociente entre dos x2 independientes 12 , cada uno de ellos dividido
por sus grados de libertad, es una variable aleatoria distribuida 13 según el modelo
de probabilidad F con los grados de libertad del numerador y los del denominador.
Es decir:
(5.17)
Por tanto,
(J - l)MCJ
ª2 /(J - 1) MCJ
--------- - -- - F (5.18)
(N - J)MCE - MCE - J-I.N-J
- - - 2--/(N - J)
a
11 Si conociéramos a 2 , ya podríamos efectuar inferencias sobre las medias poblacionales, pues
conocemos la distribución muestra! de un estadístico, MCI, que es tanto mayor cuanto mayor es la
diferencia entre esas medias; pero a 2 suele ser un valor desconocido.
12 MCI y MCE son estimadores independientes, pues MCI se basa en las medias muestrales y MCE
se basa en las varianzas muestrales. Y no olvidemos que la media y la varianza de una distribución
normal, caso en el que nos encontramos, son independientes.
13 Ver Análisis de datos en psicología I (Botella, LeSn y San Martín, 1993, apartado 13.3.5; páginas
333 y ss.).
En consecuencia, la razón:
MCI
F=-- (5.19)
MCE
nos servirá como estadístico para contrastar la hipótesis H 0 : µ 1 = µ 2 = ... =µJ.

F cumple las dos condiciones necesarias para ser considerado un estadístico de
contraste (ver apartado 3.1.3): además de informarnos sobre el grado de discrepan-
cia entre las µi, posee una distribución muestral conocida.
t) La tabla resumen de ANOVA
Los cinco apartados anteriores (fuentes de variac10n, sumas de cuadrados,

grados de libertad, medias cuadráticas y estadístico de contraste) pueden resumirse
tal como se muestra en la tabla 5.5. Este tipo de organización constituye la forma
estándar de presentar los resultados de un ANOVA, no ya sólo en los informes de
investigación, sino en la mayor parte de los manuales de estadística y en cualquiera
de los más importantes paquetes de software estadístico disponibles en el mercado.
TABLA 5.5
Presentación resumida de los resultados de un ANO VA A-EF-C A
Fuentes de variación Sumas de cuadrados Grados libertad Medias cuadrát. Estadistico

FV se y/ MC F
Intergrupos o y2 y2 SCJ MCI

tratamientos (/) ¿~-- J-1 -- --
i ni N J-1 MCE·
Intragrupos o y2 SCE
error (E) IIY0-I~ N-J --
i j i ni N-J
Total (n ¿¿ y2. _ y2
_ N-1
i j IJ N
5.3.5. Resumen del modelo de ANOVA A-EF-CA
El cuadro 5.1 recoge el resumen del contraste de hipótesis que plantea el modelo
de ANOVA A-EF-CA siguiendo el esquema propuesto para el resto de los contras-
tes estudiados.
CUADRO 5.1
ANOVA de un factor de efectos fijos, completamente aleatorizado.
l. Hipótesis:
Ho: µ¡ = µ1 = ··· = l'i·

(Es decir, las J medias poblacionales son iguales.)
H 1: µ1 # µr para algún valor de j o j' U# j').
(Es decir, no todas las µ1 son iguales: hay al menos una media que difiere de al
menos otra.)
2. Supuestos:
a) Independencia: las J muestras son aleatorias y las N observaciones indepen-
dientes entre sí.
b) Normalidad: las J poblaciones de donde se extraen las J muestras son
normales.
e) Homocedasticidad: esas J poblaciones tienen la misma varianza.
3. Estadístico de contraste: F = MCJ.!MCE.
4. Distribución muestral: F se distribuye según F 1 _ 1 •.,. _ 1 .
5. Zona crítica: está formada por todos los valores F del estadístico de contraste
iguales o mayores que 1 _ ,Fi- 1..,. -J·
6. Regla de decisión: se rechaza H 0 si el estadístico F cae en la zona crítica; en caso

contrario. se mantiene.
Si rechazamos H 0 debemos concluir que no todas las medias poblacionales son
iguales: no sabemos qué medias en concreto difieren entre sí. pero sabemos que
hay al menos una media que difiere de al menos otra.
Si la variable independiente o factor ha sido controlada (manipulada) por el
investigador, podemos ir más allá en nuestra conclusión: podemos afirmar. si
rechazamos H 0 • que las diferencias encontradas entre los niveles de la variable
dependiente son debidas al efecto de la variable independiente.
EJEMPLO 5.1. En muchos trabajos sobre aprendizaje parece haber quedado

demostrado que la actuación de los sujetos es tanto mejor cuanto mayor es la
recompensa (refuerzo) que reciben. En uno de estos trabajos se formaron aleatoria-
mente 3 grupos de 6 ratas sedientas cada uno. Las ratas de cada grupo fueron
recompensadas (reforzadas) con diferentes cantidades de agua (5, 10 y 15 ce) por
recorrer el laberinto. La tabla 5.6 muestra el número de ensayos requeridos por cada
rata para aprender a recorrer el laberinto bajo cada condición experimental. ¿Pode-
mos afirmar, con iX = 0,01, que la cantidad de recompensa afecta a la velocidad de

aprendizaje de las ratas?
TABLA 5.6
5 ce 10 ce 15 ce
9 6 4
8 6 2
7 3 3
8 4 4
7 5 3
9 6 2
48 30 18
Estamos ante un diseño con una variable independiente o factor (cantidad de

recompensa) con tres niveles (J = 3) establecidos por el investigador y, por tanto, de
efectos fijos. Los N = 18 sujetos se han asignado aleatoriamente a cada uno de los
niveles del factor (n = 6). La variable dependiente (velocidad de aprendizaje) se ha
medido a través del número de ensayos requeridos por cada rata para aprender el
laberinto. El modelo apropiado para analizar estos datos es el de ANOV A de un
factor de efectos fijos completamente aleatorizado. Comencemos haciendo los cálculos
necesarios para construir la tabla resumen de ANOVA (tabla 5.7).
LL Y¡j = T = 9 + 8 + 7 + ... + 3 + 2 = 96
i j
I.I. r;j = 92 + 82 + 72 + ... + 32 + 22 = 604

i j
T¡: T1 = 48 , T2 = 30 , T3 = 18
y2 962
SCT= L,L,
i
Y 2. - - =
j N
IJ
604-- = 92
18
y2 y2 482 + 302 + 182 962

SCI = L __{_ - - = - - = 76
i ni N 6 18
TABLA 5.7
FV se gl MC F
lntergrupos 76 J-1=2 76/2 = 38 35,62

Error 16 N-J = 15 16/15 = 1,067
Total 92 N-1=17
Construida la tabla resumen con los cálculos del ANOV A podemos ya plantear las
hipótesis y tomar una decisión sobre ellas:
1. H 0 : µ 1 = µ 2 = µ 3 (la cantidad de recompensa no afecta a la velocidad de
aprendizaje).
H 1 : no todas las µi son iguales (la cantidad de recompensa afecta a la velocidad
de aprendizaje).
2. Supuestos: suponemos que las muestras son aleatorias y que han sido extraídas
independientemente de 3 poblaciones normales con la misma varianza.
3. Estadístico de contraste: F = 35,62.
4. Distribución muestra): F se distribuye según F;-1.N-J> es decir, según F 2 • 15 .
5. Zona crítica: F ;;,, 0 •99 F 2 • 15 = 6,36.
6. Decisión: como el valor del estadístico de contraste F cae dentro de la zona
crítica (pues 35,62 > 6,36), rechazamos H 0 • Por tanto, no todas las medias son
iguales. Podemos afirmar, apoyándonos en estos datos y con un nivel de riesgo
de 0,01, que la cantidad de recompensa afecta a la velocidad de aprendizaje de
las ratas.
Los resultados del análisis pueden comprenderse mejor si se ofrece una representa-
ción gráfica del comportamiento mostrado por cada grupo. Para tal representación
puede utilizarse, indistintamente, un diagrama de rectángulos o barras (figura 5.6A), o
un perfil ortogonal (figura 5.68). La representación gráfica se realiza a partir de las
medias de cada grupo.
Y; Y;
8 8
6 6
4 4
2 2
o o
5 ce 10 ce 15cc 5 ce 10 ce 15cc
A B
Figura 5.6.-Representación gráfica del efecto de la cantidad de refuerzo sobre el número de
ensayos necesarios para aprender el laberinto. Figura A: diagrama de rectángulos o barras.
Figura B: perfil ortogonal.
Otro tipo de representaciones gráficas muy útiles en el contexto del ANOVA son
las que se refieren a la variabilidad mostrada por cada grupo (recordemos que uno de
los supuestos del ANOV A es que las varianzas poblacionales son iguales). Para
representar la variabilidad podemos utilizar un diagrama box and wiskers (cajas y
bigotes) o una representación de las medias con sus desviaciones típicas como bigotes
(ver Botella, León y San Martín, 1993, apartado 5.3). La figura 5.7 muestra este tipo de
representaciones. Con ellas, podemos formarnos rápidamente una primera idea acerca
de la variabilidad presente en cada grupo (en el apéndice 5 veremos cómo contrastar la
hipótesis de que las J varianzas poblacionales son iguales).
23456789
1 1 1 1 1 1 1 1
T
DJ
~
5cc 8
6
10 ce r--C=cJ
4
15cc CD 2
o
5 ce 10 ce 15cc
A B
Figura 5.7.-Representación gráfica de la variabilidad de cada grupo. La figura A (cajas y

bigotes) muestra medianas centradas y variabilidad similar en los grupos 1 (5 ce) y 3 (15 ce); el
grupo 2 (10 ce) muestra una variabilidad algo mayor y una mediana menos centrada. La figura B
ofrece información parecida en lo que se refiere a variabilidad.
Conviene que el lector no pase por alto un hecho de especial relevancia: el

rechazo de la hipótesis nula planteada en un ANOV A nos permite afirmar que
existen diferencias entre las J medias poblacionales estudiadas, pero no nos permite
precisar entre qué medias se producen esas diferencias. Si rechazamos H 0 , sabemos
que hay alguna media que difiere de alguna otra, pero no sabemos qué medias en
concreto difieren de qué otras. La solución a esta cuestión requiere la utilización
una serie de procedimientos conocidos como comparaciones múltiples entre medias
que serán estudiados en el próximo capítulo.
5.4. ANOVA de un factor, de efectos fijos, con medidas

repetidas (A-EF-MR)
Las diferencias entre las unidades experimentales (los sujetos, normalmente)

pueden contribuir de forma significativa (más, si cabe, con el tipo de datos que se
utilizan en las ciencias del comportamiento) a incrementar la varianza error y, de
esta manera, a enmascarar u obscurecer el posible efecto de los tratamientos. De
alguna manera, estas diferencias individuales pueden ser consideradas variables
extrañas capaces de alterar los resultados de un experimento.
Ya hemos señalado en el primer apartado de este capítulo que las variables
extrañas pueden ser controladas manteniéndolas constantes (cuando se conocen y es
posible hacerlo). Por tanto, una forma de controlar las variables extrañas asociadas
a las diferencias entre los sujetos consistirá en utilizar los mismos sujetos en todas
las condiciones experimentales. De esta forma, la variación existente entre los
distintos tratamientos no podrá ser obscurecida por efectos atribuibles a las
características personales de los sujetos.
Nos encontramos ahora en una situación en la que los datos se han obtenido
mediante un diseño intrasujetos (medidas repetidas) y utilizando una variable
independiente (un factor) con J niveles establecidos por el investigador (efectos
fijos).
A un grupo de n sujetos 14 se le toman J medidas; es decir, todos y cada uno de
los sujetos que participan en el experimento pasan por todos y cada uno de los
niveles del factor. De otra manera: a todos los sujetos se les aplican los J tratamien-
tos. La tabla 5.8 muestra la disposición de los datos en un diseño intrasujetos (N
puntuaciones: N = nJ) y la notación utilizada para referirnos a ellos.
TABLA 5.8
Estructura de los datos y notación en un diseño de un factor,
de efectos fijos, con medidas repetidas (o aleatorizado
en bloques, con J sujetos por bloque)
Sujetos
Niveles del
B, 82 B, B. T +i Y+i
factor
A1 Y11 Y21 Y¡¡ Y,, 1 T+I Y+1

Ai Y12 Y22 Y;2 Y.2 T +i Y+2
... ... ... ... ... ... ...
Ai Y,i Y2i Y¡j Y.i T +¡ Y+i
... . .. . .. ... . .. ... ...
Ai YIJ y2J Y;J Y.i T +i Y+i
T,+ T,+ Ti+ T,+ T.+ T

Y;+ Y1+ y2+ Y;+ Y.+ y
Al igual que en el modelo completamente aleatorizado, los niveles del factor

están representados por Ai. Por tanto, j sigue siendo el subíndice que utilizaremos
para referirnos a los distintos niveles del factor U = 1, 2, ... , J).
Y¡i se refiere a la puntuación obtenida en la variable dependiente Y por el sujeto i
(i = 1, 2, ... , n) bajo el tratamiento j. Y12 , por ejemplo, es la puntuación obtenida por
el sujeto t en el tratamiento 2.
T; + y T + i son los totales de cada sujeto y de cada tratamiento, respectivamente.
T;+ representa la suma de las puntuaciones obtenidas por el sujeto i en todos los
14 El diseño es similar y el modelo que permite analizar los datos es exactamente el mismo si en
lugar de tomar J medidas a un grupo de n sujetos, ulilizamos n bloques de sujetos, cada bloque formado
por J sujetos igualados de acuerdo con algún criterio, y un sujeto de cada bloque es aleatoriamente
asignado a cada uno de los J niveles del factor. En ambos casos se trata de muestras relacionadas.
256 / Análisis de datos en psicología JI
niveles de j (el signo « + » sustituyendo el subíndice j indica que nos estamos

refiriendo a todos los niveles de j). Del mismo modo, T + i representa la suma de las
puntuaciones obtenidas por todos los sujetos bajo el tratamiento j (el signo « + » está
ahora sustituyendo al subíndice i y eso indica que nos estamos refiriendo a todos
los niveles de i). T + 2 , por ejemplo, representa la suma de todos los valores i cuando
j vale 2, es decir, la suma de las puntuaciones obtenidas por todos los sujetos bajo el
tratamiento j = 2. La forma de obtener estos totales sigue la lógica ya conocida:
(5.20)
Las medias de cada tratamiento (Y+i), la media total (Y) y la suma total (n
siguen representando exactamente lo mismo que en el modelo completamente
aleatorizado y, por tanto, se obtienen de idéntica manera.
5.4.2. El modelo
El modelo de ANOVA de un factor con medidas repetidas intenta describir cada

puntuación Y;i recurriendo a los mismos tres componentes incluidos en el modelo
completamente aleatorizado, más un componente adicional que recoge precisa-
mente el hecho de estar utilizando los mismos sujetos en todos los tratamientos.
Debido a las diferencias individuales entre los sujetos, la variación observada
dentro de un mismo tratamiento puede estar reflejando, en cierta medida, variación
entre los sujetos (variación ya existente antes del inicio del experimento). Si
podemos separar esta variación de la variación error y de la debida a los tratamien-
tos, conseguiremos incrementar la sensibilidad del experimento. Utilizando los
mimos sujetos podemos identificar esta variación y eliminarla de la variación error,
haciendo ésta más pequeña:
(5.21)
Excepto B¡, que es un término nuevo, todos los componentes del modelo (5.21)
significan exactamente lo mismo que en el modelo completamente aleatorizado: µes
la media poblacional total y recoge aquella parte de Y;i que todos los sujetos tienen
en común; rxi representa el efecto del j-ésimo nivel del factor; B¡ se refiere al efecto
debido a la variación entre los sujetos; y Eii siguen siendo los errores aleatorios.
Al igual que antes,
(5.22)
Y, por la misma lógica,
B¡ = µ¡+ - µ (5.23)
Podemos utilizar, en consecuencia, los siguientes estimadores para cada uno de

los parámetros del modelo:
µ=y (5.24)
ái= Y+i- Y (5.25)
B¡ = Y;+ - y (5.26)
Ahora los errores Eii son desviaciones de las puntuaciones de un sujeto, no sólo
respecto del promedio de su grupo, sino también desviaciones respecto de su
promedio en todos los tratamientos:
(5.27)
Utilizando estimadores:
(5.28)
El modelo (5.21) nos va a permitir poner aprueba la hipótesis de que las J

medias poblacionales son iguales. Esto no ha cambiado respecto al modelo comple-
tamente aletorizado.
Además de los supuestos de normalidad y homocedasticidad expuestos en los

apartados 5.3.3.b y 5.3.3.c, el modelo de medidas repetidas requiere de un supuesto
adicional referido al nuevo término B¡. El modelo supone que B¡ es una variable
aleatoria distribuida normalmente e independientemente de los a.i y de los Eii.
Llamaremos aditividad a esta condición de independencia entre los B¡, los a.i y los
Eii. Este supuesto implica que los tratamientos no interactúan 15 con los sujetos:
unos tratamientos difieren o no de otros independientemente de los sujetos sobre
los que se aplican. Como además los errores se suponen aleatorios, las varianzas de
cada sujeto o bloque (ui) serán iguales. Y como consecuencia de esto y de la
independencia entre los B¡ y los Eii• las covarianzas entre las puntuaciones de cada
par de tratamientos serán también iguales. Todo lo cual está reflejado en el modelo
15 Trataremos detenidamente el concepto de interacción en el capítulo 7, al exponer el modelo de

ANOV A de dos factores.
en el hecho de que los componentes rx.i y B; están combinados aditivamente -

sumados-, no existiendo ningún término referido a la interacción entre ambos.
5-.4.4. El estadístico de contraste
Recordemos el modelo (5.21): Y;i = µ + rx.i + B¡ + Eii. Si sustituimos los valores

poblacionales por sus correspondientes estimadores muestrales, tendremos:
Y.. = y+ ( y+ j - Y) + (Y;+ - Y) + ( Y;j - y+ j - Y;+ + Y) (5.29)

lj
Trasladando a la izquierda el término Y obtenemos:
Y.. - y= (y+ i - Y) + (Y;+ - Y) + ( Y;i - y+ i - Y;+ + Y) (5.30)

lj
Al igual que en el modelo completamente aleatorizado, la parte izquierda de la

ecuación (5.30) representa lo que una puntuación cualquiera Y;i se desvía de su
media total. La parte derecha nos está diciendo que esa desviación total puede
descomponerse en tres partes: 1) lo que la media de su tratamiento o grupo se
desvía de la media total (Y+i - Y; variación entre los tratamientos o grupos), más 2)
lo que la media de las puntuaciones del mismo sujeto se desvía de la media total
(Y;+ - Y; variación entre los sujetos), más 3) lo que esa puntuación se desvía de la
media de su grupo y de la media del mismo sujeto (Y;i - Y+i - Y;++ Y; variación
dentro de los grupos o variación error). Por tanto, la variación total (T), en este
modelo, queda descompuesta en tres tipos de variación: la variación intergrupos (1),
la variación intersujetos (B), y la variación intragrupos o error (E).
Si en lugar de referirnos a una única puntuación, tal como hemos hecho en la

ecuación (5.30), lo hacemos al conjunto de las N puntuaciones sumando y elevando
al cuadrado (5.30), tendremos:
LL(Y;j - Y) 2 = LL[(Y+j - Y)+ (Y;+ - Y)+ (Y;j - Y+j - Y;+ + Y)] 2 (5.31)
i j i j
Desarrollando nos queda:
¿¿(t;j - Y)2 = n ¿(Y+ j - Y)2 + J¿(Y;+ - Y)2 +

(5.32)
i j j i
Llamaremos suma de cuadrados total (SCT) a 2: 2: ( Yii - Y)2; suma de cua-

drados intergrupos (SCI) a n 2: (Y+ i - f) 2 ; suma de cuadrados intersujetos
(SCB) a J 2: (Y;+ - Y) 2 , y suma de cuadrados intrasujetos o error (SCE) a
2:2:(Y¡i - Y+i - Y;++ Y) 2 ; es decir:
2:2:(Y¡i-Y) 2 =n2:(Y+i-Y) 2 +J2:(Y;+ - f ) 2 +2:2:(Yú- Y+i-Yi+ + f) 2

SCT SCI + SCB + SCE
Estas sumas de cuadrados pueden calcularse más fácilmente haciendo algunas

sencillas transformaciones:
T2
SCT= LLY~---
; j IJ N
SCI = L T~ j - T2
i n N (5.33)
scB = I Tr+ - r2
; J N
scE = ¿¿ r5- ¿ T~j - ¿ Tf+ + r2

ii in ;J N
La suma de cuadrados total (SCT) es, al igual que en el modelo de un factor

completamente aleatorizado, la suma de N desviaciones al cuadrado alrededor de
un punto, la media total. Dado que ese punto necesita ser estimado, perdemos un
grado de libertad, por lo que SCT tendrá asociados N - 1 grados de libertad.
La suma de cuadrados intergrupos (SCI) sigue siendo la suma al cuadrado de J
desviaciones (las J medias Y+ i) alrededor de la media total. De nuevo la media total
necesita ser estimada y eso nos hace perder un grado de libertad. Por lo que SCI
tendrá J - 1 grados de libertad.
La suma de cuadrados intersujetos (SCB) es la suma al cuadrado de n desviacio-
nes (las n medias f;+) alrededor de la media total. Como la media total necesita ser
estimada perdemos un grado de libertad y SCB nos queda con n - 1 grados de
libertad.
Por último, la suma de cuadrados error (SCE) es la suma al cuadrado de N
puntuaciones alrededor de las J medias Y+ i• las n medias Y;+ y la media total Y.
Necesitamos estimar, por un lado, la media total µ; por otro, J - 1 medias µ+ i
(pues habiendo estimado ya µ, no necesitamos estimar las J medias µ+ i) y, por
último, n - 1 mediasµ¡+· En consecuencia, los grados de libertad que perderemos
serán: 1 + (J - 1) + (n - 1); y la SCE nos quedará con: N - (J - 1) - (n - i) - 1=

= (J - l)(n - 1) grados de libertad.
Recordemos que una media cuadrática (MC) es un estimador de la varianza

poblacional a 2 • Se obtiene dividiendo una suma de cuadrados por sus grados de
libertad. En consecuencia:
MCI = SCI/(J - 1)
(5.34)
MCE = SCE/[(J - l)(n - 1)]
MCI es un estimador de la varianza poblacional obtenido a partir de la

varianza de la distribución muestral de la media (de la cual, según sabemos,
disponemos de J observaciones, las J medias Y+ i). Y MCE es un estimador de la
varianza poblacional obtenido a partir del promedio ponderado de las J varianzas
SJ de cada tratamiento o grupo y las n varianzas correspondientes a las J puntua-
ciones de cada sujeto 16 .
e) Estadistico de contraste F
Conozcamos los valores esperados de MCJ y MCE para saber de qué clase de
estimadores se trata. MCI se ha obtenido en este modelo exactamente de la misma
manera que en el completamente aleatorizado; por tanto, nada ha cambiado:
n¿(Y¡- Y) 2 ] n¿cxj
E(MCI) = E[ i = a2 + _i_ (5.35)
J-1 J-1
Por lo que se refiere a MCE. aunque ahora se obtiene de forma diferente, su

valor esperado sigue siendo el mismo:
(5.36)
Vemos que MCE es un estimador insesgado de a 2 pues E(MCE) = a 2 ; pero

MCI no lo es, pues E(MC/) "# a 2 • Ahora bien, al igual que ocurría en el modelo
•• Ni la media cuadrática total (MCT) ni la media cuadrática intersujetos (MCB) son necesarias para
obtener el estadístico de contraste capaz de ayudarnos a tomar una decisión sobre H 0 . No haremos, por
tanto, referencia a ellas.
completamente aletorizado, si H 0 : µ 1 = µ 2 = ··· = µ1 es verdadera, entonces

~ ~J =O y E(MC/) = a 2 •
Así pues, si H 0 es verdadera, tanto MCI como MCE son estimadores insesgados
del mismo parámetro: a 2 • Lo cual significa que, si H 0 es verdadera, el cociente en-
tre MCI y MCE será aproximadamente l. Por el contrario, si H 0 no es verdadera,
MCI será mayor que MCE (pues si H 0 es falsa, E(MC/) > a 2 ) y el cociente entre
MCI y MCE será mayor que l.
Por tanto, si H 0 es verdadera (y, por tanto, E(MC/) = a 2 ), la variable aleatoria:
(J - l)MC/
(5.37)
<12
seguirá, según vimos en el apartado 5.3.4.e de este mismo capítulo, el modelo de

distribución de probabilidad x2 con J - 1 grados de libertad 17 .
Y por el mismo razonamiento,
(J - l)(n - l)MCE
(5.38)
<12
será, tanto si H 0 es verdadera como si no, una variable aleatoria distribuida según
x2 con (J - 1)(n - 1) grados de libertad.
Y, puesto que el cociente entre dos x2 independientes 18 , cada uno de ellos
dividido por sus grados de libertad, es una variable aleatoria que sigue el modelo
de distribución de probabilidad F con Jos grados de libertad del numerador y Jos
del denominador, tendremos que:
(J - l)MC/
a2 /(J - l) MC/
(J - l)(n - 1 )MCE = MCE = FJ-1.(J- l)(n- 1 > (5.39)
- - -2- - - / ( J - l)(n - 1)
<1
En consecuencia,
MCI
F=-- (5.40)
MCE
1 7 Si conociéramos u 2 , ya podríamos efectuar inferencias sobre las medias poblacionales, pues

conocemos la distribución muestra! de un estadístico, MC/, que es tanto mayor cuanto mayor es la
diferencia entre esas medias; pero u 2 suele ser un valor desconocido.
18 MC/ y MCE son estimadores independientes pues, según hemos señalado ya, MC/ se basa en las
medias muestrales y MCE se basa en las varianzas muestrales. Y, según hemos señalado ya también, la
media y la varianza de una distribución normal, caso en el que nos encontramos, son independientes.
nos servirá como estadístico para contrastar la hipótesis de que las J medias
poblacionales son iguales: H 0 : µ + 1 = µ + 2 = · · · = µ + 1·
t) La tabla resumen de A NO VA
La tabla resumen en este modelo es similar a la presentada para el modelo de un

factor completamente aleatorizado. Únicamente hay que tener en cuenta que ahora
hemos controlado una fuente más de variación: la referida a los sujetos.
TABLA 5.9
Presentación resumida de los resultados de un ANOVA A-EF-MR
FV se y/ MC F
SCI MCI
Intergrupos (/) SCI J-1 -- --
J-1 MCE
Intersujetos (B SCB n-1

SCE
Error (E) SCE (J- l)(ll- 1) -------- ---
(J- l)(n - 1)
Total (n SCT N- 1
5.4.5. Resumen del modelo de ANOVA A-EF-MR
El cuadro 5.2 ofrece el resumen del modelo A-EF-MR siguiendo el mismo

esquema presentado ya para otros procedimientos.
CUADRO 5.2
A NOVA de un .factor de efectos _fijos, con medidas repetidas.
l. Hipótesis:
Ho: Jl+ 1 = Jl+2 = ... = ll+i·
(Es decir, las J medias poblacionales son iguales.)
H 1 : 11 + i # 11 + r para algún valor de .i o .i' U# j').
(Es decir, no todas las µ+i son iguales; hay al menos una media que difiere de al
menos otra.)
2. Supuestos:
a) Independencia: n observaciones aleatoriamente extraídas e independientes
entre sí.
(j:;J Ediciones Pirámide

CUADRO 5.2 (continuación)
b) Normalidad: las J poblaciones de donde se extraen las J muestras son

normales.
e) Homocedasticidad: esas J poblaciones tienen, todas ellas, la misma varianza.
d) Aditividad: los sujetos (8¡) no interactúan ni con los tratamientos (:xi) ni con los
errores (Eii): las covarianzas entre las puntuaciones de cada par de tratamien-
tos (grupos, muestras) son iguales.
3. Estadístico de contraste: F = MCl/MCE.
4. Distribución muestra(: F se distribuye según F; _ 1.c; _ 1 JC• _ 11 •
5. Zona crítica: está formada por todos los valores F del estadístico de contraste
iguales o mayores que 1 - .F; - 1, 1; - 1 ><• - 1 >·
6. Regla de decisión: se rechaza H 0 si el estadístico F cae en la zona crítica; en caso
contrario, se mantiene.
Si rechazamos H 0 debemos concluir que no todas las medias poblacionales son
iguales; no sabemos qué medias en concreto difieren entre sí, pero sabemos que
hay al menos una media que difiere de al menos otra.
EJEMPLO 5.2. En varios trabajos clásicos sobre memoria se ha intentado estudiar

el efecto distorsionante del paso del tiempo presentando un determinado material a un
grupo de sujetos y más tarde evaluando la calidad del recuerdo de ese material tras
diferentes intervalos temporales. En un estudio concreto, a un grupo de 9 sujetos
aleatoriamente seleccionados se les presentó una historia escrita que debían intentar
memorizar durante 20 minutos. Terminado el tiempo de memorización, se dejó
transcurrir una hora y se pidió a los 9 sujetos que escribieran en un papel la historia
que habían intentado memorizar. Un grupo de expertos evaluó la calidad del recuerdo
de cada sujeto. Transcurrido un día se volvió a pedir a los sujetos que escribieran la
historia tal como la recordaban. Y lo mismo se hizo al cabo de una semana y al cabo
de un mes. Los resultados obtenidos por los 9 sujetos en los 4 registros efectuados
aparecen en la tabla 5.10. A partir de estos datos y utilizando un nivel de significación
de 0,01, ¿qué podemos concluir sobre el efecto del paso del tiempo sobre la calidad del
recuerdo?
Se trata de un diseño con una variable independiente o factor (tiempo de recuerdo)
con cuatro niveles (J = 4) establecidos por el investigador y, por tanto, de efectos fijos.
Los n = 9 sujetos pasan por los cuatro niveles de la variable independiente (diseño
intrasujetos). La variable dependiente (calidad del recuerdo) se ha medido a través de
las evaluaciones efectuadas por varios jueces. El modelo apropiado para analizar estos
datos es el de ANOVA de un factor de efectos fijos con medidas repetidas. Comence-
mos haciendo los cálculos necesarios para construir la tabla resumen de ANOVA.
LL Y,j = T = 16 + 12 + 12 + ... + 6 + 8 = 405

i j
¿¿ r¿ = 16 + 12 + 12 + ... + 6 + s = 4.913
2 2 2 2 2
i j
TABLA 5.10
Sujetos 1 hora 1 día 1 semana 1 mes T¡+
1 16 8 8 12 44
2 12 9 9 10 40
3 12 10 10 8 40
4 15 13 7 11 46
5 18 12 12 12 54
6 13 13 8 10 44
7 18 16 10 13 57
8 15 9 6 6 36
9 16 9 11 8 44
T+; 135 99 81 90 405
Y+; 15 11 9 10
T+i T+ 1 =135, T+ 2 =99, T+ 3 =81 , T+ 4 =90

T¡ +: T 1 + = 44 , T 2 + = 40 , T 3 + = 40 , T 4 + = 46 , T 5 + = 44,
T 6 + = 44 , T 7 + = 57 , T 8 + = 36 , T 9 + = 44
T2 405 2
SCT = °"~7°" Y~- -
IJ
- = 4.913 - -
N 36
= 356 75
'
T~. T2 135 2 + 99 2 + 81 2 + 90 2 405 2

SCI=¿-1 - - = - - = 186,75
¡ n N 9 36
T;~ T 2 44 2 + 40 2 + 40 2 + ··· + 36 2 + 44 2 405 2

SCB=¿---= --=90
¡ J N 4 36
SCE = SCT- SCI - SCB = 356,75 - 186,75 - 90 = 80
TABLA 5.11
FV se g/ MC F
Intergrupos 186,75 J - 1= 3 186,75/3 = 62,25 18,675

Intersujetos 90 n-1=8
Error 80 (J - l)(n - 1) = 24 80/24 = 3,333
Total 356,75 N - 1 = 35
Construida la tabla resumen con los cálculos del ANOV A podemos ya plantear las
hipótesis y tomar una decisión sobre ellas:
l. Ho: µ. 1 = µ+2 = µ+3 = µ+4·
H 1 : no todas las µ + ¡ son iguales.
2. Supuestos: suponemos que la muestra es aleatoria y que los cuatro grupos de

puntuaciones se han extraído de cuatro poblaciones normales con la misma
varianza.
3. Estadístico de contraste: F = 18,675.
4. Distribución muestral: F se distribuye según FJ-1.iJ-lll•-I>• es decir, según

FJ.24·
5. Zona crítica: F ~ 0 , 99 F 3 , 24 = 4,72.
6. Decisión: como el valor del estadístico de contraste F cae dentro de la zona

crítica (pues 18,675 > 4,72), rechazamos H 0 • Por tanto, concluimos que no
todas las medias son iguales: el tiempo transcurrido entre la memorización y el
recuerdo afecta a la calidad del mismo. La figura 5.8 muestra cómo la calidad
del recuerdo empeora rápidamente para estancarse al final.
Y+i
15-
14-
13-
Calidad 12-
del
recuerdo 11-
10-
9-
o f 1 1
Día
1 1
Tiempo
transcurrido
Hora Semana Mes
Figura 5.8.-Efecto del paso del tiempo sobre la calidad del recuerdo.
5.5. Efectos fijos y efectos aleatorios
En el apartado 5.2.1.b de este mismo capítulo hemos establecido la distinción

entre modelos de efectos fijos y modelos de efectos aleatorios. Hablamos de efectos
fijos cuando el investigador establece como niveles del factor sólo aquellos que está
interesado en estudiar. Hablamos de efectos aleatorios cuando el investigador
selecciona al azar un conjunto de niveles de entre todos los posibles niveles del
factor. Estas dos formas diferentes de proceder hacen que los modelos de ANOV A
de uno y otro tipo difieran en algunos aspectos que conviene conocer.
En primer lugar, si el modelo es de efectos aleatorios, en su formulación no se
utiliza una letra griega para representar el efecto del factor, como en (5.6), sino una
letra latina, significando con ello que se trata, no de una constante (como a), sino
de una variable:
(5.41)
En segundo lugar, cuando el modelo es de efectos aleatorios, las hipótesis no se

plantean sobre las medias poblacionales de los niveles del factor sino sobre su
varianza. En el modelo de efectos fijos sólo interesa comparar los niveles utilizados,
de modo que sus medias representan justamente los niveles de interés. Sin embargo,
dado que en el modelo de efectos aleatorios los niveles de hecho utilizados son sólo
algunos de los posibles, la hipótesis debe reflejar, no ya sólo la diferencia entre las
medias de esos niveles en concreto, sino la diferencia entre todos los posibles niveles
del factor. Esto se consigue planteando las hipótesis de la siguiente manera:
H0 : u;= O (5.42)
H 1: u; #-O
siendo u; la varianza de las medias de todos los posibles niveles del factor. Es obvio
que la varianza de esas medias será cero cuando todas ellas sean iguales.
Una tercera diferencia entre los modelos de efectos fijos y aleatorios se refiere al
tipo de inferencias que es posible efectuar con unos y otros. En los modelos de
efectos fijos las inferencias se limitan a los niveles concretos utilizados; los niveles
que interesa estudiar son justamente los que de hecho se están estudiando; ellos
constituyen la población de niveles, de modo que si se replicara el experimento,
aunque los sujetos serían diferentes, los niveles del factor serían los mismos. En el
modelo de efectos aleatorios las inferencias se realizan sobre la población de posibles
niveles del factor; los niveles concretos utilizados son sólo una muestra aleatoria de
la población de niveles sobre los que el investigador tiene interés.
Excepto por lo que se refiere a algunos aspectos relacionados con el tamaño del
efecto (aspectos que trataremos en el siguiente apartado), la distinción entre efectos
fijos y aleatorios no es una cuestión crítica en los modelos de un solo factor; sí lo es,
sin embargo en los modelos de más de un factor, de modo que, en el capítulo 7
volveremos sobre esta distinción.
5.6. Medidas del tamaño del efecto

Al igual que ocurría con el estadístico T para diferencia de medias, el valor del
estadístico F depende no sólo del verdadero efecto de la variable independiente
sobre la dependiente, sino también del tamaño de las muestras. Esto significa que
una F significativa no necesariamente tiene que ir acompañada de la presencia
de un resultado experimental relevante. Para detectar la presencia de un resultado de
ese tipo necesitamos algo más que una F significativa.
En los modelos de ANOVA de un factor hemos representado el efecto de la
variable independiente o factor mediante a.i y lo hemos definido, para cada nivel del
factor, como a.i = µi - µ. Sustituyendo µi y µ por 1j y Y, podemos obtener una
estimación del efecto asociado a cada nivel del factor. En las situaciones en las que
se tiene una idea clara acerca de la importancia real que tiene una desviación
concreta deµ (µi - µ), evaluar la magnitud del efecto del factor se limita a obtener
una estimación de los a.i. Pero lo habitual es que esas desviaciones no puedan ser
evaluadas con precisión en términos absolutos (como distancias µi - µ). Suele
resultar de mayor utilidad obtener, de forma similar a como hemos hecho en los
contrastes sobre una y dos medias, una medida del tamaño del efecto en términos
relativos.
Según sabemos, a.i = µi - µ representa el j-ésimo efecto del factor. De acuerdo
con esto, la varianza de las J medias µi
(5.43)
será una manera, de entre otras posibles, de expresar la magnitud del conjunto de
efectos a.i. Así, si u;
vale cero, la variabilidad entre las µi será nula (pues todos los a.i
valdrán cero) y eso nos estará indicando que no existe efecto del factor. Por el
contrario, si u; es mayor que cero habrá variabilidad entre las µi (pues algún a.i será
distinto de cero) y eso nos estará indicando que sí existe algún efecto del factor.
Para determinar cómo de grade es ese efecto podemos, por ejemplo, examinar cómo
de grande es esa variabilidad u; respecto a la variabilidad total (la debida al factor
más la no debida al factor):
2
2 O'«
p = (5.44)
u; + u;
Precisamente esto es lo que intentan hacer las medidas del tamaño del efecto
que vamos a considerar a continuación. Pueden ser interpretadas, por tanto, como
la proporción de varianza de la variable dependiente que es explicada por la
variable independiente; o, de otro modo, como la proporción de reducción en los
errores que se consigue al predecir lo que ocurre en la variable dependiente
utilizando las medias de cada grupo en lugar de la media total. Estas medidas del
tamaño del efecto, también llamadas medidas de asociación o de proporción de
varianza explicada. permiten completar la conclusión alcanzada con la F del
ANOV A añadiendo información sobre el grado de relación existente entre la
variable independiente y la dependiente (todas ellas representan un intento de
estimar la verdadera relación entre ellas: p 2 ).
La primera de estas medidas fue propuesta por Pearson (1905) y es la más
simple de todas:
2 SCI
(5.45)
'1 = SCT
r¡ 2 (eta al cuadrado) no es más que el cociente entre la variabilidad debida al

factor y la variabilidad total. Representa, por tanto, la proporción de variabilidad
debida al factor. El problema de r¡ 2 es que se trata de un estimador muy sesgado de
la verdadera proporción de varianza explicada p 2 (sobrestima considerablemente el
valor de p 2 ; ver Fowler, 1985).
Para superar este inconveniente de r¡ 2 , Kelley ( 1935) y, posteriormente, Peters y
Van Voorhis (1940) y Cohen (1966) recomiendan utilizar:
2 SCI - (J - l)MCE
¡; =-------- (5.46)
SCT
e2 (épsilon al cuadrado) se basa en la sustitución del numerador y denominador

de (5.44) por sus correspondientes estimadores insesgados; el resultado es un
estimador de p 2 sólo ligeramente sesgado que muestra un comportamiento muy
aceptable (ver F owler, 1985).
Por último, Hays ( 1963, 1988) ha propuesto un estimador de p 2 muy similar a e2
que se ha convertido en el de, probablemente, mayor aceptación. El propio Hays lo
ha llamado w 2 (omega al cuadrado) y su valor depende de que el modelo de
ANOVA sea de efectos fijos o de efectos aleatorios. En el modelo de efectos fijos
(ver, por ejemplo, Howell, 1992, págs. 321-322):
2 SCI - (J - l)MCE
w =-------- (5.47)
SCT+ MCE
y en el modelo de efectos aleatorios (ver Howell, 1992, págs. 320-321):
MCl-MCE.
w2 = - - - - - - - - (5.48)
MCI + (n - l)MCE
De las tres medidas del tamaño del efecto propuestas (r¡ 2 , e2 y w 2 ), e2 y w 2 son
preferibles a r¡ 2 porque el sesgo de e2 y w 2 es muy inferior al de r¡ 2 • Y entre e2 y w 2 ,
nuestras preferencias se inclinan por w 2 • Aunque ambos índices arrojan, como
estimadores del parámetro p 2 , resultados casi idénticos, el índice w 2 tiene la ventaja
de haber sido extendido, según veremos en próximos capítulos, a modelos y diseños
más complejos 19 .
Conviene señalar, para terminar, que las medidas del tamaño del efecto no
deben ser consideradas una panacea en el análisis de datos. El error típico de las
distribuciones muestrales de e2 y w 2 es muy grande (ver Carrol y Nordholm, 1975),
especialmente cuando los tamaños muestrales son pequeños, y eso significa que
podemos obtener con cierta facilidad valores grandes para e2 y w 2 cuando de hecho
'" Maxwell, Camp y Arvey (1981) señalan algunas dificultades en la aplicación de r. 2 a diseños
factoriales. No parece claro que la utilización de r. 2 pueda ser extendida a tantos tipos de diseños
experimentales como lo es w 2 •
se está estudiando un efecto trivial; además, podemos obtener valores muy peque-
ños para e2 y w 2 cuando de hecho se está estudiando un efecto relevante (Rosenthal
y Rubin, 1982). Esta y otras razones que no consideraremos aquí deben hacernos
interpretar estas medidas del tamaño del efecto con cierta cautela. O'Grady (1982)
recoge una interesante discusión sobre las precauciones que hay que tomar a la
hora de interpretar las medidas del tamaño del efecto.
APl:NDICE 5
Importancia de los supuestos del ANOVA. Alternativas
al estadístico F
Según hemos señalado ya, el estadístico F nos permite tomar decisiones sobre la hipótesis
de igualdad entre J medias porque, si se dan determinadas condiciones, es posible conocer su
distribución muestral. La cuestión clave es, justamente, que para conocer la distribución
muestra) del estadístico F es necesario que se den determinadas condiciones. Hemos llamado
supuestos a esas condiciones y, los hemos denominado, de forma abreviada, independencia,
normalidad y homocedasticidad (en el modelo de medidas repetidas o bloques hemos añadido
el supuesto de aditividad).
El incumplimiento de uno o más de estos supuestos puede llevarnos a tomar una decisión
equivocada. Ese incumplimiento puede hacer que la distribución muestra) de F cambie y,
consecuentemente, que el nivel de significación propuesto (generalmente llamado ix nominal)
no coincida con el nivel de significación real, pasando a ser menor (haciendo el contraste más
conservador) o mayor (haciendo el contraste más liberal). Esta consideración es especialmente
importante, pues en los experimentos que suelen llevarse a cabo raramente se cumplen todos
los supuestos de los que depende la distribución muestra! de F.
En general, el estadístico F es bastante robusto frente a desviaciones moderadas en el
cumplimiento de los supuestos que exige (ver Glass, Peckham y Sanders, 1972), pero
desviaciones más acusadas pueden tener graves consecuencias sobre nuestras conclusiones.
Vamos a discutir por separado los aspectos relacionados con el cumplimiento de cada uno de
estos supuestos.
Independencia
El primero de los supuestos se refiere a la independencia entre observaciones: cada
observación debe ser independiente de las restantes de su mismo grupo y de las del resto de
los grupos. En la práctica, esta independencia se consigue con la asignación aleatoria de los
sujetos a los grupos (la independencia entre las observaciones no es sólo un requerimiento
estadístico, sino experimental; si falta aleatoriedad en la asignación de los sujetos a los
grupos, no habrá forma de separar el efecto de la variable independiente estudiada del efecto
de las variables extrañas introducidas con la asignación no aleatoria).
Las consecuencias del incumplimiento del supuesto de independencia pueden ser muy
graves (ver Kenny y Judd, 1986), de modo que conviene cuidar los aspectos relacionados con
la selección y asignación de sujetos. Si dudamos de la independencia de nuestras observacio-
nes, podemos poner a prueba la hipótesis de que las muestras utilizadas son aleatorias
utilizando la prueba de las rachas (ver San Martín y Pardo, 1989, págs. 100-102).
Normalidad
El segundo de los supuestos afirma que las observaciones de cada tratamiento o grupo
constituyen una muestra aleatoria extraída de una población normal. En muchos trabajos ha
quedado probado que el estadístico F es muy robusto frente al incumplimiento de este
supuesto (ver, por ejemplo, Box, 1953). En general, si las poblaciones de donde se muestrea,
aun no siendo normales, son simétricas o tienen forma parecida (por ejemplo, todas
positivamente asimétricas y leptocúrticas), el comportamiento del estadístico F es muy
aceptable incluso con tamaños muestrales relativamente pequeños. Con todo, siempre es
recomendable trabajar con tamaños muestrales moderadamente grandes; de esta forma
tendremos garantizado un comportamiento aceptable del estadístico F incluso en aquellas
situaciones en que las poblaciones originales muestren un marcado alejamiento de la
normalidad.
Las desviaciones de la normalidad pueden detectarse, cuando son muy marcadas,
utilizando sencillos métodos gráficos (ver Chambers, Cleveland, Kleiner y Tukey, 1983; o
Iman y Conover, 1983). Pero si estamos interesados en contrastar la hipótesis de que una
muestra procede de una población normalmente distribuida podemos utilizar la prueba de
normalidad de LilliefTors (1967; ver Conover, 1980, págs. 357-361; o San Martín y Pardo,
1989, págs. 89-90).
Homocedasticidad (igualdad de varianzas)
El último de los supuestos referidos al modelo completamente aleatorizado afirma que las
observaciones han sido extraídas de poblaciones con la misma varianza. Durante muchos
años se ha venido aceptando, a partir de trabajos como el de Horsnell (1953) o Box (1954a),
que el estadístico F es muy robusto frente al incumplimiento de este supuesto si los tamaños
muestrales son iguales y no demasiado pequeños. Estudios más recientes, sin embargo,
parecen confirmar que, cuando las varianzas poblacionales son distintas, el comportamiento
del estadístico F puede resultar insatisfactorio incluso con tamaños muestrales iguales
(Rogan y Keselman, 1977; Tomarken y Serlin, 1986; Wilcox, Charlin y Thompson, 1986;
Harwell y otros, 1992). Y, desde luego, si los tamaños muestrales son diferentes, muchos
trabajos (ver Glass, Peckham y Sanders, 1972, para una revisión) ponen de manifiesto que
el estadístico F pierde su robustez frente a la heterogeneidad de varianzas: se convierte en
muy conservador cuando las varianzas más grandes corresponden a los grupos de mayor
tamaño (perdiendo, además, potencia) y en marcadamente liberal cuando las varianzas más
grandes corresponden a los grupos de menor tamaño.
Estas consideraciones hacen más que recomendable detenerse a contrastar la hipótesis
de igualdad de varianzas cuando se tiene intención de utilizar el estadístico F del ANOV A.
Para ello, disponemos de varias pruebas de significación, pero no todas ellas son igualmente
robustas frente al incumplimiento del supuesto de normalidad (más bien, la mayoría son poco
robustas; ver O'Brien, 1981). Entre las más recomendables se encuentra la prueba de Levene
(1960), que consiste en 1) transformar las puntuaciones originales Y¡i en desviaciones en valor
absoluto respecto a las medias de sus respectivos grupos:
y 2) aplicar el estadístico F del ANOV A a las puntuaciones transformadas. Si las varianzas

son iguales, las desviaciones Dii serán parecidas en todos los grupos y las medias de esas
desviaciones nos servirán como referencia del grado de igualdad entre las varianzas. Una F
significativa nos llevará al rechazo de la hipótesis nula H 0 : u:= u~= ··· = uJ. Brown y
Forsythe (1974a) han propuesto un procedimiento idéntico al de Levene, pero utilizando las
medianas en lugar de las medias.
Posteriormente, O'Brien (1981) ha diseñado un procedimiento también muy aceptable
desde el punto de vista de la robustez. Al igual que el de Levene, consiste en obtener el
estadístico F del ANOV A utilizando, no las puntuaciones originales Yú, sino una transforma-
ción de las mismas:
(ni - 1,5)np;i - f¡) 2 - 0,5SJ (ni - 1)
rii =
(ni - l)(ni - 2)
siendo SJ la varianza insesgada de cada grupo (en cada grupo, la media de las puntuaciones
transformadas debe ser igual a la varianza insesgada).
Si alguno de estos procedimientos nos lleva al rechazo de la hipótesis de igualdad de
varianzas, podemos utilizar, como primera aproximación al problema de la heterogeneidad
de varianzas, la solución propuesta por Box (1954a). Con varianzas distintas, el estadístico F del
ANOVA sigue distribuyéndose según el modelo de probabilidad F. pero con los grados
de libertad alterados. Box ha demostrado que el verdadero punto crítico (pe) se encuentra
entre:
1-.F 1.n-1 ~pe~ 1-.Fi-1.N-J
El punto crítico 1 _ 0 F 1 _1_N-J es el que corresponde a la distribución del estadístico F

cuando se cumplen los supuestos del ANOVA. En el caso de incumplimiento de los
supuestos de normalidad y homocedasticidad, podemos utilizar el mayor de los dos puntos
críticos (el obtenido con 1 y n - 1 grados de libertad). Si con esta estrategia obtenemos un
resultado significativo, podremos concluir que las medias poblacionales son distintas sin
preocuparnos de si las varianzas son iguales o no. Si obtenemos un resultado no significativo,
entonces no podremos detener ahí nuestro análisis, pues la solución propuesta por Box es
extremadamente conservadora. Podríamos estimar el número de grados de libertad que
corresponden a la F concreta que estamos utilizando (el propio Box propone un método
para obtener esas estimaciones). Pero también podemos utilizar alguno de los procedimientos
diseñados como alternativas al estadístico F para afrontar situaciones de heterogeneidad de
varianzas.
De entre esos procedimientos alternativos, el estadístico Vw propuesto por Welch ( 1951)
ha sido considerado repetidamente como uno de los más apropiados 20 en términos de
potencia y protección contra los errores de tipo 1 (ver, por ejemplo, Kohr y Games, 1974; o
Tomarken y Serlin, 1986). La obtención del estadístico de Welch es tediosa, pero no difícil:
IwjY;
ni Y* =-i _ _
W·=-
J s¡
Iwj
A= 3:E(l - w/:Ew//(ni - 1)
----J-2,__~1-~-
20 En el capítulo 9 consideramos algunos estadísticos no paramétricos que, cuando se incumplen los

supuestos del estadístico F del ANOVA, constituyen una alternativa robusta y potente.
J-1
Vw=-------
2(J - 2)A
1 +----
3
Vw se distribuye según el modelo de probabilidad F con J - 1 y l/A grados de libertad.
Aditividad
En el modelo de medidas repetidas hemos añadido el supuesto de aditividad para

referirnos a la interacción entre los tratamientos (el factor) y los sujetos: el modelo supone
que tal interacción es nula, lo que significa que el efecto de los tratamientos se considera
independiente de los sujetos o bloques a los que se aplican.
Este supuesto, unido al de independencia entre los sujetos y los errores aleatorios, posee
algunas implicaciones estadísticas relacionadas con la matriz de varianzas-covarianzas (la
matriz de las varianzas de cada tratamiento y las covarianzas entre cada par de tratamien-
tos). De los supuestos mencionados se deriva que las varianzas tienen que ser iguales
(homocedasticidad) e iguales también las covarianzas (lo que significa que la correlación
entre cada par de tratamientos debe ser la misma). Esta característica de la matriz de
varianzas-covarianzas se denomina simetría compuesta y es condición suficiente para que el
estadístico F se distribuya según el modelo de probabilidad F. Sin embargo, la simetría
compuesta de la matriz de varianzas covarianzas no es una condición necesaria para obtener
la distribución del estadístico F. En realidad, es una condición más restrictiva de lo necesario.
La condición necesaria y suficiente tiene que ver más bien con las varianzas de las
diferencias entre cada par de tratamientos (oJ A..). Puesto que todos los sujetos reciben
los J tratamientos, es posible reorganizar los'-datos en términos de todos los posibles
pares de combinaciones entre tratamientos. Con tres tratamientos, por ejemplo, tendremos
J(J - 1)/2 = 3 pares: A 1 A 2 , A 1 A 3 y A 2 A 3 • Si obtenemos para cada par de tratamientos la
diferencia entre las dos puntuaciones de cada sujeto tendremos tres grupos de diferencias; si
ahora calculamos las varianzas de esas diferencias, tendremos tres varianzas de las diferencias
entre cada par de tratamientos. Pues bien, lo que suponemos en el modelo de medidas
repetidas o bloques es que las varianzas de las diferencias entre cada dos tratamientos son
iguales en la población. Este supuesto se denomina circularidad o esfericidad y es condición
necesaria y suficiente para que el estadístico F tenga distribución muestral exacta (Huynh y
Feldt, 1970; Rouanet y Lépine, 1970).
El incumplimiento del supuesto de circularidad puede tener serias consecuencias sobre las
conclusiones del contraste: convierte el contraste en liberal (se incrementa la probabilidad de
cometer errores de tipo 1). Conviene, por tanto, contrastar su cumplimiento. Pero ocurre que
las pruebas disponibles para contrastar la circularidad (por ejemplo, Mauchly, 1940) son muy
sensibles a la no normalidad de las poblaciones originales (Keselman, Rogan, Mendoza y
Breen, 1980). ¿Cómo solucionar este problema?
La primera solución consiste en modificar los grados de libertad de la distribución F; el
estadístico F se calcula de la forma habitual, pero al consultar la tabla de la distribución F se
utilizan unos grados de libertad corregidos. La corrección consiste en multiplicar los grados
de libertad del numerador y los del denominador por un índice denominado E (Box, l 954b)
que expresa el grado en que la matriz de varianzas-covarianzas se aleja de la homogeneidad
(cuando las varianzas son iguales y las covarianzas también, e vale l; cuanto más se alejan de
la homogeneidad las covarianzas, más se aproxima e a O). Los nuevos grados de libertad se
obtienen de la siguiente manera:
e(glnumerador) y e(gldenominador)
En el modelo de un factor, el estadístico F sigue el modelo de distribución de probabili-

dad F con t:(J - 1) y i;(J - l)(n - 1) grados de libertad, incluso en los casos en los que se
produce una fuerte desviación del supuesto de circularidad.
El problema de esta aproximación es que e es un parámetro y, por tanto, un valor
desconocido. No obstante, tanto Box (1954b) como Huynh y Feldt (1976) han propuesto
estimaciones para el parámetro f que son ofrecidas por la salida del procedimiento UNIANO-
VA del SPSS (la estimación propuesta por Box aparece con el nombre Geisser-Greenhouse,
probablemente porque fueron Geisser y Greenhouse quienes extendieron la estimación de e
a diseños más complejos) 21 .
Una segunda solución consiste en utilizar la aproximación multivariada para analizar los
datos procedentes de un diseño de medidas repetidas (ver, por ejemplo, Maxwell y Delany,
1990, cap. 13). La ventaja de esta aproximación es que no necesitamos suponer circularidad
(supuesto cuyo incumplimiento, según acabamos de ver, constituye la principal fuente de
problemas en los diseños de medidas repetidas). El SPSS, en su procedimiento UNIANOVA,
ofrece algunos estadísticos multivariados acompañados de sus correspondientes niveles críti-
cos; y eso es todo lo que necesitamos para tomar una decisión sobre la hipótesis general del
ANOVA.
Transformación de las puntuaciones
Una solución alternativa al problema del incumplimiento de los supuestos del ANOVA
consiste en transformar las puntuaciones originales buscando que las distribuciones se
normalicen o que sus varianzas sean más parecidas. Diferentes tipos de transformación
ayudan a conseguir estos objetivos (ver Howell, 1992, págs 309-311, para una justificación de
esta forma de proceder).
Cuando las desviaciones típic;as son proporcionales a las medias, o cuando las distribu-
ciones son positivamente asimétricas, podemos utilizar la transformación logarítmica:
Yii = log(Y¡) (es irrelevante la base utilizada para los logaritmos).
Si las medias son proporcionales a las varianzas en lugar de a las desviaciones típicas, (lo
cual ocurre, por ejemplo, cuando los datos son frecuencias: número de aciertos, etc.), resulta
más apropiada la transformación raíz cuadrada: Y'ii = ~. la cual también permite
homogeneizar ligeramente las varianzas y disminuir la asimetría positiva. Si los valores de Y
son pequeños, entonces resulta más apropiado utilizar la transformación Yii = jY;i + 0,5, o
bien, Yii = ~ + jY;i +l.
21 Geisser y Greenhouse (1958) han demostrado que el valor más pequeño de E es l/(J - 1). Esto
significa que, en caso de extrema heterogeneidad de la matriz de varianzas-covarianzas, la corrección nos
llevaría a 1 gl para el numerador de la F y a n - 1 g/ para el denominador. Geisser y Greenhouse
proponen utilizar estos grados de libertad para tomar una decisión sobre la hipótesis del ANOV A. Si
con esta estrategia conservadora el estadístico F es significativo, podremos prescindir de estimar E y
decidir rechazar la hipótesis. Si con esta estrategia el estadístico F es no significativo, la apropiado será
proceder a estimar 1: según proponen Box (1945b) o Huynh y Feldt (1976).
Si existen valores muy extremos por el lado pos1t1vo (por ejemplo, con tiempos de
reacción, donde los tiempos muy largos indican, probablemente, falta de atención más que
otra cosa), obtener los inversos permite reducir la importancia de esos valores extremos:
yij = l/}·~j·
Con mucha frecuencia las puntuaciones de que se dispone son proporciones, las cuales,
según sabemos, se distribuyen binomialmente. En una distribución binomial, la media y la
varianza están relacionadas. En estos casos resulta apropiado utilizar la transformación
arcoseno: Yii = arcoseno JP. Tanto la transformación raíz cuadrada como la transforma-
ción arcoseno son útiles cuando las medias y las varianzas están relacionadas. Pero existe una
diferencia entre ambas transformaciones: mientras la transformación raíz cuadrada disminu-
ye la asimetría positiva comprimiendo la cola derecha de la distribución, la transformación
arcoseno no afecta a la asimetría, pues comprime por igual ambas colas de la distribución.
Conviene señalar, para terminar, que la transformación de las puntuaciones originales no
es algo que deba hacerse de forma rutinaria. Lo que buscamos con una transformación es
justamente que las distribuciones con las que vamos a trabajar sean razonablemente simétricas,
con pocos o ningún valor extremo y con varianzas razonablemente homogéneas. Si nues-
tros datos ya poseen esas características, no se obtendrá ninguna ganancia aplicando una trans-
formación. Nunca una transformación puede justificarse con el objetivo de obtener un resul-
tado significativo.
Cálculo de la potencia en el ANOVA de un factor
Para conocer la potencia asociada al estadístico F necesitamos obtener un valor al que

llamaremos <P y que definiremos más adelante. A partir de <P podemos obtener directamente
la potencia utilizando la distribución F no centrada (tabla M del apéndice final) 22 .
Si la hipótesis del ANOV A es verdadera, el estadístico F sigue el modelo de distribución
de probabilidad F (centrada), con parámetros glnumerador y gldenominador Si esa hipótesis es falsa,
el estadístico F ya no se distribuye según la F centrada, sino según la distribución F no
centrada, con un tercer parámetro:
nL.cxJ
)--i_ (5.49)
• - (12
que suele denominarse parámetro de no-centralidad. El parámetro). expresa el grado en que

difieren las medias de los diferentes tratamientos: cuanto mayor es la diferencia entre las
medias, mayor es A.. A partir de Á. podemos obtener c/J:
Á.
<P=-= (5.50)
fl
22 Un tratamiento más completo de la potencia puede encontrarse en Cohen (1988). Diferentes
manuales de estadística (por ejemplo, Kirk, 1982; Keppel, 1991) presentan el cálculo de la potencia a
partir de tablas gráficas. Hays (1988) ofrece un procedimiento basado en su medida de asociación w 2 •
Estas diferentes aproximaciones, incluida la que nosotros proponemos, conducen a los mismos resul-
tados.
Para separar n del resto de los elementos de la ecuación y facilitar así los cálculos
relacionados con el tamaño muestra( necesario para alcanzar determinada potencia, podemos
definir </>':
</>' = Jf, 2
(5.51)
y hacer:
</> = </>' Jn (5.52)
Para calcular el valor de la potencia debemos comenzar estimando </>,lo cual equivale a
estimar los diferentes valores µi (o las diferencias a.i = µi - µ) y la varianza de la población
u 2 • Los a.i pueden estimarse a partir de resultados de investigación previos o a partir de la
diferencia µi - µ mínima que consideramos relevante. La varianza poblacional u 2 puede
estimarse también a partir de resultados previos. Si ya disponemos de los datos de nuestro
experimento, podemos estimar a.¡ y u 2 de la siguiente manera:
L~J = (J - l)(MCI - MCE)

n (5.53)
ct 2 = MCE
Obtenido el valor de </> podemos conocer la potencia de un contraste a partir de la tabla

M del apéndice final. Imaginemos un experimento con 3 grupos y 6 sujetos por grupo.
Supongamos que al analizar los datos obtenemos las siguientes medias cuadráticas:
MCI = 34, MCE = 7, y que utilizamos un nivel de significación a.= 0,05. A partir de (5.53)
obtenemos:
(J - 1)(.MCI - MCE) (3 - 1)(.34 - 7)

r.~2 = = =9
1
i n 6
ct 2 = MCE = 7
Y aplicando (5.51) y (5.52):
ffA f9
</>' =~~= '13fil = 0,655
y
</> = </>' Jn = 0,655J6 = 1,60
Sólo nos falta acudir a la tabla M para conocer la potencia. Para ello, necesitamos
</> = 1,60, los grados de libertad del numerador (g/ 1 = J - 1 = 2) y del denominador
(g/ 2 = N - J = 15), y el nivel de significación a. = 0,05. La tabla M nos proporciona, para
</> = 1,6 y g/ 2 = 16 (puesto que la tabla no incluye todos los valores para</> y g/ 2 tendremos,
cuando sea necesario, que interpolar o utilizar los más próximos) una probabilidad de 0,39.
Esa probabilidad es fl, la probabilidad de cometer un error de tipo 11. La potencia valdrá, en
consecuencia: 1 - f1 = 1 - 0,39 = 0,61.
Si deseamos incrementar la potencia de nuestro contraste, la solución más sencilla
consiste, según hemos visto ya, en aumentar el tamaño muestral. Con lo que ya sabemos,
obtener el tamaño muestral necesario para alcanzar una determinada potencia es una tarea
bastante simple, pues:
<P2
<P = <P'Jn => n=- (5.54)
</J'2
Si deseamos una potencia de, por ejemplo, 0,80, buscamos en la tabla M el valor de <P que
corresponde a esa potencia. Nos encontramos ahora con el problema de determinar el valor
de g/ 2 , pues no conociendo el tamaño muestral, tampoco podemos conocer el de g/ 2 • Sin
embargo, podemos utilizar g/ 2 = 30 o g/ 2 = oo, pues a partir de g/ 2 = 20 las probabilidades
son muy parecidas. Veamos qué ocurre con g/ 2 = oo. Para alcanzar una potencia de 0,80
(/1 = 0,20), el valor de <P debe ser 1,8. Por tanto:
<P2 1,82
n = - = - - = 755
</J' 2 0,655 2 ,
Necesitamos 8 sujetos (redondeamos al entero mayor) para alcanzar una potencia de 0,80.
EJERCICIOS
5.1. Un investigador desea evaluar la eficacia de tres terapias diferentes para reducir la
ansiedad de los pacientes neuróticos. Pero piensa que el tipo de neurosis (histérica, fóbica,
obsesiva, de angustia y depresiva) puede distorsionar el efecto de la terapia y decide controlar
el efecto del tipo de neurosis. Selecciona al azar 3 pacientes histéricos, 3 fóbicos, 3 obsesivos,
3 con neurosis de angustia y 3 depresivos, y forma 3 grupos cada uno con un paciente de
cada tipo, también seleccionados al azar. Aplica a cada grupo una terapia y, tras ello, toma
una medida del nivel de ansiedad de cada sujeto. Con las puntuaciones obtenidas en
ansiedad, efectúa un ANOV A. Responda a las siguientes cuestiones:
a) ¿Qué modelo de ANOVA debe utilizarse?
b) ¿Cuántos son los grados de libertad de la SCE?
e) Al efectuar el análisis se obtiene F = 4.52. Si P(F:::; 4,46) = 0,95, ¿qué decisión
deberá tomarse y por qué, con a = 0,05?
5.2. Al parecer, los periodos de instrucción continuada con duración superior a dos horas
hacen que el organismo, por fatiga, se sature y deje de prestar atención a la estimulación
relevante. Sin embargo, el fraccionamiento de la instrucción en periodos demasiado cortos
exige más frecuentes periodos de adaptación y produce más numerosas pérdidas de tiempo.
Existen, por tanto, dudas acerca de cuál debe ser la duración idónea de los periodos de
instrucción continuada. Para obtener información sobre esta problemática se diseñó un
estudio en el que se intentó evaluar el aprendizaje obtenido al variar la duración de las

sesiones de un curso de 9 horas acerca del funcionamiento de una hoja de cálculo. Se
seleccionaron aleatoriamente 27 sujetos y se repartieron, aleatoriamente también, en tres
grupos del mismo tamaño. A cada grupo se le presentó el mencionado curso de 9 horas en un
número diferente de sesiones: al grupo 1 en 3 sesiones; al grupo 2 en 6 sesiones; al grupo 3 en
9 sesiones. Tras esto, se pasó a todos los sujetos una prueba de rendimiento para obtener una
medida del grado de aprendizaje obtenido por cada grupo. Algunos de los resultados
obtenidos son estos:
Ti = 27 , Ti = 63 , TJ = 36 , LL Yl = 708
i j
Defina la VI y la VD y aclare a qué conclusión se llega tras aplicar el modelo de ANOVA

apropiado (oc= 0,05).
5.3. El departamento de ventas de una empresa ha formulado a un equipo de expertos en

percepción una consulta relacionada con el impacto capaz de producir la cantidad de
iluminación sobre el número de ventas. Para responder a la consulta hecha, el grupo de
expertos ha diseñado un estudio con 4 niveles de intensidad luminosa (A 1, Ai, AJ y A4 ) y ha
registrado el número de ventas en 9 tiendas (T 1, Ti····· T 9 ) bajo los 4 niveles de intensidad
luminosa. Los resultados obtenidos aparecen en la tabla 5.12. Seleccione el modelo de
ANOV A apropiado, plantee la hipótesis nula pertinente y tome una decisión sobre ella con
O(= 0,01.
TABLA 5.12
T, T, T, T• T, To T1 To To
A1 6 7 8 5 10 6 8 4 9
Ai 10 8 6 9 10 8 11 4 6
AJ 6 7 8 11 10 11 14 7 7
A• 14 10 10 13 16 11 16 13 14
5.4. (Señale la alternativa correcta) En un ANOV A de un factor, de efectos fijos ...

a) ... la MC/ es un estimador sesgado de la varianza poblacional sólo cuando la
hipótesis nula es verdadera.
b) ... la MCE es un estimador sesgado de la varianza poblacional sólo cuando la
hipótesis nula es verdadera.
e) ... la MCE es un estimador insesgado de la varianza poblacional sólo cuando la
hipótesis nula es falsa.
d) ... la MC/ es un estimador sesgado de la varianza poblacional sólo cuando la
e) ... la MCJ es una estimador insesgado de la varianza poblacional sólo cuando la
S.S. En un ANOVA de un factor, de efectos fijos, completamente aleatorizado, el estadístico

de contraste F toma el valor 3,45. Sabiendo que P(F > 3,45) = 0,955 y utilizando un nivel de
significación oc= 0,10, ¿qué decisión tomaremos respecto a H 0 ? ¿Por qué?
5.6. Tras un ANOVA, en un diseño aleatorizado en bloques, se obtuvo un estadístico de

contraste F = 4,51. Sabemos que P(F ~ 4,51) = 0,25. Según esto:
a) Si rechazamos H 0 , ¿concluiremos que los bloques no afectan a la variable dependien-
te? ¿Por qué?
b) Si rechazamos H 0 , ¿cuál es la probabilidad de que nos equivoquemos?
e) En cualquier caso, ¿cuál será la decisión más razonable? ¿Por qué?
5.7.A continuación se ofrece la tabla resumen de un ANOVA de un factor, de efectos fijos,
completamente aleatorizado, obtenida con la variable Y:
TABLA 5.13
FV se g/ MC F
In ter 64,6 2 32,3 11,96

Error 62,0 23 2,7
Si hacemos W = 2 Y+ 3 y llevamos a cabo un ANOVA con la variable W, entonces

(razone las respuestas):
a) ¿Cuánto valdrá la media cuadrática intergrupos MCI?
b) ¿Cuánto valdrá la media cuadrática error MCE?
e) ¿Cuánto valdrá el estadístico F?
5.8. (Señale la alternativa correcta) En un ANOVA de un factor, de efectos fijos, completa-
mente aleatorizado ...
a) ... la población de niveles del factor es infinita.
b) ... el supuesto de homocedasticidad no es importante si las muestras más pequeñas
proceden de poblaciones normales.
e) ... el supuesto de independencia no afecta al error de tipo 1 si las poblaciones son
homocedásticas.
d) ... H 0 se puede formular como: la suma de los cuadrados de los efectos del factor es
cero.
e) ... H 1 se puede plantear como: la suma de los efectos del factor es distinta de cero.
5.9. (Señale la alternativa correcta) En un ANOV A de un factor, de efectos fijos, completa-
mente aleatorizado, el estadístico de contraste F toma el valor 1,63. Sabiendo que
P(F ~ 1,63) = 0,108 y utilizando un nivel de significación IX= 0,01, ¿qué decisión tomaremos
sobre H 0 ?
a) Rechazarla porque F cae en la zona crítica.
b) Mantenerla porque 0,108 > 0,01.
e) Mantenerla porque 1,63 cae en la zona crítica.
d) Rechazarla porque 1,63 > 0,01.
e) Rechazarla porque 0,108 > 0,01.
5.10. Se ha diseñado una investigación con la intención de estudiar el efecto de la cantidad
de entrenamiento previo sobre el aprendizaje en una tarea de memorización. Se seleccionaron
aleatoriamente 27 sujetos y se formaron, también aleatoriamente, 3 grupos de igual tamaño.

A cada grupo se le presentó un número diferente de listas con material para memorizar: 5
listas al primer grupo, 10 al segundo y 15 al tercero. Al día siguiente se presentó una sola lista
a cada sujeto (la misma lista para todos) y se registró el tiempo en segundos utilizado por
cada sujeto para memorizarla. El investigador esperaba que, cuanto mayor fuera la cantidad
de entrenamiento (medida por el número de listas presentadas el primer día) menor sería el
tiempo invertido para recordar la lista presentada el segundo día. No disponemos de todos
los datos obtenidos por el investigador, pero sí de algunos:
TABLA 5.14
Grupo 1 Grupo 2 Grupo 3

5 listas 10 listas 15 listas
90 72 45 LLYl = 1.799
i j
Con la información disponible, queremos contrastar la hipótesis H 0 : µ 1 = µ 2 = µ 3 • ¿A qué

decisión llegaremos utilizando un nivel de significación oc = 0,05?
5.11. En el ejercicio 5.10, ¿cuál es la proporción de varianza del aprendizaje que es explicada
por la cantidad de entrenamiento?
5.12. (Señale la alternativa correcta) En un ANOVA en el que X es la variable independien-

te e Y es la variable dependiente, la SCE (suma de cuadrados error)...
a) ... siempre es mayor que cero.
b) ... es, a veces, negativa.
e) ... siempre es igual o mayor que cero.
d) ... será ne-gatir, si SCT < SCA.
e) ... nunca podrá ser cero.
5.13. En un colegio se están aplicando tres métodos diferentes de enseñanza de las

matemáticas, además del tradicional que es el que se viene utilizando últimamente. Se
seleccionan aleatoriamente 15 sujetos y se asignan, también aleatoriamente, 3 sujetos al
método 1 (tradicional), 4 al método 2 (tutorial), 4 al método 3 (estudio independiente) y 4 al
método 4 (programado). Los 15 sujetos se someten al final del cuatrimestre a una prueba de
rendimiento en matemáticas y se obtienen los resultados de la tabla 5.15.
¿Podemos afirmar, con un nivel de confianza del 95 por ciento, que los métodos no
poseen la misma eficacia?
TABLA 5.15
Métodos Observaciones
1 42 o 63
2 45 64 33 29
3 44 82 64 74
4 109 120 116 97
5.14. Un psicólogo escolar está interesado en comprobar si las puntuaciones de una prueba
de razonamiento abstracto se mantienen constantes o se modifican entre los 7, 8 y 9 años de
edad. A tal fin, selecciona una muestra aleatoria de 10 niños de 7 años de edad y les mide su
nivel de razonamiento abstracto. Vuelve a efectuar el mismo registro a los 8 y a los 9 años.
La tabla 5.16 recoge los resultados obtenidos. ¿A qué conclusión llegará nuestro psicólogo
escolar utilizando un nivel de significación oc= 0,01?
TABLA 5.16
Sujetos
Edad 1 2 3 4 5 6 7 8 9 10
7 70 81 74 65 80 90 68 71 62 88
8 78 80 79 71 82 91 69 75 62 95
9 77 83 81 69 84 93 69 79 64 93
5.15. Para estudiar el efecto de la intensidad del ruido ambiental sobre la ejecución de una
tarea visomotora compleja, un psicólogo seleccionó 30 sujetos al azar y los distribuyó
aleatoriamente en tres grupos de 10 sujetos cada uno. Cada grupo fue sometido a una
condición de ruido ambiental de diferente intensidad (baja, media, alta). Las puntuaciones
obtenidas por los sujetos en la tarea visomotora aparecen en la tabla 5.17. Defina las
variables independiente y dependiente y compruebe si la independiente influye sobre la
dependiente (oc= 0,01).
TABLA 5.17
Intensidad Sujetos
Baja 21 18 24 24 13 22 29 23 27 13
Media 14 12 17 16 9 21 15 16 22 11
Alta 10 17 16 13 9 18 15 13 11 12
5.16. Para estudiar el efecto de la desnutrición proteica sobre el aprendizaje de las ratas se
seleccionaron tres tipos de dieta: A, By C (cada una con diferente contenido proteico), y se
aplicaron a 30 ratas (10 por tratamiento). Las medias obtenidas por grupo fueron las
siguientes: A= 3,8; B = 5,2; C = 6,3. Siendo la suma de cuadrados total 88,7 y la suma de
cuadrados error 57,3, averigüe si la cantidad de contenido proteico en la dieta influye sobre el
aprendizaje de las ratas (oc = 0,05).
5.17. En un estudio diseñado para evaluar el efecto de la cantidad de estimulación

ambiental sobre el rendimiento en una cadena de montaje se han obtenido los siguientes
totales por tratamiento (T1: poca estimulación, ... , T4 : mucha estimulación):
T1 = 28 ; T2 = 35 ; T3 = 49 ; T4 = 56
Teniendo en cuenta que el diseño es equilibrado y utilizando un nivel de significación de
0,05, complete la tabla 5.18 y tome una decisión sobre H 0 : µ 1 = µ 2 = µ 3 = µ 4 •
TABLA 5.18
FV se g/ MC F
In ter ( ) ( ) ( ) ( )
Error ( ) ( ) 0,667
Total 86 27
S.18. En el ejercicio 5.17, ¿cuánto vale el índice de asociación w 2 ?
S.19. En un experimento sobre percepción se ha estudiado el efecto de la intensidad

luminosa (baja, media, alta) sobre el rendimiento en una prueba de discriminación visual. Se
han utilizado 3 grupos de 8 sujetos cada uno. Cada grupo ha realizado la prueba de
discriminación bajo una intensidad luminosa diferente. Los resultados obtenidos aparecen en
la tabla 5.19. Defina las variables independiente y dependiente y averigüe si la independiente
afecta a la dependiente (ix = 0,01).
TABLA 5.19
Intensidad Intensidad Intensidad

baja media alta
4 11 5
3 7 6
7 9 9
3 8 7
6 10 7
5 9 6
7 10 6
5 8 10
S.20. Para evaluar el efecto de una droga sobre la tasa cardiaca de pacientes diagnosticados
de neurosis, un investigador administró tres cantidades diferentes de droga a un grupo de
sujetos neuróticos. Pensando que el tipo de neurosis podría modular el efecto de la droga,
seleccionó a tres pacientes con neurosis obsesiva, tres con neurosis fóbica, tres con neuro-
sis de angustia y tres con neurosis histérica. Aplicó cada nivel de droga a un paciente de
cada uno de los grupos de neurosis mencionados y obtuvo los resultados que aparecen en la
tabla 5.20.
TABLA 5.20
Cantidad de droga
100 mg 250 mg 500 mg
Obsesiva 92 79 72
Fóbica 80 84 60
De angustia 89 90 67
Histérica 74 86 61
¿Qué podemos concluir, con IX = 0,05, acerca del efecto ejercido por la cantidad de droga
sobre la tasa cardiaca de los pacientes neuróticos?
SOLUCIONES
5.1. a) ANOVA A-EF-MR (bloques).

b) (J - l)(n - 1) = (3 - 1)(5 - 1) = 8.
e) Rechazar H 0 , porque P(F ~ 4,52) < 0.05.
5.2. VI = número de sesiones (o duración de las sesiones).

VD = puntuación en la prueba de rendimiento (grado de aprendizaje).
ANOVA A-EF-CA. F = 22,286; 0 •95 F 2 , 24 = 3,40; rechazamos H 0 •
Concluimos que el número de sesiones (o la duración de las sesiones) afecta al grado de
aprendizaje obtenido.
5.3. ANOVA A-EF-MR. H 0 : µ+ 1 = µ+ 2 = µ+ 3 = µ+4·

F = 18,675; 0 , 99 F 3 , 24 = 4,72; rechazamos H 0 .
5.4. d.
5.5. Mantenerla, porque P(F ~ 3,45) = 0,955 >IX= 0,10.
5.6. a) No. H 0 no se refiere al efecto de los bloques.

b) 0,25.
e) Mantener H 0 , porque P(F ~ 4,51) = 0,25 es mayor que cualquier valor razonable
para IX.
5.7. a) MCI = 22(32,3) = 129,2.

b) MCE = 2 2(2,7) = 10,8.
e) F = 11,96 (F no se altera con una transformación lineal de la VD).
5.8. d.
5.9. b.
5.10. ANOVA A-EF-CA. F = 13,96; 0 , 95 F 2 , 24 = 3,40; rechazamos H 0 •
5.11. 11 2 = 0,54; E2 = 0,50; w 2 = 0,49.

Aproximadamente el 50 por 100 de la varianza de la variable aprendizaje está
explicada por la variable entrenamiento.
5.12. c.

Podemos concluir que todos los métodos no poseen la misma eficacia.
5.14. ANOVA A-EF-MR. F = 15,16; 0 , 99 F 2 , 18 = 6,01; rechazamos H 0 •

Concluimos que el nivel de razonamiento abstracto cambia con la edad.
5.15. VI =intensidad del ruido ambiental.

VD = rendimiento en la tarea visomotora.
ANOVA A-EF-CA. F = 9,57; 0 , 99 F 2 , 27 = 5,49; rechazamos H 0 •
Podemos concluir que la intensidad del ruido ambiental influye sobre el rendimiento
en la tarea visomotora.

Concluimos que la cantidad de contenido proteico de las dietas influye sobre el
aprendizaje de las ratas.
5.17.
FV se gl MC F
In ter (70) ( 3) (23,333) (35)

Error (16) (24) 0,667
Total 86 27
Rechazamos H 0 , pues F = 35 > 0 , 95 F 3 , 24 = 3,01.
5.18. w 2 = 0,785.
5.19. VI =intensidad luminosa.

VD = rendimiento en la prueba de discriminación visual.
ANOVA A-EF-CA. F = 13,44; 0 , 99 F 2 , 21 = 5,78; rechazamos H 0 .
Podemos concluir que la intensidad luminosa afecta al rendimiento en la prueba de
discriminación visual.
5.20. ANOVA A-EF-MR (bloques). F = 15,07; 0 ,95 F 2 ,6 = 5,14; rechazamos H 0 .

Podemos afirmar que la cantidad de droga afecta a la tasa cardiaca.
Comparaciones múltiples
entre medias
6
6.1. Qué son las comparaciones múltiples.

6.1.1.Comparaciones lineales.
6.1.2.Comparaciones ortogonales.
6.2. El error tipo 1 en las comparaciones múltiples.
6.3. Comparaciones planeadas o a priori.
6.3.1. Comparaciones planeadas ortogonales (pruebas F
planeadas).
6.3.2. Comparaciones de tendencia.
6.3.3. Comparaciones planeadas no ortogonales.
a) Prueba de Dunn-Bonferroni.
b) Prueba de Dunnett para comparaciones con
un grupo control.
6.4. Comparaciones no planeadas o a posteriori.
6.4.1. La prueba de Tukey.
6.4.2. La prueba de Scheffé.
6.5. Qué procedimiento elegir.
Apéndice 6.
Comparaciones a priori: procedimientos alternativos.
Comparaciones a posteriori: procedimientos alternativos.
Comparaciones a posteriori: métodos secuenciales.
Ejercicios.
Según hemos visto en el capítulo anterior, la hipótesis que el ANOVA contrasta
es una hipótesis de tipo general referida al conjunto de las J medias poblacionales
sometidas a estudio: el rechazo de esa hipótesis tras la obtención de una F
significativa nos permite afirmar que no todas las medias poblacionales son iguales,
pero no nos permite concretar qué medias difieren de qué otras. El estadístico F es,
muchas veces, sólo el primer paso del análisis. Tras rechazar la hipótesis del
ANOVA todavía debemos enfrentarnos al problema de indagar dónde, de hecho, se
encuentran las diferencias que la F ha detectado. La solución a este problema pasa
por la utilización de un conjunto de procedimientos denominados comparaciones
múltiples entre medias, algunos de los cuales se describen en este capítulo 1 •
Dividiremos estos procedimientos en dos grupos: comparaciones planeadas
(también llamadas a priori) y comparaciones no planeadas (también llamadas post-
hoc o a posteriori). Pero antes de pasar a describir estos diferentes tipos de
comparaciones múltiples necesitamos aclarar algunos conceptos.
6.1. Qué son las comparaciones múltiples
6.1.1. Comparaciones lineales
En el contexto de los contrastes de hipótesis referidos a medias poblacionales,

que es el que nos ocupa:
Una comparación o contraste es una combinación lineal o suma ponderada de

medias con pesos o coeficientes, no todos iguales a cero, que suman cero.
Utilizaremos los símbolos Lh para representar la h-ésima comparación entre las

medias poblacionales, y Lh para representar la estimación muestra! de esta compa-
ración poblacional.
1 Los procedimientos diseñados para efectuar comparaciones múltiples entre medias son muchos y
muy variados. El lector interesado en ampliar los aquí expuestos o en profundizar en ellos puede
consultar. por ejemplo. Miller (1981), Hochberg y Tamane (1987) y Toothaker (1991).
Aclaremos la definición de comparac10n lineal que acabamos de presentar.

Imaginemos un experimento con cuatro tratamientos o grupos y, por tanto, con
cuatro medias poblacionales: µ 1, µ 2 , µ 3 y µ 4 . El experimentador podría estar
interesado en efectuar, por ejemplo, todas las posibles comparaciones dos a dos:
L1 = µ¡ - µ1 L4 = µ1 - µ3
L1 = µ¡ - µ3 Ls = µ1 - µ4
L3 = µ¡ - µ4 L6 = µ3 - µ4
Pero el experimentador también podría estar interesado en cualquier otro tipo

de comparación; por ejemplo:
L1 = (µ1 + µ1) - (µ3 + Jt4)

Le = (µ1 + µ1)/2 - µ3
Lg = (µ1 + µ1 + µ3)/3 - µ4
Hablamos de comparaciones múltiples porque nuestro interés se centra, no en
una sola comparación, sino en varias. Cada una de estas comparaciones (y cual-
quier otra que se nos ocurra formular) puede ser expresada como una combinación
lineal de las J medias con coeficientes ci conocidos que verifican dos condiciones: 1) al
menos uno de esos coeficientes ci es distinto de cero; y 2) la suma de todos ellos es
cero 2 • Es decir:
Lh = c 1µ 1 + c 2 µ 2 + ··· + ciµi + ··· + c1 µ 1 = ¿ciµi (6.1)

j
con ci "#O para algún j, y '1:.ci =O.

De acuerdo con esto, las 9 comparaciones sugeridas más arriba referidas a J = 4
medias poblacionales pueden formularse tal como muestra la tabla 6.1.
Vemos, por tanto, que cualquier comparación que se nos ocurra plantear entre J
medias puede ser expresada, de forma genérica, en el formato:
con las restricciones ya señaladas sobre los ci.
2 Conviene señalar que la teoría básica subyacente a las comparaciones tal como las estamos
definiendo ha sido ya parcialmente tratada en el capítulo 1 (apartado 1.3.2; ver también Botella, León y
San Martín, 1993, cap. 9). Si disponemos de k variables normalmente distribuidas y obtenidas indepen-
dientemente y al azar, cualquier combinación lineal entre esas variables es también una variable
normalmente distribuida.
Comparaciones múltiples entre medias / 289
TABLA 6.1
L1= (1)µ 1 + (-1)µ 2 + (0)µ 3 + (0)µ4 = µ• - µ2

L2 = (1)µ 1 + (0)µ 2 + (-1)µ 3 + (0)µ4 = µ. - µ3
L3 = (1)µ 1 + (0)µ 2 + (0)µ 3 + (-1)µ 4 = µ 1 - µ4
L4 = (0)µ1 + (1)µ2 + (-1)µ3 + (0)µ4 = µ2 - µ3
L5 = (0)µ 1 + (1)µ 2 + (0)µ 3 + (-1)µ 4 = µ 2 - µ4
L6 = (0)µ1 + (0)µ2 + (1)µ3 + ( -1)µ4 = µ3 - µ4
L7 = (2)µ1 + (2)µ2 + ( - 2)µ3 + ( - 2)µ4 = (µ1 + µ2) - (µ3 + µ4)
Ls = (1)µ1 + (1)µ2 + (-2)µ3 + (0)µ4 = (µ¡ + µ2) - (2)µ3
Lg = (1)µ1 + (1)µ2 + (1)µ3 + (-3)µ4 = (µ1 + µ2 + µ3) - (3)µ4
Por supuesto, si en lugar de utilizar las medias poblacionales µi utilizamos las

medias muestrales }j, el resultado será no una comparación poblacional (Lh) sino
una estimación muestra! de esa comparación (Lh), con valor esperado:
(6.2)
y varianza:
u2 c~
uL2 = u,2 y = "\"
.t.. c.2 u-2 -_ "\" c2
L. i -
_
- u 2 L.
"\" '
- (6.3)
• L. e; ; i ' Y; i ni i ni
Puesto que la varianza poblacional u 2 es un valor desconocido, podemos

estimarlo mediante MCE, que es un estimador insesgado de u 2 ; de este modo:
c~
0- 2 = MCE"\" _!_ (6.4)
L, L,.. n.
J J
La cuestión que surge en este momento es la de cómo asignar coeficientes a las

medias para que la comparación resultante exprese justamente la diferencia entre
medias que estamos interesados en estudiar. Cuando se desean comparar dos medias
la asignación de coeficientes es bastante simple: se asigna un 1 a una de las medias
que se desea comparar, un -1 a la otra media (da igual a cuál de las dos medias se
le asigne el valor negativo), y ceros a las medias que no interesa que formen parte de
la comparación.
Cuando interesa comparar dos grupos de medias (situación que se da cuando en
uno de los dos grupos o en los dos hay al menos dos medias; por ejemplo, los
contrastes L 1 , L 8 y L 9 presentados en la tabla 6.1), la situación se complica algo
más, pero no deja de ser bastante simple: se asignan a las medias de cada grupo
coeficientes iguales al número de medias que forman parte del otro grupo; y,
arbitrariamente, se hacen negativos los coeficientes de uno de los dos grupos.
Imaginemos, por ejemplo, una situación en la que disponemos de 5 medias y
que deseamos comparar las dos primeras medias tomadas juntas con las otras tres
tomadas juntas. Tenemos dos grupos de medias: el primero está formado por dos
medias; el segundo está formado por tres medias. Por tanto, podemos asignar un 3
a las dos medias del primer grupo y un 2 a las tres medias del segundo grupo.
Después podemos poner signo negativo a los doses o a los treses, indistintamente.
La comparación puede quedarnos de la siguiente manera:
L = (3)µ 1 + (3)µ 2 + (-2)µ 3 + (-2)µ 4 + (-2)µ 5

Si con esas mismas cinco medias deseamos comparar, por ejemplo, la primera
con las cuatro restantes, los coeficientes podrían ser:
L = (4)µ 1 + (-1)µ 2 + (-1)µ 3 + (-1)µ 4 + (-1)µ 5
Vemos, pues, que cualquier diferencia entre medias que se nos ocurra plantear
puede ser definida como una combinación lineal de esas medias si utilizamos los
coeficientes apropiados 3 .
6.1.2. Comparaciones ortogonales
El número de comparaciones dos a dos que podemos efectuar con J medias es

J(J - 1)/2 (combinaciones de J elementos tomados de 2 en 2). Los contrastes L 1 a
L 6 presentados en la tabla 6.1 agotan el número de comparaciones posibles dos a
dos con J = 4 medias: 4(4 - 1)/2 = 6.
Pero al plantear comparaciones no sólo dos a dos, sino de cualquier tipo (como,
por ejemplo, las comparaciones L 7 , L8 y L 9 de la tabla 6.1) la situación cambia
sustancialmente. El número de comparaciones de cualquier tipo que podemos
efectuar con J ;;::: 3 es, de hecho, infinito. Sin embargo, no todas esas comparaciones
posibles son independientes: la mayor parte de ellas puede expresarse como
combinación lineal de otras comparaciones, lo que significa que incluyen informa-
ción redundante.
Por ejemplo, la comparación L 4 = µ 2 - µ 3 definida más arriba puede obtenerse
a partir de las comparaciones L 1 = µ 1 - µ 2 y L 2 = µ 1 - µ 3 :
3 Cualquiera que sea el tipo de comparación que se nos ocurra plantear, en una comparación
concreta siempre estamos comparando dos medias o grupos de medias. Aunque sean muchas las medias
involucradas, la comparación siempre consiste en comprara una cosa (una media o grupo de medias) con
otra (con una media o grupo de medias).
Del mismo modo, la comparación L 8 = (µ 1 + µ 2) - (2)µ 3 puede obtenerse a

partir de las comparaciones L 2 y L4 :
En ocasiones, el experimentador puede estar interesado en utilizar comparacio-

nes independientes, es decir, comparaciones que no le proporcionen información
redundante. A este tipo de comparaciones se les llama comparaciones o contrastes
ortogonales.
Existe una sencilla regla que nos permite determinar si dos contrastes son o no
ortogonales. Consideremos una situación con J medias poblacionales y dos compa-
raciones referidas a esas medias: la primera, L 1 , con coeficientes simbolizados por
cli y la segunda, L 2 , con coeficientes simbolizados por c 2i. Decimos que esos dos
contrastes son ortogonales si:
(6.5)
con tamaños muestrales ni iguales. Si los tamaños muestrales son distintos, decimos
que dos contrastes son ortogonales si se verifica:
(6.6)
Consideremos, por ejemplo, que en un diseño con 3 medias definimos los

siguientes dos contrastes (suponemos ni iguales):
L 1 = (1)µ 1 + ( -1)µ 2
L 2 = (1)µ 2 + (-1)µ 3
Aplicando la regla propuesta, podemos comprobar que L 1 y L 2 no son contras-
tes ortogonales, pues el producto de sus coeficientes no suma cero:
Coeficientes para L 1 : cli = -1 o

Coeficientes para L2 : c 2i = o -1
°1:.c 11C2j= o + (-1) + o = -1
Sin embargo, si definimos los siguientes dos contrastes:
L 3 = (1)µ 1 + ( -1)µ 2
L 4 = (1)µ 1 + (1)µ 2 + (-2)µ 3
habremos definido dos contrastes ortogonales; la suma del producto de sus coefi-
cientes vale cero:
Coeficientes para L 3 : c 3i = -1 o
Coeficientes para L4 : c 4i = -2
I:c3jC4j = + (-1) + o =0
Con J = 3 medias sólo es posible definir J - 1 = 2 contrastes ortogonales entre

sí. Esto significa que los contrastes L3 y L4 agotan los posibles contrastes indepen-
dientes con J = 3 medias: con tres medias, no es posible encontrar un contraste que
no tenga información ya contenida en L 3 y L4 . Sin embargo, con tres medias, L 3 y
L4 no son el único grupo de dos contrastes independientes entre sí. Otro posible
grupo de dos contrastes ortogonales sería:
L5 = (1)µ 1 + (-1)µ 3
L6 = (1)µ 1 + (-2)µ 2 + (1)µ 3
pues I:c 5i c6 i = (1)(1) + (0)(-2) + (-1)(1) =O.

Con J medias existen J - 1 comparaciones o contrastes ortogonales. Pero existe
un número infinito de grupos de J - 1 contrastes independientes. Ahora bien, cada
uno de esos grupos puede ser expresado siempre como combinación lineal de otro
diferente.
La utilidad de los contrastes ortogonales radica precisamente en que no
contienen información redundante: la información que proporciona cualquiera de
ellos no se solapa con la proporcionada por los restantes.
6.2. El error de tipo 1 en las comparaciones múltiples
La clave de la discusión referida a los procedimientos de comparaciones

múltiples está en la probabilidad asociada al error de tipo l. Entenderemos mejor
esta idea si consideramos un ejemplo en el que estamos comparando las medias
poblacionales de 4 grupos. Si rechazamos la hipótesis general del ANOV A, conclui-
remos que no todas esas medias poblacionales son iguales. Si, tras esto, decidimos
comparar, por ejemplo, cada par de medias para concretar qué medias difieren
de qué otras, tendremos que comparar µ 1 con µ 2 , µ 1 con µ 3 , µ 1 con µ 4 , µ 2 con
µ 3, etc. En total, tendremos que efectuar J(J - 1)/2 = 6 comparaciones. Si IX vale,
por ejemplo, 0,05, en cada comparación existirá una probabilidad de 0,05 de co-
meter un error de tipo l. Pero, ¿cuál será la probabilidad de cometer al menos un
error de tipo 1 al efectuar las seis comparaciones? Es decir, ¿cuál será la pro-
babilidad de cometer uno, dos, tres, ... , seis errores en las seis comparaciones?
Considerando cada una de esas comparaciones como un ensayo de Bernouilli

con probabilidad de error oc = 0,05, la probabilidad de no cometer ningún error en
los seis ensayos (en las seis comparaciones) vendrá dada por:
P(ningún error)= (~}o,05)º(0,95) 6 = 0,735

De modo que la probabilidad de cometer algún error en las seis comparaciones
(es decir, la probabilidad de cometer al menos un error), valdrá:
P(un error o más)= 1 - 0,735 = 0,265
En otras palabras, al efectuar seis comparaciones utilizando la prueba t sobre

diferencia de medias, la probabilidad de cometer un error de tipo 1 es más de 5
veces más grande que esa probabilidad al efectuar una sola comparación. En
general, la probabilidad de cometer al menos un error de tipo 1 al efectuar k
comparaciones utilizando oc en cada una de ellas vale 4 :
P(un error tipo 1 o más)= 1 - (1 - oct (6.7)
Si el número de grupos es grande, k también lo será y, en consecuencia, la

probabilidad de cometer un error de tipo 1 será muy alta. Con 6 grupos, por
ejemplo, k vale 15 y la probabilidad de cometer algún error de tipo 1 vale 0,54. Con
10 grupos, k vale 45 y la probabilidad de cometer algún error de tipo 1 en esas 45
comparaciones vale 0,90 (siempre con oc = 0,05 en cada comparación).
Estas consideraciones, al tiempo que nos alertan sobre la necesidad de controlar
la probabilidad de cometer algún error de tipo 1 cuando se efectúan muchas
comparaciones, nos permiten introducir la distinción entre dos de esas probabilida-
des. Comencemos llamando, simplemente por brevedad, tasa de error a la probabili-
dad de cometer al menos un error de tipo l. Sabemos que al efectuar una sola
comparación con nivel de significación oc, la tasa de error es oc; para identificarla
podemos llamarla occ=
occ =Tasa de error por comparación= oc
Al comparar las medias de dos grupos mediante la prueba t, con oc = 0,05,

estamos efectuando una única comparación. La probabilidad de cometer un error
de tipo 1, es decir, la tasa de error por comparación occ, es justamente 0,05.
Si en lugar de una comparación, efectuamos un conjunto o familia de k
4 Estas probabilidades son válidas si consideramos que las k comparaciones son independientes.
Pero esas k comparaciones no son, de hecho, independientes (esto ya ha sido tratado en el apartado
anterior). Cuando las comparaciones no son independientes, la probabilidad de cometer algún error de
tipo 1 es difícil de calcular, pero puede demostrarse que siempre es mayor que IX y menor o igual que
1 - (1 -1Xt.
comparaciones utilizando en cada una de ellas un nivel de significación a, la tasa de

error, según acabamos de ver más arriba, cambia; para identificarla podemos
llamarla aF:
aF = Tasa de error por familia de comparaciones = 1 - ( 1 - at
En un experimento concreto podemos efectuar diferentes tipos de comparacio-

nes: podemos comparar simplemente una media con otra, podemos comparar todas
las medias entre sí dos a dos, podemos comparar las medias de los grupos
experimentales con la media del grupo control, podemos comparar un grupo de
medias con otro grupo de medias, etc. De ese conjunto de posibles comparaciones,
el experimentador estará interesado, generalmente, en sólo unas pocas. Ese conjun-
to de comparaciones sobre las que el experimentador tiene interés (y por tanto el
conjunto de comparaciones que de hecho se llevan a cabo) constituyen lo que
llamamos familia de comparaciones y representan el punto de referencia de la tasa
de error por familia de comparaciones 5 .
Algunos de los procedimientos de comparaciones múltiples han sido diseñados
precisamente para controlar esa tasa de error (a1 ). Sin embargo, no en todas las
situaciones resulta relevante hacerlo. En unas ocasiones la tasa de error de referen-
cia será ac y en otras ocasiones será a,.. Según veremos. como regla general. cuando
planificamos de antemano un reducido número de comparaciones independientes
no existe inconveniente en adoptar ac como tasa de error. Pero cuando las
comparaciones son muchas y no planificadas la tasa de error a,.. resulta más
apropiada.
6.3. Comparaciones planeadas o a priori
En ocasiones, podemos estar interesados en obtener información sobre un

conjunto concreto de comparaciones. Es decir, podemos estar interesados, no en
contrastar la hipótesis general del ANOVA de que todas las medias son iguales, ni
tampoco todas las comparaciones posibles entre las medias, sino sólo alguna
comparación concreta de las descritas en el apartado 6.1. A estas comparaciones se
les llama planeadas o a priori. Y se les llama así precisamente porque son diseñadas
antes de la recogida de datos. No necesitan ir precedidas o acompañadas de un
ANOV A y, por tanto, su utilización es independiente del mismo.
Estas comparaciones planeadas pueden ser o no ortogonales. Trataremos en
primer lugar las comparaciones ortogonales y, a continuación, las comparaciones
de tendencia, las cuales, aun siendo un tipo particular de comparaciones ortogona-
les, merecen un tratamiento aparte. Por último, trataremos algunos procedimientos
para efectuar comparaciones planeadas no ortogonales.
' Algunos autores (por ejemplo, Kirk, 1982, págs. 101-106; Howell, 1992, pág. 336) hablan de la tasa
de error por experimento tomando como referencia el conjunto de posibles comparaciones asociadas a un
experimento.
6.3.1. Comparaciones planeadas ortogonales (pruebas F

planeadas)
Con J medias poblacionales podemos plantear, según hemos visto en el aparta-

do 6.2, J - 1 contrastes ortogonales del tipo:
Las hipótesis nulas referidas a esos J - 1 contrastes pueden formularse de la

siguiente manera:
H 00 ¡: L 1 = c 11 µ 1 + c 12 µ 2 + ... + c 11 µ 1 =O
H 0 (2): L 1 = c 21 µ 1 + c 22 µ 2 + ... + c 21 µ 1 =O
(6.8)
Estas hipótesis plantean que Lh vale cero, lo cual equivale a afirmar que las dos
medias (o los promedios de los dos grupos de medias) involucradas en la compara-
ción h son iguales. Podemos referirnos a cualquiera de esas hipótesis, de forma
genérica, como:
(6.9)
Cualquier comparación Lh puede estimarse sustituyendo las medias poblaciona-

les µj por sus correspondientes estimadores muestrales Y¡:
(6.10)
Una de las ventajas de una comparación lineal del tipo Lh es que puede ser
fácilmente convertida en una suma de cuadrados capaz de expresar las diferencias al
cuadrado entre las medias de los dos grupos de medias que definen la comparación.
Y esa suma de cuadrados de la comparación, a la que podemos llamar SC(Lh), es un
componente de la suma de cuadrados intergrupo (SC/) del ANOV A de un factor, de
efectos fijos, completamente aleatorizado. Recordemos que los grados de libertad de
la SC/ eran J - 1 y que J - 1 son los posibles contrastes ortogonales que podemos
plantear con J medias. Si definimos, con J medias, J - 1 comparaciones ortogona-
les, cada una de esas comparaciones es un componente de la SC/ con un grado de
libertad 6 .
6 Tenemos un grado de libertad porque en una comparación lineal siempre estamos comparando dos
cosas: una media con otra, una media con un grupo de medias, o un grupo de medias con otro grupo de
medias.
Para entender mejor esta idea comencemos definiendo la suma de cuadrados de

una comparación:
(6.11)
Por supuesto, esta suma de cuadrados puede ser tratada como cualquier otra
suma de cuadrados, de modo que podremos transformarla en una media cuadrática,
MC(Lh), dividiéndola por sus grados de libertad. Ahora bien, como SC(Lh) lleva
asociado un grado de libertad, se verifica que:
(6.12)
En consecuencia:
(6.13)
nos permitirá poner a prueba la hipótesis nula referida a la comparación h. MCE es

la media cuadrática error del ANOV A de un factor, y es, como recordaremos, un
estimador insesgado de la varianza poblacional.
Puede demostrarse que, dadas J - 1 comparaciones ortogonales Lh referidas a J
medias:
J-1
L SC(Lh) = SCI (6.14)
h=I
con lo cual queda claro que SC(Lh) es un componente de la SC/.

Podemos ya, con lo que sabemos, resumir el procedimiento para llevar a cabo
comparaciones múltiples ortogonales, tal como se muestra en el cuadro 6.1.
CUADRO 6.1
Comparaciones planeadas ortogonales. Resumen del procedimiento
l. Hipótesis: H 01 h 1: Lh = chi/li + ch 2Jt 2 + ··· + chJ/IJ =O

H11hl: Lh = ch1/11 + ch2µ2 + ··· + chJllJ "#O
2. Supuestos: los mismos que los del ANOVA de un factor, de efectos fijos, completa-
mente aleatorizado (independencia, normalidad, homocedasticidad).
3. Estadístico de contraste: Fh = SC(Lh)/MCE.
4. Distribución muestra!: Fh sigue el modelo de distribución de probabilidad F con 1

y g/'"'" grados de libertad.
5. Zona crítica': F h :;.:: 1 - ,F 1.91....,
6. Decisión: se rechaza H oihi si el estadistico de contraste Fh cae en la zona crítica; en
caso contrario. se mantiene. Si rechazamos H 01 h 1 podemos concluir que los
promedios comparados son distintos; de lo contrario concluiremos que pueden ser
iguales.
EJEMPLO 6.1. Recordemos el ejemplo 5.1 en el que 3 grupos aleatorios de ratas

sedientas (6 ratas por grupo) fueron recompensadas con diferentes cantidades de agua
(5, 10 y 15 ce) por recorrer un laberinto. Las medias obtenidas por cada grupo fueron:
Y1 = 8, Y-2 = 5 y Y3 = 3.
Recordemos también que el ANOVA ofreció para la SC/ un valor de 76 y un valor
de 1,067 para la MCE. La hipótesis referida a la igualdad de las tres medias
poblacionales fue rechazada.
Ahora estamos interesados en realizar las siguientes dos comparaciones:
L 1 = 2(¡1¡) - (112 + /13)
L2 = 112 - ¡13
¿A qué conclusiones podemos llegar, con :l = 0,01?
l. Hipótesis: H 01 n: L 1 = (2)µ 1 + (-1)µ 2 + (-1)µ 3 =O.

H 01 i¡: L 2 = (0)µ 1 + (1)µ 2 + (-1)µ 3 =O.
Se trata de comparaciones independientes, pues: (2)(0) + ( - 1)(1) +
+(- 1)( - 1) = o.
2. Suponemos que hemos extraído tres muestras aleatorias independientemente
de tres poblaciones normales con varianzas iguales.
3. Estadísticos de contraste:
Lf 82 _ L~ 22
SC(L ) = - =
1 d. 22 -12 -12
=64; SC(L2) = 4 = 02 12 - 12 = 12
I~ -+-+- I~ -+-+-
"j 6 6 6 j nj 6 6 6
SC(L¡) 64 SC(L 2) 12
F 1 =--=--=59,98 F 2 = - - = - - = 11,25
MCE 1,067 MCE 1,067
7 También pueden plantearse contrastes unilaterales. En ese caso. la zona crítica estará formada por
los valores de la distribución F mayores o iguales que el percentil 100(1 - 2oi). Es decir, hay que doblar el
valor de oi para definir la zona crítica en un contraste unilateral.
4. Distribución muestra): F 1 y F 2 se distribuyen según F 1. is·
5. Zona crítica: Fh ~ 0 •99 F 1 • 15 = 8,68.
6. Decisión: tanto F, como F 2 son mayores que el punto crítico 8,68, por lo que
ambos caen dentro de la zona crítica. En consecuencia, rechazamos tanto H 0 (1)
(y concluimos que el primer grupo difiere de los otros dos tomados juntos)
como H 0 !2> (y concluimos que el segundo grupo difiere del tercero).
6.3.2. Comparaciones de tendencia
Si la variable independiente del diseño que se está analizando es cuantitativa,

puede resultar interesante conocer el tipo de relación existente entre ella y la
dependiente. Sabemos que el rechazo de la hipótesis general del ANOV A cuando el
estadístico F es significativo nos está indicando que las medias poblacionales
comparadas no son iguales. Pero esto sólo significa que la variable dependiente
cambia cuando cambian los valores de la independiente (es decir, que ambas
variables están relacionadas). Una F significativa no nos informa sobre la pauta
concreta seguida por ese cambio. Es decir, una F significativa no nos informa sobre
el tipo de relación que se da entre ambas variables.
Puede ocurrir, por ejemplo, que los valores de la variable dependiente aumenten
conforme aumentan los de la independiente, en cuyo caso la relación será de tipo
lineal (figura 6.lA). Puede ocurrir, también que los valores de la variable depen-
diente vayan aumentando conforme lo hacen los de la independiente hasta llegar a
un punto, a partir del cual el aumento en los valores de la variable independiente se
ve correspondido con una disminución en los de la dependiente (figura 6.1 B). Puede
ocurrir incluso que la relación sea algo más complicada, con subidas y caídas en la
variable dependiente conforme los valores de la independiente van aumentando
(figura 6.1 C).
Es decir, la relación entre ambas variables puede ser de tipo lineal, cuadrático,
cúbico, etc. Son precisamente las comparaciones de tendencia las que nos permiten
estudiar cuál es el tipo de relación existente entre la variable independiente y la
dependiente.
A B e
/Í\IV
Y= a+ bX Y= a+ bX 2 Y= a+ bX 3
Figura 6.1.-Diferentes tipos de relación entre dos variables. A: lineal; B: cuadrática; C: cúbica.
En las comparaciones ortogonales estudiadas en el apartado anterior (así como

en el resto de los procedimientos para comparaciones múltiples que estudiaremos
después), la disposición de los niveles de la variable independiente o factor es
completamente irrelevante: se estudian diferencias entre promedios, con indepen-
dencia de la posición ocupada por esos promedios. Además, en las comparaciones
ortogonales estudiadas, la variable independiente podía ser cualitativa o cuantitati-
va; también este tipo de distinción era irrelevante para el análisis. Ahora, por el
contrario. el estudio del tipo de relación entre la variable independiente y la
dependiente mediante las comparaciones de tendencia sólo tiene sentido si la
variable independiente es cuantitativa y sus niveles se encuentran igualmente
espaciados 8 .
La forma concreta de llevar a cabo comparaciones de tendencia es casi idéntica
a la descrita en el apartado anterior para las comparaciones ortogonales ( F
planeadas). De hecho, las comparaciones de tendencia no son más que una forma
particular de comparaciones ortogonales. Por tanto, con J medias, únicamente será
posible definir J - 1 tendencias ortogonales. Así, con J = 2 sólo podemos estudiar
la tendencia lineal; con J = 3 podemos estudiar la tendencia lineal y la cuadrática;
con J = 4 podemos estudiar la tendencia lineal, la cuadrática y la cúbica; etc.
La diferencia entre las comparaciones de tendencia y las comparaciones ortogo-
nales se encuentra exclusivamente en los coeficientes que se asignan a las medias:
ahora esos coeficientes deben expresar los diferentes tipos de relación que deseamos
estudiar: lineal, cuadrática, cúbica, etc. Afortunadamente, no necesitamos calcular
en cada situación cuáles son los coeficientes apropiados para expresar cada tipo de
relación. Cuando los niveles del factor se encuentran igualmente espaciados, la tabla
G del apéndice final recoge una serie de coeficientes, para diferentes valores de J,
que cumplen la doble condición de a) proporcionamos contrastes ortogonales, b) re-
presentando, cada uno de ellos, una tendencia diferente (lineal, cuadrática, etc.).
En el ejemplo 6.2 se describe la forma de llevar a cabo comparaciones de tendencia.
En las comparaciones ortogonales, incluidas las de tendencia, la tasa de error de
referencia es la tasa de error por comparación (:xc): cada una de las J - 1 posibles
comparaciones se lleva a cabo con un nivel de significación :x (lo que hace recomen-
dable, como norma general si se quiere estar bien protegido contra los errores de
tipo 1, adoptar :x = 0,01 en lugar de :x = 0,05 como nivel de significación para cada
comparación).
EJEMPLO 6.2. Recordemos los datos del ejemplo 6.1. que a su vez están tomados
del 5.1. La variable independiente es cantidad de rernmpensa (variable cuantitativa) y
sus niveles están igualmente espaciados (5, 10 y 15 ce). Podemos utilizar las compara-
ciones de tendencia para estudiar la relación entre rnntidad de recompensa y relocidad
de aprendi=t1je del laherinto. Las medias de cada grupo eran 8. 5 y 3. Teníamos 6 ratas
en cada grupo. Y el valor de la MCE era 1,067. Vamos a seguir utilizando :x = 0,01.
" Al final de este apartado presentamos un método de obtención de coeficientes que permite la
utilización de las comparaciones de tendencia cuando los niveles del factor no están igualmente
espaciados.
~) Ediciones Pirámide
l. Hipótesis: = (-1)µ¡ + (0)µ2 + (!)µ3 =O.

Ho(lineal): L1ineal
= (!)µ¡ + (-2)µ2 + (!)µ3 =O.
Ho(cuadrat.): Lcuadrat.
(Los coeficientes están tomados de la tabla G del apéndice final, para J = 3.
Como sólo hay 3 grupos, sólo podemos definir dos componentes independien-
tes: el lineal y el cuadrático).
2. Supuestos: los mismos que para las comparaciones ortogonales del apartado
anterior.
Llinea1 = ¿ c 0inea1¡; Yj = ( - t )8 + (0)5 + (t )3 = - 5
Lcuadra1. = Lc(cuadra1.¡; Yj = (1)8 + (- 2)5 + (t )3 = 1
~2
_52
SC(L
hneal
) = L lineal -----=75
¿ c 2(lineal)¡ - 12 02 ¡2
--+-+-
ni 6 6 6
S C(L . ) =
L2(cuadral.)
.
cuadra t.
¿ c 2(cuadrat.)i 12
-+--+-
-22 12
ni 6 6 6
SC(Llineall 75
F 1· 1= = - - = 70 29
mea MCE 1,067 '
SC(Lcuadrat.l 1
Fcuadrat. = MCE = 1,067 = 0,94
4. Distribución muestra(: Flineal y Fcuadrat. se distribuyen según F 1.1 S·
5. Zona crítica: Fh ~ 0 , 99 F 1 • 15 = 8,68.

6. Decisión: sólo Flineal es mayor que el punto crítico (70,29 > 8,68) y por tanto
sólo Fiineal cae en la zona crítica. En consecuencia, rechazamos H O(lineall y
concluimos que la relación entre las variables cantidad de recompensa y
velocidad de aprendizaje es de tipo lineal: observando el valor de las medias de
los tres grupos podemos afirmar que cuanto mayor es la recompensa, menos
ensayos se necesitan para aprender a recorrer el laberinto. La figura 6.2 puede
ayudarnos a entender esto.
Otra forma de contrastar la hipótesis referida al componente cuadrático consiste

en obtener su suma de cuadrados, SC(Lcuadracl, a partir de la suma de cuadrados
intergrupos del ANOVA (SCJ):
SC(Lcuadracl = SC/ - SC(Llineal) = 76 - 75 = 1

Y;
8
7
6
Velocidad 5
de 4
aprendizaje 3
2
Cantidad de
o--'-----,.....-------.------.-- recompensa
5 ce 10 ce 15 ce
Figura 6.2.-Relación entre las variables cantidad de recompensa y número de ensayos necesarios
para aprender el laberinto.
Según vimos en el apartado anterior: SC/ = l: SC(Lh). Esta estrategia resulta útil
cuando los grupos son muchos (J es grande) y el número de tendencias que hay que
evaluar es elevado. En estos casos, calculado el componente lineal, podemos evaluar el
resto de los componentes tomados juntos mediante SC/ - SC(Llineat) y comprobar si es
o no necesario proseguir el análisis (ver San Martín y Pardo, 1989, págs. 190-191).
Conviene señalar que las comparaciones de tendencia también pueden ser

utilizadas cuando los niveles de la variable independiente no se encuentran igual-
mente espaciados. Pero en tal caso ya no podemos utilizar los coeficientes de la
tabla G, sino que necesitamos obtenerlos nosotros mismos. Veamos cómo se
obtienen para la tendencia lineal y para la cuadrática (que, generalmente, son las
dos de mayor interés para el investigador).
Comencemos obteniendo coeficientes para la tendencia lineal. Supongamos que
la cantidad de recompensa administrada a cada grupo de nuestro ejemplo 5.1, en
lugar de A 1 = 5, A 2 = 10 y A3 = 15 ce de agua, es de A 1 = 5, A 2 = 10 y A3 = 30 ce
de agua. Comenzamos con la siguiente ecuación, que representa cualquier grupo de
coeficientes lineales:
(6.15)
donde a 1 es una constante (el subíndice 1 hace referencia al componente lineal) y Ai
se refiere a los niveles del factor. La tabla 6.2. recoge los valores Aj (columna 1) y los
de la ecuación (6.15) (columna 2) para nuestro ejemplo concreto. Dado que los chi
de una comparación deben sumar cero (recordemos las restricciones impuestas
sobre la ecuación [6.1] en el apartado 6.1.1), tendremos:
¿cli = L(a 1 +Aj)= (a 1 + 5) + (a 1 + 10) + (a 1 + 30) = 3a 1 + 45 =O

j j
Despejando el valor de a 1 obtenemos a 1 = -45/3 = -15; y sustituyendo en la

columna 3 de la tabla 6.2 llegamos los c 1 j correspondientes a la tendencia lineal.
Podemos comprobar que esos coeficientes suman cero y que el espaciamiento entre
ellos es proporcional al espaciamiento que se da entre los niveles del factor.
TABLA 6.2
Obtención de coeficientes lineales cuando
los niveles del factor no se encuentran
igualmente espaciados
(1) (2) (3)

A; a,+ A; ('lj
5 ª1 + 5 -15 + 5 = -10
10 ª1 + 10 -15+ 10= -5
30 a 1 + 30 -15+30= 15
Para obtener los coeficientes de la tendencia cuadrática procedemos de la misma

manera. Comenzamos definiendo la ecuación que representa cualquier grupo de
coeficientes cuadráticos:
(6.16)
donde a 2 y b 2 son constantes (el subíndice 2 hace referencia al componente

cuadrático) y Aj se refiere, al igual que antes, a los niveles del factor. La tabla 6.3.
recoge los valores Aj (columna 1) y los de la ecuación (6.16) (columna 2) para
nuestro ejemplo concreto. Dado que los chj de una comparación deben sumar cero,
tendremos:
,Lc2j = ,L(a 2 + b2Aj +Aj)

j j
= (a 2 + 5b 2 + 25) + (a 2 + 10b 2 + 100) + (a 2 + 30b 2 + 900) (6.17)

= 3a 2 + 45b 2 + 1.025 = O
Ahora tenemos dos incógnitas y una sola ecuación. Pero sabemos que, si dos
contrastes son ortogonales (como lo son el componente lineal y el cuadrático) se
verifica que el producto de sus coeficientes suma cero; es decir:
Por tanto, como ya tenemos calculados los coeficientes de la comparación lineal

(tabla 6.2), podemos hacer:
_Lc1hi = LC1iª2 + b2Ai +Aj)

j j
= (-10)(a 2 + b25 + 25) + (-5)(a 2 + b2 10 + 100) + 15(a 2 + b2 30 + 900)

= 350b2 + 12.750 =o
Despejando el valor de b 2 obtenemos: b 2 = -12.750/350 = 36,4286. Y a partir

de b 2 podemos despejar a2 en la ecuación (6.17):
- 45b2 - 1.025 - 45( - 36,4286) - 1.025

ª2 = 3 3 = 204,7623
Sustituyendo ahora en la columna 5 de la tabla 6.3 obtenemos los c2 i correspon-

dientes a la tendencia cuadrática.
TABLA 6.3
Obtención de. coeficientes cuadráticos cuando los niveles del factor no se
encuentran igualmente espaciados
(1) (2) (3) (4) (5)

AJ a 2 + b2A1 +AJ c,J C1jC2j C2J
5 ª2 + 5b2 + 25 -10 -10a 2 - 50b 2- 250 204, 7623 + 5( - 36,4286) + 25 = 47,620

10 a2 + IOb 2 + 100 -5 - 5a 2- 50b 2- 500 204,7623 + 10(-36,4286) + 100 = -59,524
30 ª2 + 30b2 + 900 15 15a 2 +450b 2 +13.500 204, 7623 + 30( - 36,4286) + 900 = 11,904
6.3.3. Comparaciones planeadas no ortogonales
a) Prueba de Dunn-Bonferroni
Este procedimiento, propuesto inicialmente por Dunn (1961 ), es apropiado para

aquellas situaciones en las que estamos interesados en realizar sólo unas pocas
comparaciones del conjunto total de posibles comparaciones.
La peculiaridad de este procedimiento 9 radica en la forma de controlar la tasa
de error por familia de comparaciones (ixF). Ese control se basa en la desigualdad de
Bonferroni, según la cual la probabilidad conjunta de dos o más sucesos nunca
puede exceder la suma de sus probabilidades individuales. Esto significa que si
hacemos tres comparaciones, cada una de ellas con un nivel de significación
ix = 0,05, la probabilidad de cometer al menos un error de tipo 1 en esas tres
comparaciones nunca será mayor que 3(0,05) = O, 15. De modo que, siendo k el
número de comparaciones, siempre se verifica:
(6.18)
9 Este procedimiento puede encontrarse en otros sitios con el nombre de prueba de Dunn; la razón es
que, a pesar de tratarse de un procedimiento conocido desde hace mucho tiempo, fue Dunn (1961) quien
primeramente lo formalizó y quien presentó las tablas necesarias para su utilización. También puede
encontrarse con el nombre de prueba de Bonferroni. por estar basado en la desigualdad de Bonferroni.
Nosotros hemos decidido reconocer el mérito de ambos y por esta razón lo llamamos procedimiento o
prueba de Dunn-Bonferroni.
Así, si hacemos ac = a/k,
a¡: ~ kac = k(a/k) = a (6.19)
El procedimiento de Dunn-Bonferroni (cuadro 6.2) consiste simplemente en

utilizar para cada comparación individual un nivel de significación 10 ªe= a/';.
Dunn ha desarrollado su procedimiento utilizando la distribución t de Student y el
estadístico T descrito en el apartado 4.2.1, pero su lógica es aplicable a otros
estadísticos 11 • Seguiremos utilizando el subíndice h para referirnos a uno cualquiera
de los k contrastes que se desea efectuar.
CUADRO 6.2
Comparaciones planeadas no ortogonales: prueba de Dunn-Bonferroni.
l. Hipótesis: Ho 1• 1: L.= c••I'• + c•2Jl2 + ··· + c•iJli =O

H((h): 1.. = ('•1Jl1 + C•2l'2 + ... + C•illi i' o
2. Supuestos: los mismos que los del A NOVA de un factor, de efectos fijos, completa-
mente aleatorizado (independencia, normalidad, homoccdasticidad).
(6.20)
4. Distribución muestra!: los puntos críticos de la distribución del estadístico tn 8 se

encuentra en la tabla H del apéndice final.
5. Zona crítica: t 08 ;;;?: 1 _ 212 tk,gt., ...,. siendo :x la tasa de error por familia de compara-
ciones (:X¡:), k el número total de comparaciones que se ha planeado efectuar y
y/error los grados de libertad asociados a la MCE. La tabla H da directamente los
puntos críticos para un contraste bilateral. Si se desea efectuar un contraste
111 Sidák ( 1967) ha propuesto una desigualdad similar a la de Bonfcrroni que ofrece para :Xc valores
ligeramente mayores que :x,./k manteniendo al mismo tiempo :x,. en el valor inicialmente establecido. La
utilización de la desigualdad de Sidák para obtener "-e hace el contraste algo más potente, pero la
ganancia en potencia es tan pequeña que, en la práctica, la desigualdad de Bonferroni, que es más
sencilla de calcular, ha tenido, hasta el momento, mayor aceptación (para más detalles sobre la
aproximación de Sidák puede consultarse Kirk, 1982, págs. 110-111; Holland y Copenhaver, 1988).
1 1 De hecho, el estadístico de Dunn-Bonferroni que vamos a presentar no es más que la raíz
cuadrada del estadístico F. descrito en el apartado 6.3.1 para las comparaciones planeadas ortogonales
(pruebas F planeadas). La diferencia entre ambos procedimientos radica, únicamente, en el control que se
establece sobre la tasa de error.
unilateral, no podemos utilizar la tabla H: pero podemos obtener los puntos

críticos para t ,,8 mediante la aproximación:
(6.21)
6. Decisión: se rechaza H 0 si el estadístico de contraste t ,,8 cae en la zona crítica: en

caso contrario. se mantiene.
7. Intervalo de confianza. El procedimiento de Dunn-Bonferroni puede utilizarse para

establecer intervalos confidenciales simultáneos (/CS) para el conjunto de las k
comparaciones que se desea efectuar. La probabilidad de que esas k comparacio-
nes se encuentren simultáneamente en sus respectivos intervalos es siempre mayor
o igual que 1 - ::r. El intervalo confidencial para una comparación cualquiera Lh
viene dado por:
(6.22)
Si deseamos utilizar el procedimiento de Dunn-Bonferroni para llevar a cabo todas

las posibles comparaciones por pares entre las J medias. los cálculos se limitan a
obtener el valor mínimo (DMS = Diferencia mínima significatival a partir del cual
consideraremos que dos medias difieren significativamente:
(6.231
EJEMPLO 6.3. Recordemos el ejemplo 5.1 en el que 3 grupos aleatorios de ratas

sedientas (6 ratas por grupo) fueron recompensadas con diferentes cantidades de agua
(5, 1O y 15 ce) por recorrer un laberinto. Las medias obtenidas por cada grupo fueron:
Y1 = 8, Y2 = 5 y Y3 = 3, y el valor de la MCE fue 1,067, con 15 grados de libertad. La
hipótesis referida a la igualdad de las tres medias poblacionales fue rechazada. Vamos
a realizar las siguientes dos comparaciones no ortogonales:
L1 = /11 - Jl2
L2 = 111 - /13
para ilustrar el procedimiento de Dunn-Bonferroni (::r = 0,01 ).
l. Hipótesis: H 001 : L 1 = (1)¡1 1 + (- l)J1 2 + (0)¡1 3 =O

H 0121 : L 2 = (1)¡1 1 + (0)¡1 2 + (-1)11 3 =O
Se trata de dos comparaciones no ortogonales, pues: ( 1)(1) + ( - 1)(0) +
+ (- 1)(0) = l.
2. Suponemos que hemos extraído tres muestras aleatorias independientemente
de tres poblaciones normales con varianzas iguales.
L1 = Ic 1 )'i = (1)8 + (-1)5 + (0)3 = 3 L2 = ¿c2 iYi = (1)8 + (0)5 + (-1)3 = 5

3 5
tos,=---;========== 5,03 tos, = ---;========:= = 8,38
1,067 + + 02 )(~ -=-~ 1 067 (~ + 02 + _-_1_2)
6 6 6 ' 6 6 6
4. Distribución muestra(: los puntos críticos para t 08 , y t 08 , se encuentran en la

tabla H del apéndice final.
5. Zona crítica: tos. ~ 0 . 995 t 2 • 15 = 3,29.
6. Decisión: tanto tos, = 5,03 como tos,= 8,38 son mayores que el punto crítico
3,29, por lo que ambos caen dentro de la zona crítica. En consecuencia,
rechazamos tanto H oo> (y concluimos que el primer grupo difiere del segundo)
como Hom (y concluimos que el primer grupo difiere del tercero).
b) Prueba de Dunnett para comparaciones con un grupo control
Dunnett ( 1955) ha propuesto un procedimiento especialmente diseñado para

evaluar las J - 1 comparaciones entre las medias de los grupos experimentales y la
media del grupo control, cuando lo hay. Podemos comenzar formando una tabla
con las diferencias en valor absoluto entre las medias de los grupos experimentales
y la media del grupo control (suponemos que el grupo control es el primero):
~onlrol
El procedimiento de Dunnett consiste en obtener un valor, al que llamaremos

diferencia mínima significativa (DMS) que consideraremos que es la diferencia
mínima a partir de la cual una diferencia 1 f.:ontrol - Y¡.¡ podrá ser considerada significa-
tiva:
MCE (- -1+ -1)

ncontrol n¡
(6.24)
donde t' es un punto de la distribución de Dunnett (tabla 1 del apéndice final) con
probabilidad acumulada p = 1 - ~; y con J (número de medias, incluida la del
grupo control) y glerror (los grados de libertad asociados a la MCE) grados de
libertad.
Si la comparación es unilateral, también es la diferencia 1fcontrol - lj-1, es decir,

la diferencia en valor absoluto, la que se compara con DMSounnen• pero es necesario
fijarse en el signo de esa diferencia para tomar la decisión apropiada.
El procedimiento de Dunnett también puede ser utilizado para establecer
intervalos de confianza simultáneos (ICS) de las J - l diferencias entre los grupos
experimentales y el control mediante:
JCS = 1f.:ontrol - ~·I ± DMSDunnen (6.25)
EJEMPLO 6.4. Consideremos de nuevo los datos del ejemplo 5.1. En ese ejemplo
no existe grupo control, pero podemos suponer, sólo para ejemplificar el procedimien-
to de Dunnett, que el grupo control es el primero. Recordemos que Y1 = 8, Y2 = 5 y
Y3 = 3; n = 6; MCE = 1,067; g/error = 15 y iX = 0,01. Tendremos:
Y1 l1s - 51 = 3 18 - 31 = 5
DMSounnett = o,99l'3, 1 sJl,067(1/6 + 1/6) = 3,25J0,3556 = 1,94

Podemos afirmar que tanto el grupo 2 (3 > 1,94) como el grupo 3 (5 > 1,94)
difieren significativamente del grupo control.
6.4. Comparaciones no planeadas o a posteriori
El propósito de muchos experimentos consiste en determinar si existe o no

efecto de la variable independiente. En estos casos, el investigador no tiene una idea
previa sobre el tipo de comparaciones que interesa efectuar; su interés se centra
precisamente en buscar dónde se encuentran, si es que existen, esas diferencias entre
medias. La forma de proceder en estos casos consiste en efectuar un ANOV A para
contrastar la hipótesis general de que todas las medias son iguales y continuar, si se
rechaza esa hipótesis general, indagando qué medias difieren de qué otras. Esto
último se lleva a cabo mediante los procedimientos de comparaciones no planeadas
o a posteriori (también llamadas post-hoc).
Vamos a presentar dos de los procedimientos para comparaciones a posteriori
más utilizados. Ambos han sido diseñados para que la tasa de error del conjunto de
comparaciones efectuadas no supere el nivel de significación a establecido. Es decir,
se trata de procedimientos en los que la tasa de error por familia de comparaciones
aF se intenta mantener en torno al valor a. En los dos es necesario establecer los
supuestos ya estudiados a propósito del ANOVA (independencia, normalidad y
homocedasticidad).
6.4.1 . La prueba de Tukey

El procedimiento de Tukey (1953) ha sido diseñado para estudiar todas las
posibles comparaciones entre pares de medias (comparaciones dos a dos). Se basa
en la distribución del rango studentizado (derivada, al igual que la t de Student, por
Willian Sealy Gossett). El estadístico del rango studentizado es:
Ymax - Ymin
q =-===- (6.26)
r jMCE/n
donde Ymáx e Ymin representan la media más grande y la más pequeña de un
conjunto de J medias y r = J representa el rango (número de pasos= número de
medias) existente entre ambas medias. La distribución de q, depende únicamente del
número de medias (r = J) y de los grados de libertad del error; los puntos críticos
para 1 - IX= 0,95 y 1 - IX = 0,99 se encuentran en la tabla J del apéndice final. La
única diferencia entre la distribución t de Student y la distribución del rango
studentizado radica en que esta última tiene en cuenta el número de medias (J)
involucradas. Si J = 2, utilizar el estadístico q, y su distribución del rango studenti-
zado es equivalente a utilizar la prueba T sobre diferencia de medias (apartado
4.2.1) y su distribución t de Student.
La estrategia propuesta por Tukey para efectuar las J(J - 1)/2 comparaciones
por pares entre J medias se basa en el estadístico q, y consiste en obtener un valor,
al que llamaremos DMS (diferencia mínima significativa), que consideraremos que
es la diferencia mínima que debe existir entre dos medias muestrales (Y¡ e Y¡.) para
decidir que las correspondientes medias poblacionales (µi y µi') son distintas 12 . Se
comienza formando una tabla de diferencia de medias recogiendo la diferencia en
valor absoluto entre cada par de medias:
Y2 Y3 Y1
Y1 IY1 - Y2I IY1 - Y3I IY1 - Y1I

Y2 IY2 - Y3I IY2 - Y1I
Y1-1 IY1-1 - Y1I
Tras esto, se considera significativa toda diferencia en valor absoluto 1Yi - Y¡.[
que sea mayor que:
(6.27)
12 Lo que estarnos llamando diferencia mínima significativa de Tukey {DMSTukey) es la diferencia

honestamente significativa de Tukey (honestly significant dijference: HSD). Conviene no confundir esta
diferencia con la diferencia completamente significativa de Tukey (wholly significant difference: WSD ),
que aparece en el SPSS y en otros sitios como Tukey-b y que se obtiene promediando el valor de la
DMSTukey y el valor de la DMSs-N-K para medias separadas r pasos (la DMSs-N-K se describe en el
apéndice 6, en el apartado sobre métodos secuenciales).
donde q es el cuantil 1 - IX de la distribución del rango studentizado con J (número

de medias o niveles del factor) y glerror (los grados de libertad asociados a la media
cuadrática error) grados de libertad. Los puntos críticos de la tabla J se refieren
siempre a contrastes bilaterales.
Si los tamaños muestrales son distintos, el propio Tukey (1953) y Kramer (1956)
sugieren utilizar:
(6.28)
Pueden construirse intervalos de confianza simultáneos (/CS) para el conjunto

de las J(J - 1)/2 comparaciones por pares (manteniendo IXF = IX) mediante:
(6.29)
Considerar significativa la diferencia entre las medias Ymax e Ymín mediante

DMSTukey equivale a rechazar la hipótesis general del ANOVA mediante el estadí-
stico F. Sin embargo, la prueba de Tukey no deber ser considerada en ningún caso
un sustituto del estadístico F (a pesar de que ambos procedimientos llevarán
generalmente a la misma conclusión), pues el estadístico F es sensiblemente más
potente que la prueba de Tukey para contrastar la hipótesis de igualdad entre J
medias poblacionales.
6.4.2. La prueba de Scheffé
La prueba de Scheffé (1953) permite estudiar no sólo las posibles comparaciones

dos a dos entre J medias sino, también, cualquier tipo de comparació.n que se nos
ocurra plantear (de las tratadas en el apartado 6.1.1). La tasa de error por familia de
comparaciones (1XF) se mantiene en IX para el infinito número de posibles compara-
ciones entre J > 2 medias. El procedimiento de Scheffé se basa en la distribución F
y, por tanto, exige, al igual que el estadístico F, normalidad y homocedasticidad en
las poblaciones de origen. Podemos resumir el procedimiento en los siguientes
pasos:
l. Se formulan las hipótesis: H 0 : L = 'E.ciµi =O; H 1 : L = 'E.ciµi =f. O.

2. Se estima L: L = 'E.ciYi.
3. Se calcula la diferencia mínima significativa:
(6.30)
4. Se rechaza H 0 si el valor absoluto de Les mayor que el de DMSscheffé·

© Ediciones Pirilmide
El procedimiento de Scheffé puede utilizarse para obtener intervalos de con-

fianza simultáneos entre todas las posibles comparaciones entre medias sin que la
tasa de error para el conjunto de comparaciones sea mayor que el nivel de
significación adoptado:
/CSscheffé = L± DMSscheffé (6.31)
EJEMPLO 6.5. Recordemos una vez más el ejemplo 5.1. Tres grupos de 6 ratas
recibían diferentes cantidades de recompensa (en ce de agua) por recorrer un laberinto.
Las medias obtenidas por cada grupo fueron: Y1 = 8, Y2 = 5 y Y3 = 3; y el valor de la
MCE, 1,067.
La hipótesis general del ANOVA referida a la igualdad de las tres medias
poblacionales fue rechazada. Vamos a curiosear ahora en los datos para averiguar
entre qué medias existen realmente diferencias. Comencemos formando la tabla de
diferencias entre medias (diferencias entre cada par de medias):
Y1 18 - 51 = 3 18 - 31 = 5
Y2 15 - 31=2
En primer lugar, utilicemos el procedimiento de Tukey para averiguar entre qué

pares de medias existen diferencias:
DMSTukey = o.99q3,ISJ1,067/6 = (4,84)(0,4217) = 2,04
Esto significa que, según la prueba de Tukey, sólo son significativas las diferencias
entre medias que superan el valor 2,04. Podemos afirmar, por tanto, que las diferencias
se dan entre el grupo 1 y el 2, y entre el 1 y el 3, pero no entre los grupos 2 y 3.
Recordando el enunciado del problema podemos concluir lo siguiente: las ratas
recompensadas con 5 ce de agua (grupo 1) necesitan, para aprender a recorrer el
laberinto, un promedio de ensayos significativamente más alto que las ratas recompen-
sadas con 10 o 15 ce (grupos 2 y 3). Sin embargo, no se aprecia diferencia significativa
entre recompensar con 10 ce (grupo 2) y hacerlo con 15 ce (grupo 3).
Vamos a utilizar ahora el procedimiento de Scheffé para estudiar esas mismas tres
comparaciones por pares:
DMSscheffé = -J
A. 99 F 2 . 15 1,067 (126 +--12)
6- = j(2)6,36J0,3557 = 2,13
El valor obtenido con el procedimiento de Scheffé es ligeramente mayor que el

obtenido con el de Tukey, lo cual nos está indicando que, para efectuar comparciones
por pares, el procedimiento de Scheffé es más conservador que el de Tukey. No
obstante, la conclusión a la que se llega en este ejemplo concreto es exactamente la
misma.
El procedimiento de Scheffé también puede utilizarse para evaluar cualquier otro

tipo de comparación, por ejemplo, µ 1 - (µ 2 + µ 3 )/2. Veamos:
l. Hipótesis: H 0: L = (2)µ 1 + (-1)µ 2 + (-1)µ 3 =O

H 1: L = (2)µ 1 + (-1)µ 2 + (-1)µ 3 #-O
2. L= (2)Y1 + (- l)Y2 + (- l)Y3 = (2)8 + (-1)5 + (-1)3 = 8.

3. Diferencia mínima significativa:
DMSscheITé = j(2)0,99F2.1s Jl,067 (22

6 + -- 6-12 + -- 612)
- = j(2)6,36Jf.067" = 3,68
4. Como ¡L¡ = 8 es mayor que DMS = 3,68, rechazamos H 0 y concluimos que el

grupo 1 difiere de los grupos 2 y 3 tomados juntos.
6.5. Qué procedimiento elegir
De los numerosos procedimientos disponibles para efectuar comparaciones

múltiples (ver, por ejemplo, Toothaker, 1991), nosotros sólo hemos presentado unos
pocos en este capítulo. Nuestra selección, por tanto, ya está hecha. Entre los
procedimientos descritos, la elección resulta sencilla si se tiene en cuenta que cada
uno de ellos ha sido diseñado para abordar una situación diferente.
Si antes de la recogida de datos hemos planificado efectuar unas pocas compara-
ciones, lo apropiado es utilizar las pruebas F planeadas si esas comparaciones son
ortogonales, o la prueba de Dunn-Bonferroni si esas comparaciones no son ortogo-
nales. Hay que tener en cuenta que las pruebas F planeadas no ejercen control sobre
la tasa de error por familia de comparaciones (1XF), de modo que debe procurarse
trabajar con niveles de significación más bien pequeños (por ejemplo, IX = 0,01 en
lugar de IX = 0,05). Si las únicas comparaciones que nos interesa efectuar son las de
cada grupo experimental con el control, el único procedimiento disponible es el de
Dunnett. Las comparaciones de tendencia, por último, son apropiadas en aquellas
situaciones en las que nuestro interés se centra en conocer el tipo de relación
existente entre la variable independiente y la dependiente.
Si antes de la recogida de datos no hemos planificado efectuar ninguna compa-
ración concreta sino que nuestro interés apunta más bien a estudiar todas las
posibles comparaciones entre medias para detectar dónde se encuentran las diferen-
cias, entonces el procedimiento apropiado es el de Tukey si estamos interesados en
efectuar comparaciones por pares 13 , o el de Scheffé si estamos interesados en
13 Con pocos grupos (J = 3), la prueba de Student-Newman-Keuls para comparaciones por pares
(ver apéndice 6) es más potente que la de Tukey; pero con más grupos (J > 3) su control sobre la
tasa de error por familia de comparaciones (ixy) no es tan preciso como lo es en la prueba de Tukey
(Keselman, Keselman y Games, 1991; Seaman, Levin y Serlin, 1991).
efectuar comparaciones de cualquier otro tipo. Aunque el procedimiento de Scheffé

puede utilizarse, sustituyendo al de Tukey, para estudiar las posibles diferencias
entre pares de medias, limitarlo a sólo ese tipo de comparaciones lo convierte en
excesivamente conservador, siendo además menos potente que el procedimiento de
Tukey para ese tipo de comparaciones.
AP~NDICE 6
Comparaciones a priori: procedimientos alternativos

Los procedimientos descritos en este capítulo para efectuar comparaciones múltiples
requieren del cumplimiento de los mismos supuestos ya estudiados a propósito del estadísti-
co F del ANOVA. En ocasiones, esto puede representar un inconveniente, particularmente
cuando estamos trabajando con poblaciones cuyas varianzas no son homogéneas.
Por lo que se refiere a las pruebas F planeadas, si los tamaños muestrales son distintos o
es distinto el valor absoluto de los coeficientes del contraste (por ejemplo 1, 1, 2), el
incumplimiento del supuesto de homocedasticidad puede afectar de forma notable a nuestras
conclusiones. Si no podemos suponer que las varianzas poblacionales son iguales, no
podremos utilizar la MCE como estimador de la única varianza poblacional, pues no habrá
una única varianza poblacional, sino varias. Sin embargo, podremos (al igual que hicimos
con la prueba T sobre diferencia de medias: apartado 4.2.2) utilizar la varianza insesgada de
cada grupo para estimar sus correspondientes varianzas poblacionales:
(6.32)
y utilizar la corrección de Welch (1947) para ajustar los grados de libertad del error:
c2)2
( ¿sj_!__
. n-
i' - J J (6.33)
g - (c~S2)2
L.2-
j ni(ni -
1
--
1
1)
Esta solución proporciona una buena protección contra los errores de tipo 1 cuando las
varianzas poblacionales son distintas y los tamaños muestrales o el valor absoluto de los
coeficientes son también distintos (Kohr y Games, 1977).
Exactamente el mismo razonamiento sirve para la prueba de Dunn-Boriferroni, pues
ri8 = F. De modo que la raíz cuadrada de la ecuación (6.32) puede sustituir al estadístico de
Dunn-Bonferroni cuando no podemos suponer que las varianzas poblacionales son iguales
(con los grados de libertad corregidos mediante [6.33]) 14 . Y, por supuesto, el mismo
14 Holm (1979), Rosenthal y Rubin (1984), y ShatTer (1986), entre otros, han propuesto algunas
modificaciones al procedimiento de Dunn-Bonferroni que, en general, permiten incrementar en ciena
medida su potencia (ver Holland y Copenhaver, 1988).
razonamiento sirve también para las comparaciones de tendencia, las cuales no son más que
una forma particular de F planeadas.
Algunos investigadores se sienten inclinados a desconfiar de las pruebas F planeadas a la
hora de llevar a cabo comparaciones ortogonales; la razón de esta desconfianza radica en la
falta de control de estas pruebas sobre la tasa de error por familia de comparaciones
(recordemos que las pruebas F planeadas evalúan cada comparación con un nivel de
significación cx, sin tener en cuenta el número de comparaciones que se están llevando a
cabo). Para resolver este problema, Bechhofer y Dunnett (1982) proponen utilizar el
estadístico:
leechholer·Dunnett = -----;====:::::
c2
(6.34)
MCEl,~
j ni
y referirlo a la distribución del módulo máximo studentizado (tabla K del apéndice final), con
k = número de comparaciones ortogonales que se desea efectuar y glerror = grados de libertad
asociados a la MCE. Con tamaños muestrales desiguales este procedimiento es algo
conservador, pero es más potente que las pruebas F planeadas y que el procedimiento de
Dunn-Bonferroni.
Comparaciones a posteriori: procedimientos alternativos
Tamaños muestrales distintos
Si podemos suponer homocedasticidad y el diseño es equilibrado, la prueba de Tukey

sigue siendo, a pesar de su antigüedad, uno de los mejores procedimientos para efectuar
comparaciones a posteriori por pares. Con tamaños muestrales distintos, la corrección de
Tukey-Kramer (ver apartado 6.4.1) permite a la prueba de Tukey mantener un comporta-
miento muy aceptable (Dunnett, 1980a; Stoline, 1981; Felzenbaum, Hart y Hochberg, 1983),
aunque algo conservador (Hayter, 1984).
Hochberg (1974) ha propuesto el procedimiento GT2 como alternativa al de Tukey-
Kramer para el caso de varianzas poblacionales iguales y tamaños muestrales distintos, pero
la solución de Hochberg es algo más conservadora que la de Tukey-Kramer y, por tanto,
menos recomendable (ver Dunnett, 1980a):
DM Son-Hochberg = 1- allÍ. 4 r (6.35)
donde q' se refiere al cuantil 100(1 - cx) de la distribución del módulo máximo studentizado
(tabla K del apéndice final) con k = J(J - 1)/2 y g/' grados de libertad (g/' = ecuación
[6.33]; esta ecuación referida a sólo dos medias equivale a la ecuación [4.14] del aparta-
do 4.2.2).
Varianzas poblacionales distintas
Si se incumple el supuesto de homocedasticidad, disponemos de varios procedimientos

alternativos. Abundante evidencia empírica (Keselman y Rogan, 1978; Keselman, Games y
Rogan, 1979; Tamhane, 1979; Dunnett, 1980b; Games, Keselman y Rogan, 1981) coincide
en apoyar, particularmente cuando los tamaños muestrales son grandes, la solución propuesta
por Games y Howell 1 5 ( 1976):
Sl/n1 + S} /ni"
DM SGames-Howell = 1-.ql,gl' (6.36)
2
siendo q, al igual que en el procedimiento de Tukey, el cuantil 100(1 - IX) de la distribución

del rango studentizado (tabla J del apéndice final) con J y g/' ( = ecuación [6.33]) grados
de libertad.
Con tamaños muestrales pequeños es preferible utilizar la DMS basada en el estadístico
T3 propuesto por Dunnett 16 ( 1980b):
DM STJ-Dunnett = 1- clÚ.nr (6.37)
siendo q' el cuantil 100(1 - IX) de la distribución del módulo máximo studentizado (tabla K
del apéndice final) con k = J(J - 1)/2 y g/' grados de liberad (gl' =ecuación [6.33]).
Parecida lógica puede seguirse para obtener un procedimiento alternativo al de Scheffé
cuando las varianzas poblacionales son distintas. Brown y Forsythe ( l 974b) sugieren utili-
zar como diferencia mínima significativa:
DMSarnwn-Forsythe = j(J - 01-.FJ-l,gl'j'I?!f (6.38)
donde F es el cuantil 100(1 - IX) de la distribución F con J - 1 y g/' grados de libertad

(gl' se obtiene a partir de la ecuación [6.33]).
En el caso de que, además de incumplirse el supuesto de homocedasticidad, las pobla-
ciones originales se alejen sensiblemente de la normalidad, Keselman, Lix y Kowalchuk
(1998) proponen utilizar métodos basados en las medias recortadas (ver Wilcox, 1997).
15 Dunnett (1980b) ha propuesto una solución similar a la de Games-Howell: el método C. Este

método consiste en utilizar como estimación de los grados de libertad del error (g/') la aproximación
de Cochran y Cox (ver capítulo 4, apartado 4.2.2, ecuación [4.13]), en lugar de la aproximación de
Welch (que es lo que hace el método de Games-Howell).
16 El estadístico T3 de Dunnett se basa en el T2 de Tamhane (1977, 1979). El estadístico T2 utiliza
como estimación del error típico de la diferencia de medias el mismo valor que el estadístico T3 de
Dunnett, pero se basa en la distribución t de Student y utiliza la desigualdad de Sidák para ejercer
control sobre :xF:
DMST2-Tamhanc = (1-11./2) 1/klk.gl'
El valor t se refiere al cuantil 100(1- :x/2) 11' de la distribución t de Student con k = J(J - 1)/2 y g/'
(= ecuación [6.33]) grados de libertad.
Diseños de medidas repetidas
En los diseños de medidas repetidas sigue siendo válido todo lo señalado ya sobre la
prueba de Tukey, pero sólo si no se incumple el supuesto de circularidad o esfericidad (ver
apéndice 5). Cuando se incumple ese supuesto, es preferible (Maxwell, 1980; Keselman,
Keselman y Shaffer, 1991) estudiar las comparaciones por pares utilizando el estadístico T
para dos medias relacionadas (ecuación [4.18] del apartado 4.3) ajustando la tasa de error
por comparación mediante el procedimiento de Dunn-Boníerroni (es decir, dividiendo el valor
de ª" -generalmente 0,05- entre el número de comparaciones llevadas a cabo; lo cual
equivale a utilizar la tabla de Dunn-Bonferroni en lugar de la tabla t). Puede obtenerse un
ligero incremento en la potencia (Hochberg y Tamhane, 1987, pág. 215) si el valor del
estadístico T para dos medias relacionadas se compara con el cuantil 100(1 - a) de la dis-
tribución del módulo máximo studentizado (tabla K del apéndice final) con k = J(J - 1)/2 y
n - l grados de libertad.
El procedimiento de Dunn-Bonferroni también puede utilizarse para efectuar contrastes
a priori en los diseños de medidas repetidas (ver Kirk, 1982, págs. 264-265, para una apli-
cación concreta tanto del procedimiento de Tukey como del de Dunn-Bonferroni).
Comparaciones a posteriori: métodos secuenciales
No todos los procedimientos diseñados para llevar a cabo comparaciones a posteriori

por pares se basan en la misma lógica. Mientras la prueba de Tukey y el resto de proce-
dimientos estudiados en el apartado anterior utilizan un mismo nivel de significación y un
único punto crítico (una única DMS) para las J(J - 1)/2 posibles comparaciones por pares,
los procedimientos que vamos a describir en este apartado poseen como característica dis-
tintiva la de proceder por pasos o de forma secuencial.
En los métodos secuenciales, tras ordenar de forma ascendente las J medias por su
tamaño, se efectúan todas las comparaciones posibles entre pares de medias teniendo en
cuenta el número de pasos (r) que separan a las medias comparadas: con J medias, la media
más pequeña y la más grande están separadas r = J pasos; la media más pequeña y la
segunda más grande están separadas r = J - 1 pasos; la media más pequeña y Ja tercera
más grande están separadas r = J - 2 pasos; etc. Dos medias adyacentes tras la ordenación
están separadas r = 2 pasos. El número de pasos existente entre las medias comparadas
condiciona el nivel de significación (y, por tanto, el punto crítico) con el que va a ser eva-
luada cada comparación.
En este apartado vamos a estudiar dos métodos secuenciales 17 de comparaciones múlti-
ples: la prueba de Student-Newman-Keuls y la de Ryan-Einot-Gabriel-Welsch.
17 Por supuesto, existen otros métodos secuenciales además de los dos incluidos aquí. Duncan (1955),
por ejemplo, ha propuesto un procedimiento secuencial conocido como prueba del rango múltiple. Esta
prueba se basa en la misma lógica que la de Student-Newman-Keu/s, pero utiliza como nivel de sign!-
ficación para cada grupo de medias separadas r pasos el valor :x, = 1 - (1 - :x)'- 1 . A pesar de su ampha
utilización en el pasado, la prueba del rango múltiple parece más bien poco recomendable (ver Seaman,
Levin y Serlin, 1991 ).
Prueba de Student-Newman-Keuls (S-N-K)
Esta forma concreta de abordar el problema de las comparaciones múltiples, propuesta

inicialmente por Student (1927), Newman (1939) y Keuls (1952), y muy revitalizada en las
últimas décadas (ver Jaccard, Becker y Wood, 1984; Toothaker, 1991), utiliza, al igual que
la prueba de Tukey, un estadístico basado en la distribución del rango estudentizado. Pero,
a diferencia de la de Tukey, la prueba de S-N-K se ajusta a un plan de actuación secuencial
basado en una ordenación de las medias por su tamaño.
La diferencia mínima significativa de S-N-K (DMSs-N-K• ecuación 6.39) se calcula de la
misma manera que la diferencia mínima significativa de Tukey (DMSTukey• ecuación 6.27),
con la única diferencia de que los grados de libertad utilizados para obtener el cuantil
100(1 - a) de la distribución del rango estudentizado cambian: donde el procedimiento de
Tukey utiliza J para obtener un único punto crítico q y, en consecuencia, un solo valor para
la DMSTukey• el procedimiento de S-N-K utiliza r =número de pasos entre las medias com-
paradas para obtener tantos puntos críticos como valores r pueda haber con J medias:
DMSs-N-K = 1-Ar.gle"º'~ (6.39)
Con, por ejemplo, cuatro grupos (J = 4), la media más grande y la más pequeña están
separadas 4 pasos; para comparar esas dos medias, el valor de la DMSs-N-K se obtiene
utilizando r = 4 grados de libertad. Las medias 1.ª-3.ª y 2.ª-4.ª, que se encuentran separadas
3 pasos, se comparan utilizando r = 3. Y las medias 1.ª-2.ª, 2.ª-3.ª y 3.ª-4.ª, que están sepa-
radas 2 pasos, se comparan utilizando r = 2.
En todos los casos se contrasta la hipótesis nula de que las dos medias comparadas son
iguales, es decir, H 0 : µj = µr. Estas comparaciones se llevan a cabo de forma secuencial, por
pasos:
l. Se compara la media más grande con la más pequeña, es decir, las dos medias
separadas r = J pasos. Si se mantiene la hipótesis nula referida a esta primera com-
paración, se detiene el proceso y se concluye que entre las J medias consideradas
no existe ninguna diferencia significativa. Si se rechaza la hipótesis nula, se continua
con el paso 2.
2. Se comparan las medias separadas r = J - 1 pasos, pero por orden. Primero se
comparan las dos medias cuya diferencia es mayor; si se mantiene la hipótesis nula
referida a esa comparación, se detiene el proceso y se consideran no significativas el
resto de diferencias; si se rechaza la hipótesis nula, se comparan las dos medias cuya
diferencia es la siguiente más grande. Si se rechazan todas las hipótesis referidas a
las medias separadas r = J - 1 pasos, se continua con el paso 3.
3. Se comparan las medias separadas r = J - 2 pasos, también por orden y siguiendo
la misma lógica del paso 2.
4. Se continua el proceso hasta que se obtiene una diferencia no significativa o hasta
que han sido comparadas todas las medias separadas r = 2 pasos.
La consecuencia de esta forma de proceder es que, para J > 3, la tasa de error por
familia de comparaciones (aF) es siempre mayor que el nivel de significación nominal a (ver,
por ejemplo, Keselman, Keselman y Games, 1991). De hecho, lo que hace el procedimiento
de S-N-K es controlar aF para cada conjunto de medias separadas r pasos.
Cuantos menos pasos existen entre dos medias, menor es la diferencia mínima necesaria
para considerar que esas medias difieren significativamente. Esto convierte al procedimiento
de S-N-K en más potente que el de Tukey, pero a costa de incrementar la tasa de error
por familia de comparaciones (1XF).
Prueba de Ryan-Einot-Gabriel-Welsch (R-E-G-W Q)
Ryan (1960) ha propuesto una modificación del procedimiento de S-N-K para atenuar
la disminución tan rápida que se produce en el valor de la DMSs-N-K como consecuencia
de la disminución de r. De acuerdo con la propuesta de Ryan, es posible controlar IXF si, al
comparar dos medias separadas r pasos, en lugar de utilizar IX (como hace el procedimiento
de S-N-K), se utiliza ix, = 1X/(.T/r). Puesto que la fracción J/r aumenta conforme disminuye
r, el valor de IX, será tanto más pequeño cuanto menor sea r, lo que significa que, aunque
el valor de la diferencia mínima significativa vaya disminuyendo con r, esta disminución será
menos pronunciada que la que se produce con el método de S-N-K. De hecho, la solución
propuesta por Ryan permite ejercer un buen control sobre IXF.
La propuesta inicial de Ryan ha sufrido dos modificaciones en un intento de incrementar
la potencia del procedimiento sin alterar su control sobre IXF. En primer lugar, Einot y
Gabriel (1975) han propuesto utilizar ix, = 1 - (1 - r:x.)'11 ; con esta solución, ix, también dis-
minuye conforme lo hace r, pero más despacio que en la solución propuesta por Ryan. En
segundo lugar, Welsch (1977) ha argumentado que es posible incrementar todavía más la
potencia del procedimiento sin perder control sobre IXF si, permaneciendo todo igual, las
medias separadas r = J - 1 pasos se comparan utilizando IX (en lugar de ix,). Estas dos
modificaciones de la propuesta inicial de Ryan unidas a la lógica del procedimiento de
S-N-K es lo que se conoce como método R-E-G-W Q. La letra Q hace referencia a la
distribución del rango estudentizado.
EJERCICIOS
6.1. Diversas investigaciones han mostrado que el rendimiento está relacionado con la
percepción de la dificultad de una tarea de la siguiente manera: cuando se percibe que la
tarea es fácil, el rendimiento es bajo; cuando se percibe que la tarea es de dificultad media, el
rendimiento es alto; cuando se percibe que la tarea es dificil, el rendimiento es bajo. Para
comprobar este tipo de relación, un investigador seleccionó 1.000 sujetos, los cuales fueron
clasificados en 1res grupos dependiendo de la dificultad con la que percibían una tarea
(medida mediante una escala de 1 al 9: fácil, 1-3; media, 4-6; y dificil, 7-9). Tras esto,
seleccionó de cada uno de los tres grupos establecidos una muestra aleatoria de 9 sujetos.
Pidió a todos los sujetos que resolvieran un mismo problema y, una vez finalizado éste,
evaluó el rendimiento de cada uno según una escala de 1 a 10. Los resultados aparecen en la
tabla 6.4.
TABLA 6.4
Fácil 5 6 5 4 3 6 2 1 4
Media 6 1 1 8 8 9 1 6 5
Dificil 3 2 5 4 3 4 2 1 3
a) ¿Qué tipo de análisis podemos llevar a cabo para estudiar, con estos datos, la relación
entre la percepción que se tiene de la dificultad de la tarea y el rendimiento en la
misma?
b) ¿A qué conclusión llegaremos, con oc = 0,05? (Es decir, ¿se da el tipo de relación
encontrado en otras investigaciones?)
6.2. Supongamos que nuestro interés al diseñar el estudio del ejercicio 6.1 estuviera cen-
trado en. averiguar si el grupo 2 (dificultad media) difiere de los otros dos tomados juntos,
por un lado, y si el grupo 1 (fácil) difiere del 2 (dificultad media).
a) ¿Qué procedimiento podríamos utilizar?

b) ¿A qué conclusión llegaríamos?
6.3. Al analizar los datos de un diseño con tres grupos se plantean las siguientes hipótesis:
l. Hoo•:L1=µ1+µ2-2µ3=0
2. Ho<úL 2 =µ 1 -µ 3 =0
¿Son independientes L 1 y L 2 ? ¿Por qué?
6.4. (Señale la alternativa correcta) En un ANOVA de un factor con J grupos independien-

tes, siendo verdadera la hipótesis H 0 : µ 1 = µ 2 = · · · = µJ> y siendo oc el nivel de significación,
la probabilidad de que una o más hipótesis nulas referidas a k comparaciones independientes
entre pares de medias sean ...
a) ... rechazadas, vale oc.

b) ... mantenidas, vale (k - !)oc.
e) ... rechazadas, vale ( 1 - oc)k- 1.
d) ... mantenidas, vale ( l - o:).
e) ... rechazadas, vale 1 - (1 - oct
6.5. Al efectuar comparaciones múltiples con las medias de 4 grupos hemos utilizado el
procedimiento de Scheffé para comparar la media del grupo 4 con las medias de los grupos 1,
2 y 3 tomados juntos. ¿Qué hipótesis nula debemos plantear?
a) H 0 : L = (1)µ 1 + (1)µ 2 + (1)µ 3 + (-1)µ 4 =O.

b) H 0 : L = (-1)µ 1 + (-1)µ2 + (1)µ3 + (1)µ4 =O.
e) H 0 : L = (1)µ 1 + (-1)µ 2 + (-1)µ 3 + (1)µ4 =O.
d) H 0 : L = (1)µ 1 + (1)µ 2 + (1)µ 3 + (-3)µ4 =O.
e) Ninguna hipótesis es correcta.
6.6. Queremos utilizar la prueba de Scheffé para contrastar la hipótesis de que los
promedios de dos tratamientos combinados (A 1 y A2) no difieren del promedio de otros
cuatro combinados (A 3, A4, A 5 y A 6 ). Señale qué coeficientes podrían ser utilizados en esa
comparación lineal:
A1 Ai AJ A4 As A6
a) -1 -1 1 1
b) 1 1 -1 -1 -1 -1
e) 2 2 -2 -2 -2 -2
d) 4 4 -2 -2 -2 -2
e) 2 2 -1 -1 -1 -1
6.7. Consideremos un diseño de un factor, completamente aleatorizado, con tres niveles:

a) ¿Cuántas comparaciones ortogonales, como máximo podemos hacer?
b) ¿Cuánto valdrá la suma de cuadrados correspondiente al componente cúbico?
6.8. Sabiendo que en un ANOV A la zona crítica está formada por F > 3,23, complete la
tabla 6.5. y responda a las cuestiones que se plantean:
TABLA 6.5
FV se g/ Me F
In ter 60 2 ( )
Error ( ) 30
Total 360 ( )
a) ¿Podemos afirmar que la relación es lineal? ¿Por qué?

b) ¿Podría ser de otro tipo? ¿Por qué?
6.9. En un diseño de un factor con 3 niveles se realizan comparaciones de tendencia.

Complete la tabla 6.6.
TABLA 6.6
FV se y/ Me F p
In ter 60 ( ) ( ) ( ) 0,01
lineal ( ) ( ) ( ) ( ) 0,005
cuadrático 10 ( ) ( ) ( ) 0,10
cúbico ( ) ( ) ( ) ( )
Error ( ) ( ) ( )
Total 110 12
6.10. De acuerdo con los resultados del ejercicio anterior, y utilizando ix = 0,05:
a) ¿Podemos afirmar que la VI influye sobre la VD? ¿Por qué?

b) La relación entre VI y VD es: ¿lineal?, ¿cuadrática?, ¿cúbica?, ¿ninguna de ellas?
6.11. Recordemos los datos del ejercicio 5.2. ¿Qué podemos decir sobre el tipo de relación
existente entre las variables independiente y dependiente, con un nivel de significación
IX= 0,05?
6.12. En un estudio sobre memoria se han obtenido datos utilizando 3 tareas diferentes: 1)
números, 2) palabras sin sentido y 3) palabras con sentido. Los resultados obtenidos en una
muestra de 10 sujetos aparecen en la tabla 6.7. Al poner a prueba, mediante un ANOVA, la
hipótesis de que el rendimiento en las tres tareas es el mismo hemos obtenido un estadístico
de contraste F = 15,86, lo que nos ha llevado a rechazar la hipótesis nula general del
ANOVA. Ahora queremos saber, utilizando el procedimiento de Tukey y un nivel de
significación ex = 0,05, entre qué pares de medias existen diferencias.
TABLA 6.7
Sujetos
1 2 3 4 5 6 7 8 9 to
Tarea 1 4 2 o 6 5 3 2 4 3 1
Tarea 2 6 3 3 7 8 5 3 2 6 2
Tarea 3 5 4 8 9 7 6 7 9 7 8
6.13. A partir de los datos del ejercicio 5.10 y utilizando el mismo nivel de significación
ex = 0,05, responda a las siguientes cuestiones:
a) ¿Qué tipo de relación existe entre la cantidad de entrenamiento y el tiempo invertido
en recordar la lista?
b) ¿Podemos afirmar que el grupo entrenado con 15 listas aprende más rápido que los
grupos entrenados con 5 y 10 listas tomados juntos?
6.14. Utilizando los datos del ejercicio 5.15 y el mismo nivel de significación (ex = 0,01)
efectúe las comparaciones a posteriori pertinentes para determinar entre qué pares de medias
existen realmente diferencias.
6.15. A partir de los datos del ejercicio 5.16 y considerando como grupo control el sometido
a la dieta A, determine si alguno de los grupos experimentales difiere significativamente del
control (ex = 0,05).
SOLUCIONES
6.1. a) Comparaciones de tendencia (interesa estudiar el componente cuadrático).
b) Fcuadrát = 36,75; 0 •95 F 1 , 24 = 4,26; rechazamos HO(cuadrát)·
La relación encontrada se corresponde con la descubierta en investigaciones
previas.
6.2. a) La prueba de Dunn-Bonferroni.

b) L 1 = 171; tos, = 6,06; 0 , 975 t 2 , 24 = 2,39; rechazamos HO(i¡·
El grupo 2 difiere de los otros dos tomados juntos.
L 2 = 131; tos, = 4,50; 0 , 975 t 2 , 24 = 2,39; rechazamos H0( 21 •
El grupo 1 difiere del grupo 2.
6.3. No. 'f.c 1hi = (1)(1) + (1)(0) + (-2)(-1) = 3 (no suman cero).
6.4. e.
6.5. d.
6.6. d y e.
6.7. a) 2.
b) Cero. Con 3 niveles no existe componente cúbico.
6.8. FV se g/ Me F
In ter 60 2 (30) (3)

Error (300) 30 (10)
Total 360 (32)
a) No. Al mantener la hipótesis general del ANOVA (pues 3 < 3.23) de que las J
medias poblacionales son iguales, lo que podemos decir es que la evidencia empí-
rica disponible no permite afirmar que exista relación lineal (ni de otro tipo).
b) No. Por la misma razón.
6.9. FV se g/ Me F p
In ter 60 (2) (30) (6) 0,01

lineal (50) (1) (50) (10) 0,005
cuadrático 10 (!) (10) (2) 0,10
cúbico (0) (0) (0) (O)
Error (50) (10) (5)
Total 110 12
6.10. a) Sí. Porque F = 6, y: P(F ~ 6) = 0,01 <oc= 0,05.

b) Lineal. Porque Fiineal = 10, y: P(F ~ 10) = 0,005 <oc= 0,05.
6.11. Flineal = 2,57; 0 , 95 F 1 , 24 = 4,26; mantenemos HO(Iineal)·
Fcuadrát = 42; 0 • 95 F 1. 24 = 4,26; rechazamos HO(cuadrá•J·

Podemos afirmar que la relación es de tipo cuadrática.
6.12. DMSTukey = 1,83 (MCE = 2,574).

Las puntuaciones de la tarea 3 difieren de las puntuaciones de las tareas 1 y 2, no
existiendo diferencias entre las puntuaciones de las tareas 1 y 2.
6.13. a) Flineal = 27,55; 0 , 95 F 1 , 24 = 4,26; rechazamos HO(Iinea!)'

Fcuadrát = 0,37; = 4,26; mantenemos HO(cuadrátJ·
0 , 95 F 1, 24
Concluimos que la relación es de tipo lineal. Fijándonos en las medias podemos
afirmar que cuanto mayor es la cantidad de entrenamiento menor es el tiempo
invertido en recordar la lista.
b) L= 181; DMSSchelfé = 4,30: rechazamos H 0 •
Podemos afirmar que el grupo entrenado con 15 listas aprende más rápido que los
grupos entrenados con 5 y 10 listas tomados juntos.
6.14. DMSTukey = 6,075.

El grupo de intensidad baja obtiene puntuaciones significativamente más altas que los
grupos de intensidad media y alta, no existiendo diferencias entre estos dos últimos.
6.15. DMSounnett = 1,52.

Sólo el grupo sometido a la dieta C difiere del grupo control.
Análisis de varianza
de dos factores
7
7 .1. La interacción entre factores.

7.2. ANOVA de dos factores, de efectos fijos, completamente
aleatorizados (AB-EF-CA).
7 .2.1. Estructura de los datos y notación.
7 .2.2. El modelo.
7 .2.3. Los supuestos.
7 .2.4. Los estadísticos de contraste.
7 .2.5. Resumen del modelo de ANOVA AB-EF-CA.
7 .3. Comparaciones múltiples.
7 .3.1. Comparaciones a priori.
7 .3.2. Comparaciones a posteriori.
7 .4. Efectos fijos, aleatorios y mixtos.
7 .5. Medidas del tamaño del efecto.
7.6. ANOVA de dos factores, de efectos fijos, con medidas repeti-
das (AB-EF-MR).
7 .6.1. Medidas repetidas en los dos factores.
7 .6.2. Medidas repetidas en un solo factor.
7.6.3. Comparaciones múltiples.
Ejercicios.
En las técnicas de análisis de datos presentadas en los capítulos 4, 5 y 6 nos
hemos limitado al estudio de una sola variable independiente (con dos o más niveles
definidos por dos o más grupos). En este capítulo vamos a extender las ideas allí
expuestas para analizar datos provenientes de diseños con dos variables indepen-
dientes (diseños factoriales).
Nos vamos a centrar en los modelos de clasificación cruzada que son aquellos en
los que todos los niveles de uno de los factores se combinan con todos los niveles
del otro factor 1 . La tabla 7.1 muestra la estructura básica de un diseño concreto de
dos factores con clasificación cruzada: el factor A, con tres niveles, y el factor B,
también con tres niveles. Las casillas representan cada una de las posibles combina-
ciones AB.
TABLA 7.1
Estructura básica de los datos en un diseño de dos
factores con clasificación cruzada
n11 n12 n13 n1+
ni1 ni2 ni3 ni+
n31 n32 n33 n3+
n+I n+2 n+3 N
Una ventaja de los diseños de dos factores es que, para alcanzar la misma
potencia, se necesitan menos sujetos que en dos diseños de un solo factor. Suponga-
mos que tenemos dos variables independientes o factores (A y B) cada uno de ellos
con tres niveles (tal como se muestra en la tabla 7.1). Para comparar los niveles de
A utilizando un diseño de un factor podemos asignar una muestra aleatoria de 15
sujetos a cada nivel. Necesitaremos 45 sujetos. Para comparar los niveles de B
1 El otro tipo de clasificación útil en la práctica se denomina jerárquica o anidada y no será tratada
aquí (el lector interesado puede consultar San Martín y Pardo, 1989, págs. 287-292).
podemos asignar también una muestra aleatoria de 15 sujetos a cada nivel.

Necesitaremos otros 45 sujetos. En total, 90 sujetos. En un diseño factorial las cosas
cambian. Los niveles de A y de 8 se combinan y esto permite reducir el número de
sujetos a la mitad: con 5 sujetos por casilla tendremos un total de 45 sujetos y tanto
los niveles de A como los de 8 serán evaluados con 15 sujetos cada uno.
Pero la ventaja verdaderamente importante de los modelos de ANOV A de dos
factores radica en el hecho de que el estudio simultáneo de más de una variable
independiente permite determinar, no ya sólo si cada factor por separado afecta a la
variable dependiente, sino, sobre todo, si la interacción entre los factores modifica el
efecto que cada factor tiene por separado. Debemos, pues, comenzar explicando el
importante concepto de interacción entre factores.
7.1. La interacción entre factores
Al estudiar el modelo de ANOV A de un factor completamente aleatorizado

hemos visto que para describir los datos obtenidos utilizando diseños con una
variable independiente el modelo apropiado era:
El efecto atribuible a la variable independiente o factor quedaba recogido en el

término ai. Ahora, con dos factores, necesitamos incluir en el modelo un nuevo
término que recoja el efecto del segundo factor:
(7.1)
El nuevo término, /3k, se define de forma similar a como se define ai y posee sus
mismas propiedades. Ahora bien, en el modelo [7.1] no estamos considerando el
posible efecto atribuible a la combinación de los diferentes niveles de ambos factores.
Un modelo que sí incluye esa combinación, a la que llamaremos interacción, es:
(7.2)
Más tarde definiremos cada término, pero antes necesitamos aclarar el significa-
do del nuevo término (af3)ik· Consideremos un diseño con dos variables indepen-
dientes, A y 8, la primera con dos niveles (A 1 y A 2 ) y la segunda con tres (8 1 , 8 2 y
8 3 ). La tabla 7.2 ofrece promedios poblacionales correspondientes a una situación
en la que no existe interacción entre A y 8.
Cuando decimos que no existe interacción lo que estamos afirmando es que la
diferencia entre los promedios de dos casillas cualesquiera de la misma fila o de la
misma columna es igual a la diferencia entre los promedios marginales correspon-
dientes a esas casillas. Así, por ejemplo, la diferencia entre las casillas A8 11 y A8 12
es la misma que la diferencia entre sus correspondientes promedios marginales 8 1 y
Análisis de varianza de dos factores / 327
TABLA 7.2
Tabla de promedios poblacionales correspondientes
a un diseño de dos factores sin interacción
4 5 9 6
2 3 7 4
3 4 8 5
8 2 : A8 11 - A8 12 = 8 1 - 8 2 = 4- 5 = 3 - 4 = -1. Y lo mismo ocurre con el

resto de las casillas.
Pero entenderemos más fácilmente lo que significa que no existe interacción
entre dos factores si los promedios de la tabla 7.2 son representados gráficamente
tal como se muestra en la figura 7.la. Podemos observar que, cualquiera que sea el
nivel de 8 que consideremos, el comportamiento del factor A siempre es el mismo:
en 8 1 , A 1 supera a A 2 en 2 puntos; en 8 2 , A 1 supera a A 2 en 2 puntos; y en 8 3 , A 1
supera a A 2 en 2 puntos. Cualquiera que sea el nivel de 8 que consideremos, A 1
siempre supera a A 2 en 2 puntos. Exactamente lo mismo que ocurre si considera-
mos todos los niveles de 8: el promedio marginal de A 1 ( = 6) supera en 2 puntos al
promedio marginal de A 2 ( =4). Esta ausencia de interacción queda reflejada en el
hecho de que las líneas que unen los promedios en la figura 7.1 son paralelas entre
cada dos niveles del eje de abscisas.
9
Y, fj,
~
9
~A,A,
I
8 8 A,
7 7
6 6 O A,
5 5
4 o 4
J
1 +
------º J
1
o B o B
B, B, B_, B, B, B_,
Figura 7.1 a:-- Representación grúfica de una si- Figura 7.1 b.-Rcprcsentación gráfica de una si-
tuación con ausencia de interacción. tuación con presencia de interacción.
Consideremos ahora una situación en la que los factores A y 8 interactúan. La

tabla 7.3. muestra un conjunto de promedios que corresponden a una situación en
la que sí existe interacción.
TABLA 7.3
Tabla de promedios poblacionales en un diseño
de dos factores con interacción
3 4 8 5
9 6 6 7
6 5 7 6
Cuando decimos que existe interacción lo que estamos afirmando es que la

diferencia entre los promedios de al menos dos casillas cualesquiera de la misma fila
o de la misma columna no es la misma que la diferencia entre los promedios
marginales correspondientes a esas casillas. Así, por ejemplo, la diferencia entre las
casillas AB 11 y AB 12 es distinta de la diferencia entre los promedios marginales B 1
y B2 : AB 11 - AB 12 =1- B 1 - B 2 = 3 - 4 =1- 6 - 5. Lo mismo ocurre con otras ca-
sillas.
Representando los promedios de la tabla 7.3 según se muestra en la figura 7.1 b,
podemos observar que el comportamiento del factor A va cambiando dependiendo
de cuál sea el nivel de B que seleccionemos: en B 1 , A 2 supera a A 1 en 6 puntos; en
B 2 , A 2 supera a A 1 en 2 puntos; y en B3 , es A 1 quien supera a A 2 en 2 puntos. El
comportamiento de A cambia cuando cambian los niveles de B. La presencia de
interacción queda reflejada en el hecho de que las líneas que unen los promedios en
la figura 7.1 b no son paralelas.
Poniendo contenido a los factores A y B el significado de la interacción entre
factores quedará, creemos, definitivamente aclarado. Supongamos que el factor A es
tipo de orientación motivacional (A 1 = orientación hacia el aprendizaje; A 2 = orien-
tación hacia la ejecución), y que el factor Bes dificultad de la tarea (B 1 = tarea fácil;
B 2 = tarea de dificultad media; B3 = tarea dificil). Supongamos además que al
medir la variable dependiente rendimiento en una muestra aleatoria hemos encon-
trado los promedios que aparecen en la tabla 7.4. Esos promedios están representa-
dos en las figuras 7.2a y 7.2b.
TABLA 7.4
Tabla de promedios en un diseño de dos factores
5 7 3 5
7 3 5 5
6 5 4 5
}\ y,k
9 J 9 J
8 8
7 7
6 6
5 OA 2 5 B3
4 4
3 A, 3 B2
2 2
o B o
B, B2 B3 A, Ai
Figura 7.2a.-Representación gráfica de las me- Figura 7.2b.-Representación gráfica de las me-
dias de la tabla 7.4. Factor Ben el eje de abscisas. dias de la tabla 7.4. Factor A en el eje de abscisas.
Observando los promedios marginales de la tabla 7.4 vemos que los sujetos
orientados hacia el aprendizaje (A 1) rinden exactamente igual que los orientados ha-
cia la ejecución (A 2 ). Pero si nos fijamos en el comportamiento de A bajo los
diferentes niveles de B las cosas cambian. Observando los promedios de las casillas
y su correspondiente representación gráfica (figura 7.2a) vemos que ocurre lo
siguiente: cuando la tarea es fácil (B¡) o dificil (B 3 ), los sujetos orientados hacia el
aprendizaje (A¡) rinden peor que los sujetos orientados hacia la ejecución; pero
cuando la tarea es de dificultad media (B 2 ), los sujetos orientados hacia el aprendi-
zaje rinden mejor que los orientados hacia la ejecución.
La interpretación de la interacción puede hacerse, alternativamente, centrándo-
nos, no en los niveles de A, sino en los de B. Si prescindimos del tipo de orientación
motivacional y nos fijamos en los promedios marginales de B, vemos que el
rendimiento es mejor en las tareas fáciles que en las de dificultad media, y mejor en
éstas que en las dificiles. Sin embargo, observando los promedios de las casillas y la
representación gráfica de los mismos propuesta en la figura 7.2b, vemos que los
sujetos orientados hacia el aprendizaje (A 1 ) rinden mejor en las tareas de dificultad
media que el las fáciles y en las dificiles; mientras que los sujetos orientados hacia la
ejecución (A 2 ) rinden mejor en las tareas fáciles y dificiles que en las de dificultad
media. La presencia de interacción queda reflejada en la siguiente idea: tanto el
rendimiento de los sujetos orientados hacia el aprendizaje como el de los orientados
hacia la ejecución cambia cuando cambia la dificultad de la tarea; pero el cambio que
se produce en el rendimiento de los sujetos orientados hacia el aprendizaje es
distinto del que se produce en los orientados hacia la ejecución.
7.2. ANOVA de dos factores, de efectos fijos,

completamente aleatorizados (ANOVA AB-EF-CA)
El modelo de ANOVA AB-EF-CA nos va apermitir analizar datos obtenidos
mediante un diseño con dos variables independientes (es decir, con dos factores: el
factor A, con J niveles, y el factor B, con K niveles), con los niveles establecidos por
el investigador tanto para el factor A como para el factor B (efectos fijos) y
utilizando J K muestras aleatorias (J K combinaciones de niveles completamente
a/eatorizados). Tenemos una muestra aleatoria total de N sujetos que han sido
aleatoriamente repartidos en J K grupos de tamaño n (el mismo tamaño en todos
los grupos). La tabla 7.5 muestra la disposición de los datos.
La notación utilizada sigue la lógica ya conocida. Y¡ik representa la puntuación
obtenida en la variable dependiente Y por el sujeto i (i = 1, 2, .. ., n) bajo el nivel j del
factor A U= 1, 2, ... , J) y el nivel k del factor B (k = 1, 2, ... , K). Así, por ejemplo, Y213
se refiere a la puntuación obtenida por el 2.º sujeto (i = 2) del grupo sometido a la
combinación de tratamientos formada por el nivel 1 del factor A U= 1) y el nivel 3
del factor B (k = 3).
Ti+ y T +k son los totales de cada nivel de A y de B. respectivamente. Ti+
representa la suma de las puntuaciones de todos los sujetos sometidos al tratamien-
to j del factor A. Del mismo modo, T +k representa la suma de las puntuaciones de
todos los sujetos sometidos al tratamiento k del factor B. Estos totales se obtienen
sumando las puntuaciones de las casillas correspondientes:
Tj+ = LL Y¡jk (7.3)
i k
T +k = LL Y¡jk
i j
A la suma de las n puntuaciones de cada casilla la representaremos por Tik· Son

los totales que hacen referencia a cada una de las J K posibles combinaciones entre
tratamientos:
(7.4)
Las medias de cada tratamiento y de cada combinación entre tratamientos(~+•

Y+k y ~k) se obtienen dividiendo los correspondientes totales por el número de
puntuaciones utilizadas para obtener ese total:
- - Ti+ . - T+k
Y.+ - - - Y+k = - - (7.5)
) nK ' nJ
Por último, la media total (Y} y la suma total (T) son la media y la suma del
conjunto de las N puntuaciones. Siguen representando exactamente lo mismo que
en el resto de los modelos de ANOVA estudiados y, por tanto, se obtienen de
idéntica manera.
TABLA 7.5
Estructura de los datos y notación correspondientes a un diseño de dos factores,
de efectos fijos, completamente aleatorizados (clasificación cruzada j
B, 82 Bk BK Tj+ Y;+
Y111 Y112 Y11k Y11K

Y211 Y212 Y2u Y21K
Al ... ... ... ... T1+ Y1+
i-:11 i-:12 Y;u Y¡lK
... ... ... ...
Y.11 Y.12 Y.u Y.1K
Y121 Y122 Y12k Y12K

Y221 Y222 Y22k Y22K
A1 ... ... ... .. . Ti+ y2+
i-:21 i-:22 Y;2k Y¡2K
... ... ... ...
Y.21 Y.22
... Y.2k Y,,2K
... ...
yljl ylj2 yljk yljK

Y2j1 Y2j2 y2jk y2jK
Aj ... ... ... ... Tj+ Yj+
Y;jl Y;j2 Y;jk Y¡jK
... ... ... ...
Y,,jl Y,,j2 Y,,jk Y,,jK
...
Yu1 Yu2 Y1Jk YIJK

y2Jl y2J2 Y2Jk Y2JK
A¡ ... ... .. . ... T¡+ Y¡+
Y¡¡¡ Y;n Y;Jk Y¡JK
... ... ... ...
Y,,JI Y.n Y,,Jk Y,,JK
T+k T+1 T +2
... T +k ... T+K T
y+k Y+1 Y+2 Y+k Y+K y
7 .2.2. El modelo
El modelo de ANOVA AB-EF-CA describe la puntuación individual de cada

sujeto en la variable dependiente, Y¡ik• recurriendo al efecto de los dos factores
tenidos en cuenta, al efecto de la interacción entre ambos factores y, como siempre,
al efecto del resto de factores no tenidos en cuenta. En concreto, y según hemos

adelantado ya en el apartado 7.1, el modelo que recoge ese conjunto de efectos es:
(7.2)
El término µ es la media total y representa aquella parte de Y¡ik que todos los
sujetos comparten (los efectos que hemos conseguido controlar manteniéndolos
constantes). Los términos rx.i y {Jk representan el efecto de los factores A y B.
respectivamente. Se definen como desviaciones del promedio de cada tratamiento
respecto del promedio total:
rx.j = µj+ - µ (7.6)
{Jk = µ+k - µ (7.7)
por lo que L rx.i = L {Jk = O. El término (rx.{J)ik recoge el efecto de la interacción entre
j k
los factores A y B. Se define como desviaciones de los promedios de las casillas
respecto de sus correspondientes promedios marginales:
(7.8)
por lo que ¿(rx.{J)ik = ¿(rx.{J)ik =O. Por último, el término Eiik se refiere, como
j k
siempre, a los errores aleatorios. Recoge el conjunto de factores no controlados y
que pueden estar afectando a Y¡ik· Son interpretados, siguiendo la misma lógica que
en los modelos de un factor, como la cantidad que la puntuación individual de un
sujeto se desvía del promedio de la casilla a la que pertenece. El valor esperado de
cada Y¡ik es justamente el promedio poblacional de su correspondiente casilla (µik).
En consecuencia:
(7.9)
Al igual que hacíamos en los modelos de un factor, también ahora utilizaremos

las medias muestrales para estimar las medias poblacionales. Es decir, seguiremos
utilizando Y como estimador deµ, Yj ... como estimador de µi+• Y+k como estimador
de µ+k e Yjk como estimador de µik· En consecuencia:
ªj = Y;+ - Y (7.10)
Pk = Y+k - Y (7.11)
A - - - -
(rx.{J)ik = l}k - Yi+ - Y+k +Y (7.12)
Eijk = Y¡jk - Y;k (7.13)
El modelo (7.2) nos va a permitir contrastar varias hipótesis. En concreto, tres:

una referida al efecto del factor A, otra referida al efecto del factor B. y otra más
referida al efecto de la interacción entre los factores A y B. Por supuesto, esas

hipótesis se refieren, según veremos enseguida, a las medias poblacionales del factor
A, del factor B y de la interacción entre A y B.
Estamos en un modelo con dos factores completamente aleatorizados. Los

supuestos son los ya expuestos a propósito del modelo de un factor completamente
aleatorizado: independencia, normalidad y homocedasticidad. Es decir, los Eiik
constituyen una variable aleatoria distribuida normalmente en cada una de las J K
poblaciones, con media cero y varianza la de la población (u 2 en todas y cada una
de las J K poblaciones); además, los Eiik son independientes entre sí e independientes
de rx.i, de /h y de (rx.p)ik·
Y como en cada combinación jk (en cada casilla) rx.i, /3k y (rx.f3)ik son constantes,
Y¡ik es también una variable aleatoria distribuida normal e independientemente con
valor esperado µik y varianza igual a la de los errores (pues la única variación
presente en Y¡ik dentro de cada casilla es justamente la variación error). Tenemos,
pues, J K poblaciones normales con la misma varianza de las cuales extremos J K
muestras aleatorias de tamaño n, cada una independientemente de la otra.
7 .2.4. El estadístico de contraste
Recordemos el modelo (7.2): Y¡ik = µ + rx.i + /3k + (rx./3)ik + Eiik· Utilizando los
estimadores correspondientes obtenemos:
Trasladando a la izquierda el término Y nos queda:
Al igual que ocurría en los modelos ya estudiados, la parte izquierda de la

ecuación (7.15) simboliza la cantidad en la que una puntuación cualquiera Y¡ik se
separa del promedio total Y. Esa cantidad de desviación total es resultado, según
(7.15), de la combinación aditiva de cuatro componentes: 1) lo que la media de cada
nivel del factor A se separa de la media total (Y¡+ - Y: variación entre los
tratamientos o grupos del factor A); 2) lo que la media de cada nivel del factor B se
separa de la media total (Y+k - Y: variación entre los tratamientos o grupos del
factor B); 3) lo que la media de cada casilla (de cada combinación de tratamientos)
se separa de sus correspondientes promedios marginales (Y¡k - Y;+ - Yk+ + Y:
variación debida a la interacción o variación entre las casillas); y, finalmente, 4) lo
que cada puntuación individual Y¡ik se separa del promedio de la casilla a la que
pertenece ( Y¡ik - ljk: variación dentro de los grupos, o variación debida al error).
Así pues, en este modelo, la variación total (1) se descompone en cuatro tipos de
variación: la debida al factor A (A), la debida al factor B (B), la debida a la
combinación o interacción entre los factores A y B (AB), y la variación intragrupos o
error (E).
En lugar de referirnos a una puntuación individual cualquiera (como hemos
hecho en [7.15]) podemos hacerlo al conjunto de las N puntuaciones. Sumando y
elevando al cuadrado obtenemos:
¿¿¿(Y¡jk -
i j k
n 2 = LLL[(lj+ -
i j k
n+ (7.16)
- - - - - - -2
+ (Y+k - Y)+ (Y¡k - Y;+ - Y+k + Y)+ (Y¡ik - Y¡k)]
Desarrollando (7.16) de forma similar a como hicimos en el apartado 5.3.4 con el
modelo de un factor, llegamos a:
LLL(Y¡ik - Y) 2 = nK¿(lj+ - Y) 2 + nJ¿(Y+k - Y) 2 +

i j k j k (7.17)
En (7.17) se está afirmando que la suma de cuadrados total,

SCT = LLL(Y¡ik - Y) 2 , es igual a la suma de cuadrados del factor A,
i j k
SCA = nK ¿(lj+ - Y) 2, más la suma de cuadrados del factor B,
SCB = nJ L (Y+k - Y) 2, más la suma de cuadrados de la interacción entre los fac-

k
tores A y B, SCAB = n¿¿(lj;. - lj+ - Y+k + Y) 2, más la suma de cuadrados

j k
del error, SCE = LLL(Y¡ik - ljk) 2. Es decir: SCT = SCA + SCB + SCAB + SCE.
i j k
Los cálculos necesarios para obtener estas sumas de cuadrados resultan menos
engorrosos haciendo algunas sencillas transformaciones:
~ Tf+ T2
SCA = - }_ _ _ _
nK N
¿
T¡k T2
SCB=-k___ _ (7.18)
nJ N
it Tjk i Tf+ ~ T¡k T2

SCAB= 1 -----+-
1
--
n nK nJ N
LLTJk
SCE = LLL Ylk - ~j_k_
; i k n
Al igual que en el resto de los modelos de ANOV A, la suma de cuadrados total

(SCT) es la suma de N desviaciones al cuadrado alrededor de un punto, la media
total. Como ese punto necesita ser estimado, se pierde un grado de libertad y SCT
queda con N - 1 grados de libertad. De otra forma, dado que SCTestá sujeta a la
restricción LLL(Y¡ik - Y)= O, el número de puntuaciones que podrán variar
i j k
libremente serán todas menos una, es decir, N - 1. La última puntuación deberá
tomar un valor tal que permita verificar la restricción impuesta.
La suma de cuadrados del factor A (SCA) es la suma de J desviaciones al
cuadrado (las J medias ~+) alrededor de la media total. Al estimar la media total
perdemos un grado de libertad y la SCA queda con J - 1 grados de libertad. De
otra forma, dado que SCA está sujeta a la restricción ¿(~+ - Y)= O, habrá J - 1
medias que podrán variar libremente. i
De idéntico modo, la suma de cuadrados del factor B (SCB) es la suma de K
desviaciones al cuadrado (las K medias f+k) alrededor de la media total. Al estimar
la media total perdemos un grado de libertad y la SCB queda con K - 1 grados de
libertad. De otra forma, dado que SCB está sujeta a la restricción ¿(Y+k - Y)= O,
habrá K - 1 medias que podrán variar libremente. k
La suma de cuadrados de la interacción (SCAB) es la suma de J K desviaciones
al cuadrado (las JK medias ~k) alrededor de las J medias ~+• de las K medias
Y+k y de la media total Y. Necesitamos estimar, por un lado, la media total µ; por
otro, J - 1 medias µi+ (pues habiendo estimado µ no es necesario estimar las J
medias µi+); por último, K - 1 medias µ+k (tampoco necesitamos estimar las K me-
dias µ+k pues ya hemos estimado µ). Perderemos, por tanto, 1 + (J - 1) + (K - 1)
grados de libertad. En consecuencia, la SCAB tendrá asociados JK - (J - 1) -
- (K - 1) - 1 = (J - l)(K - 1) grados de libertad.
Por último, la suma de cuadrados error (SCE) es la suma de N desviaciones al
cuadrado alrededor de J K puntos (las J K medias ~k). Al estimar esas medias
perderemos J K grados de libertad y la SCE quedará con N - J K grados de
libertad. De otro modo, dado que SCE está sujeta a la restricción L(Y¡ik - ~k) =O,
i
habrá n - 1 puntuaciones que podrán variar libremente dentro de cada casilla. En

total, JK(n - 1) = N - JK.
Recordemos que una media cuadrática (MC) es un estimador de la varianza

poblacional que se obtiene dividiendo una suma de cuadrados por sus correspon-
dientes grados de libertad:
MCA = SCA/(J - 1)
MCB = SCB/(K - 1)
(7.19)
MCAB = SCAB/[(J - lXK - 1)]
MCE = SCE/(N - JK)
MCA y MCB son estimadores de la varianza poblacional obtenidos a partir de

las J medias correspondientes a los niveles del factor A y de las K medias
correspondientes a los niveles del factor B, respectivamente. MCAB es un estimador
de la varianza poblacional obtenido a partir de las J K medias correspondientes a
las J K combinaciones entre tratamientos o niveles (es decir, a las J K casillas).
Y MCE es un estimador de la varianza poblacional obtenido a partir del promedio de
las J K varianzas SJk muestrales correspondientes a las J K combinaciones entre
tratamientos (casillas).
Necesitamos conocer sus valores esperados para saber de qué clase de estimado-
res se trata.
e) Estadístico de contraste F
Los valores esperados de cada una de las medias cuadráticas que acabamos de
definir en el apartado anterior son los siguientes 2 :
E(MCA) = E [
nK~(f;+ - Y) 2 ] nK~11.J
1 = u2 + 1
J-1 J-1
E(MCB) =E [
nJ¿(Y+k - Y) 2
k
J= u2 +
nJ¿pf
k
K-1 K-1 (7.20)
2 El lector interesado en conocer con detalle cómo se obtienen estos valores esperados puede
consultar San Martín y Pardo (1989, págs. 276-277).
E(MCAB) =E [
n L L (Yjk - Yj +
i k
- YH + Y) 2 J= n L L (ocp)fk
u2 +--1_·_k_ __
(J - l)(K - 1) (J - l)(K - 1)
Podemos comprobar que el único estimador insesgado de la varianza poblacio-

nal u 2 es MCE (pues es la única media cuadrática cuyo valor esperado coincide con
la varianza poblacional u 2 ). Sin embargo, fijándonos detenidamente en los valores
esperados de MCA, MCB y MCAB, veremos que ocurren cosas parecidas a las que
ya vimos que ocurrían en el modelo de ANOV A de un factor. Si el efecto del factor
A es nulo, es decir si todos los oci valen cero (lo cual ocurre si la hipótesis nula de
que todas las µi+ son iguales es verdadera), entonces MCA también es un estimador
insesgado de la varianza poblacional (pues, en ese caso, el sumatorio ¿ ocJ vale O).
j
Por tanto, cuando la hipótesis H 01 A1: µ 1 + + µ 2 + = ··· = µJ+ es verdadera, el
cociente:
MCA
F =-- (7.21)
A MCE
se distribuye 3 según el modelo de probabilidad F con J - 1 y N - J K grados de

libertad (es decir, con los grados de libertad del numerador y los del denominador),
y nos sirve como estadístico de contraste para poner a prueba la hipótesis nula
referida al efecto del factor A.
Cosa idéntica ocurre con el factor B. Si su efecto es nulo, es decir si todos los pi
valen cero (lo cual ocurre si la hipótesis nula de que todas las µ+k son iguales es
verdadera), entonces MCB es un estimador insesgado de la varianza poblacional
(pues, en ese caso, el sumatorio ¿ PJ vale O). En consecuencia, si la hipótesis H 0181 •
k
µ+1 = µ+2 = · · · µ + K es verdadera, el cociente:
MCB
F --- (7.22)
s- MCE
se distribuye según el modelo de probabilidad F con K - 1 y N - J K grados de

libertad y nos sirve como estadístico de contraste para poner a prueba la hipótesis
nula referida al efecto del factor B.
Y lo mismo cabe decir de MCAB. Si la hipótesis referida al efecto de la
3 Recuérdense los argumentos expuestos en el apartado 5.3.4.e sobre el cociente entre dos medias
cuadráticas y su relación con las distribuciones x. 2 y F.
interacción es verdadera, los (a/J)ik serán todos nulos y el sumatorio LL(a/J)fk

j k
valdrá cero. En ese caso, MCAB será un estimador insesgado de la varianza
poblacional y el cociente:
MCAB
F ---- (7.23)
MCE
AB-
se distribuirá según el modelo de probabilidad F de Snedecor con (J - l)(K - 1) y

N - J K grados de libertad, y nos servirá como estadístico de contraste para poner
a prueba la hipótesis nula referida al efecto de la interacción entre A y B.
Los tres estadísticos F que acabamos de proponer cumplen los dos requisitos
exigibles a un estadístico de contraste (recuérdese lo dicho en el apartado 3.1.3):
proporcionan información relevante sobre el efecto al cual se refieren (A, B y AB,
respectivamente), al tiempo que poseen una distribución muestra) conocida.
t) La tabla resumen de ANOVA

Al igual que en el resto de los modelos, los resultados de un ANOVA AB-EF-
CA suelen presentarse de forma resumida tal como se muestra en la tabla 7.6.
TABLA 7.6
Presentación resumida de los resultados de un ANOVA AB-EF-CA
FV se gl MC F
SCA MCA
Factor A SCA J - 1 -- --
J-1 MCE
SCB MCB
Factor B SCB K -1 -- --
K - 1 MCE
SCAB MCAB
Interacción AB SCAB (J - l)(K - 1) ---
(J - l)(K - 1) MCE
SCE
Error E SCE N-JK
N-JK
Total T SCT N-1
7.2.5. Resumen del modelo de ANOVA AB-EF-CA
En el cuadro 7.1 se ofrece el resumen del ANOVA AB-EF-CA siguiendo el

mismo esquema propuesto para el resto de los contrastes de hipótesis.
CUADRO 7.1
ANOVA de dos factores, de efectos fijos, completamente aleatorizados.
l. Hipótesis:
a) Ho1A1: µ• + = µ2+ = ··· = µJ+·
O bien, H 01 A 1: ~i =O, para todo valor de j.
(Es decir, las J medias poblacionales correspondientes a los J niveles del factor
A son iguales.)
H 11 A1: µi+ '# µi'+• para algún valor dejo j' (j '#/).
O bien, H tcAI: ~i '#O, para algún valor de j.
(Es decir, no todas las µi+ son iguales; hay al. menos un nivel del factor A cuyo
promedio difiere del promedio de, al menos, otro nivel.)
b) Ho1s1: µ+1 = µ+2 = ··· = µ+K·

O bien, H 0181: flk = O, para todo valor de k.
(Es decir, las K medias poblacionales correspondientes a los K niveles del
factor B son iguales.)
H 1181: µ+k '# Jt+k., para algún valor de k o k' (k '# k').
O bien, H 1181: Pk '#O, para algún valor de k.
(Es decir, no todas las µ+k son iguales; hay al menos un nivel del factor B cuyo
promedio difiere del promedio de, al menos, otro nivel.)
e) H 01 A 81: µik - µiºk = µi+ - µ¡·+, para todo valor de j, j' y k U'# j').
(Es decir, la diferencia entre las medias de dos casillas cualesquiera de la
misma fila es igual a la diferencia entre las medias marginales correspondientes
a esas casillas 4 .)
H 11 Aa1: µik - µiºk '# µ¡+ - µr+• para algún j, j' o k U '#j').
(Es decir, la diferencia entre las medias de dos casillas cualesquiera de la
misma fila no es igual a la diferencia entre las medias marginales correspon-
dientes a esas casillas.)
2. Supuestos:
a) Independencia: J K muestras de tamaño n aleatoriamente extraídas e indepen-
dientes entre sí.
4 Se entenderá fácilmente el significado de esta hipótesis si se recuerda lo dicho en el apartado 7.1 al
exponer el concepto de interacción entre factores.

Las hipótesis referidas al efecto de la interacción también se pueden plantear de esta otra manera:
H o1.• 81 : (:xfl);• = O. para todo valor de j y k.
! E'uccir. 11,,, 11,,: µ,, - µ 1 + - µ +, + µ = O. para tollo valor uc j y ~ ).
H 11 _. 81 : (:xfll;• "#O. para algún valor de j o k.
(Es decir. H, 1.. 81 : t';• - µ;+ - µ.,+µ"#O. para algún valor de j o k).
CU ADRO 7.1 ( contimwcirín)
h) Normalidad: las J K poblaciones de donde se extraen las J K muestras son

normales.
d Homocedasticidad: esas J K poblaciones tienen. todas ellas, la misma varianza.
a) Para H 01 .41 : F 4 = MCA MCE.
h) Para H 0181 : F 8 = MC8'MCE.
C') Para H 01 A 81 : F.4 8 = MCA8!MCE.
4. Distribuciones muestrales:
a) F 4 se distribuye según FJ u JK·
h) F8 se distribuye según F" _1..v _JK·
C') F 48 se distribuye según F,J 111 ¡.; 11 •.., JK·
5. Zonas críticas:
a) FA:;;:i= 1 _,FJ I ..\" JI(·
h) F8 :;;:i: 1 ,F¡.; l..'i JI(·
e) F.48 :;;:i: 1 ,F,J 1111' 11 •.\' JI(•
6. Reglas de decisión:
a) Se rechaza H 01 .4 1 si el estadístico FA cae en la zona crítica: en caso contrario. se
mantiene. Si rechazamos H 01 .41 debemos concluir que no todas las medias
poblacionales correspondientes a los niveles del factor A son iguales; es decir.
existe efecto significativo del factor A.
h) Se rechaza H 0181 si el estadístico F 8 cae en la zona crítica; en caso contrario. se
mantiene. Si rechazamos H 0181 debemos concluir que no todas las medias
poblacionales correspondientes a los niveles del factor 8 son iguales: es decir.
existe efecto significativo del factor 8.
e) Se rechaza H 01 .4 81 si el estadístico F,, 8 cae en la zona crítica: en caso contrario.
se mantiene. Si rechazamos H 01 .4 81 debemos concluir que existe efecto significa-
tivo de la interacción (las diferencias entre casillas reflejan algo diferente de lo
que reflejan las diferencias entre sus marginales).
EJEMPLO 7.1. Con el fin de estudiar el efecto de ciertas variables motivacionales

sobre el rendimiento en tareas de logro, un psicólogo diseñó dos programas de
entrenamiento motivacional (A 1 =instrumental, A 2 = atribucional) y los aplicó a dos
grupos de sujetos seleccionados al azar. Un tercer grupo no recibió entrenamiento
pero realizó la misma tarea que los sujetos entrenados (A-' =grupo control). Un tercio
de los sujetos de cada grupo recibió el entrenamiento bajo una condición o dima de
clase diferente: 8 1 =cooperativo, 8 2 =competitivo y 8-' =individual. La evaluación
del rendimiento mostrado por los sujetos tras el entrenamiento arrojó los resultados
que aparecen en la tabla 7.7. Utilizando oi = 0,05, ¿qué concluiremos sobre el efecto
ejercido por las variables independientes utilizadas y su interacción?
TABLA 7.7
Cooperativo Competitivo Individual
7 6 9
6 4 10
Instrumental 7 5 8
7 4 8
8 6 10
6 3 4
5 3 5
Atribucional 7 5 7
5 3 4
7 6 5
5 2 3
5 3 6
Grupo control 6 5 3
3 3 4
6 2 4
Nos encontramos ante un diseño con dos factores: el tipo de entrenamiento

motivacional (factor A), con tres niveles; y el clima de clase (factor B), también con tres
niveles. Los dos factores son de efectos fijos. Y el diseño es completamente aleatoriza-
do: en cada combinación AB tenemos un grupo diferente de sujetos aleatoriamente
seleccionados. El modelo de ANOVA AB-EF-CA que acabamos de estudiar es el
apropiado para analizar estos datos.
Podemos comenzar obteniendo los totales necesarios para calcular las sumas de
cuadrados. La tabla 7.8 muestra esos totales.
TABLA 7.8
Totales obtenidos a partir de la tabla 7.7
B, B2 B3
A, 35 25 45 105
Ai 30 20 25 75 ¿¿¿ n,. = t.456

i j A:
AJ 25 15 20 60
90 60 90 240
Con los totales de la tabla 7.8 podemos ya calcular fácilmente las sumas de
cuadrados y construir la tabla resumen de ANOVA (tabla 7.9):
T2 240 2
SCT= LLL
, i t
Yit - -
N
= 1.456 - -
45
= 1.456 - 1.280 = 176
'\.
"-¡' 1'2+ T2 105 2 + 75 2 + 60 2 240 2
SCA = - -1- - - = - - = 1.350 - 1.280 = 70
nK N 5(3) 45
L T¡k T2 902 + 602 + 902 2402

SCB = _t- - - = - - = 1.320 - 1.280 = 40
nJ N 5(3) 45
IITfk ITf+ ¿T¡k 2
SCAB = · t
_i _ _ -
·
- 1- - -
t
-- + -T =
n nK nJ N
35 2 + 25 2 + ... + 20 2
- - - - - - - - 1.350 - 1.320 + 1.280 = 20
5
~~ 7Jr. 35 2 + 25 2 + ... + 20 2
SCE = LLL YGt - _i_n_ = 1.456 - 5 = 1.456 - 1.410 = 46
i j "
TABLA 7.9
Tabla resumen de ANOVA
FV se gl MC F•
A 70 2 35 27,39
B 40 2 20 15,65
AB 20 4 5 3,91
E 46 36 1,278
T 176 44
Obtenidos Jos datos de la tabla 7.9 ya sólo nos queda plantear las hipótesis y
tomar una decisión sobre ellas.
1. Hipótesis:
a) Ho<A>: µ 1 + = µ2+ = µ 3+. Es decir, el tipo de entrenamiento no afecta al
rendimiento en Ja tarea de logro.
H l<A>: No todas las µi+ son iguales. Es decir, el tipo de entrenamiento
afecta al rendimiento en la tarea de logro.
b) H 0 <8 >: µ+ 1 = µ+ 2 = µ+ 3 • Es decir, el clima de clase no afecta al rendimien-
to en la tarea de logro.
H 1<8 >: No todas las µH son iguales. Es decir, el clima de clase afecta al
rendimiento en la tarea de logro.
e) todo valor de j, J y k U#- J). Es decir, Ja
HOl.ABI: µik - µ1 k = µi+ - µ1 +> para
interacción entre el tipo de entrenamiento y el clima de clase no afecta al
rendimiento en la tarea de logro.
H t<AB>: µik - µi'k # µi+ - µi' +• para algún j, .i' o k U# j'). Es decir, la interac-
ción entre el tipo de entrenamiento y el clima de clase afecta al rendimiento
en la tarea de logro.
2. Supuestos: tenemos 9 poblaciones normalmente distribuidas y con la misma

varianza de las cuales hemos extraído, independientemente, 9 muestras aleato-
rias de tamaño n = 5.
a) F 11 = 27,39.
h) FB = 15,65.
e) F AB = 3,91.
a) FA sigue la distribución F con J - 1 = 2 y N - J K = 36 grados de
libertad.
h) F 8 sigue la distribución F con K - 1 = 2 y N - J K = 36 grados de
libertad.
e) F AB sigue la distribución F con (J - 1)(K - 1) = 4 y N - J K = 36 grados
de libertad.
5. Zonas críticas:
a) FA ~ o.9sF 2.Jñ ~ 3,27.
h) F B ~ 0.95F 2.Jó ~ 3,27.
e) FAB ~ 0.95F 4.Jó ~ 2,64.
6. Decisiones:
a) Factor A: FA = 27,39 es mayor que el punto crítico 3,27, por tanto,
rechazamos H oiA> y concluimos que el tipo de entrenamiento afecta al
rendimiento en la tarea de logro. Es decir, el nivel de rendimiento alcanza-
do depende del tipo de entrenamiento utilizado.
h) Factor 8: F 8 = 15,65 es mayor que el punto crítico 3,27, por tanto,
rechazamos H 0181 y concluimos que el dima de clase afecta al rendimiento
en la tarea de logro. Es decir, el nivel de rendimiento alcanzado depende
del clima de clase bajo el que se ha realizado la tarea.
e) Interacción AB: F 118 = 3,91 es mayor que el punto crítico 2,64, por tanto,
rechazamos H 011181 y concluimos que la interacción entre el tipo de entrena-
miento y el clima de clase afecta al rendimiento en la tarea de logro. Es
decir, el nivel de rendimiento alcanzado con los diferentes tipos de entrena-
miento cambia cuando cambia el clima de clase bajo el que se aplica el
entrenamiento. El efecto de una de las variables está mediatizado por el
efecto de la otra.
7.3. Comparaciones múltiples

El análisis llevado a cabo en el ejemplo 7.1 revela que los tres efectos tenidos en
cuenta en nuestro modelo (el factor A, el factor By la interacción AB) han resultado
significativos. Ahora bien, como las hipótesis referidas a esos efectos son hipótesis
de tipo general (las medias son iguales, las medias difieren, ... ), las conclusiones a las
que podemos llegar con el rechazo de las mismas son también de tipo general: existe
efecto del factor A; existe efecto del factor B; existe efecto de la interacción AB. La
obtención de una F significativa no nos permite concretar nada más.
La interpretación apropiada de cada uno de esos efectos sólo es posible
recurriendo a los procedimientos de comparaciones múltiples que exponemos en
este apartado. Mediante estos procedimientos podemos averiguar dónde en concre-
to se encuentran las diferencias detectadas por el ANOVA para, a partir de esa
información, obtener conclusiones más precisas. Estudiaremos aquí algunos de los
procedimientos de comparaciones múltiples tratados en el capítulo 5, aunque, eso sí,
adaptados al modelo de dos factores completamente aleatorizados, que es el que en
este capítulo nos ocupa.
7.3.1. Comparaciones a priori
Sobre los J niveles del factor A pueden aplicarse las pruebas F planeadas, las
comparaciones de tendencia y las pruebas de Dunn-Bonferroni y Dunnett estudia-
das en el capítulo anterior. Sólo hay que tener cuenta, como única diferencia, que
los grados de libertad asociados ahora al término error son N - J K. Exactamente
lo mismo podemos decir respecto a los niveles del factor B.
Pero con la interacción AB ocurre algo diferente. Las comparaciones planeadas
referidas a la interacción entrañan una complejidad de interpretación (particular-
mente las comparaciones de tendencia) que las hacen exceder, no ya sólo el alcance
de nuestra exposición, sino, casi siempre, los propios intereses del investigador 5 .
La forma más accesible (y práctica, en nuestra opinión) de escudriñar en el
significado del efecto de la interacción, cuando existe, consiste en recurrir a los
procedimientos de comparaciones múltiples a posteriori que exponemos a continua-
ción.
7.3.2. Comparaciones a posteriori
a) Prueba de Tukey
Ya sabemos que este procedimiento es apropiado para efectuar todas las
posibles comparaciones dos a dos (por pares) entre medias. Recordemos que la
estrategia consiste en obtener un valor, al que llamamos diferencia mínima significa-
~ El lector interesado en conocer este tipo de comparaciones puede encontrar una excelente
exposición de las mismas en Kirk (1982, apartados 8.6 y 8.7).
tiva (DMS), que consideramos que es la diferencia mínima que debe existir entre dos
medias muestrales para decidir que las correspondientes medias poblacionales son
distintas.
Se comienza obteniendo las diferencias en valor absoluto entre cada par de
medias (lo cual puede hacerse construyendo una tabla de diferencia entre medias, tal
como vimos en el apartado 6.4.l) del factor A, por un lado, y entre cada par de
medias del factor B. por otro. Las medias de las casillas (que recogen el efecto de la
interacción) no interesa, generalmente, compararlas todas con todas. Resulta más
útil elaborar una representación gráfica con esas medias (ver apartado 7.1) y dirigir
la interpretación desde el gráfico.
Tras esto, se considera significativa toda diferencia l lj+ - lj. +1 mayor que:
(7.24)
donde q, según vimos, es un punto de la distribución del rango studentizado con

probabilidad acumulada 1 - a y grados de libertad v (número de medias que
forman parte de la comparación) y glerror = N - J K (los grados de libertad de la
suma de cuadrados error). En concreto, v = J para el factor A. v = K para el factor
B. y v = JK para la interacción.
La ecuación (7.24) es especialmente apropiada para comparar por pares los
niveles del factor A o los del factor B. Y aunque también es apropiada para
comparar por pares las J K casillas, lo cierto es que raramente tiene algún interés
estudiar las J K(J K - 1)/2 comparaciones posibles entre casillas. Habitualmente,
para estudiar el efecto de la interacción basta con comparar las medias de un factor
(primer factor) en cada uno de los niveles del otro factor (segundo factor).
Consideremos un diseño J x K con J = 2 y K = 4. Si queremos comparar dos a
dos todas las casillas entre sí, tendremos que efectuar 2(4)[2(4) - 1]/2 = 28 compa-
raciones. La ecuación (7.24) permite controlar aF para esas 28 comparaciones
haciendo v = JK. Pero si nuestro interés (como es, repetimos, habitual) se centra
en comparar por pares los K = 4 niveles del factor B (primer factor) en los
J = 2 niveles del factor A (segundo factor) sólo tendremos que efectuar
JK(K - 1)/2 = 2(4)(4 - 1)/2 = 12 comparaciones; y si lo que hacemos es comparar
los J = 2 niveles del factor A (primer factor) en cada uno de los K = 4 niveles del
factor B (segundo factor), entonces el número de comparaciones se reduce a
4(2)(2 - 1)/2 = 4. En estos casos, las comparaciones entre los niveles del primer
factor en cada nivel del segundo pueden efectuarse mediante la ecuación (7.24), pero
modificando los grados de libertad del punto crítico q: v = número de niveles del
primer factor; es decir: v = J si estamos comparando los niveles de A en cada nivel
de B. y v = K si estamos comparando los niveles de B en cada nivel de A.
Con esta forma de proceder conseguimos controlar aF para cada subconjunto de
comparaciones en un nivel del segundo factor, pero no conseguimos controlar aF
para todo el conjunto de comparaciones en todos los niveles del segundo factor.
Para esto último, podemos seguir utilizando la ecuación (7.24) pero obteniendo el
punto crítico q de la distribución multivariada del rango studentizado (tabla N del

apéndice final), con v1 =número de niveles del primer factor y v2 =número de
niveles del segundo factor.
b) Prueba de Schef/é
Con esta prueba podemos efectuar, no ya sólo comparaciones por pares, como
con el procedimiento de Tukey, sino cualquier tipo de comparación que se nos
ocurra plantear.
Para comparaciones referidas a los niveles del factor A:
l. Se formulan las hipótesis: H 0 : L = r.ciµi+ =O, H 1 : L = r.ciµi+ #-O.
2. Se estima L: L = r. ci Yj+.
DMSScheffél.Al = j(J - 1)1-aFJ-1,N-JK MCE'L,cJ /(nK) (7.25)

j
4. Se rechaza H 0 si el valor absoluto de L es mayor que el de la DMS.
Para comparaciones referidas a los niveles del factor B:

l. Se formulan las hipótesis: H 0 : L = 'r.ckµ+k =O, H 1: L = 'r.ckµ+k #-O.
2. Se estima L: L = r.ckY+k.
DMSscheffé(Bl = j(K - 1)1-aFK-1.N-JK MCE'L,cU(nJ) (7.26)

k
Para comparaciones referidas a la interacción AB:

l. Se formulan las hipótesis: H 0 : L = r.cikµik =O, H 1 : L = 'r.cikµik #-O.
2. Se estima L: L = r. eik Yjk.
DMSscheffé(AB) = j(JK - 1)1-aFJK-l.N-JK MCE'L,L,cJk/n (7.27)

j k

Cuando lo que se desea es hacer comparaciones entre dos medias (comparacio-

nes por pares), las ecuaciones (7.25), (7.26) y (7.27) se simplifican bastante, pues:
(7.28)
EJEMPLO 7.2. Recordemos el ejercicio 7.1 en el que 9 grupos de 5 sujetos fueron

sometidos a las 9 condiciones experimentales resultantes de combinar los tres niveles
de la variable tipo de entrenamiento con los tres niveles de la variable clima. de clase.
Los niveles de la variable tipo de entrenamiento (factor A) eran: A 1 = entrenamiento
instrumental, A 2 =entrenamiento atribucional, y A 3 =grupo control. Los niveles de
la variable clima de clase (factor B) eran: 8 1 =cooperativo, 8 2 =competitivo, y
8 3 = individual. El ANOV A resultante (ver tabla 7.9) nos llevó a concluir que los tres
efectos considerados (el de las dos variables por separado y el de la interacción) eran
significativos. Vamos ahora a profundizar en el estudio de esos efectos utilizando los
procedimientos de comparaciones múltiples que acabamos de describir.
Comencemos aplicando el procedimiento de Tukey para comparar las medias
correspondientes a los niveles de A, a los niveles de B y a la interacción entre A y B.
La tabla 7.10 recoge todos los promedios necesarios.
TABLA 7.10
Promedios obtenidos a partir de los totales de la tabla 7.8
B, B2 B3
A, 7 5 9 7
A2 6 4 5 5
A3 5 3 4 4
6 4 6
Para averiguar qué niveles de A difieren debemos comparar sus medias correspon-
dientes: Y1 + = 7, Y2 + = 5 y Y3 + = 4. Las diferencias en valor absoluto entre esas
medias son:
1Y1 + - Y2+1 = 17 - 51 = 2
IY1 + - Y3+1 = 17 - 41 = 3
lfi+ - Y3+I = 15 - 41=1
Utilizando un nivel de confianza de 0,95, ¿cuál de esas diferencias podemos afirmar

que es significativa? Para responder a esta pregunta necesitamos resolver la ecuación
(7.24) (recordemos que la media cuadrática error (tabla 7.9) arrojó un valor de 1,278,
con 36 grados de libertad):
1,278
- - ~ 3,46(0,292) ~ 1,01
45/3
348 / Análisis de datos en psico/ogfa 11
Podemos observar que el grupo 1 difiere de los grupos 2 y 3, y que estos dos
últimos no difieren entre sí. Recordando lo que significa cada uno de los niveles del
factor A, podemos concluir que el grupo sometido a entrenamiento instrumental
(grupo 1) alcanza un nivel de rendimiento significativamente más alto que el grupo
sometido a entrenamiento atribucional y que el grupo control, no existiendo diferen-
cias entre estos dos últimos.
Por lo que se refiere al factor B, sus medias son: Y+ 1 = 6, Y+ 2 = 4 y Y+ 3 = 6. Y las
diferencias en valor absoluto entre esas medias son:
1Y+ 1 - Y+il = 16 - 41 = 2
IY+1 - Y+31=16 - 61 =o
IY+2 - Y+31=14 - 61 = 2
Podríamos utilizar nuevamente la ecuación (7.24) para determinar cuáles de esas
diferencias son significativas. Pero no es necesario. Dado que una de las diferencias
es cero y que las otras dos son iguales, las diferencias significativas se dan entre
los grupos 1 y 2, y entre los grupos 2 y 3. Teniendo en cuenta el significado de los
niveles del factor B, podemos concluir que el rendimiento es más alto en los climas
cooperativo e individual que en el clima competitivo.
Para estudiar el efecto de la interacción, las medias de referencia son las que
aparecen en las casillas de la tabla 7.10. La interpretación apropiada de este efecto
exige, además del cálculo de la DMS, la representación gráfica de las medias corres-
pondientes a cada combinación entre los niveles del factor A y del factor B. La figura
7.3 muestra la representación gráfica de las medias de las casillas de la tabla 7.10.
Vamos a resolver la ecuación (7.24) para la interacción manteniendo rx.F en 0,05 para el
conjunto de las KJ(J - 1)/2 = 9(3 - 1)/2 = 9 comparaciones dos a dos entre los
niveles de A en cada nivel de B (utilizamos la distribución multivariada del rango
studentizado):
1,278
DMSTukey = 0.95qv, = 3. v 2 = 3.gl. = 36 - - ~ 4,10(0,5056) ~ 2,07
45/9
9
Y-.J
A,
8
~::
7
6
5
4
3
2
Figura 7.3.-Interacción entre el tipo de entrenamiento (A) y el clima de clase (B).
En 8 1 (clima cooperativo) ninguno de los tres grupos de entrenamiento difiere en

rendimiento (ninguna de las diferencias es mayor que DMSTukey = 2,07). En 8 2 (clima
competitivo) ocurre exactamente lo mismo. Sin embargo, en 8 3 (clima individual) los
sujetos entrenados instrumentalmente (A 1 ) rinden significativamente más alto que los
sujetos sometidos a entrenamiento atribucional (A 2 ) y que los sujetos del grupo
control (A 3 ).
Podemos calcular el valor DMSTukey utilizando la distribución del rango studenti-
zado manteniendo a.F en 0,05 no para las JK(K - 1)/2 = (3)(3)(3 - 1)/2 = 9 compara-
ciones estudiadas, sino para las JK(JK - 1)/2 = 9(8)/2 = 36 posibles comparaciones
dos a dos entre todas las casillas. Procediendo de esta manera obtenemos:
1,278
-- ~ 4,67(0,5056) ~ 2,36
45/9
Evaluando las diferencias entre cada par de casillas llegamos a la misma conclu-
sión que antes. Aunque ahora el valor de la DMSTukey es algo mayor que antes, no es
lo bastante grande como para llevarnos a una conclusión distinta (con esta última
DMS podríamos comparar casillas que se encontraran en distinta fila o distinta
columna, si es que eso tuviera algún interés).
7.4. Efectos fijos, aleatorios y mixtos
Ya hemos hecho algunas distinciones entre los factores de efectos fijos y los de
efectos aleatorios. Lo dicho en el apartado 5.5 en relación con el modelo de un
factor es trasladable al modelo de dos factores: la notación utilizada en la formula-
ción del modelo, el tipo de hipótesis que se plantean, las inferencias que es posible
efectuar, etc.
Dos aspectos, sin embargo, conviene destacar aquí. El primero de ellos es de
tipo conceptual: al haber dos factores, los dos pueden ser de efectos fijos (en cuyo
caso hablamos de modelo de efectos fijos o modelo /), los dos pueden ser de efectos
aleatorios (modelo de efectos aleatorios o modelo I 1), o un factor puede ser de
efectos fijos y el otro de efectos aleatorios (modelo de efectos mixtos o modelo I I /).
El segundo aspecto tiene que ver con los valores esperados de las medias
cuadráticas correspondientes a cada fuente de variación. Esos valores esperados
determinan que los estadísticos F se obtengan de forma diferente dependiendo del
modelo de que se trate. La tabla 7.11 recoge esos valores esperados para los tres
efectos del modelo y para el término error.
Llamemos AP y BP a la población de niveles de los factores A y B. respectiva-
mente. Si un factor es de efectos fijos, los niveles concretos utilizados en un
experimento agotan toda la población de niveles del factor; esos niveles utilizados
constituyen justamente la población de niveles que se desea estudiar, de modo que:
A - J = B p - K =Ü
_P _ _ (7.29)
AP BP
Por el contrario, si un factor es de efectos aleatorios, Jos niveles concretos

utilizados en un experimento son sólo unos pocos de Jos muchos (probablemente
infinitos) niveles posibles de ese factor; el número de niveles del factor en la
población es mucho mayor que el número de niveles concretos seleccionados; en
consecuencia:
(7.30)
TABLA 7.11
Valores esperados de las medias cuadráticas del modelo
de ANO VA de dos factores
B -K
E(MCA) = u 2 + _PB_ _ nu•fl2 + nKu•2
p
A -J
E(MCB) = u 2 + _P_ _ nu;11 + nJu;
AP
E(MCAB) = u 2 nu;/I
E(MCE) = u 2
De acuerdo con (7.29) y (7.30) y teniendo en cuenta Ja información proporciona-

da por Ja tabla 7.11, el valor esperado de MCA y MCB dependerá del tipo de
modelo en el que nos encontremos (los valores esperados de MCAB y MCE son los
mismos en los tres modelos). Así, por ejemplo, si el factor A es de efectos fijos y el B
de efectos aleatorios (modelo 111 o de efectos mixtos), sus valores esperados serán:
E(MCA) = a 2 + na;/J + nKa; (pues (Bp - K)/Bp ~ 1)

E(MCB) = a 2 + nJa~ (pues (Ap - J)/Ap =O)
Siguiendo el mismo proceso podemos obtener los valores esperados para el

resto de los modelos de ANOVA de dos factores. La tabla 7.12 ofrece los valores
esperados de MCA, MCB y MCAB que corresponden a esos diferentes modelos.
A partir de los valores esperados de la tabla 7.12 podemos saber cuál es la forma
de obtener el estadístico de contraste apropiado para cada efecto concreto. Según
sabemos, el estadístico F es el cociente entre dos medias cuadráticas: la media
cuadrática del numerador es siempre la que corresponde al efecto que deseamos
contrastar; la media cuadrática del denominador va cambiando dependiendo del
modelo en el que nos encontremos. En el modelo 1 (efectos fijos en los dos factores),
hemos visto que la media cuadrática del denominador es MCE. Esto es así porque
TABLA 7.12
Valores esperados de las medias cuadráticas en los diferentes modelos de ANOVA
de dos factores
Modelo 1 Modelo 11 Modelo 111 Modelo 111

A y B fijos A y B aleatorios A fijo, B aleatorio A aleatorio, B fijo
E(MCA) u 2 + nKu; u 2 + nu;/l + nKu; u 2 + nu;/l + nKu; u 2 + nKu;
E(MCB) u2 + nJui u 2 + nu;/l + nJ u¡ u2 + nJui u 2 + nu;/l + nJu¡

E(MCAB) u 2 + nu;/l u 2 + nu;/l u 2 + nu;/l u 2 + nu;/l
E(MCE) (J2 (J2 (J2 (J2
de esta forma conseguimos aislar el efecto que deseamos estudiar. Así, por ejemplo,
para estudiar el efecto del factor A, puesto que
E(MCA) = u 2 + nKu;
E(MCE) = u2
el cociente entre MCA y MCE valdrá 1 cuando el efecto del factor sea nulo (u;= O),
y será mayor que 1 cuando exista efecto del factor (u; >O). Dividiendo MCA entre
MCE conseguimos aislar el efecto del factor A.
Para conseguir esto mismo en el resto de los modelos tenemos que guiarnos por
los valores esperados correspondientes a cada efecto (tabla 7.12). Así, por ejemplo,
para aislar el efecto del factor A en el modelo 11 (efectos aleatorios en los dos
factores) necesitamos dividir MCA entre MCAB, pues sólo de esa forma podemos
aislar el término u;
y saber si es igual o mayor que cero. La tabla 7.13 resume la
forma de obtener el estadístico de contraste correspondiente a cada efecto en cada
uno de los modelos de ANOV A de dos factores.
TABLA 7.13
Estadísticos de contraste para los diferentes modelos de ANO VA de dos factores
Modelo 1 Modelo 11 Modelos 111 Modelo 111

FV
A y B fijos A y B aleatorios A fijo, B aleatorio A aleatorio, B fijo
A MCA/MCE MCA/MCAB MCA/MCAB MCA/MCE

B MCB/MCE MCB/MCAB MCB/MCE MCB/MCAB
AB MCAB/MCE MCAB/MCE MCAB/MCE MCAB/MCE
7.5. Medidas del tamaño del efecto
Ya hemos señalado repetidamente (ver apartado 5.6) que, aunque una F

significativa nos está advirtiendo de la presencia de un efecto, no nos proporciona
ninguna información sobre la magnitud de ese efecto. Para obtener información
sobre esto último podemos utilizar medidas de asociación similares a las propuestas
para el modelo de un factor completamente aleatorizado.
El índice r¡ 2 estudiado en el apartado 5.6 toma ahora la siguiente forma para
cada efecto:
r¡fA> = SCA/SCT
r¡f8 >= SCB/SCT (7.31)
r¡fABJ = SCAB/SCT
Pero según vimos, r¡ 2 es un estimador muy sesgado de la verdadera proporción

de varianza explicada. Un estimador mucho menos sesgado es w 2 , que en el modelo
de dos factores de efectos fijos toma, para cada efecto, la siguiente forma:
2 SCA - (J - l)MCE
(JJ(A) = SCT+ MCE
2 SCB - (K - l)MCE
(JJ(B) = SCT+ MCE
(7.32)
2 SCAB - (J - l)(K - l)MCE

W(AB) = SCT+MCE
7.6. ANOVA de dos factores, de efectos fijos, con medidas

repetidas (AB-EF-MR)
Ya hemos visto en el diseño de medidas repetidas de un factor (apartado 5.4)

que a los n sujetos que intervienen en el experimento se les aplican los J tratamien-
tos o niveles del factor: todos los sujetos pasan por todas las condiciones experi-
mentales. También con dos factores es posible planificar un diseño de medidas
repetidas. Para ello, es necesario utilizar los mismos sujetos (o bloques de sujetos)
en todas o parte de las J K combinaciones entre los tratamientos. (Recordemos que
hablar de medidas repetidas o bloques equivale a hablar de muestras relacionadas).
En estos diseños, el orden de administración de las J K combinaciones entre
tratamientos es aleatorizado independientemente para cada uno de los sujetos. Si en
lugar de los mismos sujetos se utilizan bloques (cada bloque con J K sujetos
igualados en alguna variable), se asigna de forma aleatoria un sujeto de cada bloque
a cada una de las combinaciones entre tratamientos. El diseño es el mismo en
ambos casos. Sin embargo, hablamos de diseño de medidas repetidas cuando cada
bloque está constituido por un sólo sujeto y de diseño aleatorizado en bloques
cuando cada bloque está formado por J K sujetos igualados.
En este apartado vamos a estudiar dos de los diseños de medidas repetidas: 1) el
de dos factores con medidas repetidas en ambos (también llamado diseño factorial
aleatorizado en bloques), y 2) el de dos factores con medidas repetidas en uno de
ellos (también llamado split-plot).
7.6.1. Medidas repetidas en los dos factores
a) Estructura de los datos y notación
La tabla 7.14 ofrece una forma útil de organizar los datos. Y¡ik representa la
puntuación obtenida en la variable dependiente Y por el sujeto i bajo el nivel j del
factor A y el nivel k del factor B (es decir, la puntuación obtenida por el sujeto i
bajo la combinación de tratamientos jk). Estamos ante un diseño en el que los n
sujetos que intervienen en él pasan por todas y cada una de las J K combinaciones
entre tratamientos.
TABLA 7.14
Estructura de los datos y notación correspondientes a un diseño de dos factores
con medidas repetidas en los dos factores
A, A; A1
Sujetos B, B1 ... B11. B, ... B1 B" B, B1 B"
s, Y111 ... Y,lk ... Y1111. Y1;1 yljk ... Y1;K YIJI . .. YIJk ... YIJK
82 Y211 Y21k... Y21K Y2;1 y2jk . .. Y2;11. Y211 y2Jk ... Y2JK
... ... ... ... ... ... ... . .. . .. ... ...
S¡ Yi11 Yilk Y¡IK Yi;1 Yi;k fi;K Yi11 Yi1k Yi111.
... ... ... ... ... . .. ... ... ... ...
s. Y.11 Y,,lk ... Y.111. Y.;1 Y,,;k ... Y.;11. Y.11 ... Y.ik
... Y.111.
La notación para identificar cada elemento de la tabla es similar a la ya

utilizada en el resto de los modelos de ANOV A. Así, Y¡ik se refiere a la puntuación
obtenida en la variable dependiente Y por el sujeto i bajo el nivel j del factor A y el
nivel k del factor B (es decir, bajo la combinación de tratamientos jk). S¡ se refiere a
los sujetos o bloques. Sumando las puntuaciones de una o más casillas obtenemos
los siguientes totales y subtotales:
T = LLL
ij k
Y¡jk Y= T/(nJK) i = 1,2, ... ,n
r;+ + = ¿¿ Y¡jk Y;++ = T¡+ +/(JK) j = 1,2, ...,J

j k
T+j+ = LLk Y¡jk
i
Y+ i+ = T +i+/(nK) k= 1,2, ...,K
T + +k = L L Y¡jk Y+ +k = T + +J(NJ) J =número de niveles del factor A

ij
Tij+ = L Y¡jk Y;i+ = Tii+/K K = número de niveles del factor B
k
T¡+k = L Y¡jk Y;+k = T;+k/J n = número de sujetos
j
T +jk = L Y¡jk Y+ik = T +ik/n N=nJK
b) El modelo y los supuestos
En el modelo de dos factores con medidas repetidas en ambos cada observación

se hace depender de:
(7.33)
Todos los términos del modelo nos son ya conocidos pues han sido definidos al
estudiar otros modelos. A los supuestos ya conocidos de independencia, normalidad
y homocedasticidad hay que añadir el de aditividad: el efecto de los sujetos o
bloques (S;) es independiente del resto de los efectos presentes en el modelo; es decir,
el efecto de los sujetos o bloques se combina aditivamente con el resto de los
efectos:
(7.34)
e) Los estadísticos de contraste
Todo lo relativo a este modelo es fácilmente deducible a partir de lo ya

estudiado a propósito del modelo de un factor con medidas repetidas y del de dos
factores con clasificación cruzada. La variación total (SCT) puede ser descompuesta
en tres fuentes de variación: la debida a los tratamientos o variación intergrupos, la
debida a los sujetos o variación intersujetos y la debida al error o variación
intragrupo.
(7.35)
Ti Ti
SCI = LL + jk - -
i k n N
T2 T2
ses=¿~--
¡ JK N
seE = ser - Sel - ses
A su vez, la variación debida a los tratamientos (Se/) incluye el efecto de tres

componentes: los dos relativos a los factores principales A y B (SCA y SeB) y el que
se refiere a la interacción entre ambos (SeAB):
T2 T2
seA = L ___:_¿_:_ - -
i nK N
~ T~+k T2
SeB = L . - - - -- (7.36)
t nJ N
SeAB = Sel - SeA - SeB
Utilizando razonamientos similares a los del resto de los modelos estudiados se

obtienen los siguientes grados de libertad para cada una de las fuentes de variación
descritas:
Sel: JK -1
Se A: J - 1
SeB: K-1
SeAB: (J - l)(K - 1) (7.37)
ses: n-1
Se E: (JK - l)(n - 1)
SeT: N-1
Y, según sabemos, dividiendo cada suma de cuadrados entre sus grados de

libertad obtenemos las medias cuadráticas correspondientes a cada efecto. La tabla
7.15 recoge esas medias cuadráticas y los valores esperados que se derivan del
modelo en el que nos encontramos.
TABLA 7.15
Medias cuadráticas y valores esperados en el modelo de dos factores con medidas
repetidas en ambos factores (modelo aditivo)
Fuente de variación Medias cuadráticas Valor esperado
Factor A MCA = SCA/(J - 1) u2 + nKu;

Factor B MCB = SCB/(K - 1) u2 + nJu:
Interacción AB MCAB = SCBA/[(J - l)(K - 1)] u2 + nu;11
Sujetos MCS = SCS/(n - 1) u2 + J Ku:
Error MCE = SCE/[(JK - l)(n - 1)] C12
De los valores esperados de cada una de las medias cuadráticas del modelo se
deduce que el efecto de cualquiera de las fuentes de variación puede ser aislado y,
por tanto, puesto a prueba, a través del cociente entre su media cuadrática y la
media cuadrática error. Obtenemos así los siguientes estadísticos de contraste:
FA= MCA/MCE
FB = MCB/MCE (7.38)
FAB = MCAB/MCE
los cuales se distribuyen según el modelo de probabilidad F con los grados de

libertad correspondientes al numerador y al denominador del estadístico F.
Estos estadísticos permiten poner a prueba el efecto de cada factor y el de la
interacción sólo si el modelo es aditivo, es decir, si la interacción entre los sujetos y
el resto de los efectos es nula: (Sa)ii = (S/J);k = (Sa/J);ik = O (supuesto éste general-
mente poco realista). Puesto que estos tres componentes de interacción no están
explícitamente incluidos en el modelo, forman parte, obviamente, de la variación
error y, en consecuencia, están recogidos en la MCE. Por tanto, si el supuesto
relativo a tales componentes no es verdadero (es decir, si su efecto es distinto de
cero y por tanto el modelo es no-aditivo) la MCE puede descomponerse en:
MC(A x S) = SC(A x S)/[(J - l)(n - l)]

MC(B x S) = SC(B x S)/[(K - l)(n - l)] (7.39)
MC(AB x S) = SC(AB x S)/[(J - l)(K - l)(n - 1)]
donde:
¿¿ T;J+ Ir;~+ r2
SC(A X S) =-i~j_ _ _i_ _ +_
K nK JK N
¿¿ r;~k ¿r;+k Ir;~+ r2

SC(B X S) = _i_k_ _ k _i_ _ +_
J nJ JK N (7.40)
¿¿ T;J+
SC(AB X S) = LLL r;¡k - _i~j_ _
; i k K J
I I r; ji I r;~ + I r; + I r; +k
j y2
jk +i +i +-k_ _
n JK nK nJ N
Por supuesto:
SCE = SC(A X S) + SC(B X S) + SC(AB X S)

Al introducir en el modelo estas nuevas fuentes de variación, los valores

esperados de las nuevas medias cuadráticas son (teniendo en cuenta que los sujetos
o bloques deben considerarse un factor de efectos aleatorios) los que se muestran en
la tabla 7.16.
TABLA 7.16
Valores esperados de las medias cuadráticas del modelo
de dos factores con medidas repetidas en ambos
factores (modelo no-aditivo)
A SCA/(J - 1) u2 + Ku;s + nKu;

B SCB/(K - 1) u2 + J u1s + nJ u¡
AB SCAB/[(J - l)(K - l)] u2 + u;¡¡s + nu;¡¡
Sujetos SCS/(n - 1) u2 + JKu;p
A x Sujetos SC(A x S)/[(J - l)(n - l)] u2 + Ku;s
B x Sujetos SC(B x S)/[(K - l)(n - l)] 112 + J11¡s
AB x Sujetos SC(AB x S)/[(J - l)(K - l)(n - l)] 11 2 + u;ps
Estos valores esperados nos indican que las razones F apropiadas para poner a
prueba los efectos de A, B y AB son, respectivamente:
F~ = MCA/MC(A x S)
F~ = MCB/MC(B x S) (7.41)
F~B = MCAB/MC(AB x S)
d) La tabla resumen de ANOVA
Con la información recogida hasta aquí podemos ya construir la tabla resumen

de ANOV A tal como se muestra en la tabla 7.17.
e) Resumen del procedimiento
El cuadro 7.2 recoge el resumen del ANOVA AB-EF-MR, con medidas repeti-
das en los dos factores, siguiendo el esquema habitual.
TABLA 7.17
ANO VA de dos factores, de efectos fijos, con medidas repetidas en amhos
factores: tahla resumen
F F'
FV se 111 Me
mod. aditivo mod. no-aditivo
Se A Me A MCA
Factor A Se A J - 1
J-1 MeE MC(A X S)
SeB MCB MeB

Factor B SeB K- l
K- l MeE MC(B X S)
SeAB MeAB MeAB

Interacción AB SeAB (J - l)(K - 1)
(J - l)(K-1) MeE MC(AB X S)
Sujetos ses n-1
Se E
Error Se E (JK - l)(n - 1)
(JK - l)(n - 1)
SC(A X S)
A x Sujetos SC(A X S) (J - l)(n- 1)
(J - l)(n - 1)
SC(B X S)
B x Sujetos SC(B X S) (K - l)(n - 1)
(K- l)(n-1)
SC(AB X S)
AB x Sujetos SC(AB X S) (J - l)(K - l)(n - 1) (J - l)(K - l)(n - 1)
Total SeT N- l
CUADRO 7.2
A NOVA de dos factores, de efectos fijos, con medidas repetidas en los dos
(actores. Resl/men del procedimiento
1. Hipótesis: las mismas que para el modelo de dos factores completamente aleatori-
zado: H 01 Ai• H 0181 y H 01 ,i 81 (ver, en este mismo capítulo, el apartado 7.2.5).
2. Supuestos:
a) Todos los del diseño completamente aleatorizado de dos factores: independen-
cia entre los 11 sujetos y normalidad y homocedasticidad en las J K poblaciones
de origen.
h) Las interacciones entre los sujetos o bloques -S¡-- y el resto de efectos del
modelo --'J.j, {Jk y ('J./l)jc · son nulas: (S'J.)ij = (S/J)¡k = ( S'J.{J)ijk = O.
al F 4 = MC A-'MCE
h) FB = 1'vfCB;MCE
e) F" 8 = .\IC AB MCE
Si existen razones para pensar que el supuesto h se incumple, o si de hecho se

comprueba que se incumple, los estadísticos de contraste apropiados son:
a') F'A = MCA/MC(A x S)
h') F' 8 = MCB/MC(B x S)
e') F'A 8 = MCAB/MC(AB x S)
a) F.~~ F.1-1.i./K-11111-11 a') F'.~ ~ F J - I.(J - i H• - 11
h) FB ~ Fk l.IJK- l)(ri-11 h') F's ~ Fk-1.(k- l)(n-11
d F.4B ~ F1J 111k-11.1JK-1Hn-11 e') f"s ~ F1J- l)(k- 11.(JK -111•- 11
5. Regiones criticas: para cada estadístico. la región crítica está formada por todos
los valores mayores o iguales que el cuantil 1 - '.X. de su correspondiente distribu-
ción muestra!.
6. Decisión: Se rechaza H 01 .41 • H 0181 o H 0 1..181 si los estadísticos FA, F8 o FA 8 (o,

alternativamente. F'.~· F' 8 o F'A 11 ) caen en sus respectivas zonas críticas. En caso
contrario. se mantienen.
Si rechazamos 11 01 .41 • concluiremos que no todas las Jli+ son iguales y que, por
tanto. existen diferencias entre los niveles del factor A. Si rechazamos H 0181 , concluire-
mos que no todas las ¡1 + k son iguales y que. por tanto. existen diferencias entre los
niveles del factor 8. Si rechazamos H 1A 81 , concluiremos que el efecto de la interacción
entre los factores A y B es significativo.
EJEMPLO 7.3. En un estudio sobre memoria se registró el número de errores de 6

sujetos bajo condiciones de recuerdo (A 1 ) y de reconocimiento (A 2 ) y en distintos
intervalos temporales (8 1 : después de una hora; 8 2 : después de un día; 8 3 : después de
una semana). A partir de los datos de la tabla 7.18, ¿qué podemos concluir acerca de la
influencia de las variables mencionadas sobre el número de errores de los sujetos?
('.X.= 0,05).
TABLA 7.18
.4, A,
Sujclos B, B, B., B, R, B.,
s, 4 5 7 1 4 2
s, 6 8 10 3 6 6
S3 1 6 5 3 5 4
S4 2 10 12 1 4 7
s, 5 10 10 5 6 5
So 1 7 8 2 8 7
<!;) Ediciones Pirámide

Para facilitar los cálculos elaboramos las siguientes tablas de datos con los totales
y subtotales necesarios para el cálculo de las sumas de cuadrados:
Tii+:
i= 1 i = 2 i = 3 i =4 i = 5 i= 6 T +j+
j=I 16 24 12 24 25 16 117
j=2 7 15 12 12 16 17 79
T¡+ + 23 39 24 36 41 33 196 = T
T;H:
i= 1 i = 2 i = 3 i=4 i = 5 i = 6 T + +k
k=1 5 9 4 3 10 3 34
k=2 9 14 11 14 16 15 79
k=3 9 16 9 19 15 15 83
T¡+ + 23 39 24 36 41 33 196 = T
T +jk:
k=1 k=2 k=3 T +i+
j=I 19 46 52 117 ¿¿¿ Yik = u6o

i j k
j=2 15 33 31 79
T + +k 34 79 83 196 = T
Y sirviéndonos de las ecuaciones (7.35) y (7.36) obtenemos las siguientes sumas de

cuadrados:
SeT = 1.360 - (196 2/36) = 292,89
Sel= (19 2 + 46 2 + ··· + 31 2 )/6 - (196 2/36) = 175,56
Se A= (117 2 + 79 2 )/18 -(196 2 /36) = 40,11
SeB = (34 2 + 79 2 + 83 2 )/12 - (196 2/36) = 123,39
SeAB = 175,56 - 40,11 - 123,39 = 12,06
ses= (23 2 + 39 2 + ... + 33 2 )/6 - (196 2/36) = 48,22
se E = 292,89 - 175,56 - 48,22 = 69, 1 I
SC(A X S) = (16 2 + 24 2 + 12 2 + ... + 17 2 )/3 - (117 2 + 79 2 )/18
- (23 2 + 39 2 + ... + 33 2 )/6 + (196 2 /36) = 24,56
SC(B X S) = (5 2 + 9 2 + 4 2 + ... + 15 2 )/2 - (34 2 + 79 2 + 83 2 )/12

- (23 2 + 39 2 + ... + 39 2 )/6 + (196 2 /36) = 33,28
SC(AB X S) = 1.360 - (19 2 + 46 2 + ... + 31 2 )/6 -
- (16 2 + 24 2 + 122 + ... + 17 2 )/3 - (52 + 9 2 + 4 2 + ... + 15 2 )/2 +
+ (117 2 + 79 2 )/18 + (34 2 + 79 2 + ... + 83 2 )/12
+ (23 2 + 39 2 + ... + 33 2 )/6 - (196 2 /36) = 11,27
Puede comprobarse que:
SCE = SC(A X S) + SC(B X S) + SC(AB X S) = 24,56 + 33,28 + 11,27 = 69,11
A partir de estas sumas de cuadrados podemos empezar a construir la tabla

resumen de ANOVA (tabla 7.19) y plantear las hipótesis correspondientes a cada
efecto para tomar una decisión sobre ellas.
TABLA 7.19
FV se g/ MC F F"
In ter 175,56 5
A 40,11 1 40,11 14,53 8,17
B 123,39 2 61,70 22,36 18,53
AB 12,06 2 6,03 2,18 5,34
Sujetos 48,22 5
Error 69,11 25 2,76
A x Sujetos 24,56 5 4,91
B x Sujetos 33,28 10 3,33
AB x Sujetos 11,27 10 1,13
Total 292,89 35
1. Hipótesis:
a) HocA 1: todas las µi+ son iguales (:xi= O para todo j).
Es decir, el número de aciertos es el mismo en condiciones de reconocimiento
y de recuerdo.
h) H oc 81 : todas las µ + i son iguales ({Jk =O para todo k).
Es decir, el número de aciertos es el mismo después de una hora, después de
un día y después de una semana.
e) H ocABI: µik - µi"k = µi+ - µr+ para todo j.j' y k (o bien, (:xp)ik = O para todo j
y k).
a) FA = 14,53; a') F'A = 8,17
h) F B = 22,36; h') F'B = 18,53
e) FA 8 =2,18; e') F' AB = 5,34
a) FA""' FJ-1.(JK-l)(n-1) = F1.25; a') F'A ""'FJ-1.1J-111n-11 = F1.5
b) FB""FK-1.(JK-l)(n-l)=F2.25; b') F' B ""' F K - 1.(K ·· 1 )In - 1) = F 2.1 O
e) FAB""' F(J- l)(K-1).(JK- l)(n-1) = F2.25; e') F'AB""' F(J- l)(K-1).(J- l)(K- l)(n-1) =
= F2.10;
4. Regiones críticas:
a) FA ~ o.95F i.2s = 4,24; a') F' A ~0 . 95 F 1. 5 = 6,61
b) FB ~ 0.95F 2,25 = 3,39; b') F'B ~ 0.95F2.IO = 4,10

e) F AB ~ o.95F 2.2s = 3,39; e') F'AB ~ o.9sF2.10 = 4,10
5. Decisiones:
a) La hipótesis relativa al efecto del factor A la rechazamos tanto con FA
(14,53 > 4,24) como con F'A (8,17 > 6,61). Concluimos que el efecto del factor
A es significativo: el número de errores es mayor bajo condiciones de recuer-
do que bajo condiciones de reconocimiento.
b) La hipótesis relativa al efecto del factor B también la rechazamos tanto con F 8
(22,36 > 3,39) como con F' 8 (18,53 > 4,10). Concluimos que el efecto del factor
B es significativo: el número de errores depende del intervalo temporal en el
que se efectúa la tarea de memorización.
e) Por último, la hipótesis relativa a la interacción AB no la rechazamos con el
estadístico FA 8 (2,18 < 3,39), pero sí con el estadístico F'A 8 (5,34 > 4,10). Un
estudio de la significación de las interacciones tratamientos-bloques mediante
la prueba de no-aditividad de Tukey (ver San Martín y Pardo, 1989, págs. 214-
217) podría ayudarnos decidir cuál es el estadístico que aquí conviene utilizar.
7.6.2. Medidas repetidas en un solo factor
En el diseño que ahora nos ocupa, a todos los sujetos se les aplican todos los
niveles de uno de los factores, pero un solo nivel del otro factor. Por tanto, uno de
los dos factores es intrasujetos y el otro intersujetos. A este tipo de diseños suele
llamárseles mixtos y, también, split-plot.
a) Estructura de los datos y notación

La tabla 7.20 ofrece una forma útil de disponer los datos. Y¡ik se refiere a la
puntuación obtenida en la variable dependiente Y por el i-ésimo sujeto del grupo j
bajo la combinación de tratamientos jk (es decir, bajo el nivel j del factor A y el
nivel k del factor B). Consideraremos el factor A como intersujetos y el B como
intrasujetos. De ahí que utilicemos el mismo subíndice U) para referirnos tanto a los
niveles del factor A como a los diferentes grupos de sujetos que intervienen en el
diseño (pues habrá tantos grupos de sujetos como niveles tenga el factor inter-
suje•os). Suponemos igual número (n) de sujetos en todos los grupos.
TABLA 7.20
Estructura de los datos y notación correspondientes a un diseño de dos factores
mixto o sp/it-p/ot (factor A intersujetos y factor B intrasujetos)
A, A; A¡
Sujetos B, B• BK Sujetos B, B• BK Sujetos B, B• BK
s,, Y111 ... Y, ,k

... Y,,K s,j yljl ... yljk
.. . yljK s,J YIJI
... YIJk
. .. Y1JK
S2, Y211 ... Y21k
... Y21K S2; yljl
... yljk Y2jK S21 Y211
... Y21k
.. . Y2JK
... ... ... ... ... ... ... .. . ... .. .
S;, Y;ll ... Y¡lk
... Y¡IK S;j Y;jl Y¡jk
... Y¡jK S;1 Y¡¡, ... Y¡Jk
.. . Y¡JK
... ... ... ... ... .. . ... ... ... .. .
s., Y.11 ... Y,, 1k
... 1
Y,, K s.j Ynjl Y,,jk
... Y,,jK s.1 Y.11 ... Y,,Jk
... Y,,JK
La notación para identificar cada elemento de la tabla es similar a la ya

utilizada en el resto de los modelos de ANOVA. Como novedad, S 11 , S 21 , ••• ,
S¡,, ... , s.,. representan a los n sujetos del primer grupo (sujetos a los que se les aplica
sólo el nivel 1 del factor intersujetos A y todos los niveles del factor intrasujetos B).
De forma genérica, S 1 J.• S2 J..... , S¡,J ... ,s.,J representan a los n sujetos del grupo j
(sujetos a los que se les aplica sólo el nivel j del factor intersujetos A y todos los
niveles del factor intrasujetos B). Sumando las puntuaciones de una o más casillas
obtenemos algunos totales y subtotales necesarios para el cálculo de las sumas de
cuadrados que veremos a continuación:
Y= T/(nJK) i = 1,2, ... ,n

i j k
T +j + = LL yijk
i k
Y+i+ = T+i+/(nK) j = 1,2, ... ,J
T + +k = Li L yijk
j
y+ + k = T + + k/( N J) k = 1,2, .. .,K
Tij+ L yijk
=
k
J = número de niveles del factor A
T +jk = L yijk Y+ ik = T + ik/n K = número de niveles del factor B

ni= n = número de sujetos en cada
grupo
N=nJK
b) El modelo y los supuestos

En el modelo que nos ocupa cada observación Y¡ik se hace depender de los
siguientes términos:
(7.42)
Todos los términos del modelo (7.42) y los supuestos relacionados con ellos han
sido ya definidos al estudiar otros modelos de ANOVA. A los supuestos habituales
(independencia entre las observaciones del mismo grupo, y normalidad y homoce-
dasticidad en las poblaciones de origen) hay que añadir que las covarianzas
poblacionales entre los pares de niveles del factor intrasujetos B (ukk') se suponen
iguales dentro de cada una de las J poblaciones definidas por los niveles del factor
intersujetos A.
e) Los estadísticos de contraste
La variación total o suma de cuadrados total (sen. en este modelo, puede

descomponerse en dos partes: variación entre sujetos diferentes o suma de cuadra-
dos intersujetos (SCinter) y variación dentro de los mismos grupos de sujetos o
suma de cuadrados intrasujetos (SCintra). En la suma de cuadrados intersujetos
está presente la variación entre los niveles del factor A (SCA) y entre los sujetos
dentro de cada grupo (SCS). La suma de cuadrados intrasujetos, a su vez, puede
descomponerse en las sumas de cuadrados correspondientes ál efecto del factor B
(SC B), al de la interacción entre los factores A y B (SCAB) y al de la interacción
entre el factor B y la variación entre los sujetos a través de los grupos
(SC(B X S)):
SCT = LLL Ylk - T 2 /N

i j k
SCinter = LL Tl+/K - T 2 /N
i j
ses = L. L. T¡}+I K - L. TJ j+/(nK)

i j
(7.43)
SCintra = LLL Ylk - LL Tl+/K
i j k i j
SCB = L T¡ +k/(nJ) - T 2 /N
k
SCAB = LL T¡ik/n - L T¡i+/(nK) - L T¡ +k/(nJ) + T 2 /N

j k j k
SC(B x S) = LLL Y¡]k - LL ~+/K - LL T!i,Jn + L T!i+/(nK)

ijk ij jk j
Cada una de las fuentes de variación descritas lleva asociados los siguientes
grados de libertad:
SCT: N-1
SC/nter: nJ - 1
SCA: J-1
ses: J(n - 1) (7.44)
SC/ntra: nJ(K - 1)
SCB: K-1
SCAB: (J - l)(K - 1)
SC(B X S): J(K - l)(n - 1)
Las medias cuadráticas que se obtienen con estos grados de libertad y sus
correspondientes valores esperados se muestran en la tabla 7.21.
TABLA 7.21
Medias cuadráticas y valores esperados en el modelo de dos factores con medidas
repetidas en un solo factor
A SCA/(J - 1) a2 + Ka~ + nKa;

Sujetos SCS/[J(n - !)] a2 + Ka~
B SCB/(K - 1) a2 + a~s + nJ a~
AB SCAB/[(J - l)(K - I)] a2 + a~s + na;p
B x Sujetos SC(B x S)/[J(K - l)(n - !)] a2 + a~·s
De la tabla de valores esperados se deduce que, para conseguir aislar cada

efecto, el efecto del factor A debe ser contrastado mediante el cociente entre su
media cuadrática (MCA) y la media cuadrática de los sujetos (MCS). Pero el efecto
del factor B y el de la interacción AB ha de ser contrastado utilizando
MC(B x S). Obtenemos así los siguientes estadísticos de contraste:
FA= MCA/MCS
FB = MCB/MC(B X S) (7.45)
FAB = MCAB/MC(B X S)
todos los cuales se distribuyen según el modelo de probabilidad F con los grados de
libertad correspondientes al numerador y al denominador de cada cociente F. En la
tabla 7.22 se presenta la tabla resumen de ANOV A con los cálculos relacionados
con este modelo.
(f') Ediciones Pirámide
d) lA tabla resumen de ANOVA
La tabla 7.22 ofrece un resumen con Ja información necesaria para Ja obtención

de los estadísticos de contraste.
TABLA 7.22
ANOVA de dos factores, de efectos fijos, con medidas repetidas en un solo factor:
tabla resumen
FV se g/ Me F
Intersujetos Se/nter nJ - 1
SCA MeA
Factor A Se A J-1
J - 1 Mes
ses
Sujetos ses J(n - 1)
J(n - 1)
Intrasujetos Se/ntra nJ(K- 1)
SeB MeB
Factor B SeB K-1
K-1 MC(B X S)
SeAB MeAB
Interacción AB SeAB (J - l)(K - 1)
(J - l)(K - 1) MC(B x S)
SC(B X S)
B x Sujetos SC(B X S) J(K - 1)(n - 1)
J(K - l)(n - 1)
Total SeT N-1
e) Resumen del procedimiento
El cuadro 7.3 recoge el resumen del ANOVA AB-EF-MR, con medidas repeti-
das en un solo factor, siguiendo el esquema habitual.
CUADRO 7.3
ANO VA de dos factores, de efectos fijos, con medidas repetidas en un solo factor.
1. Hipótesis: las mismas que para el modelo de dos factores completamente aleatori-
zado: How• H 0181 y H 01 A 81 (ver, en este mismo capítulo, el apartado 7.2.5).
CUADRO 7.3. (continuación)
2. Supuestos:
a) Todos los del diseño completamente aleatorizado de dos factores: independen-
cia entre las n observaciones de cada grupo, y normalidad y homocedasticidad
en las poblaciones de origen.
b) Las covarianzas poblacionales entre niveles del factor intrasujetos (factor 8)
son iguales dentro de cada nivel del factor intersujetos (factor A).
a) FA= MCA/MCS
b) FAB = MC8/MC(8 X S)
e) F AB = MCA8/MC(8 x S)
a) FA :::>: F J- l.JI• - 1 1
b) FB '.:>: F K-1.J(K- l)(n-1)
e) FAB :::>: F(J-l)(K-1).J(K- l)(n-lJ
5. Regiones críticas: para cada estadístico, la región crítica está formada por todos
los valores mayores o iguales que el cuantil 1 - oc de su correspondiente distribu-
ción muestral.
6. Decisión: Se rechaza H OIAJ• H 018 ¡ o H OIABJ si los estadísticos FA• F 8 o F AB caen en

sus respectivas zonas críticas. En caso contrario, se mantienen.
Si rechazamos H 01 A 1, concluiremos que no todas las µi+ son iguales y que, por
tanto, existen diferencias entre los niveles del factor A. Si rechazamos H 018¡, concluire-
mos que no todas las µ+k son iguales y que, por tanto, existen diferencias entre los
niveles del factor 8. Si rechazamos H 1ABJ• concluiremos que el efecto de la interacción
entre los factores A y 8 es significativo, es decir, el efecto de A sobre Y no es el mismo
en todos los niveles de 8.
EJEMPLO 7A. En un estudio sobre memoria se registró el número de errores de 4

sujetos bajo condiciones de reconocimiento (A 1) y de otros 4 sujetos bajo condiciones
de recuerdo (A 2 ). Estos registros se efectuaron en distintos intervalos temporales
(8 1 : después de una hora; 8 2 : después de un día; 8 3 : después de una semana; 8 4 :
después de un mes). Los resultados obtenidos aparecen en la tabla 7.23. A partir de
esos datos, ¿qué podemos concluir acerca de la influencia de las variables mencionadas
sobre el número de errores de los sujetos? (oc= 0,05).
TABLA 7.23
A, A,
B, B, B, s. B, B, B_, s.
s, 3 4 7 7 Ss 1 2 5 10
S2 6 5 8 8 So 2 3 6 10
s, 3 4 7 9 s, 2 4 5 9
S4 3 3 6 8 Ss 2 3 6 11
Comenzamos obteniendo los totales y subtotales necesarios para el cálculo de las

sumas de cuadrados:
Tii+:
i= 1 i = 2 i = 3 i =4 T +i+
j = 1 21 27 23 20 91
j=2 18 21 20 22 81
T;+ + 39 48 43 42 172 = T
T +ik:
k = 1 k=2 k=3 k=4 T +i+
j = 1 15 16 28 32 91
j=2 7 12 22 40 81
T+ +k 22 28 50 72 172 = T
LLL Yfjk = 1.160 T 2 /N = (172 2 /32) = 924,50

i j k
¿ nj+ = 14.842 ¿ n +k = 8.952

k
LL Tfj+ = 3.748 I I T2..jk = 4.566

i j j k
SCT = 1.160 - 924,50 = 235,50

SC/nter = (3.748/4) - 924,50 = 12,50
SCA = (14.842/16) - 924,50 = 3,125
ses= (3.748/4) - (14.842/16) = 9,375
SC/ntra = 1.160 - (3.748/4) = 223
SCB = (8.952/8) - 924,50 = 194,50
SCAB = (4.566/4)- (14.842/16)- (8.952/8) 19,375 + 924,50 =
SC(B X S) = 1.160 - (3.748/4) - (4.566/4) + (14.842/16) = 9,125
A partir de estas sumas de cuadrados podemos empezar a construir la tabla

resumen de ANOVA (tabla 7.24) y plantear las hipótesis para tomar una decisión
sobre ellas.
TABLA 7.24
FV se g/ MC F
In ter 12,500 7
A 3,125 1 3,125 2,00
Sujetos 9,375 6 1,563
lntra 223,000 24
B 194,500 3 64,833 127,88
AB 19,375 3 6,458 12,74
B x Sujetos 9,125 18 0,507
Total 235,500 31
l. Hipótesis:
a) H ocA>: todas las µi+ son iguales (0i:i = O para todo j).
Es decir, el número de errores es el mismo en condiciones de reconocimiento
y de recuerdo.
h) H 018¡: todas las 11 + i son iguales ({Jk =O para todo k).
Es decir. el número de errores es el mismo después de una hora, después de
un día, después de una semana y depués de un mes.
e) H ocAB>: 11ik - l'rk = Jli+ - l'r + para todo j.j' y k (o bien, (Ol'.fl)ik =O para todo j
y k).
a) FA= 2,00
h) FB = 127,88
e) FAB= 12,74
a) FA ~ FJ _ 1.J(n _ 1 l = F 1.ó
h) FB ~ FK-l.JIK-l)(n-1) = FJ.18
e) FAB ~ F¡J-l)(K-1).J(K-l)(n-I) = F3.IB
4. Regiones críticas:
a) FA~ 0 . 95 F 1 . 6 = 5,99
b) FB ~ 0.95F3.!8 = 3,16
e) FAB ~ o,9sFJ.1s = 3,16
5. Decisiones:
a) Como FA = 2,00 < 5,99, mantenemos la hipótesis relativa al efecto del fac-
tor A. Concluimos que el número de errores es el mismo en condiciones de
reconocimiento y recuerdo.
h) Como F 8 = 127,88 > 3,16 rechazamos la hipótesis relativa al efecto del factor B.
Concluimos que el efecto del factor B es significativo: el número de errores
depende del intervalo temporal en el que se efectúa la tarea de memorización.
e) Por último, como F AB = 12,74 > 3,16 rechazamos la hipótesis relativa al efecto
de la interacción AB.
7.6.3. Comparaciones múltiples
Los procedimientos de comparaciones múltiples descritos en el apartado 7.3 a

propósito del ANOV A de dos factores completamente aleatorizados no son fácil-
mente trasladables a los modelos de medidas repetidas. En los diseños de medidas
repetidas es necesario utilizar procedimientos capaces de controlar la tasa de error
en condiciones de no circularidad.
a) Medidas repetidas en ambos factores
En un diseño de dos factores con medidas repetidas en ambos, los niveles de

cada factor (los niveles de los efectos principales) pueden compararse utilizando la
prueba T para dos medias relacionadas junto con la corrección de Dunn-Bonferroni
para ejercer control sobre rJ.p (ver, en el apéndice 6, el apartado sobre los diseños
de medidas repetidas). Utilizando esta estrategia, consideraremos que dos medias
difieren significativamente (es decir, rechazaremos la hipótesis nula H 0 : µi = µr) si
la diferencia en valor absoluto entre dos medias es mayor que:
(7.46)
donde t es un valor de la tabla de Dunn-Bonferroni (tabla H del apéndice final);

v = número de comparaciones llevadas a cabo; n = número de sujetos que inter-
vienen en el diseño; y Sn =desviación típica insesgada de las diferencias entre cada
dos niveles. Lógicamente, para comparar, por ejemplo, las J medias de los niveles
del factor A, es necesario promediar las K puntuaciones de cada sujeto en el factor
B (y viceversa).
Las medias de las casillas pueden compararse siguiendo idéntico razonamiento.
Ahora bien, al comparar las medias de las casillas, pueden seguirse distintas estra-
tegias: pueden compararse las medias de los niveles de A en cada nivel de B, pue-
den compararse las medias de los niveles de B en cada nivel de A, o pueden
compararse las medias de todas las casillas entre sí. Dependiendo de la estrategia
elegida, el número de comparaciones será uno u otro y, por tanto, será necesario
prestar especial atención al valor de v en [7.46], que se refiere justamente al nú-
mero de comparaciones que se están llevando a cabo.
EJEMPLO 7.5. En el ejemplo 7.3 (un diseño de dos factores con medidas repeti·
das en ambos) hemos rechazado la hipótesis nula referida al efecto del factor B. Re-
cordemos que ese factor tenía tres niveles: 1 = «una hora», 2 = «un día», y 3 = «una
semana». Vamos a averiguar entre qué niveles existen diferencias. Para resolver la
ecuación [7.46], comenzamos obteniendo, para cada sujeto, una única puntuación en
cada nivel del factor B (promediando sus puntuaciones en A 1 y A 2 : tabla 7.25.b). A
continuación-, obtenemos las diferencias entre cada: dos niveles (tres grupos de dife-
rencias: 1-2, 1-3 y 2-3) y las medias y desviaciones típicas insesgadas de cada grupo
de diferencias (tabla 7.25.c):
TABLA 7.25.a
Puntuaciones originales
A, A,
8, 8, 83 8, 8, 83
s, 4 5 7 1 4 2
S2 6 8 10 3 6 6
S3 1 6 5 3 5 4
S4 2 10 12 1 4 7
Ss 5 10 10 5 6 5
s6 1 7 8 2 8 7
TABLA 7.25.b TABLA 7.25.c

Medias: (A 1 + A 2 )/2 Diferencias entre niveles
Medias Diferencias: D; = 8, - 8,.
B, B, 83 1-2 1-3 2-3
2,5 4,5 4,5 -2,0 -2,0 o.o

4,5 7,0 8,0 -2,5 -3,5 -1,0
2,0 5,5 4,5 -3,5 -2,5 1,0
1,5 7,0 9,5 -5,5 -8,0 -2,5
5,0 8,0 7,5 -3,0 -2,5 0,5
1,5 7,5 7,5 -6,0 -6,0 o.o
-3,75 -4,08 -0,33
1,64 2,40 1,25
Con oc = 0,05 y teniendo en cuenta que estamos efectuando v = 3 comparaciones

(con 6 sujetos por comparación), obtenemos 0 •975 t 3 •5 = 3,53 (tabla H del apéndice
final). Con estos resultados podemos ya obtener el valor de la DMS 08 para cada
grupo de diferencias:
DMS0 a(l-2) = 3,53(1,64)/j6 = 2,36
DMS0 a(l-3) = 3,53(2,40)/j6 = 3,46
DMS0 a(2-3) = 3,53(1,25)/j6 = 1,80
Comparando cada D en valor absoluto con su correspondiente DMS 08 podemos

concluir que la media del nivel 1 difiere significativamente de las medias de los ni-
veles 2 y 3, y que entre las medias de los niveles 2 y 3 no existen diferencias signi-
ficativas.
b) Medidas repetidas en un solo factor
En los diseños mixtos o split-plot (un factor intrasujetos y otro intersujetos), los
niveles del factor intrasujetos pueden compararse utilizando el procedimiento des-
crito en el apartado anterior. Únicamente hay que tener en cuenta que, en la ecua-
ción [7.46], n se refiere al número de sujetos que intervienen en el diseño: puesto
que en un diseño split-plot tenemos J grupos de tamaño n, el valor de n en la
ecuación [7.46] debe sustituirse por nJ (pues nJ son las puntuaciones utilizadas
para obtener las medias de cada nivel del factor intrasujetos) 6 .
Los niveles del factor intersujetos no están afectados por el supuesto de circu-
laridad, de modo que pueden compararse mediante cualquiera de los procedimien-
tos estudiados para efectuar comparaciones múltiples en un diseño de un factor
completamente aleatorizado (ver apartados 6.3, 6.4 y apéndice 6). Únicamente hay
que tener en cuenta si se cumple o no el supuesto de homocedasticidad y tomar
la precaución de utilizar la media cuadrática error apropiada (MCS) y los grados
de libertad asociados a ella (J[n - 1]).
Para comparar las medias de las casillas podemos centrarnos en los contrastes
que suelen resultar de mayor utilidad e interés en este tipo de diseños: los referidos
a los efectos simples. Es decir, los contrastes que permiten comparar las medias de
los niveles del factor A en cada nivel del factor B, o las medias de los niveles de B
en cada nivel del factor A.
Al comparar por pares los niveles de A (factor intersujetos) en cada nivel de
B (factdt intrasujetos) estamos contrastando hipótesis del tipo:
Ho<AIB•>: Lh(AIB1) = /Ljl - µj'l =o (para todo j y j')

Ho<AIB»: Lh(AjBz) = µj2 - µj'2 =o (para todo j y j')
(7.47)
HO(AjB.): Lh<AIB·> = µjK - µj'K =o (para todo j y j')
Cada una de estas hipótesis incluye h = J(J - 1)/2 sub-hipótesis: una por cada
comparación entre las J medias del factor A. Para contrastar estas hipótesis puede
seguirse la estrategia recomendada por Kirk (1982, págs. 508-509) y Toothaker
6 Keselman (1994) ha estudiado el comportamiento de 25 procedimientos de comparaciones múltiples

(todos ellos aplicables a diseños de medidas repetidas) para concluir recomendando la utilización del es-
tadístico KKS (Keselman, Keselman y Shafer, 1991) junto con una estrategia por pasos propuesta por
Welsch (1977).
(1991, págs. 134-136), que consiste en utilizar una estimación conjunta de la va-
rianza poblacional a partir de una combinación ponderada de las dos medias cua-
dráticas error disponibles. Utilizando el procedimiento de Tukey, por ejemplo,
decidiremos que dos medias Yik e Yi'k difieren significativamente (y, en consecuencia,
rechazaremos la correspondiente hipótesis nula) si el valor absoluto de la diferencia
es mayor que:
-
DMSTukcy(A\B.J - qcrílico Jn
ft AIB. (7.48)
donde:
_ l-2q2.J(n-l)MCS + l-2q2.J(K-l)(n-l)MC(B X S}(K - 1)

qcrílico - MCS + MC(B X S)(K - 1)
ses + SC(B x S)
ft A\B, =
J(n - 1) + J(K - l)(n - 1)
Al comparar por pares los niveles de B (factor intra) en cada nivel de A (factor
inter) estamos contrastando hipótesis del tipo:
Ho<B[A1): Lh(B\Ad = µlk - µlk' = o (para todo k y k')

Ho(B[A2): Lh(B\Ai) = µ2k - µ2k' = o (para todo k y k') (7.49)
Ho<B\A,J: Lh(B\A,) = µJk - µJk' = o (para todo k y k')

Estas hipótesis (cada una de las cuales incluye h = K(K - 1)/2 comparaciones)
pueden contrastarse siguiendo la estrategia ya recomendada para comparar medidas
repetidas: la prueba T para dos muestras relacionadas junto con la corrección de
Dunn-Bonferroni para controlar rJ.F.
EJEMPLO 7.6. En el ejemplo 7.4 hemos rechazado la hipótesis nula referida al

efecto del factor B y al efecto de la interacción AB. Recordemos que el factor B tenía
4 niveles: B 1 =«después de una hora», B 2 =«después de un día», 8 3 =«después de
una semana» y 8 4 = «después de un mes». Vamos a averiguar entre qué niveles exis-
ten diferencias. Para ello, puesto que se trata de un factor intrasujetos (es decir, de
medidas repetidas), comparamos cada par de niveles utilizando la prueba T para
muestras relacionadas junto con la corrección de Dunn-Bonferroni para controlar rx.F.
Comenzamos obteniendo, para cada sujeto, la diferencia entre las puntuaciones de cada
par de niveles del factor B (puesto que el factor B tiene 4 niveles, debemos obtener
6 grupos de diferencias: 1-2, 1-3, 1-4, 2-3, 2-4 y 3-4) y las medias y desviaciones
típicas insesgadas de cada grupo de diferencias (tabla 7.26.b):
TABLA 7.26.a
Puntuaciones oriyinales
81 B, B, B.
S1 3 4 7 7
A1
s, 6 5 8 8
S3 3 4 7 9
S4 3 3 6 8
Ss 1 2 5 10
A, s. 2 3 6 10
S7 2 4 5 9
s 2 3 6 11
"
TABLA 7.26.b
Diferencias entre los niveles de B ( D; = Bk - Bk.)
1-2 1-3 1-4 2-3 2-4 3-4
-1,0 -4,0 -4,0 -3,0 -3,0 0,0

1.0 -2.0 -2,0 -3,0 -3,0 0,0
-1.0 -4,0 -6,0 -3,0 -5,0 -2,0
0,0 -3,0 -5,0 -3,0 -5,0 -2,0
-1,0 -4,0 -9,0 -3,4 -3,4 -8,0

-1,0 -4,0 -8,0 -3,0 -7,0 -4,0
-2,0 -3,0 -7,0 -1,0 -5,0 -4,0
-1,0 -4,0 -9,0 -3,0 -8,0 -5,0
[) -0,75 -3,50 -6,25 -2,75 -5,50 -2,75
s,, 0,886 0,756 2,493 0,707 2,000 2,053
Utilizando :x = 0,05, y teniendo en cuenta que estamos efectuando 6 comparaciones

(con 8 sujetos por comparación), obtenemos omst 6 • 7 = 3,64 (tabla H del apéndice
final). Con este resultado y los de la tabla 7.26.b podemos calcular el valor de la
DMS¡¡u para cada grupo de diferencias (ecuación [7.46]):
DMSm/J-2) = 3,64(0,886)/jS = 1,14

DMS¡¡u(l-3) = 3,64(0,756)/jS = 0,97
DMS/)u(l-4) = 3,64(2,493)/jS = 3,21
DMS/)u(2-3) = 3,64(0,707)/jS = 0,91
DMS/)u(2-4) = 3,64(2,000)/jS = 2,57
DMS/)u(3-4) = 3,64(2,053)/jS = 2,64
Comparando cada D con su correspondiente DMS 08 , podemos concluir que todos

los promedios comparados (excepto el 1-2) difieren significativamente. Podemos afir-
mar que el paso del tiempo (factor B) va haciendo que se incremente de forma sig-
nificativa el número medio de errores cometidos.
Para comparar las medias de las casillas, podemos centrar nuestra atención en las
comparaciones referidas a las medias de los efectos simples. Si comparamos los dos
niveles del factor A en cada nivel del factor B, tendremos que efectuar
KJ(J - 1)/2 = 4(2)( 1)/2 = 4 comparaciones. Si comparamos los niveles del factor B en
cada nivel del factor A, tendremos que efectuar JK(K - 1)/2 = 2(4)(3)/2 = 12 compa-
raciones.
Dadas las características de los dos factores, parece más lógico comparar los ni-
veles de A (factor intersujetos) en cada nivel de B (factor intrasujetos), para lo cual
utilizaremos la ecuación [7.48]. Recordemos (ejemplo 7.4, tabla 7.24) que:
ses= 9.375 J(n - 1) = 2(3) = 6 MCS = 1,563

SC(B X S) = 9,125 J(K - l)(n - 1) = 2(3)(3) = 18 M C(B X S) = 0,507
Teniendo en cuenta que: 1-.q2,1cn-ll = o.<Jsq2,6 = 3,46 Y 1-.q2,11K-l)(n-1¡ =

= = 2,97, tenemos todo lo necesario para obtener el valor de la ecuación
0 , 95 q 2 , 18
[7.48]:
l -•q2,J(n- l)MCS + l -•q2,J(K- l)(n- l)MC(B X S)(,K - 1)

qcrílico = MCS + MC(B X S)(K - 1)
3,46(1,563) + 2,97(0,507)(4 - 1)
= = 322
1,563 + 0,507(4 - 1) '
ses + sqB x s) 9,357 + 9,125

¡:¡ AIB· =
J(n - 1) + J(K - l)(n - 1) 2(3) + 2(3)(3) = 0•8775
Este valor ( 1.41) es con el que debemos comparar la diferencia entre A 1 y A 2 en

cada nivel del factor {l. La tabla 7.27.a recoge las medias de cada casilla y la tabla
7.27.b las diferencias A 1 - A 2 en cada nivel del factor B.
TABLA 7.27.a TABLA 7.27.b

Medias de las casillas AjBk Diferencias A 1 - A 2 en cada Bk
8, 82 8, 84 8, 82 8, 8,
A, 3,75 4,00 7,00 8,00 ¡A, - A 2 2,00 1,00 1,50 -2,00
A, 1,75 3,00 5,50 10,00
«:J Ediciones Pirámide

Vemos que las medias de A 1 y A 2 difieren significativamente en todos los niveles

de B excepto en el 2. Así pues, aunque la F global del ANOVA (ejemplo 7.4) nos
dice que los promedios de A 1 y A 2 no difieren (pues hemos mantenido la hipótesis
nula referida al efecto del factor A), lo cierto es que esta ausencia de diferencias sólo
se da en la condición 2 del factor B. En las condiciones B 1 , B 2 y B 3 , las medias de
A 1 son significativamente distintas de las de A 2 •
Comprenderemos mejor lo que está pasando si utilizamos un gráfico de líneas para
representar el efecto de la interacción. La figura 7.4 muestra una representación gráfica
de las medias de las casillas. Vemos que el número medio de errores va creciendo
con el paso del tiempo (efecto del factor B), pero de forma desigual para las condi-
ciones de reconocimiento y recuerdo (efecto de la interacción): mientras que en las
condiciones B 1 , B 2 y B 3 las medias de A 1 son más altas que las de A 2 (en las
condiciones B 1 y B 3 , significativamente más altas), en la condición B 4 la media de
A 1 es significativamente más baja que la de A 2 •
10
8
"'
..~
-a 6
.
.5!
-a
E
4
~
.§
z 2 Factor A:
..... Reconocimiento
- • · Recuerdo
o
Una hora Un día Una semana Un mes
Factor B: tiempo transcurrido
Figura 7.4.-Representación gráfica del efecto de la interacción AB (medias de las casillas).
EJERCICIOS
7.1. En la tabla 7.28 aparecen los promedios poblacionales correspondientes a un diseño
equilibrado de dos factores (A y B), de efectos fijos, completamente aleatorizados:
TABLA 7.28
B,
JO 12 14 12
16 10 10 12
13 11 12

a) ;,Existe efecto del factor A?

h) ;,Existe efecto del factor B?
e) ;,Existe efecto de la interacción A8?
Justifique estadísticamente las respuestas.
7.2. (Señale la alternativa correcta.) En un análisis de varianza en el que el factor A es de

efectos fijos y el 8 de efectos aleatorios:
a) La población de niveles de A se considera infinita, la de 8 finita.
h) MC.4 es un estimador insesgado de a 2 si no hay efecto de la interacción.
e) .'WC8 es un estimador insesgado de a 2 si no hay efecto de 8.
d) Si se replicara el experimento deberían mantenerse los mismos niveles tanto de A
como de 8.
d MC A y MC8 son siempre estimadores insesgados de a 2 •
7.3. El director de un colegio desea saber si la experiencia educatir'a del profesor (factor A) y
tres métodos 1/if"ere11tes de e11seiia11:::a (factor 8) afectan al rendimiento en una determinada
asignatura. Los niveles de experiencia educativa estudiados fueron: A 1 = dos años o menos y
A 2 =más de dos años. Y los métodos de enseñanza: 8 1 =tradicional, 8 2 =tutoría) y
B.1 = programado. Tras el periodo de aprendizaje se tomaron al azar dos sujetos de cada
combinación experiencia-método y se obtuvieron los resultados que aparecen en la tabla 7.29.
;.Qué concluirá el director del colegio, con un nivel de confianza de 0,95?
TABLA 7.29
81 82 83
1 4 8
A1 10
3 3
2 5 9
A1
1 6 8
7.4. ¿Cuál es la magnitud del efecto del factor 8 en el diseño experimental del ejercicio 7.3?
Es decir, ¿qué proporción de la varianza del re11dimie1110 está explicada por el tipo de método
utilizado?
7.5. Para estudiar el efecto de cierta proteína sobre la actividad motora de las ratas, un
investigador seleccionó un grupo de 45 ratas y las distribuyó aleatoriamente en tres grupos
de igual tamaño. A cada grupo le aplicó durante una semana una de tres dietas distintas
(factor A), cada una de ellas con diferente contenido de la proteína en cuestión. Por
sospechar que el sueño también podría influir en la actividad motora de las ratas, el
investigador manipuló el número de horas dormidas diariamente por cada rata (factor 8),
dejando dormir 2 horas o menos a unas, entre 2 y 4 horas a otras, y más de 4 horas al resto.
Al final de la semana de tratamiento contabilizó el número de respuestas emitidas por cada
rata en una caja de ensayo durante 3 minutos y obtuvo los resultados que aparecen en la
tabla 7.30. ¿Podemos concluir que el tipo de dieta y el número de horas dormidas afectan a la
actividad motora de las ratas? (!X = 0,05).
TABLA 7.30
Número de horas dormidas
2 o menos Entre 2 y 4 4 o mús
8 10 5
12 8 2
Dieta 1 6 12 10
IO 4 2
9 6 6
13 5 4
9 12 8
Tipo de
dieta
Dieta 2 8 8 o
14 16 1
6 14 7
12 16 11
23 8 9
Dieta 3 17 10 7
9 6 6
14 20 12
7.6. Utilizando los datos del ejercicio 7.5, lleve a cabo los contrastes a posteriori pertinentes
para determinar entre qué niveles de los tratamientos existen diferencias significativas.
7.7. Se ha diseñado un experimento para estudiar el efecto de la intensidad luminosa de un

estímulo (factor A) y el color del mismo (factor 8) sobre el tiempo de reacción. Se han
establecido dos niveles de intensidad (A 1 = alta, A 2 = baja). Y se han utilizado tres colores
diferentes (8 1 =blanco, 8 2 =rojo, 8 3 =azul). A cada una de las condiciones experimentales
se han asignado 4 sujetos. Los resultados obtenidos aparecen en la tabla 7.31. Con un nivel
de confianza de 0,95, ¿qué podemos concluir acerca de la influencia de los dos factores
mencionados sobre el tiempo de reacción de los sujetos? (La variable dependiente viene
expresada en centisegundos.)
TABLA 7.31
Color del estimulo
Blanco Rojo Azul
28 30 29
24 26 21
Alta
27 28 28
Intensidad 19 22 30
del
estímulo 32 37 52
40 48 49
Baja
38 39 56
36 42 47
7.8. Utilizando los datos del ejercicio 7.7:

a) Lleve a cabo los contrastes a posteriori oportunos para averiguar entre qué niveles de
los tratamientos o combinación de tratamientos existen realmente diferencias signifi-
cativas.
b) Represente gráficamente e interprete el efecto de la interacción entre la intensidad
luminosa del estímulo y su color.
7.9. ¿Cuál es la magnitud de cada uno de los efectos presentes en el diseño experimental del
ejercicio 7.7? Es decir, ¿qué proporción de la varianza de los tiempos de reacción está
explicada por la intensidad del estímulo, por el color del estímulo y por la interacción
intensidad-color?
7.10. En un estudio sobre aprendizaje animal se ha intentado aclarar el efecto de una

determinada droga y el de la desnutrición proteica sobre el número de ensayos necesarios para
aprender a recorrer un laberinto y encontrar la salida sin errores. Para ello, se seleccionaron
aleatoriamente 36 ratas, de las cuales, durante los días anteriores al experimento, la mitad
recibió una dieta normal (A¡) y la otra mitad una dieta de contenido proteico reducido (A 2 ).
Cada una de estas mitades se dividió aleatoriamente en tres grupos de igual tamaño. A cada
grupo se le suministró, inmediatamente antes de comenzar a trabajar en el laberinto, un nivel
de droga previamente establecido. La tabla 7.32 recoge el número de ensayos requeridos por
cada grupo para aprender a recorrer el laberinto sin errores. Utilizando un nivel de confianza
de 0,95, ¿qué podemos concluir acerca del efecto ejercido por las variables mencionadas sobre
la velocidad de aprendizaje de las ratas?
TABLA 7.32
Cantidad de droga
O mg 100 mg 250 mg
Normal 36 24 18 LLL Yf;t = 1.12u

i j Ir.
Dieta
Reducida 48 36 24 III rijk = 186

i j Ir.
7.11. Con los datos del ejercicio 7.10, lleve a cabo los contrastes a posteriori pertinentes a
fin de determinar dónde en concreto se encuentran las diferencias.
7.12. En un estudio sobre memoria se han obtenido datos utilizando tres tareas diferentes:
1 = números; 2 = palabras sin sentido; 3 = palabras con sentido. El número de aciertos
obtenidos bajo una condición con una muestra de 12 sujetos aparecen en la tabla 7.33.
También recoge la tabla la variable sexo (V= varones; M =mujeres). Tomando como
variables independientes el sexo (factor A) y el tipo de tarea (factor B), utilice el modelo de
ANOVA apropiado para contrastar las hipótesis relativas al efecto del factor A, del factor B
y de la interacción AB (ex = 0,05).
TABLA 7.33
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12
Sexo V V V V V V M M M M M M
Tarea 1 4 2 o 6 6 3 5 9 7 8 9 4
Tarea 2 6 3 1 7 8 5 3 7 6 2 7 2
Tarea 3 5 4 8 9 7 6 2 4 3 1 3 2
7.13. Represente gráficamente el efecto de la interacción del ejercicio 7.12 e interprételo

utilizando la diferencia mínima significativa de Tukey.
7.14. Se desea estudiar si un nuevo tipo de régimen carcelario afecta a la adaptación social
de mujeres en prisión; éste nuevo régimen (al que llamaremos régimen 2), favorece las visitas
de familiares en mayor grado que el sistema actual (régimen 1 ). Por otra parte, se piensa que
la variable procedencia (española, extranjera hispana y extranjera no hispana) también puede
tener relación con la adaptación de las mujeres en prisión. De una cárcel de Madrid se
extrajo una muestra aleatoria de 5 mujeres españolas, otra de 5 extranjeras hispanas y otra
de 5 extranjeras no hispanas. A las 15 mujeres se les pasó una escala de adaptación social
para obtener una medida del grado de adaptación alcanzado con el régimen 1. Tras esto, las
15 mujeres fueron sometidas al nuevo régimen carcelario (régimen 2 ). y transcurridos 3
meses se volvió a pasar a las 15 mujeres la misma escala de adaptación social. La tabla 7.34
recoge los resultados obtenidos. ¿Cuál es el modelo de ANOVA que debe utilizarse, qué
hipótesis deben plantearse y qué decisión debe tomarse respecto a ellas? (:x = 0,05).
TABLA 7.34
Extranjeras Extranjeras
Españolas
hispanas no hispanas
Rég. 1 Rég. 2 Rég. 1 Rég. 2 Rég. 1 Rég. 2
1 9 3 5 5 5
o 8 o 4 2 2
2 10 4 6 3 6
1 6 2 1 1 4
1 12 1 4 4 8
5 45 10 20 15 25
7.15. (Señale la/s alternativa/s correcta/s.) En un diseño completamente aleatorizado, con

J = 3 y K = 2, se obtienen los estadísticos FA• F8 y F AB• y se llevan a cabo unas comparacio-
nes planeadas sobre los niveles del factor A:
a) Si FA es significativa, también lo serán todas las comparaciones planeadas.
b) Si FA no es significativa, puede que lo sea alguna de las comparaciones planeadas.
e) Si una de las comparaciones planeadas es significativa, también lo será F AB·
d) Sólo pueden existir 2 comparaciones independientes entre los niveles de del factor B.
e) Si ninguna de las comparaciones planeadas sobre los niveles de A es significativa,
puede que lo sea FA·
(!~ Ediciones Pirámide

7.16. Señale la/s alternativa/s que considere correcta/s:

a) Si J = 2 y el estadístico FA es significativo, la relación entre el factor A y la variable
dependiente es lineal.
h) Si K = 3 y el estadístico F 8 es significativo, la relación entre el factor B y la variable
dependiente es cuadrática.
e) Si J = 3, el estadístico FA es significativo y el componente cuadrático es no significati-
vo, la relación entre el factor A y la variable dependiente es lineal.
d) Si K = 2 y el estadístico F 8 es significativo, la relación entre el factor B y la variable
dependiente puede ser cuadrática.
e) Si K = 3 y el estadístico F AB es significativo, la relación entre el factor B y la variable
dependiente necesariamente será lineal o cuadrática.
7.17. La tabla 7.35 recoge algunos promedios poblacionales correspondientes a un diseño

completamente aleatorizado. Complete la tabla teniendo en cuenta que debe cumplirse una
única condición: que no exista efecto de la interacción.
TABLA 7.35
B, B, 8-'
..t, 2 ( ) 4
A, o 4 ( )
( J ( )
7.18. Para comprobar si el nivel de ansiedad de ejecución (factor A) y el nivel de dificultad de

la tarea (factor 8) afectan al rendimiento en una tarea visomotora, un psicólogo seleccionó 4
sujetos altos en ansiedad y otros 4 bajos en ansiedad (de acuerdo con las puntuaciones
obtenidas en una· escala de ansiedad) y les presentó, de forma aleatoria, tres tareas de
diferente dificultad (baja. media y alta). Tras evaluar la ejecución de cada sujeto obtuvo los
resultados que aparecen en la tabla 7.36. ¿Qué podemos concluir acerca del efecto de las
variables mencionadas sobre el rendimiento? e~ = 0,05).
TABLA 7.36
Dificultad de la tarea
Baja Media Alta
P, 7 4 6
Alta P2 6 5 8
P3 7 3 6
P4 5 3 5
Ansiedad
p~ 6 9 6
Baja P. 6 8 7
P1 5 7 7
p" 6 8 8
~J Ediciones Pirámide
7.19. Diversos estudios ponen de manifiesto que las enfermedades de tipo alérgico se ven
agravadas por la presencia de fuerte estrés. Además, la época del año parece afectar de forma
decisiva a la gravedad de los trastornos alérgicos. En un estudio concreto se ha utilizado una
muestra aleatoria de 10 pacientes alérgicos (todos con el mismo tipo de alergia), la mitad de
ellos con condiciones de vida calificables de bajo estrés y la otra mitad con condiciones de
vida calificables de alto estrés. Un grupo de especialistas ha evaluado la gravedad de la
alergia de cada paciente (en una escala de O a 10) en los cuatro periodos estacionales:
primarera. rerano. otmio e inl'ierno. Los resultados de esta evaluación aparecen en la tabla
7.37. Seleccione el modelo de ANOVA apropiado para analizar estos datos y tome una
decisión respecto a cada hipótesis (:x = 0,05).
TABLA 7.37
Primavera Verano Otoño Invierno
5 5 5 6
5 2 3 3
Bajo
6 3 4 4
estrés
8 4 7 5
6 1 6 2
7 2 8 5
9 5 5 7
Alto
10 4 9 5
estrés
10 6 6 7
9 3 7 6
7.20. ¡,Qué valor tomarán DMSTukey y DMSScherre si las utilizamos para efectuar comparacio-
nes por pares entre los cuatro periodos estacionales del ejercicio 7.19? ¿A qué conclusiones se
llegará'!
SOLUCIONES
7.1. a) No. :x 1 = 11 1 + - 11 = 12 - 12 =O; :Xz = /lz+ - /1 = 12 - 12 =O.

h) Si. Por ejemplo: /J 1 = 11+ 1 - 11 = 13 - 12 #O.
e) Si. Por ejemplo: (:x{i) 11 =11 11 -11 1 + -11+ 1 +11=10-12-13+ 12#0.
7.2. (',
7.3. ANOVA AB-EF-CA.

FA = 0,33; 0 . 95 F 1.6 = 5,99; mantenemos H D<Ai· Podemos concluir que los años de
experiencia educativa no afectan al rendimiento.
F 8 = 49,75; 0 , 95 F 2 . 6 = 5,14; rechazamos H 0 <81 • Podemos concluir que el rendimiento no
es el mismo con los tres métodos.
FA 8 = 2,08; 0 . 95 F 2 . 6 = 5,14; mantenemos H 0 <111• No existe efecto de la interacción.
Análi~is de varianza de dos factores / 383
7.4. wj = 0,88.

FA = 5,863; 0 . 95 F 2 . 36 ::::: 3,27; rechazamos H oiA>· El tipo de dieta afecta a la actividad
motora de las ratas.
F 8 = 7,806; 0 •95 F 2 • 36 ::::: 3,27; rechazamos H 0181 • El número de horas dormidas afecta a
la actividad motora de las ratas.
F A 8 = 0,576; 0 , 95 F 4 . 36 ::::: 2,64; mantenemos H 0181 . No existe efecto de la interacción.
7.6. 3,51. La actividad motora es mayor con la dieta 3 que con las dietas 1 y 2.
DMSTu1r.ey1A> =
DMSTukeylBl =3,51. La actividad motora es mayor con menos de 4 horas de sueño que
con 4 horas o más.

FA = 109,90; 0 •95 F 1.1 8 = 4,41; rechazamos H 01 A,. La intensidad luminosa del estímulo
afecta al tiempo de reacción.
F 8 = 9,25; 0 •95 F 2 • 18 = 3,55; rechazamos H 0181 . El color del estímulo afecta al tiempo de
reacción.
FA 8 = 4,94; 0 , 95 F 2 . 18 = 3,55; rechazamos H 018,. Existe efecto de la interacción entre la
intensidad luminosa y el color del estímulo.
7.8. a) El factor A sólo tiene dos niveles. No es necesario hacer comparaciones múltiples:
los tiempos de reacción son más cortos cuando la intensidad luminosa es alta.
DMSTukey(Bl = 5,07. Los tiempos de reacción son significativamente más cortos con
el estímulo blanco que con el estímulo azul.
DMST"~"''"'' = 4.07( 15,778/4) 112 = 8.08 (utilizando la distribución multivariada del
rango studenti::.ado ). Interpretamos este efecto en la respuesta b.
b) Para representar gráficamente la interacción comencemos calculando las medias de
cada combinación entre tratamientos. La tabla 7.38 recoge estas medias. A partir
de ellas se ha construido la figura 7.5:
TABLA 7.38
Promedios obtenidos a partir de la tabla 7.31
Color del estímulo
Blanco Rojo Azul
Intensidad Alta 24,5 26,5 27

del
estímulo Baja 36,5 41,5 51
Cuando la intensidad del estímulo es alta (A.), los tiempos de reacción son iguales
ante los estímulos blanco (8 1), rojo (8 2 ) y azul (8 3 ). Pero cuando la intensidad del
estímulo es baja (A 2 ), los tiempos de reacción ante el estímulo azul (8 3 ) son
significativamente más altos que ante los estímulos blanco (8.) y rojo (8 2 ).
>j,
p·,
83
50
40
081
Tiempo 30
de
reacción 20
10
o A
A,
Figura 7.5. Tiempos de reacción medios observados bajo cada combinación de los niveles del factor A
con los niveles del factor 8.
7.9. w~ = 0,69; wi = 0,10; w~ 8 = 0,05.

FA= 12,93; 0 . 95 Fu 0 = 4,17; rechazamos H 01 A» El tipo de dieta afecta a la velocidad
de aprendizaje de las ratas.
F8 = 19, 14; 0 . 95 F 2 . 30 = 3,32; rechazamos H 0181 • La cantidad de droga afecta a la
velocidad de aprendizaje de las ratas.
F A 8 = 0,52; 0 •95 F 2 . 30 = 3,32; mantenemos H 0181 • No existe efecto de la interacción.
7.11. 1,40. Las ratas a las que no se les ha administrado droga (8 1) necesitan
DMSM .... rBI =
más ensayos que las que han recibido 100 mg (82) y éstas más ensayos que las que han
recibido 250 mg (8 3 ).
7.12. ANOVA AB-EF-MR (con medidas repetidas en un solo factor).

FA = 0, 106; 0 . 95 F 1.1o = 4,96; mantenemos H OtAI· Los varones y las mujeres no difieren
significativamente en el número de aciertos obtenidos en las tareas de memoria.
F8 = 0,845; 0 . 95 F 2 . 20 = 3,49; mantenemos H 0181 . El número de aciertos es el mismo en
las tres tareas utilizadas.
F A 8 = 20,41; 0 •95 F 2 • 20 = 3,49; rechazamos H 0181 • Existe efecto de la interacción entre
las variables sexo y tipo de tarea.
7.13. Para representar gráficamente la interacción comencemos calculando las medias de

cada combinación entre tratamientos. La tabla 7.39 recoge estas medias. A partir de
ellas se ha construido la figura 7.6.
DMSTukcytA 8 ¡ =3,67(2,07/6) 112 = 2,16 (utilizando la distribución multivariada del rango

studentizado). Interpretación: mientras en la tarea 1 (8 1 ) las mujeres rinden significati-
vamente mejor que los varones (7 > 3,5), en la tarea 3 (8 3 ) son los varones quienes
rinden mejor que las mujeres (6,5 > 2,5). En la tarea 2 (8 2 ) los varones y las mujeres
no difieren.
Análisis d~ varianza de dos factores / 385
TABLA 7.39
Promedios obtenidos a partir de la tabla 7.33
Tipo de tarea
Tarea 1 Tarea 2 Tarea 3
Varones 3,5 5 6,5

Sexo
Mujeres 7 4.5 2.5
f;i
7
Varones
6
5
Número 4
medio de
aciertos 3
Mujeres
2
o
Tarea 1
Figura 7.6.-Número medio de aciertos obtenidos por los varones y las mujeres en las tres tareas de
memorización (interacción sexo - tipo de tarea).

FA = 2,26; 0 •95 F 2 • 12 = 3,89; mantenemos H O<A>" La variable procedencia no afecta a la
adaptación social de las presas.
F 8 = 62,60; 0 •95 F 1 • 12 = 4,75; rechazamos H 018,. El régimen carcelario afecta a la
adaptación social de las presas.
F AB = 15,65; 0 •95 F 2 • 12 = 3,89; rechazamos H 0 , 81 • Existe efecto de la interacción entre
las variables procedencia y régimen carcelario.
7.15. No existen alternativas correctas.
7.16. Son correctas las alternativas a y c.
7.17. Tabla 7.35 completa, sin efecto de la interacción AB:
B, B, B.,
A, 2 (6) 4 (4)
A, o 4 (2) (2)
(1) (5) (3) (3)

FA = 10,34; 0 , 95 F 1. 6 = 5,99; rechazamos H otAi· La variable ansiedad afecta al rendi-
miento en la tarea visomotora.
F 8 = 2, 16; 0 . 95 F 2 . 12 = 3,89; mantenemos H 0 <81 • La dificultad de la tarea no afecta al
rendimiento en la tarea visomotora.
FA 8 = 20,30; 0 . 95 F2 . 12 = 3,89; rechazamos H 0 <81 • Existe efecto de la interacción entre
las variables ansiedad y dificultad de la tarea.

FA = 11,64; 0 . 95 F 1.s = 5,32; rechazamos H O<AI· La variable grado de estrés afecta a la
gravedad de la alergia.
F 8 = 17,66; 0 . 95 F 3 , 24 = 3,01; rechazamos H 0 <81 . Los periodos estacionales afectan a la
gravedad de la alergia.
FA 8 = 1,04; 0 . 95 F 3 . 24 = 3,01; mantenemos H 0181 . No existe efecto de la interacción
entre las variables grado de estrés y periodo estacional.
7.20. DMSTuke• = 1,56; DMSschdTe = 1.70. Con ambas DMS se llega a la misma conclusión:
la gravedad de la alergia es mayor en primavera que en verano e invierno y mayor en
otoño que en verano.
Introducción al análisis
de regresión y correlación
8
8.1. Introducción.
8.2. Regresión lineal simple.
8.2.1. El modelo de regresión lineal simple.
8.2.2. La ecuación de regresión.
8.2.3. Contraste de hipótesis sobre el parámetro {3.
8.2.4. Regresión lineal en formato ANOVA.
8.3. Correlación lineal simple.
8.3.1. Cuantificación de la relación entre dos variables: el
coeficiente de correlación de Pearson.
8.3.2. Contraste de hipótesis sobre el parámetro pxv.
Apéndice 8.
Contraste de hipótesis sobre /3, - /32 •
Contraste de hipótesis sobre p, - p2 •
Ejercicios.
8.1. Introducción
Los modelos lineales de regresión y correlación son, al igual que los modelos de
ANOVA, versiones concretas del modelo lineal general. Las diferencias entre ellos
son más bien sutiles. En las diferentes versiones del modelo lineal general descritas
en los distintos modelos de ANOVA estudiados, aunque la variable dependiente es,
siempre, una variable cuantitativa (obtenida con una escala de intervalo o razón), la
variable independiente suele considerarse una variable categórica, en el sentido de
que, bien se trata de una variable cualitativa (grupos de sujetos, distintos tratamien-
tos. etc.). bien se trata de una variable cuantitativa de la que únicamente se
consideran unos pocos niveles (unas pocas cantidades de fármaco, unas pocas
intensidades luminosas, unas pocas cantidades de recompensa, etc.). En regresión y
correlación tanto la variable dependiente como la independiente sqn cuantitativas
en sentido estricto: ambas pueden tomar, como valor, cualquier número real. Por
otro lado, mientras en los modelos de ANOV A el énfasis se pone sobre la compara-
ción entre medias, en regresión y correlación el énfasis recae sobre la relación entre
variables (si bien ambas cosas son la misma: si los tratamientos tienen medias
diferentes, las medias están relacionadas con los tratamientos).
En los capítulos 8 y 10 de Análisis de datos en psicología I (Botella, León y San
Martín, 1993) hemos estudiado ya los conceptos de correlación y regresión. No
vamos a repetir aquí, por tanto, lo ya estudiado, excepto en lo fundamental. Ahora
bien, todo lo dicho allí se limita al nivel descriptivo. Ahora vamos a dar un paso
más deteniéndonos en algunos procedimientos para realizar inferencias sobre los
parámetros de los modelos de regresión y correlación.
El análisis de regresión lineal simple es un procedimiento estadístico mediante el
cual podemos predecir el comportamiento de una variable (Y¡), denominada depen-
diente o criterio, basándonos en su relación con una segunda variable (X¡), denomi-
nada independiente o predictora. Si sabemos, por ejemplo, que las variables inteli-
gencia y rendimiento se encuentran relacionadas, podemos utilizar la puntuación de
un sujeto en inteligencia para predecir su rendimiento. El análisis de correlación
lineal simple es un procedimiento estadístico mediante el cual podemos cuantificar
la intensidad y sentido de la relación entre dos variables (X¡ e Y¡). Esa cuantificación
la efectuamos mediante el coeficiente de correlación de Pearson. El análisis de
regresión y el de correlación son complementarios: las predicciones que podemos
~~ Ediciones Pirámide
efectuar mediante el análisis de regresión son tanto mejores cuanto más intensa es
la correlación entre las dos variables; y viceversa, cuanto mejores son las prediccio-
nes que efectuamos, más alta es la correlación entre las variables.
Desde el punto de vista estadístico, el análisis de regresión se diferencia del de
correlación en que en el primero la variable independiente es de efectos fijos y en el
segundo es de e.fectos aleatorios. En la práctica, sin embargo, la distinción habitual
se centra en determinar si el análisis se orienta hacia la predicción (regresión) o
hacia la cuantificación de la relación (correlación).
Al igual que ocurría en los modelos de ANOVA, en los modelos de regresión y
correlación existen parámetros poblacionales desconocidos sobre los que podemos
realizar inferencias. Después de lo estudiado en Análisis de datos en psicología J
sabemos que la ecuación de regresión obtenida mediante el método de mínimos
cuadrados nos ofrece la recta que mejor expresa la relación lineal entre dos
variables (es decir, la recta que mejor se ajusta a la nube de puntos que representa la
relación entre dos variables). En este capítulo estudiaremos si esa recta es lo
hastante huena como para permitirnos efectuar predicciones aceptables en una
variable a partir de la otra (es decir, estudiaremos si las predicciones efectuadas
sobre Y; a partir de X; son mejores que las que podríamos efectuar sin conside-
rar X;).
Además, estudiaremos si la relación entre dos variables (relación que sabemos
que podemos cuantificar mediante el coeficiente de correlación de Pearson) puede
ser considerada significativamente distinta de cero. Es decir, estudiaremos la forma
de contrastar si dos variables, de las que únicamente poseemos información
muestra), se encuentran de hecho relacionadas en la población.
8.2. Regresión lineal simple
8.2.1. El modelo de regresión lineal simple
El modelo de regresión lineal simple no es otra cosa que el modelo lineal general
estudiado en el capítulo 5 (apartado 5.1) adaptado al caso concreto de una variable
independiente y una dependiente, ambas cuantitativas. Llamando X; a la variable
independiente, e Y; a la dependiente, y siendo 11 el número de sujetos en el que se
miden ambas variables, el modelo de regresión lineal simple puede quedar expresa-
do como:
Y; = '.X + {JX; + E; (8.1)
Los términos '.X y p son los parámetros de la recta de regresión: '.X es el origen de
la recta (el punto en el que la recta corta el eje de ordenadas) y p es la pendiente de
la recta (la inclinación de la recta respecto al eje de abcisas). El término p es
justamente el que nos informa sobre si las variables X; e Y; se encuentran o no
relacionadas. E; se refiere a los errores aleatorios, es decir, a las distancias entre
cada valor Y; y la recta.
Introducción al análisis de regresión y correlación / 391
Los supuestos del modelo son parecidos a los ya estudiados a propos1to del
modelo de ANOVA A-EF-CA (de hecho, ambos modelos son el mismo). En primer
lugar, los E; son errores aleatorios y, por tanto, independientes entre sí y con valor
esperado E(E;) =O.
En segundo lugar, a cada uno de los n valores de X¡ corresponde una subpobla-
ción de valores Y¡ (es decir, le corresponde un conjunto de posibles valores Y¡), con
valor esperado µ.rJ<; =oc+ /JX;; esas n subpoblaciones son todas norm?~es y con la
misma varianza: la varianza de los errores (a;). Además, las medias µ.rJ<; de esas n
subpoblaciones se encuentran en una misma línea recta: la verdadera recta de
regresión; de modo que:
(8.2)
Simplificando los supuestos, podemos seguir hablando, al igual que en el modelo de

ANOVA de un factor, de efectos fijos, completamente aleatorizado (A-EF-CA),
de: 1) independencia -entre cada uno de los pares (X;, Y¡), y, por tanto, entre cada
una de las n poblaciones-; 2) normalidad -en cada una de las n poblaciones-
y 3) homocedasticidad -entre las n poblaciones. La figura 8.1. puede resultar
ilustrativa a la hora de entender los supuestos del modelo de regresión.
Figura 8.1.-Distribuciones independientes, normales y homocedásticas en la variable Y¡ correspondien-

tes a cada valor de la variable X;·
8.2.2. La ecuación de regresión
Ante la ausencia de información acerca de la verdadera recta de regresión en la

población, utilizaremos la información muestra! para estimar esa recta:
Y¡'= A+ BX; (8.3)
A esta ecuación se le llama ecuación de regresión de Y¡ sobre X;· Los términos A

y B son los estimadores de oc y {3. Utilizando el método de mínimos cuadrados (que
se basa en hacer mínimas las distancias al cuadrado entre Y¡ e Y¡') se llega a los
siguientes valores para A y B:
A= Y- BX (8.4)
(8.5)
8.2.3. Contraste de hipótesis sobre el parámetro fJ
El parámetro f3 es la pendiente de la recta de regresión definida por 8.1.

Representa el incremento que se produce en Y¡ por cada unidad que se incrementa
X;. Si no existe pendiente (es decir, si f3 =O y, por tanto, la recta es paralela al eje de
abcisas), las variables X¡ e Y¡ son linealmente independientes. Si existe pendiente (es
decir, si f3 .¡,. O), las variables X¡ e Y¡ se encuentran linealmente relacionadas
(positivamente si el valor de f3 es positivo y negativamente si el valor de {J es
negativo). La figura 8.2 muestra diferentes situaciones con pendientes iguales y
distintas de cero. Para contrastar hipótesis sobre {J podemos servirnos de su
estimador B. El cuadro 8.1 recoge, siguiendo el esquema habitual, los pasos
resumidos del contraste de hipótesis sobre el parámetro {J .
. ·...
. .··
fJ o
= fJ = o
...
.... ..
.. · .. . .. . ...
. ..
. ...
Figura 8.2. Valores de la pendiente {J correspondientes a diferentes nubes de puntos.
CUADRO 8.1
Contraste de hipótesis sohre el parámetro //. Resumen del procedimiento
l. Hipótesis:
a) Contraste bilateral: H 0 : /J = O; H 1: {J #- O.
h) Contraste unilateral derecho: H0 : /1 ~ O; H 1: // > O.
e) Contraste unilateral izquierdo: H 0 : //~O; H 1: //<O.
2. Supuestos: los señalados en el apartado 8.2.1.
Bj"f.(X; - X) 2
T = -;::.====.;:== (8.6)
Jr. (Y; - Y¡') 2 /(n - 2)
4. Distribución muestra(: T se distribuye según el modelo t de Student con n - 2

grados de libertad.
5. Zona crítica:
a) Contraste bilateral: T ~ ,12 t. _ 2 y T ~ 1 - • 12 t. - 2 •
h) Contraste unilateral derecho: T ~ 1 -.t.- 2 .
e) Contraste unilateral izquierdo: T ~ •'• . 2 .
6. Regla de decisión: se rechaza H 0 si T cae en la zona crítica; en caso contrario, se

mantiene.
IC = B +1
- 2!2
[ Jr. (Y¡¡;¡¡::-¡----=-l
t n - 2 1 ··
- Y¡') /(n -
2 2) J (8.7)
v "f.(X; - X)
8. Conclusión: si rechazamos H 0 concluiremos que disponemos de evidencia empíri-

ca suficiente para afirmar que existe relación lineal significativa entre las variables
consideradas. Si mantenemos 11 0 concluiremos que, con los datos disponibles, no
podemos afirmar que las dos variables estudiadas se encuentren linealmente
relacionadas.
EJEMPLO 8.1. En una muestra de 10 alumnos de enseñanza secundaria hemos

medido dos variables: Y; = «rendimiento en 7 asignaturas» (cuantificado como la suma
de las calificaciones obtenidas en las 7 asignaturas) y X; = «promedio de horas de
estudio semanales». Los resultados obtenidos aparecen en la tabla 8.1. Queremos
conocer a) la ecuación de regresión de Y; sobre X;, y b) si entre ambas variables existe
relación lineal positiva.
394 / Análisis de datos en psicología /1
TABLA 8.1
x, 5 5 6 6 6 7 7 11 11 16
Y; 25 30 30 35 45 40 45 55 60 65
Para obtener la ecuación de regresión y para saber si existe relación lineal

significativa necesitamos efectuar una serie de cálculos. La tabla 8.2 muestra una
forma práctica de ordenar esos cálculos.
TABLA 8.2
x, Y; X,Y; xt Y¡2 (X,-XJ' Y;' Y; - Y;' (Y; - Y;'J'
5 25 125 25 625 9 32.6053 -7,6053 57,84

5 30 150 25 900 9 32,6053 -2,6053 6,79
6 30 180 36 900 4 36.0702 -6.0702 36,85
6 35 210 36 1.225 4 36,0702 -1,0702 1,15
6 45 270 36 2.025 4 36,0702 8,9298 79,74
7 40 280 49 1.600 1 39,5351 0,4649 0,22
7 45 315 49 2.025 1 39,5351 5,4649 29,86
11 55 605 121 3.025 9 53,3947 1.6053 2,58
11 60 660 121 3.600 9 53,3947 6,6053 43,63
16 65 1.040 256 4.225 64 70,7193 -5.7193 32,71
80 430 3.835 754 20.150 114 430 291.37
a) La ecuación de regresión se obtiene calculando los valores de A (el origen de la

recta) y B (la pendiente de la recta). De acuerdo con las ecuaciones (8.3):
10(3.835) - 80(430)
B= = 3 464912
10(754) - 80 2 ,
A= 43 - (3,464912)8 = 15,280704
Por tanto, la ecuación de regresión resultante será: Y¡'= A + BX; =

= 15,280704 + 3,464912X;. A partir de esta ecuación hemos obtenido los
pronósticos Y¡' de la tabla 8.2.
h) Veamos ahora si existe relación lineal significativa entre X¡ e Y¡. Recordemos

que debemos averiguar si la relación es positiva, por lo que el contraste será
unilateral derecho. Utilizaremos un nivel de significación de 0,05.
l. Hipótesis: H 0 : fl ~O; H 1 : fl >O.
T=
3,464912 fi14 =6,13
J291,37/8
3. Distribución muestral: T se distribuye según t._ 2 = t 8 •

4. Zona crítica: T ~ 0 . 95 t 8 = 1,860.
5. Decisión: como el estadístico de contraste observado es mayor que el
punto crítico (6,13 > 1,860) rechazamos H 0 y concluimos que entre las
variables estudiadas existe relación lineal positiva significativa. Hay evi-
dencia suficiente para pensar que el rendimiento está positivamente rela-
cionado con las horas de estudio.
8.2.4. Regresión lineal en formato ANOVA
Ya hemos señalado que el modelo de ANOVA de un factor, de efectos fijos,

completamente aleatorizado y el modelo de análisis de regresión lineal simple son
versiones equivalentes del modelo lineal general. De hecho, podemos utilizar la
estrategia del análisis de varianza (la prueba F) para efectuar inferencias sobre el
parámetro f3 del modelo de regresión. Veamos.
La desviación de una puntuación Y; respecto de su media puede descomponerse
en dos partes:
(Y; - Y) = (Y;' - Y) + (Y; - Y;') (8.8)
Con un argumento idéntico al utilizado en el ANOVA de un factor, es fácil

demostrar que la variación total de la variable Y; (concretada en la suma de
cuadrados total de Y¡) puede descomponerse en la variación debida a la regresión
lineal de Y¡ sobre X; (SCR) y la variación no debida a la regresión de Y; sobre X; o
variación error (SC E):
¿ (r; - f)2 = ¿ (r;· - f)2 + ¿ (r; - Y;')2 (8.9)
siendo 1 :
( ¿ r;)2
SCT(Y) =¿(Y;- Y) 2 = L Y; 2 - ~¡~
i ; n
SCR = I<Y;' - Y} 2 = B 2 SCT(X) (8.10)
SCE = I<Y; - Y¡') 2 = SCT(Y) - SCR

i
1 Por supuesto, la suma de cuadrados total de X,. SCT(X), se obtiene de la misma forma que
cualquier otra suma de cuadrados total:
(¿xJ
SCT(X) = ¿x¡ - - '-
n
A partir de aquí podemos construir la tabla resumen de ANOVA (tabla 8.3) y

contrastar la hipótesis H 0 : P= O utilizando el estadístico F en los términos ya
conocidos.
Además, si definimos la suma de productos total (SPn como la suma de los
productos de cada par de puntuaciones (X¡, Y¡):
¿xi¿ Y¡
SPT=LX¡Y¡- ¡ ¡ (8.11)
¡ n
podemos llegar a:
SPT
B=--- (8.12)
SCT(X)
y, de esta forma, obtener una formulación alternativa del estadístico F que,
dependiendo de los datos de que dispongamos, puede resultamos de más utilidad:
B 2 SCT(X')(,n - 2)
F=------- (8.13)
SCT( Y) - B(SPn
TABLA 8.3
Tabla resumen de ANO VA para el modelo de regresión lineal simple
FV se g/ MC F
Debida a la regresión de Y¡ sobre X¡ SCR 1 SCR/I MCR/MCE

No debida a la regresión (error) SCE n-2 SCE/(n - 2)
Total SCT n-1
A partir de la ecuación (8.6) y teniendo en cuenta que F = SCRIMCE, es fácil

demostrar que T2 = F:
T2 = B 2 '1:.(X; - X) 2 = B 2 SCT(X) = MCR = F (8 l 4)

'1:.(Y¡ - Y¡') 2 /(n - 2) '1:.(Y¡ - Y¡')2/(n - 2) MCE .
EJEMPLO 8.2. Veamos cómo contrastar la hipótesis referida a la pendiente de la

recta de regresión (H 0 :/J =O) mediante el estadístico F. Vamos a utilizar para ello los
datos del ejemplo 8.1. De acuerdo con los cálculos de la tabla 8.2, tendremos:
SCT(Y) = 20.150 - 430 2 /IO = 1.660

SCT(X) = 754 - 80 2 /10 = 114
SCR = B 2 SCT(X) = 3,464912 2 (114) = 1.368,64
SCE = 1.660 - 1.368,64 = 291,36
Con estas sumas de cuadrados podemos construir la tabla resumen de ANOV A

(tabla 8.4) y obtener el estadístico F. Los grados de libertad de ese estadístico son 1 y
8, de modo que el punto crítico con oc= 0,05 valdrá 0 •95 F 1 •8 = 5,32. Por tanto, como
37,58 > 5,32, rechazamos H 0 y concluimos que entre las variables estudiadas existe
relación lineal significativa.
TABLA 8.4
Tabla resumen de ANOVA
FV se y/ MC F
Debida a la regresión 1.368,64 1 1.368,64 37,58

No debida a la regresión 291,36 8 36,42
Total 1.660 9
8.3. Correlación lineal simple

El modelo de correlación lineal simple es idéntico al modelo de regresión lineal
simple excepto en lo referente al estatus de la variable X¡. Ahora no se hace
distinción entre variable independiente y dependiente; además, la variable X¡ es, al
igual que la Y;, una variable de efectos aleatorios.
Los supuestos del modelo de correlación lineal simple son los mismos que los
del modelo de regresión lineal simple. Además, puesto que también X¡ es ahora una
variable de efectos aleatorios hay que añadir que, para cada valor de Y; existe una
subpoblación de valores X¡: todas esas subpoblaciones son normales y homocedás-
ticas y sus medias µxJr; se encuentran en una línea recta.
Tenemos pues dos variables aleatorias 2 de las que tomamos n medidas. El
interés se centra en estudiar el grado de relación lineal entre esas variables y el
sentido de tal relación.
8.3.1. Cuantificación de la relación entre dos variables:

el coeficiente de correlación de Pearson
El contraste de hipótesis sobre la pendiente de la recta de regresión no es la
única forma de averiguar si entre dos variables existe v'!rdadera relación. También
podemos estudiar la relación entre dos variables a partir del coeficiente de correla-
ción de Pearson rxy:
(8.15)
2 En sentido estricto, tenemos una muestra aleatoria de tamaño n extraida de una población normal
bivariada.
El valor de r xy oscila entre - 1 y 1. Los valores prox1mos a cero indican

ausencia de relación lineal (es decir, independencia lineal). Los valores próximos a 1
o - 1 indican alto grado de relación lineal (positiva o negativa). Desde el punto de
vista descriptivo no es posible afirmar nada más, pero, según veremos inmediata-
mente, desde el punto de vista inferencia) es posible tomar decisiones sobre el grado
en que dos variables se encuentran, de hecho, relacionadas en la población.
El coeficiente de correlación de Pearson se relaciona con la pendiente de la
ecuación de regresión de la siguiente manera:
(8.16)
8.3.2. Contraste de hipótesis sobre el parámetro Pxy
El coeficiente de correlación r xy es un valor muestra) que nos sirve como

estimador del coeficiente de correlación poblacional 3 Pxy y que nos sirve al mismo
tiempo como estadístico a partir del cual contrastar hipótesis sobre ese parámetro.
Generalmente, la hipótesis que tendrá sentido poner a prueba será H 0 : Pxy =O, es
decir, la hipótesis de independencia lineal. El rechazo de esa hipótesis nos permitirá
concluir que entre las variables estudiadas existe relación lineal significativa.
Cuando p .. ,.= O y con tamaños muestrales razonablemente grandes, el estadísti-
co r x.1· se distribuye de forma aproximadamente normal con valor esperado
E(r xy) = O y vananza:
1- r;, (8.17)
n-2
A partir de aquí es posible diseñar un procedimiento para poner a prueba la

hipótesis H 0 : Px.r = O. El cuadro 8.2 recoge un resumen de los pasos del contraste.
CUADRO 8.2
Contraste de hipótesis sohre el parámetro Pxr Resumen del procedimiento
l. Hipótesis:
a) Contraste bilateral: H 0 : Px,. =O; H 1: p_,,. =1- O.
b) Contraste unilateral derecho: H 0 : 11.'>. ~O: H 1 : p_, ... >O.
e) Contraste unilateral izquierdo: H 0 : p_,_,. ;;:;: O: H 1: /l.q· < O.
·' La relación entre 'x•· y B señalada en (8.16) es trasladable a los parámetros p_,,. y /J:
<f x a,.
Px.1· = fJ- => {1 = p_,,. __:__
a,. ª-'
2. Supuestos: ver apartado 8.3.

rxy~
T=---- (8.18)
v1~
1 -r.•r
4. Distribución muestra!: T se distribuye según el modelo de probabilidad t de
Student con n - 2 grados de libertad.
5. Zona crítica:
a) Contraste bilateral: T ~ 212 t.- 2 y T ~ 1 -,,2t.- 2.
b) Contraste unilateral derecho: T ~ 1 _.t.- 2 •
e) Contraste unilateral izquierdo: T ~ .r. _
2.
6. Regla de decisión: se rechaza H 0 si T cae en la zona crítica: en caso contrario, se

mantiene.
7. Conclusión: si rechazamos H0 concluiremos que disponemos de evidencia empíri-

ca suficiente para afirmar que existe relación lineal significativa entre las variables
consideradas. Si mantenemos H 0 concluiremos que, con los datos disponibles, no
podemos afirmar que las dos variables estudiadas se encuentren linealmente
relacionadas.
Si el tamaño muestra! es lo bastante grande podemos utilizar la aproximación

normal para comprobar si un coeficiente de correlación rxy es significativamente
distinto de cero. Decidiremos que rxy es distinto de cero cuando se verifique:
(8.19)
siendo zP = z i -ari si el contraste es bilateral y zP = z i -a si el contraste es unilateral.
EJEMPLO 8.3. Utilicemos Jos datos del ejemplo 8.1 para estudiar la relación entre
las variables rendimiento y horas de estudio mediante el coeficiente de correlación de
Pearson. Para ello, nos siguen sirviendo los cálculos de Ja tabla 8.2.
t. Hipótesis: H 0 : Pxy ~O; H 1 : P:c, >O.
10(3.835) - 80(430)
rxy = = 0,908
jt0(754) - 80 2 jt0(20.150)- 430 2
r:c,~ 0,908}8
T= = =613
J 1 - r;, jl=0,908 2 '
3. Distribución muestra): T se distribuye según r. _2 = t 8 •

4. Zona crítica: T ;;;¡,: 0 . 95 t 8 = 1,860.
5. Decisión: como el estadístico de contraste observado es mayor que el punto
crítico (6,13 > 1,860) rechazamos H 0 y concluimos que entre las variables
estudiadas existe relación lineal positiva significativa. Hay evidencia suficiente
para pensar que el rendimiento está positivamente relacionado con las horas
de estudio.
Si estamos interesados en contrastar la hipótesis de que la verdadera correlación

entre dos variables es igual a un valor concreto distinto de cero (H 0 : Pxy = p0 , con
p 0 =F O), entonces no podemos utilizar el estadístico propuesto en (8.17). La distribu-
ción de rxy se va alejando de la normalidad (se va haciendo más y más asimétrica) a
medida que Pxy tiende a ±l. No obstante, Fisher (1921) aportó una solución a este
problema demostrando que la transformación 4 :
Z, = (0,5)ln[(l + r,.y)/(1 - r,.y)] (8.20)
se distribuye de forma aproximadamente normal con valor esperado igual al valor

transformado de p 0 :
E(Z,) = ZP = (0,5)ln [(1 + p 0 )/(1 -

0 p 0 )]
y varianza:
(12 = --
z. n- 3
Por tanto, el estadístico:
(8.21)
se distribuye de forma aproximadamente normal N(O, 1). De modo que podemos

utilizar la distribución normal estandarizada para tomar decisiones sobre la
hipótesis de que el verdadero coeficiente de correlación entre dos variables toma un
valor concreto distinto de cero.
4 Este tipo de transformación recibe el nombre de zeta de Fisher y puede obtenerse directamente de
la tabla 1'I del apéndice final.
Así, por ejemplo, si con los datos de ejemplo 8.1 queremos poner a prueba la
hipótesis H 0 : Px>· = 0,80 (contraste bilateral), tendremos:
z. = (0,5)ln[(l + 0,91)/(1 - 0,91)] = 1,5275

Z Po = (0,5) In [( 1 + 0,80)/( 1 - 0,80)] = 1,0986
1,5275 - 1,0986 = 1,135
1
Puesto que P(Z ;3: 1,135) > 0,05, mantenemos H 0 y concluimos que no dispone-
mos de evidencia empírica para rechazar la hipótesis de que el verdadero coeficiente
de correlación vale 0,80: los datos se muestran compatibles con esa hipótesis.
APl:NDICE 8
Contraste de hipótesis sobre /J, - /J 2
Supongamos que estamos estudiando la relación entre las variables X¡ =.frustración e

Y¡ = agresividad. y que tenemos datos de la relación entre esas variables en una muestra de
varones y en otra de mujeres. Podríamos estar interesados en contrastar la hipótesis de que
esa relación es la misma en la población de varones y en la población de mujeres.
Para contrastar si esa relación es la misma en las dos poblaciones podemos comparar las
pendientes de las ecuaciones de regresión de cada población (H 0 : /ivarones = /imujeresl o
podemos comparar los coeficientes de correlación de ambas poblaciones (H 0 :
Px)'tvaroncs) = Pxy(mujeres)•
Comencemos con el contraste de las pendientes. El procedimiento que nos permite
comparar las pendientes de dos ecuaciones de regresión independientes (H 0 : /i 1 = /i 2 ) es
análogo al procedimiento estudiado en el capítulo 4 para comparar dos medias independien-
tes. Si H 0 es verdadera, la distribución muestra! de 8 1 - 8 2 es aproximadamente normal con
media cero y error típico:
(8.22)
El error típico de B podemos estimarlo mediante:
s; (8.23)
s;(n - 1)
donde S~ se refiere a la varianza de los errores: s; s;

= I: (Y¡ - Y¡'J 2 /(n - 2); y a la
varianza de la variable X;: s_; = I:(X; - X) 2 /(n - 1). Teniendo en cuenta (8.22) y (8.23), po-
demos estimar el error típico de 8 1 - 8 2 mediante:
(8.24)
Ahora bien, si suponemos, al igual que cuando comparábamos dos medias, que las
varianzas de los errores de ambas poblaciones son homogéneas (igualdad de varianzas),
podemos utilizar la combinación ponderada de los dos estimadores disponibles (S; y
1 '
s; )
para obtener una única estimación de la verdadera varianza error poblacional:
ui = (n 1 - 2¡s; + (n 2 - 2¡s;
1 2 (8.25)
• n1 + n2 - 4
Llegamos así al estadístico:
(8.26)
que se distribuye según el modelo t de Student con n 1 + n 2 - 2 grados de libertad. Podemos,

por tanto. utilizar el estadístico (8.26) y la distribución t de Student para tomar decisiones
sobre la hipótesis H 0 : {J 1 = f/ 2 •
Contraste de hipótesis sobre p, - p 2
La comparación de dos correlaciones independientes es una generalización directa del

procedimiento estudiado al final del apartado 8.3.2. El estadístico r 1 - r 2 tiene una distribu-
ción muestral complicada de obtener, pero si utilizamos la transformación de Fisher para
obtener Z, 1 y z., (tabla Ñ del apéndice final), entonces la diferencia Z, 1 - z., se distribuye
normalmente con valor esperado Zµ, - zp, y error típico:
a = J 1
~~-+~~-
z,, - z , ' n 1 - 3
1
n2 - 3
En consecuencia, podemos utilizar el estadístico:
Z, -Z,,
1
z = ---;:::===== (8.27)
J-n1-~-3 + -n2-~-3
para poner aprueba la hipótesis H 0 : p 1 = p2 . El estadístico Z se distribuye según el modelo

de probabilidad normal N(O, l), de modo que podemos utilizarlo para tomar decisiones sobre
p 1 = p 2 en los términos ya conocidos.
Conviene señalar que, aunque P = O es equivalente a p = O no ocurre lo mismo con
P1 - P2 y p 1 - p 2 • Pensemos en el diagrama de dispersión o nube de puntos que representa
la relación entre dos variables. Es evidente que dos nubes de puntos pueden tener la misma
recta de regresión (P 1 = P2 ) pero no ajustarse igualmente bien a esa recta (p 1 "# p 2 ); y al
revés: dos rectas de regresión diferentes (P 1 "# P2 ) podrían ajustarse igualmente bien a su
correspondiente nube de puntos (p 1 = p 2 ).
Al comparar coeficientes de correlación podemos utilizar también muestras relacionadas.
Tal es el caso cuando en una muestra de tamaño n medimos tres variables (X;, Y; y Z;) y
queremos averiguar, por ejemplo, si la variable X; correlaciona con Y; igual que con Z;.
Supongamos que en una muestra de estudiantes medimos las variables X;= rendimiento en
matemáticas, Y; = aptitud numérica y Z; =factor g. Si queremos comparar la correlación entre
rendimiento y aptitud numérica (X; e Y;) con la correlación entre rendimiento y factor g
(X; y Z;), tenemos que comparar dos coeficientes de correlación relacionados: H 0 : Pxv = Px:·
El procedimiento tradicional utilizado para poner a prueba esta hipótesis se debe a
Hotteling (1931; ver San Martín y Pardo, 1989, pág. 337). Pero Williams (1959) y, más tarde,
Steiger (1980) han constatado un mejor comportamiento del estadístico:
(n - 1)(1 + r,,)
(8.28)
que se distribuye según el modelo de probabilidad t de Student con n - 3 grados de libertad.

IRI se refiere al determinante de la matriz de correlaciones entre las tres variables y puede
obtenerse mediante:
EJERCICIOS
8.1. Deseamos pronosticar las calificaciones de los alumnos de segundo de psicología en la

asignatura Análisis de datos en psicología Il (Y;) a partir de las calificaciones obtenidas en
Análisis de datos en psicología I (X¡). Para ello, seleccionamos una muestra aleatoria de 10
alumnos y anotamos sus calificaciones en ambas asignaturas. Los resultados obtenidos
aparecen en la tabla 8.5.
TABLA 8.5
x, 3 2 6 5 8 6 4 7 3 5
Y, 5 3 5 6 6 7 3 6 4 4
a) Calcule la recta de regresión de Y; sobre Xi·

b) Ponga a prueba, con ex = 0,05, la hipótesis nula H 0 : fl = O frente a la alternativa H 1:
p.¡,.o.
8.2. (Señale la/s alternativa/s que considere correcta/s.) Al contrastar la hipótesis nula H 0 :
P = O frente a la alternativa H 1 : p "#- O hemos obtenido T = 3,54. Sabiendo que
P(T > 3,54) = 0,10, concluiremos que el modelo lineal...
a) ... puede ser adecuado, pero con p = O.

b) ... es adecuado, con fJ >O.
e) ... puede ser adecuado, con p <O.
d) ... nunca será el más adecuado.
e) ... puede ser adecuado, pues p "#- O.
8.3. (Señale la/s alternativa/s correcta/s.) Podemos llegar a la conclusión de que entre dos
variables existe relación lineal significativa mediante:
a) Un ANOVA, con F = 5,6 (p < 0,05).
b) Un análisis de regresión, al mantener H 0 : P =O.
e) Un análisis de regresión, con T = 4,2 tal que P(T ~ 4,2) > 0,99.
d) Unas comparaciones de tendencia, con Fiineal = 2,1 (p > 0,05).
e) Ninguna de las alternativas anteriores es correcta.
8.4. (Señale la/s alternativa/s correcta/s.) En un análisis de regresión lineal simple:

a) El parámetro oc representa el efecto del factor A.
b) El parámetro oc representa el efecto de la variable X¡.
e) El parámetro fl representa el efecto del factor B.
d) El parámetro P puede valer cero si la relación entre X¡ e Y¡ es cuadrática.
e) Ninguna de las alternativas anteriores es correcta.
8.5. Consideremos la dos variables de la tabla 8.6. Basándonos en la pendiente de la

ecuación de regresión de Y; sobre X; y utilizando oc= 0,05, ¿podemos afirmar que existe
relación lineal significativa entre ambas variables?
TABLA 8.6
X; 4 7 4 3 9 2 6 5 4 6
Y, 7 5 6 10 2 12 1 4 8 5
8.6. Tras evaluar a 10 sujetos en dos variables hemos obtenido los resultados que aparecen
en la tabla 8. 7. Contraste la hipótesis nula H 0 : Pxy ~ O frente a la alternativa H 1 : Pxy > O y
concluya si existe o no relación lineal positiva entre ambas variables (oc= 0,01).
TABLA 8.7
x, 10 8 7 4 9 6 2 9 7 5
Y, 5 3 3 2 4 4 o 3 2 2
8.7. ¿Cuál debe ser el tamaño mínimo de una muestra para que siendo r"' = 0,30 rechace-
mos H 0 : Px, = O frente a H 1: Px, # O con un nivel de significación de 0,05?
8.8. Al utilizar el análisis de varianza para estudiar la relación lineal entre dos variables
hemos obtenido los resultados que aparecen en la tabla 8.8.
TABLA 8.8
FV se gl Me F
Debida a la regresión 90 ( ) ( ) ( )
No debida a la regresión ( ) ( ) ( )
Total 330 9
Sabiendo que 0 •975 t 8 = 2,306:

a) Complete la tabla resumen de ANOV A.
b) ¿Qué decidiremos respecto a H 0 : /J =O? ¿Por qué?
e) ¿A qué conclusión llegaremos?
8.9. Hemos medido dos variables (X¡ e Y¡) en una muestra aleatoria de 22 sujetos. En la
tabla 8.9 aparecen algunos de los resultados obtenidos al efectuar un ANOV A para estudiar
la relación entre esas dos variables. Complete la tabla.
TABLA 8.9
FV se gl Me F
Debida a la regresión ( ) ( ) ( ) ( )
No debida a la regresión ( ) ( ) 4
Total 100 ( )
8.10. Utilizando los datos del ejercicio 8.9 y un nivel de significación de 0,01:
a) ¿Podemos afirmar que las variables X¡ e Y¡ están linealmente relacionadas? ¿Por qué?
b) ¿Podemos negar que las variables X¡ e Y¡ están cuadráticamente relacionadas? ¿Por
qué?
e) ¿Cuál es el valor de la varianza de los errores en los pronósticos?
8.11. (Elige la alternativa correcta). En un análisis de regresión lineal simple hemos obtenido
F = 5,6. Sabiendo que P(F > 5,6) = 0,02 y utilizando oc = 0,05:
a) Mantendremos H 0 •
b) Concluiremos que X no influye significativamente en Y.
e) Concluiremos que la correlación entre X e Y difiere de O.

á) Concluiremos que la pendiente de Y sobre X vale O en la población.
e) Todas las alternativas son incorrectas.
8.12. Hemos medido dos variables (X; e Y¡) en una muestra aleatoria de 30 sujetos. La
tabla 8.10 muestra un resumen del análisis de regresión simple en formato ANOVA:
T,ABLA 8.10
FV se gl Me F
Debida a la regresión ( ) ( ) ( ) 10
No debida a la regresión ( ) ( ) 10
Total 380 ( )
Sabiendo que P(F < 10) > 0,99 y utilizando IX= 0,01:
b) ¿Podemos rechazar H 0 : P= O? ¿Por qué?
e) ¿Podemos concluir que hay relación lineal?
8.13. Al estudiar la relación entre las variables rigidez y creatividad, un investigador plantea
las siguientes hipótesis estadísticas: H 0 : P~ O; H 1 : p < O. En una muestra aleatoria obtiene
un estadístico T = - 2. Sabiendo que P(T ~ - 2) = 0,975 y utilizando IX= 0,05:
a) ¿Podemos rechazar H 0 ? ¿Por qué?
b) ¿Podemos concluir que hay relación lineal? ¿Por qué?
e) ¿Podemos concluir que la correlación de Pearson es negativa? ¿Por qué?
8.14. A continuación se ofrecen dos tablas: la de los datos, en puntuaciones diferenciales,

obtenidos por 5 sujetos en dos variables (tabla 8.11.a) y la tabla resumen de un análisis de
regresión simple en formato ANOVA (tabla 8.11.b). Completa ambas tablas sabiendo que
la ecuación de regresión de Y¡ sobre X; en puntuaciones diferenciales es: yí = 0,9x;.
TABLA 8.11.a
Sujetos 1 2 3 4 5
X¡ 2 -2 o 1 ( )
y, 2 -1 o 1 ( )
Yi ( ) ( ) ( ) ( ) ( )
TABLA 8.11.b
FV se gl Me F
Regresión ( ) ( ) ( ) ( )
No regresión ( ) ( ) ( )
Total ( ) ( )
8.15. Al utilizar un ANOVA para estudiar la relación lineal entre dos variables, hemos
obtenido los resultados que muestra la tabla 8.12.
TABLA 8.12
FV se 111 Me F
Debida a la regresión 90 ( ) ( ) ( )
No debida a la regresión ( ) ( ) ( )
Total 330 9
b) ¿Qué decidiremos respecto a H 0 : fl = O? ¿Por qué?
e) ¿A qué conclusión 11egaremos?
SOLUCIONES
8.1. a) Y¡'= 2,38 + 0,514X¡.

b) T = 2,91; 0 , 975 t 8 = 2,306; rechazamos H 0 : /l =O.
Concluimos que entre las variables estudiadas existe relación lineal significativa.
8.2. d.
8.3. c.
8.4. d.
8.5. T = -4,434; 0 . 025 t 8 = -2,306; rechazamos H 0 : {l =O.

Podemos afirmar que entre las variables estudiadas existe relación lineal significativa.
8.6. '"' = 0,84; T = 4,38; 0 , 99 18 = 2,896; rechazamos H 0 •

Existe relación lineal positiva.
8.7. n ~ 43.
8.8. a) Para completar la tabla 8.8 basta con saber que la suma de cuadrados debida a la
regresión tiene un solo grado de libertad.
TABLA 8.8
FV se 111 Me F
Debida a la regresión 90 (!) (90) (3)
No debida a la regresión (240) (8) (30)
Total 330 9
b) Mantendremos H 0 , pues F = 3 < 0 , 95 F1. 8 = 0 . 975 t~ = 2,306 2 = 5,32.

e) Concluiremos que no disponemos de evidencia empírica para pensar que las
variables consideradas se encuentran linealmente relacionadas. Los datos se
muestran compatibles con la hipótesis de independencia lineal.
8.9. Para completar la tabla 8.9 hay que saber que la suma de cuadrados no debida a la
regresión tiene n - 2 grados de libertad.
TABLA 8.9
FV se gl Me F
Debida a la regresión (20) (1) (20) (5)

No debida a la regresión (80) (20) 4
Total 100 (21)
8.10. a) No. Puesto que F = 5 < 0 , 99 F 1 • 20 = 8,10, no podemos rechazar la hipótesis de

independencia lineal y, por tanto, no podemos afirmar que las variables considera-
das estén linealmente relacionadas.
b) No. El estudio de la relación lineal entre dos variables no nos permite llegar a
ninguna conclusión sobre la existencia o no de relación cuadrática entre esas
variables.
e) MCE = 4.
8.11. c.
8.12. a) Para completar la tabla 8.10 basta con saber que los grados de libertad de la
suma de cuadrados total son n - 1 y que la suma de cuadrados debida a la
regresión tiene un solo grado de libertad:
TABLA 8.10
FV se gl Me F
Debida a la regresión (100) (1) (100) 10

No debida a la regresión (280) (28) 10
Total 380 (29)
b) Sí. Porque P(F < 10) > 0,99 =

P(F ;;i: 10) < 0,01 (contraste unilateral derecho).
e) Sí. Al rechazar H 0 : p =O estamos afirmando que existe relación lineal significa-
tiva.
8.13. a) Sí. Porque P(T ;;i: - 2) = 0,975 =

P(T ~ - 2) = 0,025 < 0,05 (contraste unilateral
izquierdo).
b) Sí. Al rechazar H 0 : p = O estamos afirmando que existe relación lineal significa-
tiva.
e) Sí. El coeficiente de correlación de Pearson y la pendiente de la recta de regre-
sión siempre tienen el mismo signo (ver ecuación [8.16]).
8.14. Para completar la tabla 8.11.a hay que tener en cuenta que las puntuaciones diferen-
ciales suman cero. Para completar la tabla 8.11.b debemos recordar, en primer lugar,
que la suma de cuadrados total es justamente las suma de las diferenciales de Y¡ al cua-
drado: 22 + (-1) 2 + 0 2 + 12 + (- 2) 2 = 10; y, en segundo lugar, que la suma de
cuadrados debida a la regresión es la suma de las diferenciales de los pronósticos al cua-
drado: 1,8 2 + (- 1,8) 2 + 0 2 + 0,9 2 + (-0,9) 2 = 8,1 (la suma de cuadrados debida a la
regresión también puede obtenerse si se tiene en cuenta que el cociente entre esa
suma y la suma de cuadrados total es igual al cuadrado del coeficiente de correlación
de Pearson: r2 = SCR/SCT => SCR = r2 (SCT) = 0,9 2 (10) = 8,1).
TABLA 8.11.a
Sujetos 1 2 3 4 5
X¡ 2 -2 o 1 (-1)
y, 2 -1 o 1 (-2)
Yi (1,8) (-1,8) (O) (0,9) (-0,9)
TABLA 8.11.b
FV se 111 Me F
Regresión (8,1) (1) (8.1) (12,86)

No regresión (1,9) (3) (0,63)
Total (10) (4)
8.15. a) Completar la tabla 8.12 únicamente requiere saber que la suma de cuadrados
debida a la regresión tiene un solo grado de libertad.
TABLA 8.12
FV se 111 Me F
Debida a la regresión 90 (1) (90) (3) o.9sF 1.s = 5,32

No debida a la regresión (240) (8) (30)
Total 330 9
h) Mantenerla. Porque si 0 •95 F 1 . 8 = 5,32, entonces P(F ;;:o 3) > 0,05.

e) No podemos afirmar que entre las variables estudiadas exista relación lineal sig-
nificativa.
PARTE TERCERA
Análisis de datos semicuantitativos
Contrastes no paramétricos
9
9.1. Caracterización de los contrastes no paramétricos.

9.2. Contrastes no paramétricos: una muestra.
9.2.1. Prueba de los signos.
9.2.2. Prueba de Wilcoxon.
9.3. Contrastes no paramétricos: dos muestras.
9.3.1. Muestras independientes: prueba de Mann-Whitney.
9.3.2. Muestras relacionadas: prueba de Wilcoxon.
9.4. Contrastes no paramétricos: más de dos muestras.
9.4.1. Muestras independientes: prueba de Kruskal-Wallis.
a) Comparaciones múltiples a priori.
b) Comparaciones múltiples a posteriori.
9.4.2. Muestras relacionadas: prueba de Friedman.
a) Comparaciones múltiples.
Ejercicios.
9.1. Caracterización de los contrastes no paramétricos
La segunda parte de este manual (capítulos 4-8) ha estado dedicada al estudio

de técnicas de análisis para datos cuantitativos. Todos los contrastes presentados en
esos capítulos coinciden en una serie de características: 1) permiten contrastar
hipótesis referidas a algún parámetro (generalmente µ, u 2 , /J, Pxy• etc.), 2) requieren
del cumplimiento de determinados supuestos sobre las poblaciones originales de las
que se extraen los datos (generalmente normalidad y homocedasticidad), y 3) ana-
lizan datos obtenidos con una escala de medida de intervalo o razón. Estas tres
características combinadas permiten agrupar a este tipo de contrastes en una gran
familia de contrastes o técnicas de análisis denominada contrastes paramétricos.
Este tipo de contrastes es, sin duda, el de utilización más frecuente en la
investigación empírica, pero su aplicabilidad se ve reducida, fundamentalmente, por
dos razones: 1) requieren del cumplimiento de algunos supuestos que en ocasiones
pueden resultar demasiado exigentes y 2) es necesario trabajar con unos niveles de
medida que, especialmente en ciencias como la psicología, no siempre resulta fácil
alcanzar.
Afortunadamente, los contrastes paramétricos no son el único tipo de contrastes
disponible. Existen contrastes que permiten poner a prueba hipótesis no referidas a
un parámetro poblacional; existen también contrastes que no necesitan establecer
supuestos exigentes sobre las poblaciones originales de donde se muestrea; y existen,
por último, contrastes que no necesitan trabajar con datos obtenidos con una escala
de medida de intervalo o razón. A esta otra familia de contrastes se la denomina
contrastes no paramétricos.
Algunos autores utilizan el término contrastes no paramétricos para referirse
únicamente a los contrastes que no plantean hipótesis sobre parámetros y que se
limitan a analizar las propiedades nominales u ordinales de los datos, y añaden el
término contrastes de distribución libre para referirse a los contrastes que no
necesitan establecer supuestos (o establecen supuestos poco exigentes, como sime-
tría o continuidad) sobre las poblaciones originales de las que se extraen las
muestras. Pero lo cierto es que cualquiera de las tres condiciones señaladas puede
ser considerada suficiente para caracterizar a un contraste como no paramétrico.
De esta forma, podemos 1) utilizar la denominación genérica de contrastes no
paramétricos para todos aquellos contrastes que no se ajustan a una cualquiera de
las tres características de los contrastes paramétricos y, por tanto, 2) englobar en ese
término genérico a los contrastes de distribución libre.
No es nuestra intención avivar la polémica sobre la forma de llamar a las cosas.
Creemos que, en este contexto, la forma de llamar a las cosas es más bien
irrelevante. Y creemos, además, que poner todo el énfasis en el nivel de medida
de los datos contribuye a simplificar esta problemática. Podemos, por tanto,
1) clasificar los contrastes de acuerdo con el tipo de datos que permiten analizar
(independientemente del tipo de hipótesis que permiten contrastar e independiente-
mente de los supuestos que sea necesario establecer) y 2) llamarlos, a todos ellos, no
paramétricos siempre que no se ajusten a una cualquiera de las tres características
de los contrastes paramétricos.
Esta tercera parte va a estar centrada en las técnicas de análisis para datos
semicuantitativos; es decir, en las técnicas de análisis que permiten estudiar las
propiedades ordinales de los datos. Todas ellas pueden ser consideradas no paramé-
tricas utilizando el criterio de que no plantean hipótesis sobre ningún parámetro o
el de que analizan datos obtenidos con una escala de medida débil, y pueden ser
consideradas de distribución libre utilizando el criterio de que no establecen
supuestos demasiado exigentes sobre las poblaciones originales de donde se extraen
los datos. El término de contrastes no paramétricos nos parece apropiado pues
permite resaltar la distinción entre este tipo de contrastes y los paramétricos.
En el capítulo 9 estudiaremos algunos contrastes no paramétricos diseñados
para comparar promedios: la prueba de los signos, la de Wilcoxon, la de Mann-
Whitney, la de Kruskal-Wallis y la de Friedman. En el capítulo 10 presentaremos
algunos contrastes no paramétricos orientados al estudio de la relación entre va-
riables.
9.2. Contrastes no paramétricos: una muestra
9.2.1. Prueba de los signos
La prueba de los signos, también llamada prueba binomial, no sólo es una de las
más antiguas, sino que ha servido de base para el desarrollo de otras muchas. Su
lógica es más bien elemental y los cálculos necesarios para su obtención son
triviales.
Consideremos una variable aleatoria que sólo puede tomar dos valores: éxito y
fracaso (1 y O; + y - ; etc.). Si efectuamos n medidas independientes de esa variable
tendremos n 1 éxitos y ni fracasos (n 1 +ni = n). Y según sabemos (capítulo 1,
apartado 1.3.4), tanto n 1 como ni son variables aleatorias distribuidas según el
modelo de probabilidad binomial (n 1 con parámetros n y néxito• y ni con parámetros
n y 1tfracaso); de modo que podemos utilizar la distribución binomial para conocer las
probabilidades exactas asociadas a n 1 y ni.
En el capítulo 12 veremos este procedimiento aplicado al estudio de variables
cualitativas, que es justamente donde más sentido tiene su utilización. Pero la
Contrastes no paramétricos / 417
prueba de los signos también es aplicable al estudio de variables semicuantitativas.

En este apartado la estudiaremos como una forma de efectuar inferencias sobre la
mediana de una población 1 •
Consideremos una variable cualquiera Y¡ medida al menos a nivel ordinal y
calculemos la mediana: Mdn. Podemos formular la siguiente hipótesis sobre el valor
de Mdn:
Si el valor M dn 0 propuesto para la mediana en H 0 es el verdadero, en la

población existirán tantos valores por encima de Mdn 0 como por debajo, de modo
que al extraer una muestra aleatoria de tamaño n de esa población y clasificar a los
sujetos dependiendo de que su puntuación en Y¡ sea mayor ( +) o menor ( - ) que
Mdn 0 , nos encontraremos con aproximadamente el mismo número de signos
positivos y negativos; si, por el contrario, el valor propuesto en H 0 para Mdn no es
el verdadero, al clasificar a los sujetos de una muestra según se encuentren por
encima ( +) o por debajo (-) de Mdn 0 , nos encontraremos con más signos de un
tipo que del otro. Bajo la hipótesis H 0 : Mdn = Mdn 0 , las variables aleatorias:
n+ =número de signos positivos ( +)

n _ = número de signos negativos ( - )
se distribuyen según el modelo binomial con parámetros n = n + + n _ y n = 0,50

(n = 0,50 porque, si H 0 es verdadera, la probabilidad de que un sujeto se encuentre
por encima de la mediana es exactamente la misma que la de que se encuentre por
debajo). De modo que podemos utilizar la distribución binomial para conocer las
probabilidades asociadas a n + y n _ y contrastar, de esta forma, la hipótesis H 0 :
Mdn = Mdn 0 . El cuadro 9.1 ofrece el resumen del procedimiento.
CUADRO 9.1
Prueba de los signos. Resumen del procedimiento
l. Hipótesis:
a) Contraste bilateral: H 0 : Mdn = Mdn 0 ; H 1: Mdn :F Mdn 0 .
b) Contraste unilateral derecho: H 0 : Mdn ,¡;; Mdn 0 ; H 1: Mdn > Mdn 0 •
e) Contraste unilateral izquierdo: H 0 : Mdn ~ Mdn 0 ; H 1: Mdn < Mdn 0 .
Estas hipótesis sobre Mdn pueden formularse también en términos de la propor-
ción de signos positivos y negativos (siendo n + = n +In la proporción de sujetos
que se encuentran por en encima de la mediana y n _ = n _/n la proporción de
sujetos que se encuentran por debajo de la mediana):
1 Esto supone restringir su utilización al caso único en el que se verifica: n,,,.., = 0,50. En San Martín
y Pardo ( 1989, págs. 95-98) puede encontrarse una descripción de la prueba binomial para el caso general
n = n 0 (con la denominación de «prueba de los cuantiles»).
a) Contraste bilateral: H 0 : n+ = 0,5 (o n+ = 11:_ ); H 1: n+ "# 0,5 (o n+ "# 1r_).
b) Contraste unilateral derecho: H 0 : 11: + :,.; 0,5; H 1: 11: + > 0,5.

e) Contraste unilateral izquierdo: H 0 : 11: + ~ 0,5; H 1 : 11:, < 0,5.
2. Supuestos: muestra aleatoria de m observaciones resultado de medir una variable

al menos ordinal 2 • Cada valor de la variable es clasificado como mayor, menor o
igual que Mdn 0 para obtener: n+ (=número de valores mayores que Mdn 0 ), 11_
( = número de valores menores que Mdn 0 ) y n = ( = número de valores iguales que
Mdn 0 ; es decir, número de empates). De la muestra de m observaciones se eliminan
los n = empates y nos quedamos con las restantes n = n + + n _ observaciones.
3.1. n + = número de signos positivos.
n+ - nn: + n+ - n/2
3.2. z= -~--- = --- (9.1)
Jnn+(I - n+) J";;j4
4.1. n+ se distribuye según el modelo de probabilidad binomial con parámetros
n = n + + n _ y 11: + = 0,50.
4.2. Z se aproxima al modelo de distribución de probabilidad normal N(O, 1) a
medida que el tamaño muestra! n va aumentando 3 •
5. Decisiones:
a) Contraste bilateral:
u. I. Se rechaza H 0 si n + toma un valor tan extremo (tan alejado de su valor
esperado bajo H 0 ) que la probabilidad de obtener valores tan extremos
como ése o más es menor que ~/2.
u.2. Se rechaza H 0 si Z:,.; z,12 o Z ~ z1 -.12·
b) Contraste unilateral derecho:
h. l. Se rechaza H 0 si n + toma un valor tan grande que la probabilidad de
obtener un valor como ése o mayor es menor que ~.
b.2. Se rechaza H 0 si Z ~ z 1 -··
2 Conviene que la variable estudiada sea continua para evitar que aparezcan valores iguales a la
mediana (empates). Aun así, la variable puede no ser continua. Y tanto si lo es como si no, los empates
deben desecharse, pues no proporcionan información sobre la hipótesis nula.
3 Si n no es muy grande, la aproximación es algo más exacta utilizando la corrección por continuidad,
que consiste en sumar (si n + es menor que n/2) o restar (si n + es mayor que n/2) 0,5 puntos a n + para
hacer el contraste algo más conservador (algunos autores desaconsejan la utilización de esta corrección;
ver, por ejemplo, Richardson, 1990):
n+ ± 0,5 - n/2
Z=------
e) Contraste unilateral izquierdo:

c. l. Se rechaza H 0 si /1 + toma un valor tan pequeño que la probabilidad de
obtener un valor como ése o más pequeño es menor que IX.
c.2. Se rechaza H 0 si Z..; z,.
EJEMPLO 9.1. En algunos estudios llevados a cabo sobre memoria reconstructiva,

la mitad de los sujetos no han conseguido superar la puntuación 6,2 en una escala
diseñada para evaluar el porcentaje de reconstrucción bien lograda. En un nuevo
estudio llevado a cabo con 15 sujetos utilizando el mismo material y la misma escala
de evaluación se han obtenido los datos que aparecen en la tabla 9.1. ¿Podemos decir
que los sujetos que no superan la puntuación 6,2 siguen siendo justamente la mitad?
(iX = 0,05).
TABLA 9.1
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Puntuación 4.1 5,5 6.1 2.2 7,2 4,8 5.4 8.2 6,6 9,1 4,3 5,3 4,6 7,6 2,1
Si la mitad de los sujetos no supera la puntuación 6,2, eso significa que 6,2 es la
mediana que se viene obteniendo en estudios previos. La pregunta que se nos hace es
si la mediana sigue siendo 6,2 o ha cambiado. Para ello, podemos utilizar la prueba de
los signos:
l. Hipótesis: H 0 : Md11 = 6,2; H 1 : Md11 =F 6,2 (contraste bilateral).
2. Supuestos: muestra aleatoria de 15 observaciones resultando de medir una
variable ordinal (no existen empates y, por tanto, /1 = 15).
3. Estadístico de contraste: 11 + = 5.
4. Distribución muestra(: 11 + se distribuye según el modelo binomial con paráme-
tros /1 = 15 y rr. = 0,50.
5. Decisión: En la tabla de la distribución binomial encontramos
P(11 + ~ 5) = O, 151. Por tanto, como 0, 151 > ':1./2 = 0,025, mantenemos H 0 y
concluimos que no hay evidencia suficiente para pensar que la mediana ha
cambiado.
9.2.2. Prueba de Wilcoxon
Cuando utilizamos la prueba de los signos para contrastar hipótesis referidas a

la mediana estamos desperdiciando información: estamos tomando decisiones sobre
el valor de una mediana (que es un estadístico ordinal) apoyándonos únicamente en
las propiedades nominales de los datos.
La prueba de Wilcoxon ( 1945) permite contrastar la misma hipótesis que la

prueba de los signos pero aprovechando las propiedades ordinales de los datos.
Esto, por supuesto, constituye una ventaja desde el punto de vista de la precisión,
pues se aprovecha mejor la información muestra! disponible, pero, como contrapar-
tida, es necesario establecer algunos supuestos más exigentes que los de la prueba
de los signos (en concreto, es necesario suponer simetría y, como consecuencia de
ello, nivel de medida de intervalo o razón).
Consideremos una variable aleatoria Y¡ de la que obtenemos m medidas median-
te una escala de intervalo o razón. Supongamos que planteamos una hipótesis sobre
el valor poblacional de la mediana de esa variable: H 0 : Mdn = Mdn 0 • Calculemos
las diferencias en valor absoluto entre cada valor de Y¡ y el valor propuesto para la
mediana en H 0 :
D¡ = IY; - Mdn 0 I (9.2)
Desechemos las D¡ nulas y consideremos únicamente las n D¡ no nulas (n :¡;; m).

Asignemos rangos (R¡) desde 1 hasta n a esas D¡ no nulas: el rango 1 a la D; más
pequeña, el rango 2 a la D; más pequeña de las restantes, ... , el rango n a la D; más
grande (si existen varias D¡ iguales, es decir, empatadas, se asigna a cada una de
ellas el promedio de los rangos que hubieran correspondido a esas D¡ de no estar
empatadas; así, por ejemplo, si a· tres D¡ empatadas corresponden los rangos 5, 6 y
7, asignaremos a cada D¡ el rango promedio (5 + 6 + 7)/3 = 6). Sumemos ahora,
por un lado, los Rt, es decir, los rangos correspondientes a las D; con Y¡ > Mdn 0 , y
llamemos S + a esta suma; y sumemos, por otro lado, los R¡-, es decir, los rangos
correspondientes a las D¡ con Y¡< Mdn 0 , y llamemos S_ a esta otra suma.
Lógicamente, si Mdn 0 es la verdadera mediana poblacional, debe verificarse:
P(Y¡ < Mdn 0 ) = P(Y¡ > Mdn 0 ) (9.3)
por lo que si H 0 es verdadera, en nuestra muestra aleatoria de n observaciones

encontraremos, aproximadamente, tantos valores Y;> Mdn 0 como valores
Y¡ < Mdn 0 (salvando, por supuesto, las fluctuaciones atribuibles al azar propio del
proceso de muestreo).
Pero, además, si la distribución original de la variable Y¡ es simétrica, las
puntuaciones Y¡ superiores a Mdn 0 se alejarán de ésta en igual medida que las
puntuaciones Y¡ inferiores a Mdn 0 , de donde es fácil deducir que:
(9.4)
Es decir, si Mdn 0 es la verdadera mediana poblacional y la distribución de la

variable Y¡ es simétrica, S + y S _ tomarán valores parecidos. Por tanto, una fuerte
discrepancia entre S + y S _ nos hará dudar de la veracidad de H 0 . De modo que
podemos utilizar S + y S _ para obtener alguna información sobre la hipótesis H 0 :
Mdn = Mdn 0 . Pero, para eso, necesitamos conocer las distribuciones muestrales de
S+ y s_.
Consideremos S + (las distribuciones muestrales de S + y de S _ son iguales, pues

en ambos casos se trata de la suma de un conjunto de rangos). De la ecuación (9.3)
se deduce que la probabilidad de encontrar una diferencia D¡ positiva es igual a la
probabilidad de encontrar una diferencia D¡ negativa:
(9.5)
En consecuencia:
Probabilidad de que el rango 1 corresponda a una D¡ positiva = 1/2
Probabilidad de que el rango 2 corresponda a una D¡ positiva = 1/2
Probabilidad de que el rango n corresponda a una D¡ positiva = 1/2

Supongamos que n = 4. Dos signos ( + y - ) pueden aparecer combinados en
grupos de tamaño 4 de 24 = 16 maneras. La tabla 9.2 recoge esas posibles 16
muestras, los rangos correspondientes a cada muestra, la suma de esos rangos
cuando corresponden a diferencias positivas (cuando corresponden a diferencias
negativas sumamos un cero) y la probabilidad asociada a cada muestra.
TABLA 9.2
Distribución muestra/ del estadístico S + en
una muestra de 4 observaciones
Muestras Rangos (i) S+ f(s+)
l. ++++ 1+2+3+4= 10 1/16

2. +++- 1+2+3+0= 6 1/16
3. ++-+ 1+2+0+4= 7 1/16
4. +-++ 1+0+3+4= 8 1/16
5. -+++ 0+2+3+4= 9 1/16
6. + + - - 1+2+0+0= 3 1/16
7. + - + - 1+0+3+0= 4 1/16
8. +--+ 1+0+0+4= 5 1/16
9. -+ +- 0+2+3+0= 5 1/16
10. - + - + 0+2+0+4= 6 1/16
11. - - + + 0+0+3+4= 7 1/16
12. + - - - l+O+O+O= 1 1/16
13. - + - - 0+2+0+0= 2 1/16
14. - - + - 0+0+3+0= 3 1/16
15. - - - + 0+0+0+4= 4 1/16
16. - - - - O+O+O+O= o 1/16
A partir de la tabla 9.2 podemos construir la distribución muestra! de S + tal

como se muestra en la tabla 9.3. Y conociendo esa distribución muestra! podemos
utilizar el estadístico S + para tomar decisiones sobre H 0 : Mdn = Mdn 0 apoyándo-
nos en probabilidades exactas conocidas.
TABLA 9.3
Distribución muestra/ de S + obtenida a partir de la tabla 9.2
S+ o 1 2 3 4 5 6 7 8 9 10
f(s+) 1/16 1/16 1/16 2/16 2/16 2/16 2/16 2/16 1/16 1/16 1/16
Vemos, pues, que con tamaños muestrales pequeños no resulta complicado

obtener la distribución exacta del estadístico S +. Sin embargo, con tamaños
muestrales grandes el proceso de obtención de la distribución muestral de S + se
vuelve demasiado engorroso pues el espacio muestral aumenta considerablemente.
En estos casos podemos recurrir a la aproximación normal apoyándonos en el
teorema central del límite. De acuerdo con la hipótesis nula: P(Rt = i) = 1/2. En
consecuencia:
E(Rt} = i(l/2) = i/2
E(Rt) = i 2 (1/2) = i 2 /2 (9.6)
ª~: = i 2 /2 - (i/2) 2 = i2 /4
Y como los Rt son independientes, tendremos:
+ + . 1 . n(n + 1)
E(S+)=E('f.R¡ )='f.E(R¡ )='f.1/2=2'f.1= 4 (9.7)
y
<1~ = <1fR· = 'f.ak· = !'f.i 2 = !(n(n + 1)(2n + 1)) = n(n + 1)(2n + 1) (9 _8)
. ' ' 4 4 6 24
Así pues, a medida que el tamaño muestral aumenta, la variable aleatoria:

S+ - E(S+) S+ - n(n + 1)/4
Z= =-r====== (9.9)
Ju[ Jn(n + 1)(2n + 1)/24
tiende a distribuirse según el modelo de probabilidad normal N(O, 1). El procedi-
miento que permite utilizar los estadísticos S + y Z para poner a prueba la hipótesis
H 0 : Mdn = Mdn 0 se encuentra resumido en el cuadro 9.2.
CUADRO 9.2
Prueba de 111/coxon para una muestra. Resumen del procedimiento
l. Hipótesis:
a) Contraste bilateral: H 0 : Mdn = Mdn 0 ; H 1: Mdn '/:- Mdn 0 •
b) Contraste unilateral derecho: H 0 : Mdn ~ Mdn 0 ; H 1 : Mdn > Mdn 0 .
e) Contraste unilateral izquierdo: H 0 : Mdn;;,, Mdn 0 ; H 1 : Mdn < Mdn 0 .
CUADRO 9.2 ( contin11acián)
2. Supuestos:
a) Muestra aleatoria de m observaciones de las que se desechan las D¡ nulas (es
decir, los valores Y¡= Mdn 0 ).
b) La distribución de cada diferencia D; es simétrica (este supuesto implica que
las inferencias efectuadas sobre la mediana son trasladables al parámetro
media. pues en una distribución simétrica la mediana y la media toman
exactamente el mismo valor).
e) El nivel de medida de la variable Y¡ es de, al menos, intervalo.
3.1. S + = 'I:. Rt.
S+ - n(n+ 1)/4
3.2. z = -:::=====
jn(n + 1)(2n + 1)/24
4.1. Los puntos críticos de la distribución exacta de S + se encuentran en la tabla
O del apéndice final.
medida que el tamaño muestra! n va aumentando.
5. Zonas críticas:
a.1. S+ < s 2 12 y S+ >s1-212·
a.2. Z ~ :2 2 y Z ~ =• -• 2 .
b.I. S+ > S1-2·
b.2. z ~ =· -··
c.I. S + < s,.
c.2. Z ~ : 2•
6. Decisión: se rechaza H 0 si S + o Z caen en la zona crítica; en caso contrario, se

mantiene.
EJEMPLO 9.2. Recordemos el estudio del ejemplo 9.1 sobre memoria reconstructi-
va. Allí hemos utilizado la prueba de los signos para averiguar si la mediana
poblacional de las puntuaciones en una escala de evaluación del porcentaje de
reconstrucción bien lograda era 6,2. Vamos a contrastar ahora la misma hipótesis
utilizando la prueba de Wilcoxon (ot = 0,05).
La tabla 9.4 recoge los datos originales (Y¡), las diferencias Y¡ - M dn 0 con signo
positivo si (Y¡ > Mdn 0 ) y signo negativo si (Y¡ < Mdn 0 ) y los rangos R; que correspon-
den a esas D; tomadas en valor absoluto.
TABLA 9.4
Sujetos 1 2 3 4 5 6 7 8 9 IO 11 12 13 14 15
Y, 4.1 5,5 6,1 2,2 7,2 4,8 5,4 8,2 6,6 9,1 4,3 5,3 4,6 7,6 2,1
D; -2,1 -0,7 -0,I -4 1 -1,4 -0,8 2 0,4 2,9 -1,9 -0,9 -1,6 1,4 -4,1
R; 12 3 1 14 6 7,5 4 11 2 13 10 5 9 7,5 15
l. Hipótesis: H 0 : Mdn = 6,2; H 1 : Mdn # 6,2 (contraste bilateral).
2. Supuestos:
a) Muestra aleatoria de 15 observaciones.
h) La distribución de cada diferencia D; es simétrica.
d El nivel de medida de la variable Y; es de, al menos, intervalo.
3. Estadístico de contraste: S + = ~ R,+ = 39,5.
4. Distribución muestra): los puntos críticos de la distribución muestra) de S +
están tabulados en la tabla O del apéndice final).
5. Zona crítica. Con n = 15 y ex= 0,05: S+ < s0 . 025 = 26 y S+ > s0 . 975 = 94.
6. Decisión: 26 > 39,5 > 94. Por tanto, mantenemos H 0 y concluimos que no hay
evidencia suficiente para pensar que la mediana haya cambiado.
9.3. Contrastes no paramétricos: dos muestras
9.3.1. Muestras independientes: prueba de Mann-Whitney
La prueba de Mann-Whitney 4 es una excelente alternativa a la prueba t sobre

diferencia de medias cuando no se cumplen los supuestos en los que se basa la
prueba t (normalidad y homocedasticidad) o el nivel de medida de los datos es
ordinal (ver, por ejemplo, Blair, Higgins y Smitley, 1980).
4 El procedimiento que en este apartado estamos llamando prueba de Mann-Whitney fue original-
mente propuesto por Wilcoxon (1945) para el caso de tamaños muestrales iguales (11 1 = 11 2 ). Festinger
(1946) desarrolló independientemente un procedimiento equivalente al de Wilcoxon. Pero fueron Mann y
Whitney ( 1947) los primeros en extender el procedimiento al caso de tamaños muestrales desiguales y los
primeros también en proporcionar tablas para poder utilizar el procedimiento con muestras pequeñas.
Fueron precisamente las aportaciones de Mann y Whitney las que más contribuyeron a la divulgación
del procedimiento, de ahi que, generalmente, sea conocido como prueba de Mann-Whitney. Sin
embargo, en algunos sitios este procedimiento puede encontrarse con la denominación de prueba de
Wilcoxon para muestras independientes.
Nos encontramos, por tanto, en el caso en el que dos muestras son aleatoria-
mente extraídas de dos poblaciones y deseamos averiguar si podemos rechazar la
hipótesis de que esas dos poblaciones tienen promedios iguales. Una aproximación
intuitiva al contraste de esa hipótesis consiste en combinar ambas muestras de
observaciones en una sola y asignar rangos a las puntuaciones ordenadas de esa
única muestra, con independencia de la muestra a la que pertenece cada puntua-
ción. El estadístico de contraste podría ser la suma de los rangos asignados a una
cualquiera de las dos muestras. Si esa suma es demasiado grande (o demasiado
pequeña) existirá cierta evidencia de que los valores de esa población son más
grandes (o más pequeños) que los valores de la otra población. Por tanto, la
hipótesis de que ambos promedios poblacionales son iguales podría ser rechazada si
la suma de los rangos asignados a una de las muestras es muy diferente de la suma
de los rangos asignados a la otra muestra.
Consideremos dos muestras independientes: Y1 , de tamaño n 1 , e Yi, de tamaño
ni, extraídas de la misma población o de dos poblaciones idénticas. Si mezclamos
las n 1 + ni = N observaciones y, como si se tratara de una sola muestra, asignamos
rangos R¡ a las N puntuaciones (un 1 a la más pequeña, un 2 a la más pequeña de
las restantes, ... , un N a la más grande), tendremos n 1 rangos Ril (los n 1 rangos
correspondientes a las observaciones de la muestra Y¡) y ni rangos R¡i (los ni
rangos correspondientes a las observaciones de la muestra Yi). Puesto que
suponemos que las dos poblaciones son idénticas, los rangos asignados a las n 1
observaciones de la muestra Y1 podrán ser cualquiera de los N posibles. Por tanto,
la combinación concreta de los n 1 rangos asignados a los valores de Y1 tendrá
exactamente la misma probabilidad de ocurrencia que cualquier otra posible
combinación.
Ahora bien, con los N primeros enteros consecutivos (los N rangos que hemos
asignado) podemos formar:
N!
e ------
N.n, -n1!(N - n1)!
(9.10)
combinaciones (todas ellas equiprobables, según acabamos de señalar). De modo

que podemos utilizar la ecuación (9.10) para conocer las probabilidades asociadas al
estadístico U = suma de los rangos asignados a la muestra Y1:
n,
V=LR¡ 1 (9.11)
Veamos cómo hacerlo. Consideremos un caso concreto con n 1 = 3 y ni= 2. Los

n1 = 3 elementos de Y1 pueden aparecer de:
5!
e 5 ' 3 = 3!(5 - 3)!
= 10
maneras diferentes. En cada una de esas 1O combinaciones podemos calcular el
estadístico U. Así, el valor más pequeño que puede tomar U es 6, lo que ocurrirá
únicamente cuando los rangos asignados a los 3 valores de la muestra Y1 sean 1, 2 y
3. Y puesto que las 10 combinaciones posibles son equiprobables, tendremos:

P(U = 6) = 1/10 = 0,10. Lo mismo vale decir, por ejemplo, para U= 7; U tomará
el valor 7 únicamente cuando los rangos asignados a las 3 observaciones de Y1 sean
1, 2 y 4; en consecuencia: P(U = 7) = 1/10 = 0,10. Con U= 8 ocurre algo distinto;
ese valor puede obtenerse de dos maneras: con los rangos 1, 2 y 5, y con los rangos
1, 3 y 4; por tanto: P(U = 8) = 2/10 = 0,20, etc. La tabla 9.5 recoge, en la parte
izquierda, las 10 combinaciones posibles entre los rangos de Y1 y Jos de Yi y el valor
de U que corresponde a cada una de esas combinaciones. A partir de esos datos es
posible construir la distribución muestral de U, Ja cual aparece en la parte derecha
de la tabla 9.5.
TABLA 9.5
Distribución muestra[ del estadístico U paru n 1 = 3 y ni = 2
Rangos (R,) Distribución

muestral de U
1 2 3 4 5 u
u f(u)
Y1 Y1 Y1 Y2 Y2 6
Y1 Y1 Y2 Y1 Y2 7 6 0,10
Y1 Y1 Y2 Y2 Y1 8 7 0,10
Y1 Y2 Y1 Y1 Y2 8 8 0,20
Y1 Y2 Y1 Y2 Y1 9 9 0,20
Y1 Y2 Y2 Y1 Y1 10 10 0,20
Y2 Y1 Y1 Y1 Y2 9 11 0,10
Y2 Y1 Y1 Y2 Y1 10 12 0,10
Y2 Y1 Y2 Y1 Y1 11
Y2 Y2 Y1 Y1 Y1 12
Así pues, el estadístico U reúne la doble condición de 1) proporcionar informa-

ción relevante sobre el parecido entre dos distribuciones poblacionales y 2) poseer
una distribución muestral conocida. Podemos, por tanto, utilizar el estadístico U
para poner a prueba Ja hipótesis de que dos promedios poblacionales son iguales.
Acabamos de ver que, con muestras pequeñas, su distribución muestral exacta es
muy fácil de obtener (la tabla P del apéndice final recoge algunos puntos críticos de
Ja distribución muestral de U para valores de n 1 y ni iguales o menores que 20).
Con muestras grandes es más complicado obtener la distribución muestral de U.
pero en esos casos podemos utilizar Ja aproximación normal basándonos en el
teorema central del límite. Para ello conviene conocer algo de algebra elemental en
relación con las propiedades de N enteros consecutivos:
N N(N + 1)
L R¡ = 1 + 2 + 3 + ... + N = - - -
i= 1 2 (9.12)
~ i i i i i N(N + 1)(2N + 1)
L. R¡ = 1 + 2 + 3 + ··· + N = - - - - - -
i= 1 6
por tanto:
N
~R; N+ 1
E(R;) = T = -2-
(9.13)
N 2 -1
---
12
Según esto 5 :
ni ) n; N +)
E(U)=E ( ~R¡¡ =~E(R; 1 )=n 1 - 2-
(9.14)
por lo que:
z = _ur=-=n=(N=+=l=)/=2 1
(9.15)
Jn n(N + 1)/12
1 2
es una variable aleatoria cuya función de probabilidad se aproxima a la distribución

normal N(O, 1) a medida que los tamaños muestrales van aumentando 6 . El cuadro
9.3 recoge resumidos los pasos necesarios para aplicar el procedimiento descrito al
contraste de hipótesis sobre dos promedios poblacionales 7 •
5 Ver San Martín y Pardo (1989, págs. 124-125).

6 Si existen empates entre observaciones de la misma muestra, la aproximación normal es más exacta
utilizando:
N + 1
U-n--
1 2
Z=--;::=================
J- - - L
n n 1 2
N(N - 1)
n ni(N + 1) N
i=I
1
Rf - - - - -
it{N - 1)
2
7 Existen diferentes versiones de los estadísticos U y Z que acabamos de describir (ver, por ejemplo,
San Martín y Pardo, 1989, pág. 126; o Marascuilo y McSweeney, 1977, págs. 267-278), pero todas ellas
conducen al mismo resultado.
CUADRO 9.3
Prueba de M ann- Whitne y. Resumen del procedimiento
l. Hipótesis:
a) Contraste bilateral: H 0 : E(Y¡) = E(Y2 ): H 1: E(Y¡) # E(Y2 ).
h) Contraste unilateral derecho: H 0 : E(Y.J ~ E(Y2 ): H 1 : E(Y1 ) > E(Y2 ).
e) Contraste unilateral izquierdo: H 0 : E(Y.J ~ E(Y2 ): H 1: E(Y¡) < E(Y2 ).
2. Supuestos:
a) Dos muestras aleatorias de tamaños n 1 y n2 extraídas independientemente de
dos poblaciones.
h) El nivel de medida de los datos es, al menos, ordinal.
e) Las funciones de probabilidad de las dos poblaciones son idénticas; si difieren
en algo es únicamente en sus promedios.
3.1. U= I: R; 1•
U - n 1(N + 1)/2
3.2. Z=-_------
' n 1n2(N + 1)/12
4.1. Los puntos críticos de la distribución exacta de U se encuentra en la tabla P
del apéndice final; se verifica: u 1 , = n 1(N + 1) - u,.
4.2. Z se aproxima al modelo de distribución de probabilidad normal N(O. 1) a
medida que los tamaños muestrales van aumentando.
5. Zonas criticas:
a.I. U<u, 2 yV>u 1 _, 2.
a.2. Z:::; :, 2 y Z ~ : 1 - , 2•
h) Contraste unilateral derecho:

h.I. u> !11 _,.
h.2. z ~ =1 _,.
c.I. V<u,.
c.2. z:::; :,.
6. Decisión: se rechaza f/ 0 si U o Z caen en la zona critica: en caso contrario, se
mantiene.
(f) Ediciones Pirámide

EJEMPLO 9.3. Se ha realizado un experimento para determinar el efecto de un

medicamento sobre la agresividad de pacient.es con psicosis paranoica. Se han
formado dos grupos: al grupo experimental (E) se le ha administrado el medicamento
y al grupo control (C) se le ha administrado un placebo. Posteriormente se ha pasado
a todos los sujetos una prueba de agresividad y se han obtenido os resultados que
aparecen en la tabla 9.6. ¿Qué podemos concluir acerca de la eficacia del medicamento
para reducir la agresividad de los pacientes con psicosis paranoica? (~ = 0,05).
TABLA 9.6
Grupo E 10 8 12 16 5 9 7 11 6
Grupo C 12 15 20 18 13 14 16 9
l. Hipótesis:
H 0 : E(E) ~ E(C) (el medicamento no reduce la agresividad)
H 1 : E(E) < E(C) (el medicamento reduce la agresividad)
2. Supuestos:
a) Dos muestras aleatorias de tamaños n 1 = 9 y n 2 = 8 extraídas indepen-
dientemente de dos poblaciones.
b) El nivel de medida de los datos es, al menos, ordinal.
e) Las funciones de probabilidad de las dos poblaciones son idénticas; si
difieren en algo es únicamente en sus promedios.
Comenzamos asignando rangos a las 17 observaciones como si se tratara de
una sola muestra. La tabla 9.7 recoge los rangos que resultan, teniendo en
cuenta que cuando se producen empates se asigna a cada una de las puntuacio-
nes empatadas el promedio de los rangos que les hubieran correspondido de
no estar empatadas.
TABLA 9.7
Grupo E 7 4 9,5 14,5 1 5,5 3 8 2
Grupo C 9,5 13 17 16 11 12 14,5 5,5
3.1. U = l: R; 1 = 7 + 4 + 9,5 + ··· + 2 = 54,5.

U - n 1(N + 1)/2 54,5 - 9(17 + 1)/2
3.2. z= = = -2,55
Jn n(N
1 2 + 1)/12 j9(8)(17 + 1)/12
4.1. Los puntos críticos de la distribución exacta de U se encuentran en la
tabla P del apéndice final.

4.2. Z se aproxima al modelo de distribución de probabilidad normal N(O, 1).
5. Zonas críticas (contraste unilateral izquierdo):

5.1. U < u0 •05 = 64.
5.2. Z ~ z0 _05 = - 1,645.
6. Decisión: tanto U como Z toman valores más pequeños que sus respectivos
puntos críticos. Por tanto, rechazamos H 0 • Podemos concluir que el medica-
mento ha conseguido reducir significativamente la agresividad de los pacientes
con psicosis paranoica.
9.3.2. Muestras relacionadas: prueba de Wilcoxon
La prueba de Wilcoxon presentada en el apartado 9.2.2 para contrastar la

hipótesis referida al promedio (media o mediana) de una población es igualmente
válida para estudiar si dos muestras relacionadas proceden de poblaciones con el
mismo promedio. De hecho, hablar de dos muestras relacionadas equivale a hablar de
una sola muestra, pues las dos muestras pueden fácilmente convertirse en una sola
considerando únicamente las diferencias entre las dos puntuaciones de cada par 8 .
Dicho esto, se comprenderá que la prueba de Wilcoxon (así como la de los
signos) es exactamente la misma tanto si efectuamos inferencias sobre un solo
promedio como si lo hacemos sobre dos promedios relacionados. Del mismo modo
que en el caso de una muestra estamos trabajando con una sola población y nuestra
hipótesis se refiere a la media o mediana de esa población, también en el caso de
dos muestras relacionadas estamos trabajando con una población: la población de
las diferencias entre los valores de una variable aleatoria bivariada.
Supongamos que tomamos dos medidas ( Y¡ 1 e Y¡ 2) a un grupo de m sujetos y
que calculamos las diferencias en valor absoluto:
D¡ = IY¡1 - Y¡2l (i = 1,2, ... ,m) (9.16)
entre las dos puntuaciones de cada par. Desechemos las D¡ nulas y consideremos
únicamente las n diferencias D¡ no nulas (n ~ m). Asignemos rangos (R¡) desde 1
hasta n a esas D¡ no nulas: el rango 1 a la D¡ más pequeña, el rango 2 a la D; más
pequeña de las restantes, ... , el rango n a la D¡ más grande (si existen empates, se
promedian los rangos correspondientes). Sumemos ahora, por un lado, los es Rt,
decir, los rangos correspondientes a las D¡ con Y¡ 1 > Y¡ 2, y llamemos S + a esta
suma; y sumemos, por otro lado, los R¡-, es decir, los rangos correspondientes a las
D¡ con Y¡ 1 < Y¡ 2, y llamemos S _ a esta otra suma. Lógicamente, si las puntuaciones
8 Exactamente lo mismo ocurre con la prueba de los signos estudiada en el apartado 9.2.1. La única
diferencia entre la prueba de los signos y la de Wilcoxon se encuentra en el nirel de medida: mientras la
prueba de Wilcoxon exige que el nivel de medida de los datos sea de al menos intervalo (condición
impuesta por el supuesto de simetría) y aprovecha las propiedades ordinales de los mismos, la prueba de
los signos sólo exige nivel de medida ordinal y se limita a considerar las propiedades nominales de los
datos.
Y; 1 e Y; 2 proceden de poblaciones con la misma mediana, debe verificarse la

condición:
(9.17)
por lo que, si la hipótesis nula H 0 : Mdn 1 = Mdn 2 es verdadera, en nuestra muestra

aleatoria de n observaciones encontraremos aproximadamente tantos valores
Y; 1 < Y; 2 como valores Y; 1 > Y; 2 (salvando, por supuesto, las fluctuaciones atribui-
bles al azar propio del proceso de muestreo).
Pero, además, si la distribución de las diferencias D¡ es simétrica, las D¡ positivas
se alejarán de cero en igual medida que las D¡ negativas, de donde es fácil dedu-
cir que:
(9.18)
La situación, por tanto, es idéntica a la descrita en el apartado 9.2.2. La

hipótesis nula sigue haciendo referencia a las media o mediana de una población,
pero ahora se trata de la población de las diferencias D¡, por lo que la hipótesis
afirmará que esa media o mediana vale cero (lo que equivale a decir que las medias
o medianas de las poblaciones de las puntuaciones originales Y; 1 e Y; 2 son iguales).
Estamos pues ante un procedimiento alternativo a la prueba t sobre diferencia entre
dos medias relacionadas (alternativa que, por otra parte, muestra un comporta-
miento excelente: Blair y Higgins, 1985). El cuadro 9.4 recoge un resumen del
procedimiento.
CUADRO 9.4
Prueba de Hilcoxon para dos muestras relacionadas. Resumen del procedimiento
l. Hipótesis:
a) Contraste bilateral: H 0 : Mdn 1 = Mdn 2 (o bien, Mdn 0 ; =O)
H 1: Mdn 1 "# Mdn 2 (o bien, Mdn 0 , "#O)
b) Contraste unilateral derecho: H 0 : Mdn 1 :::;;; Mdn 2 (o bien, Mdn,,,:::;;; O)
H 1 : Mdn 1 > Mdn 2 (o bien, Mdn,,, >O)
e) Contraste unilateral izquierdo: H 0 : Mdn 1 ~ Mdn 2 (o bien, Mdn 0 , ~O)
H 1: Mdn 1 < Mdn 2 (o bien, Mdn 0 , <O)
2. Supuestos:
a) Muestra aleatoria de m pares de los que sólo se consideran las n diferencias D;
no nulas.
b) La distribución de cada diferencia D; es simétrica (este supuesto implica que
las inferencias efectuadas sobre la mediana son trasladables al parámetro
© fdiciones Pirámide
media. pues en una distribución simétrica la mediana y la media toman

exactamente el mismo valor).
d El nivel de medida de la variable Y¡ es de, al menos, intervalo.
3.1. S, = ~R/
S,-11(11+1)/4
3.2. z= ··----------
j11(-;; + 1K211 + 1)/24
4.1. Los puntos críticos de la distribución exacta de S + se encuentra en la tabla
O del apéndice final.
medida que el tamaño muestra( 11 va aumentando.
5. Zonas críticas:
a.I. S+ <s2i 2 y S+ >si-2¡2·

a.2. Z~: 22 y Z~=i-22·

h. l. s + > s1 2·
h.2. z ~ :¡ 2·
d Contraste unilateral izquierdo:

c. I. S, < s,.
c.2. z ~ :,.
6. Decisión: se rechaza 11 0 si S, o 7. caen en la zona crítica; en caso contrario, se
mantiene.
EJEMPLO 9.4. Un psicólogo social dedicado al estudio del conservadurismo

sospecha que las mujeres tienden a ser más conservadoras que sus maridos en lo
referente a comportamientos y actitudes morales. Con intención de aclarar su sospe-
cha, selecciona una muestra aleatoria de 10 parejas y pide a cada uno de los miembros
de las parejas que respondan a las preguntas de un determinado cuestionario (las
puntuaciones altas en el cuestionario indican mayor conservadurismo). La tabla 9.8
recoge los resultados obtenidos; la parte inferior de la tabla recoge las diferencias entre
las puntuaciones de cada par (D;) y los rangos correspondientes a esas diferencias (R¡).
¿Permiten estos resultados concluir que la sospecha del psicólogo es cierta? (:x = 0,01 ).
TABLA 9.8
Pareja 1 2 3 4 5 6 7 8 9 10
Varones 26 28 35 34 29 31 35 41 25 37
Mujeres 28 27 39 44 36 41 40 36 25 42
o, -2 1 -4 -10 -7 -10 -5 5 o -5
R, 2 1 3 8,5 7 8,5 5 5 - 5
l. Hipótesis:
H o: M dnvarones ~ M dnmujereS"
H 1 : Mdnvarones < Mdnmujeres (contraste unilateral izquierdo).
2. Supuestos:
a) Muestra aleatoria de m = 10 pares de los que sólo se consideran las n = 9
diferencias no nulas.
b) La distribución de cada diferencia D¡ es simétrica.
e) El nivel de medida de los datos es de, al menos, intervalo.
3.1. S+ =r.Rt =6
S+ - n(n + 1)/4 6 - 9(10)/4
3.2. z= = = - 1 95
jn(n + 1)(2n + 1)/24 )9(10)(19)/24 '
4.1. La distribución exacta de S + se encuentra en la tabla O del apéndice
final.
4.2. Z se aproxima al modelo de distribución de probabilidad normal N(O, 1).
5. Zona crítica:
5.1.S + < s0 , 01 = 4.
5.2. Z ~ Zo,OI = - 2,33.
6. Decisión: ni S + ni Z caen en la zona crítica; en consecuencia, debemos concluir

que, al nivel de significación establecido, la evidencia empírica disponible no
permite afirmar que las mujeres sean más conservadoras que sus maridos.
9.4. Contrastes no paramétricos: más de dos muestras

9.4.1. Muestras independientes: prueba de Kruskal-Wallis
La prueba de Mann-Whitney para dos muestras independientes estudiada en el

apartado 9.3.1 fue extendida al caso de más de dos muestras por Kruskal y Wallis
(1952). La situación experimental que permite resolver esta prueba es similar a la
estudiada a propósito del ANOVA de un factor completamente aleatorizado: J

muestras son aleatoria e independientemente extraídas de J poblaciones con
intención de averiguar si las J poblaciones son idénticas o alguna de ellas presenta
promedios mayores que otra.
Las ventajas fundamentales de esta prueba frente al estadístico F del ANOVA
de un factor completamente aletorizado son dos: 1) no necesita establecer supuestos
sobre las poblaciones originales tan exigentes como los del ANOV A (normalidad,
homocedasticidad); y 2) permite trabajar con datos ordinales. Por contra, si se
cumplen los supuestos en los que se basa el estadístico F, la potencia de éste es
mayor que la que es posible alcanzar con la prueba de Kruskal-Wallis.
Ahora bien, teniendo en cuenta que en muchas situaciones reales resulta
demasiado arriesgado suponer normalidad y homocedasticidad (especialmente si las
muestras son pequeñas y/o los tamaños muestrales desiguales), y considerando
además que en otras situaciones el nivel de medida de los datos puede no ir más
allá del ordinal, la prueba de Kruskal-Wallis 9 representa una excelente alternativa
al ANOV A de un factor completamente aleatorizado.
Consideremos J muestras aleatorias e independientes de tamaños n 1 , n2 , ... , n1
extraídas de la misma población o de J poblaciones idénticas. Llamemos N al
conjunto total de observaciones: N = n 1 + n2 + ··· + n1 . Asignemos rangos desde 1
hasta N a ese conjunto de N observaciones como si se tratara de una sola muestra
(si existen empates se procede de la forma habitual). Organicemos los rangos
asignados formando una tabla de doble entrada tal como muestra la tabla 9.9.
Rii representa el rango asignado a la observación i de la muestra j. Y R i se
refiere a la suma de los rangos asignados a las ni observaciones de la muestra j:
nj
Ri = LRii (9.19)
i
Por tanto:
(9.20)
Obviamente, si la hipótesis nula de que las J poblaciones son idénticas es

verdadera, los Ri de las distintas muestras serán parecidos. Siguiendo una lógica
similar a la expuesta a propósito del estadístico U de Mann-Whitney, resulta fácil
obtener, tomando como punto de partida la suma de los rangos de cada muestra,
un estadístico con distribución muestra! conocida y capaz de proporcionarnos
información sobre el parecido existente entre las J poblaciones (ver, por ejemplo,
San Martín y Pardo, 1989, págs. 225-227). El cuadro 9.5 ofrece de forma resumida
la forma de contrastar la hipótesis de que J poblaciones son idénticas utilizando el
estadístico H de Kruskal-Wallis.
9 Es frecuente encontrarse manuales en los que la prueba de Kruskal-Wallis aparece con la

denominación análisis de varianza por rangos.
TABLA 9.9
Estructura de los datos y notación correspondientes
a un diseño con J muestras independientes tras
asignar rangos a las N observaciones
Muestras
Observaciones 1 2 j J
1 R11 R12 Rii RIJ

2 R11 R21 R1i Ru
... ... ... ... ...
i R¡1 R¡2 Rii RiJ
... ... ... ... . ..
ni R.,1 R.,2 R•;i R.,1
R1 R1 Ri ... R1
CUADRO 9.5
Prueba de K ruskal-Wallis. Resumen del procedimiento
l. Hipótesis: H 0 : las funciones de probabilidad de las J poblaciones son idénticas.

H 1 : las J poblaciones no tienen la misma mediana (o media).
2. Supuestos:
a) Las J muestras de tamaños n 1, n2 , ... , n1 han sido aleatoria e independiente-
mente extraídas de sus respectivas poblaciones.
e) Las funciones de probabilidad de las J poblaciones son idénticas; si difieren en
algo es únicamente en sus promedios.
3. Estadístico de contraste 10:
12 1 R2
H = L _.!_ - 3(N + 1) (9.21)
N(N + l)j~t ni
'º Si existen muchos empates, el estadístico H propuesto en (9.21) se hace conservador. En estos
casos conviene utilizar una modificación de H que tiene en consideración la existencia de empates:
H =2
, 1( I Rf- -N(N
1
-- + 1)2)
-
s ;= n; 4
1
donde:
52 = _1-(IIRt- N(N + 1¡2)
N - 1 , ; 4
Puesto que H' sirve para corregir el sesgo conservador de H en el caso de que existan empates, si con
H ya se rechaza H 0 no será necesario calcular H'.
4. Distribución muestra): para J = 3, 4 y 5, y para algunos valores de ni, los puntos

críticos de la distribución muestra) de H se encuentran en la tabla Q del apéndice
final; para valores diferentes de J o ni puede utilizarse la aproximación a z2 con
J - 1 grados de libertad.
5. Zona crítica: viene definida por todos los valores mayores o iguales que el punto
h1 - · de la tabla Q, o mayores o iguales que el punto 1 -,XJ- 1 •
6. Decisión: se rechaza H 0 si H cae en la zona crítica; en caso contrario, se mantiene.
EJEMPLO 9.5. Un psicólogo interesado en estudiar el nivel de ansiedad que sufren

los sujetos en cuyo historial clínico hay al menos un intento de suicidio decidió
comparar este tipo de sujetos con otro tipo de pacientes y con personas normales.
Para ello, formó tres grupos: el primero (A) estaba formado por 9 pacientes con al
menos un intento de suicidio en su historial; el segundo (B) por 11 pacientes neuróticos
obsesivos (pacientes cuyo nivel de ansiedad suele ser muy alto); el tercero estaba
formado por 10 personas consideradas normales. Pasó a todos los sujetos la misma
escala de ansiedad y registró la puntuación obtenida por cada uno de ellos. La tabla
9.10 recoge los resultados obtenidos. ¿Podemos concluir, con oc= 0,01, que los grupos
sometidos a estudio difieren en ansiedad?
TABLA 9.10
Grupo A 30 28 32 27 21 36 19 28 33
Grupo B 45 41 38 53 34 46 59 29 38 51 42
Grupo C 22 16 15 30 9 11 18 12 6 14
Para obtener el estadístico H de Kruskal-Wallis necesitamos comenzar asignado

rangos a las N = 30 puntuaciones originales. La tabla 9.11 recoge esos rangos, así
como los totales Ri que corresponden a cada grupo.
TABLA 9.11
R;
Grupo A 16,5 13,5 18 12 10 21 9 13,5 19 132,5

Grupo B 26 24 22,5 29 20 27 30 15 22,5 28 25 269,0
Grupo C 11 7 6 16,5 2 3 8 4 1 5 63,5
l. Hipótesis: H 0 : las funciones de probabilidad de las 3 poblaciones son idénticas.

H 1 : las 3 poblaciones no tienen la misma mediana (o media).
© E.!iciones Pirámide
2. Supuestos:
a) Las 3 muestras han sido aleatoria e independientemente extraictas de sus
respectivas poblaciones.
e) Las funciones de probabilidad de las 3 poblaciones son idénticas; si difieren
en algo es únicamente en sus promedios.
12 (132,5 2 269 2 63,5 2 )

H= - - + - + - - -3(30+ 1)=22,25
30(30+1) 9 11 10
4. Distribución muestra!: H se distribuye según x2 con J - 1 = 2 grados de

libertad.
5. Zona crítica: H ~ 0 , 99 X~ = 9,21.
6. Decisión: puesto que 22,25 > 9,21 rechazamos H 0 • Concluimos que los prome-
dios de las tres poblaciones consideradas no son iguales.
a) Comparaciones múltiples a priori
Si estamos interesados en efectuar comparaciones múltiples, podemos utilizar

cualquiera de los procedimientos ya estudiados.
Definamos una comparación Lh cualquiera como una combinación lineal de las
J medianas:
Lh = "[.chiMdni (9.22)
j
Podemos estimar Lh mediante:
(9.23)
11 Puesto que existen varios empates, podemos utilizar el estadístico H', sí bien no es necesario pues
sin corrección por empates ya rechazamos H 0 :
1 ( N(N+l)i) 1 ( 30(30+1)i)
si=-- ¿¿Rf;- = - - (16,5i+l3.52+1si+ .. ·+1i+5i¡_ =77.45
N-1 '. }. 4 30- 1 4
±.
H' = }__( RJ _ N(N + 1¡i) = _l _(I 32,52 + 269i + 63,52 _ 30(30 + 1¡i) = 22,27
si i=l nj 4 77,45 9 11 10 4
cuya varianza viene dada por 12 :
u~ = N(N + 1) Lc:i (9.24)

L, 12 j ni
Comencemos con las comparaciones planeadas ortogonales:

l. Ho<hl: Lh =O; H 1 <hl: Lh #-O.
2. z: = LVu~ L,
3. z: se distribuye según x2 con grado de libertad, de modo que rechazare-
z: > -aXi·
mos Ho<hl si 1
Cada término z: es un componente independiente del estadístico H, de mo-

do que:
H = Zf + Z~ + ·· · + ZJ- 1 (9.25)
Para efectuar comparaciones planeadas no ortogonales podemos· utilizar el

procedimiento de Dunn-Bonferroni. Recordemos que este procedimiento controla la
tasa de error por familia de comparaciones dividiendo el nivel de significación por
el número de comparaciones que se tiene intención de efectuar:
l. Ho<hl: Lh =O; H l(hl: Lh #-O.
2. DMSDB(h) = Z1 -a/(2k)'1[.,
(k se refiere al número de comparaciones que hemos planeado llevar a cabo).
3. Se rechaza Ho<hJ si llhl > DMSvB(hJ·
12 En el caso de que los tamaños muestrales sean iguales, ot se reduce a:

J(N+ 1)
uf.• =---Ic~
12 j )
(9.25)
Y si existen empates conviene corregir la varianza multiplicándola por el término corrector:

G
¿ (1;- 1,>
C= 1 --•=_•___
N 3 -N
siendo 19 el número de puntuaciones empatadas en un rango dado y G el número de grupos de empates.

Así, por ejemplo, en los rangos asignados en la tabla 9.11 existen los siguientes grupos de empates:
(13,5 - 13,5), (16,5 - 16,5) y (225 - 22,5). Hay tres grupos de empates: G = 3. En el primer grupo hay
dos puntuaciones empatadas, por tanto, t 1 = 2; en el segundo también hay dos puntuaciones empatadas:
12 = 2; y lo mismo ocurre en el tercero; 13 = 2. En consecuencia:
¿ <1i - i.> 123 - 2¡ + (23 - 2> + ¡23 - 2>

e = 1 - •=' 3 = 1- = o,9993
N - N 303 - 30
b) Comparaciones múltiples a posteriori
Para efectuar comparaciones a posteriori también podemos utilizar los procedi-

mientos ya conocidos de Tukey y Sche.ffé. Si estamos interesados en llevar a cabo las
J(J - 1)/2 posibles comparaciones por pares entre los J promedios poblacionales y
los tamaños muestrales son iguales podemos servirnos del procedimiento de
Tukey 13 :
l. H 0 : Lh = Mdni - Mdni' =O (para todo j y j')
H 1: Lh = Mdni - Mdni' =FO (para algún j o j').
2. Lh = Ri - Ri'.
3. DMS
Tukey
= i
J2
-:rqJ."" jJ(N + 1)/6
4. Decidiremos que los promedios poblacionales de dos grupos Uy j') son

diferentes si ILhl > DMSTukey·
Para efectuar cualquiera de las posibles comparaciones a posteriori podemos
servirnos del procedimiento de Sche.ffé:
H 11h 1: Lh = "[,chiMdni #O
j
2. DM Sschelfél/Jl = "'L,, J 1 - :rX3- 1

3. Se rechaza H 01 h1 si ILhl > DMSschelfé(/J)·
EJEMPLO 9.6. Consideremos los datos del ejemplo 9.5. Tenemos tres grupos (A, B
y C) sobre los que ya hemos concluido que difieren en sus promedios. Vamos a
realizar ahora algunas comparaciones múltiples para ejemplificar la utilización de los
diferentes procedimientos presentados.
Comencemos con las comparaciones a priori o planeadas. Supongamos que
deseamos comparar, por un lado, los dos primeros grupos (el A y el B) entre sí, y por
otro, esos dos primeros grupos tomados juntos con el tercero (el C). Tendremos:
L 1 = (l)MdnA + (- l)Mdn 8 + (O)Mdnc

L 2 = (l)MdnA + (l)Mdn 8 + (-2)Mdnc
13 Si en lugar de estar interesados en todas las posibles comparaciones por pares nuestro interés se
centra en las J - 1 comparaciones con un grupo control, podemos recurrir al procedimiento de Dunnett.
que es idéntico al de Tukey excepto en el valor de la diferencia mínima significativa:
DMSDunncu = /~., jJ(N + 1)/6

siendo p = 1 - ex y t' un punto de la tabla de Dunnett (tabla 1 del apéndice final).
Teniendo en cuenta el total de rangos R 1 correspondientes a cada grupo (tabla

9.11) obtenemos los siguientes promedios de rangos R/
RA = 132,5/9 = 14,72 ; R8 = 269/11 = 24,45 ; Re= 63,5/10 = 6,35
En consecuencia, podemos estimar L 1 y L2 mediante:
L 1 = (1)14,72 + (-1)24,45 + (OJ6,35 = -9,73

L2 = (IJl4,72 + (1J24,45 + (-2)6,35 = 26,47
y obtener:
+ 1)
:L -cL 30(31 ¡ (1
N(N 2 12 02)
ª f.,2 =
12 n
= -- -
12 9
+-
-
11
+-
10
= 15 66
'
1 1
ª~
L,
=
N(N
12
+ 1)
¿J -cL
nj
30(31)(1 2 12
= -- - + -
12 9 11
-2 2)
+ - - = 46 66
10 ,
Siguiendo ahora los pasos del procedimiento para comparaciones planeadas

ortogonales:
l. H 001 : L 1 =O; H 101: L 1 #O

Ho1ú L2 =O; H11ú L2 #O
2. Zf = LUai, = (-9,73)2/15,66 = 6,05

z~ = L~M., = 26,47 2/46,66 = 15,02.
3. Zf y Z~ se distribuyen según x2 con 1 grado de libertad. Por tanto, el punto

crítico, con (7. = 0,05, vale 0.99 xf = 6,635. En consecuencia, mantenemos H 001
(pues 6,05 < 6,635) y rechazamos H 0121 , (pues 15,02 > 6,35).
Si utilizamos el procedimiento de Dunn-Bonferroni para efectuar esas mismas dos

comparaciones:
l. H oo 1: L 1 = O; H 1 0 1: L1 # O
Ho121: L2 =O; HltÚ L2 #O.
2. DMSDBllJ = Z1 -0.01¡4<1[, = 2,81 jl5,66 = 11,12

DMS[)ll(~) = Z1 -0.01¡4<1[,, = 2,81fa6,66=19,19.
3. Se rechaza H 01 h 1 si ¡Lhl > DMS 081 ¡, 1. Por tanto, mantenemos Ho(IJ (pues
9,73 < 11,12) y rechazamos H 0121 (pues 26,47 > 19,19).
Por lo que se refiere a las comparaciones a posteriori, podemos averiguar, por

ejemplo, qué valores toma DMSscheITé si la utilizamos para efectuar todas las posibles
comparaciones dos a dos (el procedimiento de Tukey es preferible con tamaños
muestrales iguales). Comparaciones dos a dos podemos efectuar J(J - 1)/2 =

= 3(2)/2 = 3. Si todos los tamaños muestrales fueran iguales, las tres comparaciones
tendrían la misma varianza. Pero como los tamaños muestrales son desiguales, cada
comparación tiene su propia varianza:
L 1 = (l)MdnA + ( - l)Mdn 8 + (O)Mdnc

L 2 = (l)MdnA + (0)Mdn 8 + (- l)Mdnc
L 3 = (O)MdnA + (l)Mdn 8 + (- l)Mdnc
L 1 = (1)14,72 + (-1)24,45 + (0)6,35 = -9,73
L2 = (1)14,72 + (0)24,45 + (-1)6,35 = 8,37
L3 = (0)14,72 + (1)24,45 + ( -1)6,35 = 18,10
u2 = N(N + 1) ¿cL = 30(31) (~ + -12 + 02) = 15 66

t., 12 i ni 12 9 11 10 '
ut =N(N + l)Ldi = 30(31)(~ + 0 2 + -1 2)= 16,36

' 12 i ni 12 9 11 10
ul = N(N + l)¿cL = 30(31)(02 + ~ + -12) = 14,80

' 12 i ni 12 9 11 10
A partir de aquí:
DMSschelréi.tl =u¿,~= jl5T6j9,21=12,01
DMSscbelréi.2l =u¿,~= Jl6,36j9,21=12,27
DMSScherrél.Jl = u¿,~= Jl4,80j9,21 = 11,68
Podemos concluir, por tanto, que los grupos A y B no difieren, pues 9,73 < 12,01, y
que tampoco difieren los grupos A y C, pues 8,37 < 12,27. Los únicos grupos que
difieren son el B y el C: 18,10 > 11,68.
9.4.2. Muestras relacionadas: prueba de Friedman
La prueba de Friedman (1937) sirve para comparar J promedios poblacionales

cuando las muestras con las que se trabaja están relacionadas. La situación
experimental que permite resolver esta prueba es similar a la estudiada a propósito
del ANOVA de un factor con medidas repetidas o bloques con un sujeto por nivel y
bloque (apartado 5.4): a n sujetos (o a n bloques, cada uno de tamaño J) se Je aplican
J tratamientos o se Je toman J medidas con intención de averiguar si los promedios
de esos J tratamientos o medidas son o no iguales.
Las ventajas de esta prueba frente al estadístico F del ANOVA son las mismas
que hemos comentado a propósito del estadístico H de Kruskal-Wallis: no es
necesario establecer supuestos sobre las poblaciones originales tan exigentes como
los del ANOVA y permite trabajar con datos ordinales. La prueba de Friedman,
por tanto, debe preferirse al estadístico F cuando no se cumplen los supuestos
paramétricos del ANOV A o el nivel de medida de los datos es ordinal.
El diseño está formado por J muestras o tratamientos relacionados y por una
muestra aleatoria den sujetos o bloques independientes entre sí e independientes de
los tratamientos. Las puntuaciones originales deben ser transformadas en rangos
Rij. Esos rangos se asignan independientemente para cada sujeto o bloque; es decir,
se asignan rangos de 1 a J a las observaciones del sujeto o bloque 1; lo mismo con
el bloque 2; y lo mismo con el resto de los bloques por separado. La tabla 9.12
muestra la disposición de los datos y la notación utilizada.
TABLA 9.12
Estructura de los datos y notación correspondientes
a un diseño de medidas repetidas tras
asignar rangos a las nJ observaciones
Sujetos Muestras o tratamientos

o
bloques 1 2 j J
1 R11 R12 R1j RtJ

2 Ri1 R22 Rij R2J
... ... ... ... .. .
i Ril R;2 Rij R;J
... ... ... ... .. .
n R.1 R.2 Rnj R.J
R1 Ri Ri RJ
Los rangos asignados a cada sujeto o bloque suman, en todos los casos,
J(J + 1)/2 (pues en cada sujeto o bloque estamos asignando rangos desde 1 a J). Rij
representa el rango asignado al sujeto o bloque i en el tratamiento o muestraj. Y Ri
se refiere a la suma de los rangos asignados a las n observaciones de la muestra j:
(9.26)
Por tanto:
- Ri
R.=- (9.27)
J n
Para cada Rii (recuérdese [9.12] y [9.13]) tenemos:
E(Rii) = (J + 1)/2 (9.28)

ui ij
= (J 2 - 1)/12
Si los J promedios poblacionales son iguales (es decir, si los J tratamientos son
igualmente eficaces), entonces:
E(R 1 ) = E(R 2 ) = ··· = E<R) = nE(Rii) = n(J + 1)/2 (9.29)

ui = nui.. = n(J 2 -
J ,,
1)/12
Un estadístico, entre otros, que nos podría informar sobre si los promedios
poblacionales son iguales es:
S = L lR. -
j ./
11 (1 + 1)/2]'
pues si los promedios poblacionales son iguales, los Ri serán parecidos y S tomará
un valor próximo a cero. Pero el problema de Ses que su valor esperado depende
del número de sujetos o bloques utilizados en el diseño:
E(S) = LE[Ri -
•
n(J + 1)/2] 2 =¿u¡ = J[n(J 2 • J
- 1)/12]
J J
Es preferible utilizar una variante de S a la que llamaremos ya desde ahora x;:

2 12
X =S--- (9.30)
' nJ(J + 1)
pues su valor esperado no depende del número de sujetos o bloques sino sólo del
número de tratamientos o muestras:
12 nJ(J 2 - 1) 12
E(X;) = E(S)--- ----=J-1
nJ(J + 1) 12 nJ(J + 1)
Con unas sencillas transformaciones podemos reformular la ecuación (9.30) para

obtener la expresión habitual de x;:
12
X2
'
=
nJ(J + 1) i
L R~ -1
3n(J + 1) (9.31)
Las probabilidades exactas asociadas a algunos puntos críticos de la distribu-

ción muestra) de x;
pueden obtenerse en la tabla R del apéndice final (para algunos
valores de J y n). Para valores diferentes de J y/o n puede utilizarse la distribución

x2 con J - 1 grados de libertad 14 . El cuadro 9.6 recoge los pasos del contraste en el
formato habitual.
CUADRO 9.6
Prueba de Friedman. Resumen del procedimiento
l. Hipótesis: H 0 : las distribuciones de las J poblaciones son idénticas dentro de cada

bloque (es decir: los tratamientos son igualmente eficaces).
H 1 : al menos uno de los tratamientos tiende a presentar valores
mayores que al menos uno de los otros.
2. Supuestos:
a) Los n sujetos o bloques son aleatoriamente seleccionados (es decir, son
independientes entre sí).
b) Los n sujetos o bloques son independientes de los tratamientos.
e) El nivel de medida de los datos es, al menos, ordinal dentro de cada bloque.
3. Estadístico de contraste 1 5:
12
X2 = í:R~-3n(J+I) (9.31)
' nJ(J + 1) i 1
4. Distribución muestra! 111: para J = 3. 4, 5 y 6, y para algunos valores de 11. los

puntos críticos de la distribución muestra! de x;
se encuentran en la tabla R del
14 Ver. por ejemplo, San Martín y Pardo, 1989, págs. 248-249, para una justificación de la
aproximación de x; a la distribución x. 2 con J - 1 grados de libertad.

15 Iman y Davenport (1980) han demostrado que el estadístico F del ANOVA aplicado, no a las
puntuaciones originales. sino a las puntuaciones transformadas en rangos R;;. ofrece mejores resultados
que el estadístico x;de Friedman. El estadístico F aplicado a n conjuntos de rangos R 1; toma la forma:
L,RJ nJ(J + 1)2)

( ~-----·
(n-1)
4
F, = - - - - - - - - - -
nJ(J + 1)(2J + 1) L,RJ
________ ;_
6 n
y se distribuye según el modelo de probabilidad F con J - 1 y (J - l)(n - I) grados de libertad.
Podemos, por tanto, mediante el estadístico F, tomar decisiones en los términos ya conocidos.
1 • Si existen muchos empates, el estadístico x;
se hace conservador. En estos casos conviene dividir
x; por un término corrector que tiene en consideración la existencia de empates:
e= 1-
•=1
I ( i; - i,
nJ(J 2 -I)
)
siendo 1. el número de puntuaciones empatadas en un rango dado (1 1,1,. ... ,1., ... ,1 6 ) y Gel número de
grupos o conjuntos de empates. Por supuesto, los empates que importan son los que se dan dentro del
mismo sujeto o bloque pues, recordemos, los rangos se asignan independientemente para cada sujeto o
bloque. La corrección por empates se realiza para corregir el sesgo conservador que afecta a X; cuando
existen empates, de modo que no tiene sentido utilizarla cuando sin ella ya se rechaza H 0 .
© Ediciones Pir~midc
apéndice final; para valores diferentes de J o n puede utilizarse la aproximación a

x2 con J - 1 grados de libertad (la propia tabla R ofrece los puntos críticos de la
distribución x2 ).
5. Zona crítica: viene definida por todos los valores mayores o iguales que el punto
1 _.x; de la tabla R, o mayores o iguales que el punto 1 _.xJ- 1 •
6. Decisión: se rechaza H 0 si x; cae en la zona crítica; en caso contrario, se

mantiene.
EJEMPLO 9.7. En varios trabajos clásicos sobre memoria se ha intentado estudiar

el efecto distorsionante del paso del tiempo presentando un determinado material a un
grupo de sujetos y más tarde evaluando la calidad del recuerdo de ese material tras
diferentes intervalos temporales. En un estudio concreto, a un grupo de 9 sujetos
aleatoriamente seleccionados se les presentó una historia escrita que debían intentar
memorizar durante 20 minutos. Terminado el tiempo de memorización, se dejó
transcurrir una hora y se pidió a los 9 sujetos que escribieran en un papel la historia
que habían intentado memorizar. Un grupo de expertos evaluó la calidad del recuerdo
de cada sujeto. Transcurrido un día se volvió a pedir a los sujetos que escribieran la
historia tal como la recordaban. Y lo mismo se hizo al cabo de una semana y al cabo
de un mes. Los resultados obtenidos por los 9 sujetos en los 4 registros efectuados
aparecen en la tabla 9.13. A partir de estos datos y utilizando un nivel de significación
de 0,01, ¿qué podemos concluir sobre el efecto del paso del tiempo sobre la calidad del
recuerdo?
TABLA 9.13
Sujetos 1 hora 1 día 1 semana 1 mes
1 16 8 8 12
2 12 9 9 10
3 12 10 10 8
4 15 13 7 11
5 18 12 12 12
6 13 13 8 10
7 18 16 10 13
8 15 9 6 6
9 16 9 11 8
Estos datos ya fueron analizados en el capítulo 5 mediante el estadístico F (ver

ejemplo 5.2). La decisión tomada allí fue la de rechazar la hipótesis de que todas las
medias poblacionales eran iguales. Veamos a qué conclusión llegamos utilizando el
estadístico de Friedman.
Comenzamos asignando rangos a las puntuaciones de cada sujeto. La tabla 9.14
recoge los rangos asignados y los totales correspondientes a cada tratamiento. A partir
de los datos de esa tabla y teniendo en cuenta que n = 9 y J = 4, podemos obtener el

estadístico de Friedman utilizando la ecuación (9.31 ).
TABLA 9.14
Sujetos 1 hora 1 día 1 semana 1 mes
1 4 1,5 1,5 3
2 4 1,5 1.5 3
3 4 2,5 2,5 1
4 4 3 1 2
5 4 2 2 2
6 3.5 3,5 1 2
7 4 3 1 2
8 4 3 1,5 1,5
9 4 2 3 1
35.S 22 15 17,5
l. Hipótesis: H 0 : las distribuciones de las 4 poblaciones son idénticas dentro de

cada bloque (es decir: la calidad de la memoria no se ve
afectada por el paso del tiempo).
H 1 : al menos uno de los tratamientos tiende a presentar valores
mayores que al menos uno de los otros (el paso del tiempo
afecta a la calidad de la memoria).
2. Supuestos:
a) Los sujetos constituyen una muestra aleatoria.
h) Los sujetos son independientes de los tratamientos.
e) El nivel de medida de los datos es, al menos, ordinal dentro de cada
bloque.
12
x; = ----(35,5
9(4)(5)
2 + 22 2 + 15 2 + 17,52)- 3(9)(5) = 16,70
1" Si utilizamos el cstadistico sugerido por !man y Davenport ( 1980) obtenemos:
LRJ
( _,_ 11J(J + 1) 2 ) 2275,5 9(4)(5) 2 )
(ll - 1) - ---- (9-1) ( - - - - -
11 4 9 4
F,=---------- ------ ---- = 12.97
11J(J + 1)(2J + I) LRJ 9(4)(5)(9) 2275.5
__ ;_
6 9
6 ll
que se distribuye según el modelo F con J - 1 = 3 y (J - 1)(11 - 1) = 24 grados de libertad. Con

'.X = 0,01 el punto crítico vale 0 . 99 F 3 . 24 = 4,72, lo cual nos lleva al rechazo de la hipótesis de que los
promedios poblacionales son iguales (12,97 > 4,72).
4. Distribución muestra!: puesto que la tabla R del apéndice final no nos

proporciona los puntos críticos exactos para J = 4 y n = 9, podemos recurrir a
la distribución x2 con J - 1 = 3 grados de libertad.
5. Zona crítica: x; ;;;¡: 0 • 99 x~ = 11,34.
6. Decisión: puesto que 16,70 > 11,34, rechazamos H 0 y concluimos que el paso
del tiempo afecta a la calidad de la memoria.
a) Comparaciones múltiples
Para llevar a cabo comparaciones múltiples (a priori o a posteriori) podemos

utilizar cualquiera de los procedimientos ya estudiados en los apartados 9.4.1.a y
9.4.1.b. Todos ellos son válidos para el diseño que nos ocupa tal y como han sido
descritos en esos apartados. Únicamente hay que tener en cuenta que, ahora, la
varianza de una comparación Lh cualquiera viene dada por:
u'l: = J(J + l)~::C~· (9.32)

L, 12n j J
EJERCICIOS
9.1. En años previos, la mediana del número de horas de estudio que los alumnos dedican
al examen de Análisis de datos en psicología JI viene siendo de 12,8. En el presente curso,
hemos seleccionado al azar a 10 alumnos de la mencionada asignatura y hemos computado
el número de horas de estudio de cada sujeto (tabla 9.15). ¿Permiten estos datos concluir que
el promedio de horas de estudio es este año igual al de años anteriores? (oc = 0,05).
TABLA 9.15
Sujetos 1 2 3 4 5 6 7 8 9 10
Horas de estudio 8 o menos 9 10 10 11 11 12 13 14 más de 14
9.2. Algunos estudios sobre gemelos señalan que el miembro del par nacido en primer lugar
muestra un comportamiento más agresivo que el nacido en segundo lugar. Para obtener
alguna evidencia más sobre esta idea, se ha pasado un cuestionario de agresividad a una
muestra aleatoria de 15 parejas de gemelos. Los resultados obtenidos aparecen en la tabla
9.16. ¿Permiten estos datos concluir que, entre los gemelos, los nacidos en primer lugar son
más agresivos? (oc = 0,05).
TABLA 9.16
Nacidos en l." lugar 76 80 86 87 85 95 97 75 87 96 98 77 80 87 89
Nacidos en 2.º lugar 70 75 84 90 81 95 87 72 92 85 88 76 85 81 84
«~ Ediciones Pirámide
9.3. En un experimento sobre memoria hemos hecho aprender a una muestra aleatoria de 5
sujetos tres listas con las siguientes características: lista A: 12 sílabas sin sentido de tres letras
cada una (consonante-vocal-consonante); lista B: 12 números de tres cifras; lista C: 12
palabras con sentido de 8 letras cada una. Tras contabilizar el número de ensayos que cada
sujeto necesitó para aprender correctamente cada lista hemos obtenido los resultados de la
tabla 9.17. ¿Podemos concluir, con O!= 0,01, que las listas difieren en el número medio de
ensayos requeridos para aprenderlas?
TABLA 9.17
1 2 3 4 5
Lista A 15 12 16 19 16
Lista B 11 9 8 IO 7
Lista C 6 5 8 7 4
9.4. En un experimento sobre percepción de la orientación estimular es necesario emplear

estímulos susceptibles de ser percibidos durante un tiempo de exposición lo más breve
posible. Nos daríamos por satisfechos si el estímulo seleccionado fuera percibido por al
memos la mitad de los sujetos en un tiempo de exposición de 45 milisegundos. Con intención
de averiguar si nuestro estímulo es útil lo hemos presentado a 10 sujetos. La tabla 9.18 recoge
el tiempo que ha necesitado cada sujeto para reconocer el estímulo (el estímulo se ha
presentado repetidas veces aumentando el tiempo de exposición en cada una de ellas a
intervalos de 10 milisegundos hasta que cada sujeto ha sido capaz de reconocerlo). ¿Podemos
concluir que estos resultados son compatibles con la hipótesis de que al menos la mitad de
los sujetos perciben el estímulo en un tiempo de exposición de 45 milisegundos? (O! = 0,05).
TABLA 9.18
Sujetos 1 2 3 4 5 6 7 8 9 IO
Tiempo de reconocimiento 30 40 90 30 40 60 30 70 70 40
9.5. Una muestra aleatoria de 7 universitarios fue encuestada sobre su actitud hacia la
nueva ley de reforma universitaria utilizando un cuestionario diseñado para tal finalidad.
Tras esta primera aplicación del cuestionario, se invitó a los sujetos a participar en una mesa
redonda en la que se debatió e informó sobre diferentes aspectos de la mencionada ley.
A continuación, los sujetos volvieron a rellenar el mismo cuestionario. La tabla 9.19 recoge los
resultados obtenidos por cada sujeto en las dos aplicaciones. ¿Podemos afirmar que la mesa
redonda consigue incrementar las puntuaciones en el cuestionario? (oi = 0,01).
TABLA 9.19
Sujetos
2 3 4 6 7
, I .ª aplicación 14 16 18 20 18 22 18
2.ª aplicación 22 18 22 19 22 28 IO
9.6. Se ha llevado a cabo un estudio ara averiguar si el optalidón provoca ansiedad en los
pacientes que lo toman habitualmente. El experimento se ha realizado con 20 sujetos, los
cuales han sido asignados al azar a dos grupos de igual tamaño. Al primer grupo se le ha
administrado el fármaco durante un mes. Al segundo grupo se le ha administrado un placebo
durante el mismo espacio de tiempo. Al finalizar el periodo de tratamiento todos los sujetos
fueron evaluados en su nivel de ansiedad. La tabla 9.20 recoge los resultados obtenidos.
¿Podemos concluir que el optalidón hace aumentar el nivel de ansiedad de los sujetos?
(ex= 0,01).
TABLA 9.20
Grupo experimental 13 20 30 28 33 42 37 10 25 12
Grupo control 10 12 22 17 40 21 14 23 18 30
9.7. Hemos presentado a 6 sujetos elegidos al azar 4 discos de colores (R: rojo; A: azul; V:
verde; N: negro). La tarea encomendada a cada sujeto ha consistido en situar los 4 estímulos
en un continuo subjetivo con los polos alegre y triste. A partir de los resultados de la tabla
9.21, ¿podemos afirmar que hay colores con tendencia a ser percibidos más alegres o tristes
que otros? (ex= 0,01).
TABLA 9.21
Alegre .... ······ Triste
Sujetos
1 R V A N
2 R A V N
3 V R A N
4 R V A N
5 V A R N
6 V R A N
9.8. Con el fin de estudiar el efecto que produce una determinada droga en pacientes
aquejados de insomnio, un investigador seleccionó 4 niveles de droga ( 10, 50, 100 y 250 mg) y
los aplicó a 4 grupos aleatorios de pacientes. Las dosis fueron administradas una vez al día
durante una semana. La tabla 9.22 recoge el número medio de minutos/día dormidos por
cada paciente durante la semana de tratamiento. También recoge la tabla el número medio
de minutos/día dormidos por un grupo de pacientes que no recibió dosis de droga, sino un
placebo. A partir de estos resultados, ¿podemos decir que las diferentes cantidades de
fármaco reducen diferencialmente el insomnio? (ix = 0,01).
TABLA 9.22
10 mg 298 281 302 299 311 309 288 293

50 mg 307 315 277 261 296 300 312 321
100 mg 395 388 456 489 435 379 491 502
250 mg 107 288 195 162 197 207 102 188
Placebo 241 289 232 257 304 198 227 262
9.9. Utilizando los datos del ejemplo 9.8, ¿qué cantidad de fármaco diremos que se muestra
significativamente eficaz para reducir el insomnio?
9.IO. Un psicólogo escolar cree que el orden en el que se presentan las preguntas de un test
influye sobre la aptitud de los sujetos para responder correctamente a las mismas. Para
estudiar esta cuestión divide aleatoriamente una clase de 20 sujetos en dos grupos de 10
sujetos cada uno. Selecciona un conjunto de preguntas y las ordena de acuerdo con el nivel
de dificultad estimado de cada una. Basándose en esa ordenación, prepara dos tests: el
primero (A) con las preguntas ordenadas en dificultad creciente y el segundo (B) con las
preguntas ordenadas en dificultad decreciente. Un grupo de sujetos responde al test A y el
otro al test B. Los resultados obtenidos con cada grupo aparecen en la tabla 9.23. ¿Podemos
concluir que el orden de las preguntas afecta al rendimiento en los tests? (ot = 0,05).
TABLA 9.23
Test A 82 82 83 95 91 65 90 75 71 70
Test B 78 68 78 66 75 50 60 42 80 78
9.11. Imaginemos una situación en la que 6 sujetos son evaluados de O a 10 por 3 jueces
independientes (por ejemplo, 6 alumnos son calificados por 3 profesores, 6 candidatos a un
puesto de trabajo son clasificados por 3 entrevistadores, 6 pacientes son diagnosticados por
tres terapeutas, etc.). La tabla 9.24 muestra una situación de este tipo, con unos datos
ficticios. Queremos averiguar si existen algunos sujetos con puntuaciones significativamente
mejores (más altas) que otros (ot = 0,05).
TABLA 9.24
Sujetos
1 2 3 4 5 6
Juez 1 8 7 2 1 6 3
Juez 2 4 9 3 1 6 2
Juez 3 6 9 4 2 5 3
9.12. Seis pacientes con diferente sintomatología depresiva mantienen sesiones de terapia
grupal con tres terapeutas diferentes. Cierto día, los tres terapeutas deciden obtener algún
tipo de medida sobre el grado de intolerancia hacia las opiniones distintas de las propias. pues
consideran que esa actitud está entorpeciendo sensiblemente la marcha del proceso terapéuti-
co. Para medir esa actitud se les ocurre ordenar a los seis pacientes, de forma independiente y
cada terapeuta según su propio criterio, desde el que consideran que es más intolerante (1) al
que consideran que lo es menos (7). Los resultados de la ordenación están recogidos en la
tabla 9.25. Considerando la ordenación establecida por los terapeutas, ¿podemos afirmar, con
°' = 0,01, que los pacientes difieren significativamente en su grado de intolerancia?
TABLA 9.25
Pacientes
1 2 3 4 5 6
1 6 3 4 1 2 5
Terapeutas 2 6 4 5 1 3 2
3 5 4 6 2 3 1
9.13. Un cuestionario de radicalismo es completado por varios grupos de personas. Cada

grupo es de una ideología política concreta. La tabla 9.26 recoge la puntuación obtenida por
cada sujeto en el cuestionario. ¿Podemos afirmar, con oc = 0,05, que los distintos grupos de
ideología política seleccionados difieren en radicalismo? Si es así, ¿cuáles son los grupos más
y menos radicales?
TABLA 9.26
Extrema derecha 10 12 10 8 11 15 9 12 8 14
Derecha 9 11 10 6 9 5 14 6 10 8
Centro 4 10 8 6 5 8 11 2 4 9
Izquierda 10 2 4 7 2 8 9 11 5 3
Extrema izquierda 11 14 7 9 10 12 9 13 15 10
9.14. Se ha realizado un estudio para comprobar si una sustancia utilizada por la medicina
hindú para desintoxicar opiómanos podría ser empleada también para deshabituar a los
fumadores. La experiencia se ha realizado con 26 fumadores distribuidos al azar en dos
grupos. A un grupo (A) se le ha administrado la mencionada sustancia y el otro (B) ha
recibido un placebo (simulando que tomaban la sustancia en cuestión). Tras el tratamiento se
registró el número medio de cigarrillos/día fumados por cada sujeto durante un mes. La
tabla 9.27 recoge los resultados obtenidos. ¿Qué podemos concluir sobre la eficacia de la
sustancia hidú para reducir el hábito de fumar? (oc =0,01).
TABLA 9.27
Grupo A 20 10 o o o o 3 7 o 8 7 10 11
Grupo B 19 28 18 14 17 16 13 12 14 11 10 20 8
9.15. Antes de ser sometidos a una terapia correctora de 20 sesiones, 7 niños disléxicos han
pasado por una prueba de dictado en la que se han contabilizado los errores que ha
cometido cada uno. Tras las 20 sesiones de entrenamiento, los 7 niños han vuelto a repetir la
prueba de dictado y se han vuelto a contabilizar sus errores. La tabla 9.28 recoge los
resultados obtenidos. ¿Qué podemos concluir sobre la eficacia del entrenamiento utilizado?
(ex= 0,05).
TABLA 9.28
Sujetos
2 3 4 5 6 7
1Errores en la l.ª aplicación 20 13 21 8 10 21 9

Errores en la 2.ª aplicación 7 3 10 1 3 10 2
9.16. Un psicólogo ha diseñado tres cuestionarios distintos (A, B y C) para detectar

sentimientos de inferioridad y autodesprecio en sus pacientes depresivos. Para determinar si
estos cuestionarios son igualmente sensibles a la hora de detectar ese tipo de sentimientos,
seleccionó una muestra aleatoria de diez pacientes depresivos e hizo que todos ellos
rellenaran los tres cuestionarios. Tras corregir cada cuestionario por separado, el psicólogo
obtuvo los datos que se muestran en la tabla 9.29. ¿Podemos afirmar que las puntuaciones
obtenidas con los tres cuestionarios son iguales? (oi = 0,05).
TABLA 9.29
Sujetos
1 2 3 4 5 6 7 8 9 10
Cuestionario A 4 5 4 8 3 6 6 5 2 4
Cuestionario B 2 4 5 3 5 7 6 4 8 7
Cuestionario C 8 7 9 2 7 5 8 6 4 8
'
9.17. En un experimento sobre percepción se utilizaron 5 estímulos luminosos (A, B, C, D y

E) de diferente intensidad. Estos estímulos fueron presentados aleatoriamente a 8 sujetos
seleccionados al azar. Cada sujeto tenía que ordenar los estímulos según su propia percep-
ción de la intensidad luminosa de los mismos. Los resultados obtenidos aparecen en la tabla
9.30. ¿Podemos concluir que todos los estímulos son percibidos igualmente intensos?
(oi = 0,01).
TABLA 9.30
Sujetos
1 2 3 4 5 6 7 8
1 e e B e D D e c.
Orden de 2 D B e B B e D A
clasificación 3 B D E D e E B D
de los estímulos 4 A E D E E A A B
5 E A A A A B E E
9.18. En un experimento diseñado para estudiar el efecto de generalización de la indefensión

aprendida de situaciones aversivas a situaciones apetitivas, se utilizaron 21 ratas distribuidas
aleatoriamente en tres grupos. A las ratas del grupo 1 se les aplicó un estímulo aversivo del
que podían escapar saltando a un compartimento contiguo. A las ratas del grupo 2 se les
aplicó el mismo estímulo aversivo, pero no podían hacer nada para escapar. Las ratas del
grupo 3 no recibieron estimulación aversiva. Tras esta primera fase todas las ratas fueron
introducidas en una nueva situación en la que tenían que apretar una palanca para conseguir
una bola de alimento. La tabla 9.31 recoge el número de respuestas (apretar la palanca)
dadas por cada animal en un intervalo de tiempo idéntico para todos. ¿Podemos concluir
que el grupo sometido a descarga inescapable (grupo 2) rinde peor que los otros dos?
(a.= 0,05).
TABLA 9.31
Grupo 1 3 7 6 1 5 4 6
Grupo 2 O 2 1 o o 1 o
Grupo 3 2 6 4 o 3 9 3
9.19. (Señale la/s alternativa/s correcta/s.) Para estudiar el efecto de tres métodos de
enseñanza sobre el rendimiento, utilizamos el estadístico H de Kruskal-Wallis. Si obtenemos
H = 2 y sabemos que P(H < 2) = 0,007:
a) Concluiremos que no hay diferencias entre los métodos.
b) Las dos combinaciones lineales posibles serían significativas.
e) La relación entre VI y VD podría ser cúbica.
d) La relación entre VI y VD podría ser cuadrática.
e) La probabilidad de rechazar la hipótesis nula siendo verdadera vale 0,007.
9.20. (Señale la/s alternativa/s correcta/s.) Con una prueba no paramétrica obtenemos un
estadístico de contraste T= 7,3 tal que P(T< 7,3) = 0,025. Esto significa que si el contraste es
unilateral derecho:
a) Hay que rechazar H 0 •
b) La probabilidad de rechazar H 0 , siendo verdadera, es 0,025.
e) Lo más sensato es mantener H 0 •
d) Podemos rechazar H 0 con una probabilidad de equivocarnos de 0,025.
e) Al mantener H 0 , siendo verdadera, la probabilidad de equivocarnos es al menos
0,025.
SOLUCIONES
9.1. Prueba de los signos. Contraste bilateral.

n+ = 3. P(n+ ~ 3) = 0,172 > a./2 = 0,025. Mantenemos H 0 •
Concluimos que no hay evidencia suficiente para pensar que el promedio de horas de
estudio haya cambiado.
9.2. Prueba de Wilcoxon. Contraste unilateral derecho.

S+ = 86,5. Con n = 14, s0 •95 = 79. Rechazamos H 0 •
Podemos concluir que los nacidos en primer lugar se muestran más agresivos que los
nacidos en segundo lugar.
9.3. Prueba de Friedman.

x; = 9,1. Con J = 3 y n = 5, 0 •99 x; ~ 8,4. Rechazamos H 0 .
El promedio de ensayos requeridos para aprender las tres listas no es el mismo.

S+ = 32,5. Con n = 10, s 0 •95 = 44. Mantenemos H 0 .
Podemos concluir que el estímulo es adecuado para nuestro experimento.
9.5. Prueba de Wilcoxon. Contraste unilateral izquierdo.

S+ = 7,5. Con n = 7, s0 •01 =l. Mantenemos H 0 .
La mesa redonda no consigue aumentar las puntuaciones en el cuestionario.
9.6. Prueba de Mann-Whitney. Contraste unilateral derecho.

U= 116,5. Con n 1 = 10 y n2 = 10, u0 •01 = 75; por tanto: u0 •99 = 10(20 + 1) -
- 75 = 135. Mantenemos H 0 .
Podemos concluir que el optalidón no hace aumentar la ansiedad de los sujetos.

x¡ = 13,2. Con J = 4 y n = 6, 0 , 99 x; ~ 10,2. Rechazamos H 0 •
Los colores no son igualmente percibidos: unos son percibidos como más alegres o
tristes que otros.
9.8. Prueba de Kruskal-Wallis.

H = 31,50. 0 , 99 :x.i = 13,277. Rechazamos H 0 .
Podemos concluir que las diferentes cantidades de fármaco reducen diferencialmente el
insomnio.
9.9. DMSDunnell = 17,54.
Sólo con una dosis de 100 mg se consigue una eficacia significativa.
9.10. Prueba de Mann-Whitney. Contraste bilateral.

U= 133,5. Con n 1 = n2 = 10, u0 , 025 = 79; por tanto: u0 •975 = 10(20 + 1) - 79 = 131.
Rechazamos H 0 .
Podemos decir que el orden de dificultad de las preguntas afecta a la puntuación del
test.
9.1 t. Prueba de Friedman.

x; = 13,57. ConJ = 6 y n = 3, 0 , 95 x; ~ 9,857. Rechazamos H 0 •
Hay al menos un sujeto con puntuaciones más altas que al menos otro.

x;= 11,19. Con J = 6 y n = 3, o. 99 x; ~ 11,762. Mantenemos H 0 •
Los sujetos no difieren significativamente en el grado de intolerancia.
9.13. Prueba de Kruskal-Wallis.

JI= 17,10. 0 •95 ;d = 9,488. Rechazamos H 0 •
Los grupos difieren significativamente en radicalismo.

DMSTukcy = 17,79. Los menos radicales son los grupos de centro e izquierda; los más
radicales, los de extrema derecha y extrema izquierda.
9.14. Prueba de Mann-Whitney. Contraste unilateral izquierdo.

U= 108,5. Con n 1 = 13 y n2 = 13, u0 •01 = 131. Rechazamos H 0 .
Podemos decir que la sustancia utilizada ha conseguido que los sujetos del grupo A
fumen menos que los del grupo control.

S+ = 28. Con n = 7, s0 •95 = 24. Rechazamos H 0 •
Podemos afirmar que el tratamiento es eficaz.

x; = 3,95. Con J = 3 y n = 10, 0 •95 x; ~ 6,20. Mantenemos H 0 •
Los tres cuestionarios utilizados poseen similar capacidad para detectar los sentimien-
tos evaluados.

x; = 17,70. Con J = 5 y n = 8, 0 •99 x; = 12,30. Rechazamos H 0 .
Los estímulos no son percibidos como igualmente intensos.
9.18. Prueba de Kruskal-Wallis (H = 103; significativo).

Para comparar el segundo grupo con los otros dos tomados juntos:
H 0 : L = (l)Mdn 1 + (-2)Mdn 2 + (l)Mdn 3 =O.
L = (1)15,07 + (- 2)5,07 + (1)12,86 = 17,79.
DMSDB = 1,645(33) 1' 2 = 9,45.
Rechazamos H 0 y concluimos que el segundo grupo da un número de respuestas sig-
nificativamente más bajo que los otros dos tomados juntos.
9.19. a.
9.20. c.
Relación entre variables
ordinales
10
10.1. El coeficiente de correlación rs de Spearman.

10.1.1. Procedimiento de cálculo.
10.1.2. Prueba de significación.
10.2. El coeficiente de correlación r de Kendall.
10.3. El coeficiente de correlación y de Goodman y Kruskal.
10.4. El coeficiente de concordancia W de Kendall.
10.5. Relación entre f 5 , r y W.
Ejercicios.
Ya hemos señalado que los dos aspectos más importantes del análisis de datos
son los que se refieren a la comparación entre promedios y al estudio de la relación
entre variables. Esto es así tanto si trabajamos con datos cuantitativos como si lo
hacemos con otro tipo de datos. En el capítulo anterior hemos estudiado ya un
conjunto de pruebas que nos permiten comparar promedios cuando los datos son
ordinales. En este capítulo nos proponemos estudiar algunos procedimientos
diseñados para estudiar la relación entre variables ordinales.
Al estudiar la relación entre variables cuantitativas (capítulo 8) hemos propuesto
el coeficiente correlación de Pearson como el procedimiento idóneo para afrontar
esa situación. Ese mismo coeficiente de correlación, aunque con otro nombre, es
también válido para estudiar la relación entre variables semicuantitativas. Sin em-
bargo, el coeficiente de correlación de Pearson no es el único coeficiente de corre-
lación disponible. Existen otros muchos (ver, por ejemplo, Kruskal, 1958), algunos
de los cuales vamos a estudiar en este capítulo.
Recordemos que, cuando hablamos de datos ordinales, nos estamos refiriendo a
los n primeros enteros consecutivos. Es decir, nos estamos refiriendo a rangos u
órdenes que van desde 1 hasta n. Y recordemos también que para referirnos a esos
rangos utilizamos la notación R 1, R 2 , ..• , R¡, ... , Rn.
Todas las técnicas de análisis que vamos a estudiar en este capítulo tienen en
común el hecho de considerar únicamente las propiedades ordinales de los datos, de
modo que, aunque en el capítulo anterior hemos hecho ya referencia a algunas de
las propiedades de los datos ordinales, conviene recordar en este momento algunas
de ellas. En concreto:
'\'R. = n(n + 1)
f 1
2
'\' Rf- = n(n + 1)(2n + 1)
f 1
6 ( 10. l)
'\'R.
- f ' n+l
R=-=--
n 2
2 1 '\' 2 -2 n2 - 1
SR=-¿R· -R = - -
n ¡ ' 12
~;¡ Ediciones Pirámide

10.1. El coeficiente de correlación r5 de Spearman
En algunos experimentos nos podemos encontrar con que las puntuaciones de

las variables que estamos estudiando son rangos de 1 a n (tal es el caso, por
ejemplo, cuando pedimos a los sujetos que ordenen una serie de objetos con arreglo
a alguna característica de interés). En otras ocasiones, es posible que tengamos que
trabajar con una variable cuya naturaleza nos lleve a desconfiar de la calidad de la
medida obtenida y prefiramos asignar rangos a las puntuaciones originales (tal
como hemos hecho en muchos de los procedimientos no paramétricos estudiados en
el capítulo anterior).
Pues bien, tanto si las puntuaciones originales son rangos como si son sustitui-
das por rangos, la relación entre dos variables (X¡ e Y¡) puede ser apropiadamente
estudiada mediante el coeficiente de correlación r, de Spearman.
10.1.1. Procedimiento de cálculo
El coeficiente de correlación r, de Spearman (1904) no es otra cosa que el

coeficiente de correlación-de Pearson (rxy) aplicado a n pares de puntuaciones de las
que únicamente consideramos sus propiedades ordinales (es decir, aplicado, no a las
puntuaciones originales, sino a las puntuaciones transformadas en rangos). Recor-
demos la fórmula de rxy:
n¿X¡Y¡ - ¿xi¿ Y;
i i i
(10.2)
Si asignamos rangos R¡ desde 1 hasta n tanto a X¡ como a Y¡, en ambas

variables se verificarán las propiedades señaladas en (10.1). De modo que, con unas
pocas sustituciones (ver, por ejemplo, San Martín y Pardo, 1989, págs. 399-400), la
ecuación (10.2) puede quedar reducida a:
6IDf
r = l - - i__ (10.3)
• n3 - 1
que es la forma más habitual de presentar el coeficiente de correlación r, de

Spearman (D¡ se refiere a las diferencias entre cada par de puntuaciones).
Ahora bien, la equivalencia entre (10.2) y (10.3) se da únicamente si en los rangos
asignados a cada una de las variables no se producen empates. Cuando existen
empates puede utilizarse una corrección para ajustar el valor de r, (ver, por ejemplo,
Relación entre variables ordinales / 461
San Martín y Pardo, págs. 401-402), pero probablemente resulta menos engorroso
aplicar directamente la ecuación ( 10.2) a las puntuaciones transformadas en rangos.
Puesto que el coeficiente de correlación de Spearman y el de Pearson son, en
realidad, la misma cosa, r, debe ser interpretado exactamente igual que '"r Los
valores que puede tomar r, oscilan t:ntre - 1 y + 1; el valor cero indica ausencia de
relación; los valores mayores que cero indican relación positiva; y los valores
menores que cero indican relación negativa.
10.1.2. Prueba de significación
Para averiguar si el tamaño de r, está indicando verdadera relación entre las

variables estudiadas, podemos poner a prueba la hipótesis nula H 0 : Pxy = O y
utilizar r, como estimador del parámetro Pxy· No existe un acuerdo generalizado
sobre la forma correcta de obtener el error típico de r., pero en el cuadro 10.1
presentamos un procedimiento para contrastar H 0 : Pxy =O que, basándonos en los
resultados obtenidos por Nijsse (1988), nos parece el más recomendable.
CUADRO 10.1
Coeficiente de correlación r., de Spearman. Prueba de significación
l. Hipótesis:
a) Contraste bilateral: H 0 : Pxy = O; H 1 : Pxy # O.
b) Contraste unilateral derecho: H 0 : Pxy ~ O; H 1 : Pxy > O.
e) Contraste unilateral izquierdo: H 0 : Pxy ~ O; H 1 : Pxy < O.
2. Supuestos: muestra aleatoria de n pares de observaciones obtenidas con una escala

de medida al menos ordinal.
3.1. r,
3.2. T=----
r,Jn=2 (10.4)
~
4.1. Los puntos críticos (r p) de la distribución exacta de r, vienen en la tabla S del
apéndice final para n ~ 16 y para :x = 0,01 y :x = 0,05. ·
4.2. El estadístico T se distribuye según el modelo de probabilidad t de Student
con n - 2 grados de libertad. La aproximación sólo empieza a ser razonable-
mente buena con tamaños muestrales grandes (n > 30).
(<~ Ediciones Piramide

CUADRO 10.l (continuación)
5. Zonas críticas:
a.I. r, ~ r, 12 Y r_, ~ '1 -212·
a.2. T~ .,2tn-2 Y T~ 1-212tn-2·

b.I. r,~r 1 _ 2 •
b.2. T~ 1 _ 2 t._ 2 •
c) Contraste unilateral izquierdo:

c.I. '• ~ r,.
c.2. T~ ,t._ 2 •
6. Regla de decisión: se rechaza H 0 s1 r, o T caen en la zona crítica; en caso

ca suficiente para afirmar que existe relación significativa. Si mantenemos H 0
concluiremos que, con los datos disponibles, no podemos afirmar que las variables
estudiadas se encuentren relacionadas.
EJEMPLO 10.1. Un psicólogo desea averiguar si existe relación entre las variables
expediente académico y nivel de ingresos anuales. Para ello, selecciona una muestra
aleatoria de 6 titulados universitarios y mide en ellos ambas variables. Los resultados
obtenidos aparecen en la tabla 10.1. Utilizando el coeficiente de correlación de
Spearman, ¿podemos decir, con oc = 0,05, que existe verdadera relación entre esas
variables?
TABLA 10.1
Nota media del Ingresos anuales en

Sujetos
expediente (X,) miles de pesetas (Y;)
1 7,4 1.000
2 8,0 900
3 6,5 800
4 8,2 1.500
5 6,9 850
6 8,1 1.350
Para obtener el coeficiente de correlación de Spearman podemos organizar los

cálculos tal como se muestra en la tabla 10.2. En ella hemos asignado rangos a las dos
variables {R;<:ci y R;<y1), hemos obtenido la diferencia (D;) entre cada para de rangos y
hemos elevado al cuadrado esas diferencias.
TABLA 10.2
Sujetos Ri1xt Ri(11 D, Df

1 3 4 -1 1
2 4 3 1 1
3 1 1 o o
4 6 6 o o
5 2 2 o o
6 5 5 o o
r.of = 2
6~D 2
1 7 6(2)
r = 1 - - - = 1 - - - =O 943
' n3 - 1 63 - 1 '
l. Hipótesis: H 0 : p . . , = O; H 1 : p . . , #- O (contraste bilateral).

2. Supuestos: muestra aleatoria de 6 pares de observaciones obtenidas con una
escala al menos ordinal.
3. Estadístico de contraste: r, = 0,943.
4. Distribución muestra): tabla S del apéndice final, con n = 6.
5. Zona crítica: r,;?; r 1 _ 012 = r 0 •975 = 0,886.
6. Decisión: puesto que 0,943 > 0,886, rechazamos H 0 • Concluimos que existe
relación lineal significativa entre el expediente académico y el nivel de ingresos
anuales.
EJEMPLO 10.2. Dos especialistas han clasificado a un grupo de 7 pacientes

hospitalizados según su grado de psicopatía. El resultado de la ordenación hecha por
cada especialista aparece en la tabla 10.3. ¿Podemos afirmar que los especialistas
muestran un acuerdo significativo a la hora de clasificar a los pacientes? (oi = 0,05).
TABLA 10.3
Pacientes Especialista 1 Especialista 2
1 4 2
2 2 1
3 2 3,5
4 5 3,5
5 2 5
6 6 7
7 7 6
Los rangos ya vienen dados, de modo que no es necesario asignarlos. Pero, puesto
que existen empates, lo apropiado es utilizar, no el coeficiente de Spearman, sino el de
Pearson. En la tabla 10.4 hemos organizado los cálculos necesarios para obtener rxy·
TABLA 10.4
Sujetos Espec. 1 (X,) Espec. 2 (Y;) Xf Y¡2 X;Y¡
1 4 2 16 4 8
2 2 1 4 1 2
3 2 3,5 4 12,25 7
4 5 3,5 25 12,25 17,5
5 2 5 4 25 10
6 6 7 36 49 42
7 7 6 49 36 42
28 28 138 139,5 128,5
n¿X;Y;- ¿x;¿ Y;
i i i
7( 128,5) - (28)(28)
----:====::::::;:-----;::====::;- = 0,617
J7(138) - (28) 2 )7(139,5) - (28) 2
l. Hipótesis: H 0 : Px, :s:; O; H 1 : Pxr >O (contraste unilateral derecho: los especialis-
tas coincidirán en sus valoraciones cuando exista relación positiva entre los
rangos que han asignado).
3. Estadístico de contraste: r, = 0,617.
4. Distribución muestral: tabla S del apéndice final, con n = 7.
5. Zona crítica: r, ~ r 1 - · = r0 . 95 = 0,714.
6. Decisión: puesto que 0,617 > 0,714, mantenemos H 0 • No podemos afirmar que
exista relación significativa entre los rangos asignados por los dos especialistas;
por tanto, no podemos afirmar que el acuerdo alcanzado sea significativo.
10.2. El coeficiente de correlación tau h) de Kendall

El coeficiente de correlación r de Kendall (1938, 1963) es válido para estudiar
exactamente el mismo tipo de situaciones que el coeficiente de correlación r, de
Spearman, pero su lógica es muy diferente. No se basa, como r,, en las diferencias
entre cada par de rangos, sino en la secuencia de aparición de los rangos de cada
variable. De hecho, ambos coeficientes suelen tomar valores distintos.
¡¡~ Ediciones l'irámide
Consideremos las variables ordinales X¡ e Y¡ que aparecen en la tabla 10.5. Los

rangos de la variable X¡ se encuentran en su orden natural: de menor a mayor. Si en
los rangos de la variable Y¡ ocurriera lo mismo, la relación entre ambas variables
sería perfecta. Pero no es eso lo que ocurre: la secuencia de los rangos de la variable
Y¡ no es la misma que la de los rangos de la variable X¡. El coeficiente de
correlación t se basa precisamente en esa secuencia de rangos; en concreto, en el
concepto de inversión o desemejanza y en el de no inversión o semejanza. Decimos
que se da una no inversión o semejanza (s) entre dos rangos cuando se encuentran
en su orden natural (de menor a mayor); y decimos que se da una inversión o
desemejanza (d) entre dos rangos cuando no se encuentran en su orden natural (si
dos rangos están empatados, no existe entre ellos semejanza ni desemejanza).
TABLA 10.5
X¡ 1 2 3 4 5 6 7 8
Y¡ 3 1 4 2 6 5 7 8
Para calcular, en unos datos concretos, el número de semejanzas y desemejanzas

podemos proceder de la siguiente manera: 1) se ordenan los pares (X¡, Y¡) según el
orden natural de los rangos de la variable X¡, y 2) se compara cada valor de Y¡ con
cada otro valor de Y¡ posterior a él; si el primer valor es menor que el segundo,
decimos que se da una no inversión o semejanza (s); si el primer valor es mayor que
el segundo decimos que se da una inversión o desemejanza (d).
Consideremos las variables de la tabla 10.5. Los pares ya se encuentran
ordenados según el orden natural de los rangos de la variable X¡· Comencemos a
comparar cada valor de Y¡ con cada otro posterior a él. El primer valor de Y¡ es 3;
ese valor hay que compararlo con todos los restantes, pues todos son posteriores a
él; resultan las siguientes comparaciones: (3, 1), (3,4), (3,2), (3,6), (3,5), (3, 7), (3,8). En
esas 7 comparaciones se dan sólo dos desemejanzas: (3, 1) y (3, 2); el resto son
semejanzas. A continuación pasamos al siguiente valor de Y¡, que es 1, y lo
comparamos con todos los posteriores a él; las comparaciones que resultan son las
siguientes: (1, 4), (1, 2), (1, 6), (1, 5), (1, 7), (1, 8). En todas ellas se dan desemejanzas,
etcétera. La tabla 10.6 ofrece el resultado de todas las comparaciones con el número
de semejanzas y desemejanzas resultante.
Una vez obtenido el número de semejanzas (n,) y desemejanzas (nd), podemos
calcular el coeficiente de correlación de Kendall de la siguiente manera:
• n. - nd
t=--- (10.5)
n. + nd
La lógica del coeficiente f es bastante simple. El número de comparaciones
binarias que podemos hacer con n observaciones es n, + nd = n(n - 1)/2. Si existe
TABLA 10.6
X, Y; Comparaciones s d
1 3 (3, 1) (3, 4) (3, 2) (3, 6) (3, 5) (3, 7) (3, 8) 5 2

2 1 (1,4) (1,2) (1,6) (1,5) (1, 7) (1,8) 6 o
3 4 (4, 2) (4, 6) (4, 5) (4, 7) (4, 8) 4 1
4 2 (2, 6) (2, 5) (2, 7) (2, 8) 4 o
5 6 (6, 5) (6, 7) (6, 8) 2 1
6 5 (5, 7) (5, 8) 2 o
7 7 (7,8) 1 o
8 8
24 4
relación perfecta pos1t1va entre las dos variables, todas las comparaciones serán
semejanzas: n, = n(n + 1)/2 y nd =O; de modo que n, - nd = n, + nd y f = l. Si la
relación entre las variables es perfecta, pero negativa, todas las comparaciones serán
desemejanzas: n, =O y nd = n(n + 1)/2; de modo que n, - nd = -(n, + nd) y f = - l.
Si, por último, no existe relación ninguna entre las variables, nos encontraremos
con tantas semejanzas como desemejanzas: n, = nd; de modo que n, - nd = O y
f = O. Por tanto, f oscila entre - 1 y 1 y su interpretación descriptiva es exacta-
mente la misma que la de r,.
Por supuesto, lo habitual es que entre un grupo de rangos la relación no sea ni
perfecta (positiva o negativa) ni nula. Más bien, el coeficiente f tomará valores
comprendidos entre - 1 y l. Por ejemplo, aplicando la ecuación ( 10.5) a las
variables de la tabla 10.5 obtenemos:
n, - nd 24 - 4
f = - - = - - = 0,71
n, + nd 14 + 4
Para saber si ese valor está indicando verdadera relación entre las variables X¡ e
Y¡ podemos utilizar la prueba de significación que se describe en el siguiente
apartado.
Si existen muchos empates, el valor de f necesita ser corregido 1• El número de
semejanzas (n,) y desemejanzas (nd) debe obtenerse teniendo en cuenta la existencia
de empates: 1) se ordenan los pares (X¡, Y¡) según el orden natural de los rangos de
la variable X¡; 2) se compara cada valor de Y¡ con cada otro valor de Y¡ posterior a
él, excepto con aquellos valores con los que se encuentra empatado en X¡. Las
1 En el SPSS, el coeficiente de correlación tau de Kendall (ecuación [10.5]) no aparece como tal,
pues, en realidad, es idéntico a otro coeficiente sí recogido en el SPSS: el coeficiente de correlación

gamma (y) de Goodman y Kruskal (ver apartado 10.3, en este mismo capítulo). Y el coeficiente de corre-
lación tau con corrección por empates (ecuación [10.6]) recibe en el SPSS el nombre de tau-b de Kendall,
probablemente para distinguirlo de la medida de reducción proporcional del error tau de Goodman y
Kruskal (ver apéndice 12).
semejanzas y desemejanzas se contabilizan en los términos ya conocidos. Tras esto,

el coeficiente f se obtiene mediante:
n, - nd
f =-----;=============---;::============ (10.6)
Jn(n - 1)/2 - Tx Jn(n - 1)/2 - TY
siendo:
¡j
~)x,(tx, - 1)
Tx = _1_ _2___ y
(tx, y ty, se refieren al número de puntuaciones empatadas en un rango dado de X¡ e

Y;, respectivamente; y G se refiere al número de grupos de empates) 2 •
Para tamaños muestrales de hasta 40, disponemos de tablas que nos proporcio-
nan los puntos críticos de la distribución muestral exacta de f. Para tamaños
muestrales más grandes podemos utilizar la aproximación normal, pues bajo la hipó-
tesis nula de independencia, conforme el tamaño muestra! va aumentando, la distri-
bución muestra) de i tiende a la normalidad con valor esperado cero y varianza:
2 2(2n + 5)
(J.=---- (10.7)
r 9n(n - 1)
El cuadro 10.2 recoge un resumen del procedimiento que permite hacer inferen-
cias sobre el parámetro r (es decir, sobre la verdadera correlación poblacional)
utilizando el valor muestral f.
CUADRO 10.2
Co~ficiente de correlación r de Kendall. Prueba de significación
1. Hipótesis:
a) Contraste bilateral: H 0 : t = O; H 1: t :¡. O.
b) Contraste unilateral derecho: H 0 : t ~ O; H 1: t > O.
e) Contraste unilateral izquierdo: H 0 : t ;;:i: O; H 1 : t < O.
2 Además del coeficiente de correlación tau-b de Kendall (ecuación [10.6]), el SPSS incluye el coefi-
ciente de correlación tau-e, también de Kendall, que es similar al tau-b, pero que utiliza una corrección
por empates ligeramente diferente: r, = 2k(n, - n4)/[n 2 (k - !)] donde k se refiere al valor menor del nú-
mero de filas y del número de columnas.
CUADRO 10.2 ( continuacián)

3.1. i.
iJ9n(n - 1)
3.2. Z=----
J2{2ñ + 5)
4.1. Los puntos críticos (Tp) de la distribución exacta de i vienen en la tabla T del
apéndice final para n :,.;; 40 y para iX = 0,01 y iX = 0,05.
4.2. El estadístico Z se distribuye según el modelo de probabilidad normal
N(O, 1). La aproximación es muy buena con tamaños muestrales relativa-
mente pequeños (a partir de n = 20).
5. Zonas críticas:
a.I. i:,.;; t:,12 Y i ;;¡, t:1-212·
a.2. Z:,.;; z,12 y Z ;;¡, z 1 -.12 •
b.I. i ;;¡, T:1-··
b.2. Z;;i:z 1 _ 2 •
c. l. i :,.;; t:,.
c.2. Z:,.;; z,.
6. Regla de decisión: se rechaza H 0 si i o Z caen en la zona crítica; en caso contrario,

se mantiene.

EJEMPLO 10.3. Dos profesores puntúan de 1 a 10 seis problemas según la

importancia que creen que cada uno tiene a la hora de dar la calificación final a un
alumno. Los resultados aparecen en la tabla 10.7. Utilizando el coeficiente de
correlación i de Kendall, ¿podemos concluir que existe un acuerdo significativo entre

los profesores? (oi = 0,01).
TABLA 10.7
Problema 1 2 3 4 5 6
Profesor A (X¡) 8 9 4 5 6 3
Profesor B (Y,) 7 6 4 3 5 1
Para obtener el número de semejanzas (n,) y desemejanzas (n,) comenzamos asig-

nando rangos 3 a las puntuaciones originales (tabla 10.8). Tras esto, ordenamos los pares
(X¡, Y¡) según el orden natural de los rangos de X¡ (tabla 10.9, primeras dos columnas)
y con los datos así dispuestos comenzamos a comparar entre sí los valores de la
variable Y¡ para obtener n, y n,. La tabla 10.9 recoge, en la parte central, esas
comparaciones y, en la parte derecha, el número de semejanzas y desernejanzas.
TABLA 10.8
Problema 1 2 3 4 5 6
Profesor A (X,) 5 6 2 3 4 1
Profesor B (Y,) 6 5 3 2 4 1
TABLA 10.9
X; Y; Comparaciones s d
1 1 (1,3) (1,2) (1,4) (1,6) (1,5) 5 o

2 3 (3, 2) (3, 4) (3, 6) (3, 5) 3 1
3 2 (2, 4) (2, 6) (2, 5) 3 o
4 4 (4,6) (4,5) 2 o
5 6 (6,5) o 1
6 5
13 2
A partir de los datos de la tabla 10.10 obtenemos:
n, - n, 13 - 2
i=--=--=073
n, + n, 13 + 2 '
3 En realidad no es necesario asignar rangos pues el número de semejanzas y desemejanzas puede
obtenerse igualmente utilizando las puntuaciones originales. No obstante, trabajar con rangos puede
resultar más sencillo al principio.
Y para decidir si un coeficiente de correlación f = 0,73 expresa un acuerdo

significativo, llevamos a cabo la prueba de significación para f:
l. Hipótesis: H 0 : r ~ O; H 1 : r > O (contraste unilateral derecho: existirá acuerdo
significativo entre los profesores cuando exista relación positiva entre las
valoraciones que han hecho de cada problema).
3. Estadístico de contraste: f = 0,73.
4. Distribución muestra!: tabla T del apéndice final, con n = 6.
5. Zona crítica: f ~ r 1 - · = r 0 , 99 = 0,867.
6. Decisión: puesto que 0,73 < 0,867, mantenemos H 0 • No podemos afirmar que
exista relación significativa entre los rangos asignados por los dos profesores;
por tanto, no podemos afirmar que el acuerdo alcanzado sea significativo.
EJEMPLO 10.4. Un investigador desea estudiar la relación entre las variables

Y; = búsqueda de posición social y X¡ = número de concesiones dadas a las presiones del
grupo. Al medir en una muestra aleatoria de 12 sujetos esas variables ha obtenido los
resultados que recoge la tabla 10.10. ¿Podemos concluir, sirviéndonos del coeficiente
de correlación f de Kendall, que existe relación significativa entre esas variables?
(IX= 0,05).
TABLA 10.10
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12
Concesiones (X¡) o o 1 1 3 4 5 6 7 8 8 11
Búsqueda (Y,) 42 46 39 37 65 88 86 56 62 92 54 81
Los pares se encuentran ya ordenados según el orden natural de las puntuaciones

de la variable X¡. Para obtener el número de semejanzas y desemejanzas no es
necesario asignar rangos. Únicamente debemos recordar que, puesto que existen
empates, las puntuaciones Y; que tienen el mismo valor en X¡ no se comparan entre sí.
La tabla 10.11 recoge las posibles comparaciones entre los valores de Y; y el número
de semejanzas y de desemejanzas que resultan.
Puesto que existen empates, debemos utilizar la ecuación (10.6), lo que significa que
necesitamos obtener el valor de T" y Ty:
G
~ t (t - 1)
L.. "• "• 2(2 - 1) + 2(2 - 1) + 2(2 - 1)
T= 1 = =3
" 2 2
G
¿ ty,(ty, - 1)
Ty = 1 =O (en Y; no hay empates)
2
TABLA 10.11
X; Y, Comparaciones s d
o 42 42 con: 39, 37, 65, 88, 86, 56, 62, 92, 54 81 8 2

o 46 46 con: 39, 37, 65, 88, 86, 56, 62, 92, 54 81 8 2
1 39 39 con: 65, 88, 86, 56, 62, 92, 54 81 8 o
1 37 37 con: 65, 88, 86, 56, 62, 92, 54 81 8 o
3 65 65 con: 88, 86, 56, 62, 92, 54 81 4 3
4 88 88 con: 86, 56, 62, 92, 54 81 1 5
5 86 86 con: 56, 62, 92, 54 81 1 4
6 56 56 con: 62, 92, 54 81 3 1
7 62 62 con: 92, 54 81 2 1
8 92 92 con: 81 1 o
8 54 54 con: 81 o 1
11 81
44 19
Y aplicando (10.6):
n, - nd
i = -----;:======---:=======
Jn(n - 1)/2 - Txj$-=t)/2 - T>.
44- 19
----;:=====---;::::::==== = 0,388
J12(12 - 1)/2 - 3 J12(12 - 1)/2 - o
l. Hipótesis: H 0 : r = O; H 1 : r # O (contraste bilateral).
3. Estadístico de contraste: i = 0,388.
4. Distribución muestra!: tabla T del apéndice final, con n = 12.
5. Zona crítica: i ~ t 1 - .12 = r 0 •975 = 0,455.
6. Decisión: puesto que 0,388 < 0,455, mantenemos H 0 • No podemos afirmar que
exista relación significativa entre las variables estudiadas.
10.3. El coeficiente de correlación y de Goodman y Kruskal
El coeficiente y de Goodman y Kruskal ( 1979) no es más que el coeficiente de

Kendall adaptado a las situaciones en las que se dan muchos empates. Este tipo de
situaciones se presentan cuando se trabaja con una muestra más o menos grande y
los valores que pueden tomar las variables son muy pocos (clase social -baja
media, alta-, satisfacción laboral -nada, poca, mucha-, etc.). En una situación
típica de aplicación de este coeficiente nos encontraremos con datos dispuestos
como muestra la tabla 10.12. Se trata de un caso concreto en el que ambas variables
únicamente toman tres valores (bajo, medio, alto; 1, 2 3; etc.).
TABLA 10.12
Y¡
(1) (2) (3)
Bajos Medios Altos
(1) Bajos a b e n1+
(2) Medios d e f ni+
(3) Altos g h i nJ+
n+I n+2 n+J n
Dentro de cada casilla hay una frecuencia: a, por ejemplo, representa el número
de observaciones a las que corresponde un 1 en X; y un 1 en Y¡; h. por ejemplo,
representa el número de observaciones a las que corresponde un 3 en X; y un 2 en
Y¡. Todas las casillas, por tanto, recogen el numero de observaciones (n;) que están
empatadas tanto en X; como en Y¡. Las frecuencias marginales de las filas (n;+)
representan empates en X; y las frecuencias marginales de las columnas (n + i)
representan empates en lj.
Llamemos:
n, = número
de pares semejantes o no inversiones.
nd = número de pares desemejantes o inversiones.
ne = número de pares empatados.
Teniendo en cuenta el orden en el que están dispuestos los valores de las
variables (ver tabla 10.12), serán pares semejantes todos aquellos que resulten de
comparar cada una de las observaciones de una casilla dada con cada una de las
observaciones que se encuentren en casillas situadas por debajo y a la derecha de esa
casilla de referencia:
n, = a(e + f + h + i) + bif + i) + d(h + i) + e(i)
Y serán pares desemejantes todos aquellos que resulten de comparar cada una
de las observaciones de una casilla dada con cada una de las observaciones que se
encuentren en casillas situadas por debajo y a la izquierda de esa casilla de
referencia:
nd = c(d + e + g + h) + b(d + g) + ft.g + h) + e(g)
Lógicamente, el número de comparaciones binarias posibles sigue siendo

n(n - 1)/2. Y, puesto que todas las comparaciones son semejanzas, desemejanzas o
empates, tendremos:
n, + n4 + ne = n(n - 1)/2
En consecuencia, ne= n(n - 1)/2 - n, - n4 •
Una vez calculados n, y n4 , el coeficiente y de Goodman y Kruskal se obtiene
exactamente de la misma manera que el coeficiente i de Kendall 4 :
(10.8)
Si los datos están adecuadamente ordenados (es decir, si están ordenados tal
como muestra la tabla 10.12), la interpretación de y es idéntica a la de i. Pero, al
igual que ocurre con el resto de los coeficientes de correlación estudiados, para
saber si un valor concreto de y está indicando relación significativa es necesario
contrastar la hipótesis H 0 : y = O. El cuadro 10.3 ofrece un resumen de los pasos de
ese contraste.
CUADRO 10.3
Coeficiente de correlación /' de Goodman y Kruskal. Prueba de significación
1. Hipótesis:
a) Contraste bilateral: H 0 : }'=O; H 1: }'#-O.
b) Contraste un~lateral derecho: H0 : ¡• :::;; O; H 1 : }' > O.
e) Contraste unilateral izquierdo: H 0 : /' ;;.: O; H 1 : /' < O.

(10.9)
4 Somers ha propuesto una modificación de los coeficientes r y ( (ecuaciones [10.5] y [10.8]) para
el caso en que una de las variables se considere independiente y la otra dependiente. Esta modificación
consiste en añadir en el denominador de la ecuación el número de pares empatados en la variable de-
pendiente. Esta modificación se conoce como d de Somers y posee tres versiones: dos asimétricas (para
cuando una de las variables se considera dependiente) y una simétrica (para cuando no se hace distinción
entre variable independiente y dependiente). La versión simétrica se obtiene utilizando en el denominador
de la d el promedio de los denominadores correspondientes a las dos versiones asimétricas.
CUADRO 10.3 ( co11tin11aciá11 J
donde:
N = L:nf+ + ¿n~i - ¿¿n~

i j
4. Distribución muestra!: el estadístico Z se distribuye según el modelo de probabili-

dad normal N(O, 1).
5. Zonas críticas:
a) Contraste bilateral: Z ~ z, 12 y Z ~ z 1 _ , 12 •
h) Contraste unilateral derecho: Z ~ z 1 _ ••
e) Contraste unilateral izquierdo: Z ~ z,.
6. Regla de decisión: se rechaza H 0 si Z cae en la zona crítica; en caso contrario, se

mantiene.

EJEMPLO 10.5. A un psicólogo social se le ha ocurrido estudiar la relación entre

las variables X; = clase social e Y¡ = tipo de películas preferidas, como una forma de
aproximación al estudio de la agresividad encubierta de cierto colectivo humano. Para
ello, ha seleccionado 70 sujetos de diferentes clases sociales y tres tipos de películas:
melodramas, aventuras y policiacas (considerando que las preferencias por el melodra-
ma son síntoma de personalidad pacífica, frente a las preferencias por las películas
policiacas como síntoma de personalidad agresiva). Los resultados obtenidos aparecen
en la tabla 10.13. ¿Podemos decir que los sujetos de clase social alta son más agresivos
que los de clase social baja? (iX = 0,01).
TABLA 10.13
Tipo de película Oíl
Melodrama Aventuras Policiaca
Baja 12 8 4
Clase social (X¡) Media 4 10 6
Alta 2 8 16
Tenemos dos variables ordinales, con muy pocos niveles por variable (3 niveles en
ambas) y con numerosos empates: lo apropiado es estudiar la relación entre ellas
mediante el coeficiente de correlación y. Comenzamos calculando el número de

semejanzas (n,) y desemejanzas (n4):
n, = 12(10 + 6 + 8 + 16) + 8(6 + 16) + 4(8 + 16) + 10(16) = 912

n4 = 4(4 + 10 + 2 + 8) + 8(4 + 2) + 6(2 + 8) + 10(2) = 224
En consecuencia:
912 - 224
.r,= =0606
r 912 + 224 '
l. Hipótesis: H 0 : }'~O; H 1 : y> O (contraste unilateral derecho).

2. Supuestos: muestra aleatoria de n pares de observaciones obtenidas con una
escala de medida al menos ordinal.
N = (24 2 + 20 2 + 26 2 ) + (18 2 + 26 2 + 26 2 ) - (12 2 + 8 2 + ··· + 82 + 16 2 ) = 2.628
0,606)70 2 - 2.628
z= = 3,07
j2(70)(1 - 0,606 2 )
4. Distribución muestra!: el estadístico Z se distribuye según el modelo de
probabilidad normal N(O, 1).
5. Zona crítica: Z ~ z 1 - · = z 0 . 99 = 2,33.
6. Decisión: puesto que 3,07 > 2,33, rechazamos H 0 .
7. Conclusión: podemos afirmar que existe relación significativa entre las varia-
bles. Dada la disposición de los datos y teniendo en cuenta que el coeficiente ,~
es positivo, podemos concluir que los sujetos de clase social alta prefieren
películas de contenido más agresivo que los de clase social baja.
10.4. El coeficiente de concordancia W de Kendall

Todos los coeficientes de correlación estudiados hasta ahora en este capítulo
permiten estudiar la relación entre dos conjuntos de rangos. El coeficiente que nos
proponemos estudiar en este apartado (obtenido independientemente por Kendall y
Babington-Smith, 1939, y por Wallis, 1939) sirve para estudiar la relación (acuerdo,
concordancia) entre J > 2 conjuntos de rangos.
La necesidad de estudiar la relación entre J conjuntos de rangos se presenta con
cierta frecuencia en ciencias como la psicología. Tales situaciones se producen, por
ejemplo, cuando una muestra aleatoria de n sujetos u objetos es clasificada según J
características; o cuando J jueces evalúan, ordenan o clasifican una muestra de n
sujetos u objetos según una característica. Cualquiera que sea la forma de obtener
ese conjunto de J rangos, los datos pueden disponerse de la forma que muestra la
tabla 10.14.
TABLA 10.14
Estructura de los datos y notación al clas!ficar una muestra de n objetos
o sujetos según J características o según la opinión de J jueces
Características o jueces
Sujetos u objetos 1 2 j J
1 R11 R12 Rli Ru R1

2 Rii R12 Rii Ru Ri
... ... ... ... ... ...
; R;1 R;2 Rii RjJ R;
... ... ... ... ... ...
11 R.1 R.2 ... R.i ... R.J R.
n(n + 1) n(n + 1) n(n + 1) n(n + 1) Jn(n + 1)

--- --- ... - - - ... - - -
2 2 2 2 2
Rii representa el rango que corresponde al sujeto u objeto i en la característicaj,

o el rango asignado al sujeto u objeto i por el juez j. R¡ se refiere a la suma de los
rangos correspondientes al sujeto u objeto i:
J
R¡ = L Rij
j= 1
(10.10)
Podemos decir que se da concordancia perfecta entre J conjuntos de rangos

cuando todos los jueces valoran o clasifican a los n sujetos u objetos del mismo
modo (es decir, cuando los jueces coinciden plenamente en sus juicios) o cuando los
n sujetos u objetos son clasificados de idéntica manera en las J características
consideradas. Cuando esto ocurre, todos los jueces coinciden en asignar el rango 1 a
uno de los sujetos u objetos, todos coinciden en asignar el rango 2 a otro de los
sujetos u objetos, ... , todos coinciden en asignar el rango n a otro de los sujetos u
objetos. Esto significa que los totales R¡ correspondientes a los diferentes sujetos u
objetos serán: IJ, 2J, 3J, ... , iJ, ... , nJ.
Decimos, por el contrario, que no existe concordancia entre J conjuntos de
rangos, cuando los n sujetos u objetos son valorados o clasificados de diferente
forma por los J jueces (es decir, cuando los jueces no coinciden en sus juicios) o
cuando los n sujetos u objetos son clasificados de diferente manera en las J
características consideradas. Cuando esto ocurre, a uno de los sujetos u objetos le
corresponden rangos de 1 a n, a otro de los sujetos u objetos le corresponden
igualmente rangos de 1 a n, y lo mismo con el resto de los sujetos u objetos. Lo cual

implica que, en el caso de concordancia nula, los totales R; correspondientes a los
diferentes sujetos u objetos serán iguales:
J(n + 1)
R1 = R 2 = ··· = R; = ··· = Rn = 2 (10.11)
(pues la suma de los J conjuntos de rangos vale Jn(n + 1)/2).

Así pues, el grado de concordancia existente queda reflejado en la variabilidad
entre los totales R; de los diferentes sujetos u objetos: cuando la concordancia entre
J conjuntos de rangos es perfecta, la variabilidad entre los R; es máxima; cuando la
concordancia es nula, la variabilidad entre los R; es mínima.
Teniendo esto en cuenta, podemos definir el estadístico:
_ ~ (
S- J(n +
L.- R . - - - -
1)) 2
(10.12)
i=1
1
2
el cual representa la variabilidad observada entre cada total R; y el total que cabría
esperar si la concordancia fuera nula. S valdrá cero cuando la concordancia
existente sea nula (pues, en ese caso, todos los totales R; serán iguales entre sí e
iguales a J(n + 1)/2) y alcanzará su valor máximo en el caso de concordancia
perfecta, es decir, cuando entre los totales R; exista la máxima variabilidad:
(10.13)
Ahora bien, si queremos obtener un coeficiente que valga O en el caso de

concordancia nula y 1 en el caso de concordancia perfecta 5 podemos servirnos de
una transformación de S:
W= _!____ = 12S (10.14)

Smáx J2n(n2 - 1)
5 Con J conjuntos de rangos no tiene sentido un coeficiente con valores negativos, pues no es posible
la existencia de un desacuerdo total. Si entre dos conjuntos de rangos existe relación perfecta negativa, el
tercer conjunto de rangos necesariamente estará relacionado con uno de los dos anteriores o con
ninguno de ellos; y lo mismo vale decir del cuarto, y del quinto, etc.; y eso es algo de lo que no tiene
sentido hablar en términos negativos.
que es justamente el coeficiente de concordancia W de Kendall 6. Unas pocas

sustituciones nos llevan a una de las ecuaciones habitualmente utilizada para
expresar W:
12¿Rf
W= 3(n + 1)
i (10.15)
J 2 n(n 2 - 1) n-1
Cuando entre J conjuntos de rangos existe concordancia máxima, W vale 1;

cuando se da concordancia nula, W vale O.
Para poder afirmar que existe concordancia significativa entre J conjuntos de

rangos necesitamos hacer inferencias sobre. el parámetro W. Esto, en realidad, no
constituye un problema importante pues W es fácilmente transformable en el
estadístico x;
de Friedman (ver capítulo 9, apartado 9.4.2):
x; = J(n - t)W (10.16)
(de hecho, el coeficiente W de Kendall y el estadístico de Friedman son x;

aplicables al mismo tipo de situaciones). Mantener la hipótesis de que las distribu-
ciones poblacionales son idénticas dentro de cada sujeto o bloque utilizando el
estadístico de Friedman es exactamente la misma cosa que mantener mediante el
coeficiente de concordancia de Kendall la hipótesis de que las sumas de los J
rangos asignados a cada sujeto u objeto (los totales R¡) son iguales (es decir,
mantener la hipótesis nula de que los tratamientos son iguales es exactamente lo
mismo que mantener la hipótesis nula de ausencia de concordancia).
Teniendo esto en cuenta, para contrastar hipótesis referidas al parámetro W
podemos seguir los pasos resumidos en el cuadro 10.4.
" La presencia de empates dentro de un mismo conjunto de rangos hace que W tome un valor más
pequeño del que le corresponde. Si los empates son pocos, la disminución de W es insignificante, pero
si el número de empates es elevado conviene utilizar la siguiente fórmula correctora:
12¿Rf - 3J 2 n(n + 1) 2
w= - - - - - - - - - G
(10.15.b)
J 2 n(n 2 - 1) - J ¿(ti - r.)
donde '• se refiere al número de puntuaciones empatadas en un rango dado y G al número de grupos o
conjuntos de empates.
CUADRO 10.4
Coeficiente de concordancia W de Kendal/. Prueha de siynificacián
l. Hipótesis: H0 : W =O (es decir, no existe concordancia o acuerdo).

H 1 : W > O (es decir, existe concordancia o acuerdo).
2. Supuestos: J conjuntos de n observaciones obtenidas con una escala de medida al

menos ordinal.
3. Estadístico de contraste: x; = J(n - l)W.
4. Distribución muestral 7 : x; se distribuye aproximadamente según el modelo x2
con n - 1 grados de libertad.
5. Zona crítica: x;;;;?:; 1- 2 x;- 1•
6. Regla de decisión: se rechaza H 0 si X; cae en la zona crítica; en caso contrario, se

mantiene.

ca suficiente para afirmar que entre los J conjuntos de rangos estudiados existe
concordancia significativa.
EJEMPLO 10.6. Cinco pediatras han clasificado cuatro síntomas (A, B, C y D)

según su importancia a la hora de caracterizar el síndrome de hospitalismo en niños
recién nacidos. Los resultados de la clasificación aparecen en la tabla 10.15. ¿Podemos
afirmar que existe un acuerdo significativo entre los pediatras? (ix = 0,05).
TABLA 10.15
Pediatras
Sin tomas 1 2 3 4 5
A 1 1 2 1 2 7
B 3 3 1 2 1 10
e 2 4 3 4 4 17
D 4 2 4 3 3 16
121:Rf
3(n + 1) 12(7 2 + 10 2 + 17! + 16 2 ) 3(4 + 1)
W= ---- - - - - - - - - - - - - - = 0,552
J2n(n2 - 1) n- 1 52(4)(4 2 - 1) 4- 1
7 Cuando el número de jueces es reducido (cuando J es pequeño), puede utilizarse la distribución

exacta del estadístico X~ (tabla R del apéndice final: tabla de Friedman). Pero hay que tener en cuenta
una importante cuestión referida a la notación utilizada: a lo que en la prueba de Friedman y en la tabla
R hemos llamado muestras o tratamientos (J), ahora lo estamos llamando sujetos u objetos (n); y lo que
allí eran sujetos o bloques (n) ahora son características o jueces (J).
l. Hipótesis: H 0 : W = O (es decir, no existe acuerdo entre los pediatras).

H 1 : W > O (es decir, existe acuerdo entre los pediatras).
2. Supuestos: 5 conjuntos de 4 observaciones obtenidas con una escala de medida
al menos ordinal.
3. Estadístico de contraste: x; = 5(4 - 1)(0,552) = 8,28.
4. Distribución muestra!: x; se distribuye según x2 con n - 1 = 3 grados de
libertad.
5. Zona crítica: x;;;;?: 0 , 9 sX~ = 7,81.
6. Decisión: puesto que 8,28 > 7,81, rechazamos H0 •
7. Conclusión: disponemos de evidencia empírica suficiente para afirmar que
existe acuerdo significativo entre los pediatras.
10.5. Relación entre r5 , T y W

Según hemos señalado ya, los coeficientes r, de Spearman y f de Kendall sirven
para estudiar exactamente el mismo tipo de situaciones: la relación entre dos
variables ordinales. Sin embargo, no ofrecen el mismo resultado; el valor absoluto
de r, tiende a ser mayor que el de f. Tanto si utilizamos los coeficientes r, y f para
estimar el parámetro Pxy• como si los utilizamos para estimar sus respectivos
parámetros (r, para estimar el parámetro p, y f para estimar el parámetro r) el
coeficiente f se muestra, en términos generales, mejor estimador que el coeficiente r,.
Esto, unido al hecho de que las tablas que ofrecemos en el apéndice final para los
puntos críticos de las distribuciones muestrales de r, y f son más completas 8 en el
caso de f, hacen recomendable la utilización preferente de f sobre r,.
Por lo que se refiere a W, conviene señalar que no se trata de un coeficiente de
correlación convencional. Esto puede, sin duda, dificultar su interpretación. Pero
el problema de la interpretación de W tiene fácil solución si es transformado en el
promedio de los coeficientes de correlación r, entre todos los posibles pares de
conjuntos de rangos:
JW-1
f =--- (10.17)
s J - 1
En el ejemplo 10.6 hemos obtenido W= 0,552. Si calculáramos los coeficientes

de correlación r, entre cada par de conjuntos de rangos obtendríamos, como
promedio:
JW - 1 5(0,552) - 1
f= = =044
s J-1 5-1 '
valor que puede interpretarse como el promedio de la relación existente entre las
valoraciones de los pediatras.
8 Esto, en realidad, no es una ventaja real. Existen tablas más completas para r, (ver, por ejemplo,
Zar, 1972, 1984), que las que nosotros presentamos en el apéndice final.
EJERCICIOS
10.1. Un psicólogo social está interesado en estudiar la relación ent•.c las variables
autoritarismo y esfuerzo por mejorar de estatus. Para medir la primera variable ha utilizado la
escala F de Adorno; y para medir el esfuerzo por mejorar de estatus ha utilizado m1a escala
construida por él mismo. Los resultados obtenidos con una muestra de 12 Lniversitarios
aparecen en la tabla 10.16. ¿Podemos concluir, utilizando el coeficiente de correlación r, de
Spearman, que las mencionadas variables se encuentran relacionadas? (oc= 0,01).
TABLA 10.16
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12
Autoritarismo 72 88 77 30 106 103 101 73 75 116 96 107

Esfuerzo ... 35 39 34 32 60 83 81 51 57 87 49 76
10.2. ¿A qué conclusión llegaremos si aplicamos el coeficiente de correlación i de Kendall a

los datos del ejercicio 10.1?
10.3. A un grupo de directivos y a otro de trabajadores se les ha pedido su opinión sobre 5

aspectos de la vida sociopolítica del país. En la encuesta se les pedía que ordenaran de 1 a 5
cada uno de dichos aspectos según el grado de importancia que atribuían a cada uno en el
actual momento político ( 1 = más importancia; 5 = menos importancia). La tabla 10.17
recoge la valoración media dada por cada grupo a cada uno de los aspectos considerádos.
Utilizando el coeficiente de correlación r, de Spearman, ¿podemos decir que los directivos y
los trabajadores comparten opinión en lo que se refiere a la actual problemática del país?
(oc= 0,05).
TABLA 10.17
Directivos Trabajadores
Desarrollo de las Autonomías 1,5 4,9

Orden público 2,4 1,7
Desempleo 3,0 1,2
Política económica 2,1 4,0
Política exterior 1,3 2,7
10.4. ¿A qué conclusión llegaremos si aplicamos el coeficiente de correlación i de Kendall a

10.5. El grado de satisfacción en la vida durante la infancia parece estar fuertemente

relacionado con la posición ocupada entre los hermanos, siendo los primogénitos los más
propensos a experimentar insatisfacción. Buscando obtener más evidencia sobre la relación
entre esas variables, un psicólogo ha encontrado los resultados de la tabla 10.18 en una
muestra aleatoria de 90 niños. ¿Confirman estos resultados la relación señalada? (oc= 0,01).
TABLA 10.18
Poco Medianamente Muy

satisfechos satisfechos satisfechos
Hermano menor 4 6 14
Hermano intermedio 10 18 12
Hermano mayor 16 8 2
10.6. Los cuatro especialistas del departamento psiquiátrico de un centro asistencial han
clasificado a 8 pacientes según su disposición para la convivencia fuera del centro. Los
resultados individuales de esa clasificación están recogidos en la tabla 10.19. Teniendo en
cuenta que cada especialista ha realizado la clasificación basándose exclusivamente en
informes propios, ¿podemos decir que los criterios utilizados por los diferentes especialistas
coinciden? (a = 0,05).
TABLA 10.19
Especialistas
Pacientes 1 2 3 4
1 1 1 1 1
2 4 2 3 2
3 3 3 2 4
4 2 4 4 3
5 6 5 5 5
6 5 6 6 7
7 7 7 8 6
8 8 8 7 8
10.7. En una escuela infantil se quieren seleccionar un par de juegos concretos dentro de
una serie de juegos con las mismas características. Para ello, se pide a 7 niños que ordenen,
según sus preferencias, 4 de esos juegos. Los resultados de esa ordenación aparecen en la
tabla 10.20. ¿Podemos decir que existe acuerdo significativo entre las preferencias mostradas
por los niños? (a= 0,01).
TABLA 10.20
Niños Juego A Juego B Juego e Juego D
1 4 1 2 3
2 3 1 2 4
3 3 1 2 4
4 4 2 1 3
5 4 1 3 2
6 4 1 3 2
7 4 1 2 3
I0.8. En un estudio sobre creatividad, un profesor ha pedido a 16 de sus alumnos que

formulen por escrito una solución a un determinado problema. Las 16 soluciones han sido
clasificadas atendiendo a dos criterios: originalidad y eficacia. Los resultados obtenidos se
muestran en la tabla 10.21. Utilizando el coeficiente de correlación r, c'e Spearman, ¿Pode-
mos decir que las soluciones más originales tienden a ser también las más eficaces? (ex = 0,05).
TABLA 10.21
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Originalidad 14 8 16 9 10,5 5 4 10,5 1 2 7 3 15 12 6 13

Eficacia 13 7 15 11 12 8 1 10 3 4 6 2 16 9 5 14
I0.9. ¿A qué conclusión llegaremos si aplicamos el coeficiente de correlación i de Kendall a

IO.IO. Uno de los métodos habitualmente utilizados para la construcción de escalas (el
método de Thurstone) consiste en definir un continuo en el que situar los distintos aspectos o
categorías de una variable, sea o no continua. Nos hemos servido de este método para
obtener la opinión de 4 expertos sobre el grado de deterioro emocional de 6 pacientes. Cada
experto ha valorado en una serie de aspectos el grado de deterioro de cada paciente y,
promediando para cada sujeto los resultados del informe proporcionado por cada experto,
hemos obtenido los resultados que recoge la tabla 10.22. A partir de estos resultados,
¿podemos afirmar que existe relación significativa entre las valoraciones efectuadas por los
diferentes expertos? (ex = 0,05).
TABLA 10.22
Expertos
Pacientes 1 2 3 4
1 1 2 2 1
2 2 1 1 3
3 3 4 4 2
4 4 3 3 4
5 5 6 5 5
6 6 5 6 6
10.11. Algunos psicólogos mantienen que las madres muy ansiosas trasmiten su ansiedad al
niño recién nacido generando en él ciertos trastornos de tipo emocional. Al mismo tiempo,
parece que la ansiedad materna está directamente relacionada con el nivel de estudios:
cuanto mayor es el nivel de estudios, más intensa es la conducta ansiosa de la madre. Según
esto, los trastornos emocionales en recién nacidos serán más frecuentes en madres con un
nivel de estudios alto que en madres con un nivel de estudios bajo.
Para obtener alguna evidencia empírica sobre esta hipótesis, se seleccionaron aleatoria-
mente SO madres con distinto nivel de estudios (17 con nivel de estudios bajo, 19 con nivel de
estudios medio y 14 con nivel de estudios alto) y se hizo una exploración psicológica a sus
hijos contabilizando, para cada niño, el número de síntomas detectados en relación con algún
trastorno de tipo emocional. Los resultados encontrados aparecen en la tabla 10.23.
¿Podemos concluir que estos resultados aportan evidencia empírica relevante sobre nuestra
hipótesis? (ai = 0,01).
TABLA 10.23
Número de síntomas
Menos de 5 De 5 a 10 Más de 10
Bajo 10 4 3
Nivel de
estudios Medio 4 6 9
Alto 1 1 12
10.12. Una muestra aleatoria de ocho niños deficientes participó en una experiencia
consistente en vivir juntos en un piso con un educador, un psicólogo y un trabajador social.
Uno de los objetivos de esta experiencia era el de mejorar la autonomía referida a los hábitos
básicos. Después de un año de convivencia, los tres encargados del piso valoraron individual-
mente la autonomía que ellos percibían que cada niño había alcanzado. Utilizaron para ello
una escala de 10 puntos (el 10 indicando máxima autonomía). Los resultados obtenidos están
recogidos en la tabla 10.24. ¿Podemos decir que los tres responsables coinciden en sus
valoraciones? (ai = 0,05).
TABLA 10.24
Valoraciones
Sujetos Psicólogo T. social Educador
1 1 3 3
2 5 5 7
3 8 7 8
4 6 4 5
5 7 8 4
6 3 1 2
7 2 2 1
8 4 6 6
10.13. En la tabla 10.25 aparecen los resultados obtenidos por una muestra de 10 sujetos en
una prueba fisica y en una escala de autoconcepto. ¿Existe relación significativa entre ambas
variables? (ai = 0,05).
TABLA 10.25
Sujetos 1 2 3 4 5 6 7 8 9 10
Prueba fisica 60 70 65 72 75 77 82 84 90 95
Autoconcepto 55 73 62 80 81 70 83 91 87 93
10.14. Una empresa encarga a 4 especialistas en selección laboral que entrevisten a 6

aspirantes a un puesto de trabajo y los ordenen según su capacidad para el desempeño de
dicho puesto. Los resultados de la clasificación se muestran en la tabla 10.26. ¿Podemos
afirmar que existe acuerdo significativo entre las valoraciones de los especialistas? (IX = 0,05).
TABLA 10.26
Aspirantes
Especialistas 1 2 3 4 5 6
1 6 4 1 2 3 5
2 5 3 1 2 4 6
3 6 4 2 1 3 5
4 3 1 4 5 2 6
10.15. En un centro de rehabilitación de alcohólicos, tres pacientes de los que han

participado en un programa de desintoxicación se han brindado a juzgar la importancia que
para ellos han tenido las distintas partes de dicho programa. Se han evaluado las siguientes
partes del programa: alcohólicos anónimos (A), consulta individual (B), información sobre
adicción a la droga y al alcohol (C), experiencia en microgrupo (D), liderazgo en macrogrupo
(E), relación con otros pacientes (F) y relación comunitaria (G). Los resultados obtenidos
aparecen en la tabla 10.27. ¿Coinciden los pacientes en la utilidad de los diferentes compo-
nentes del programa de rehabilitación? (IX= 0,01).
TABLA 10.27
Componentes del programa
Pacientes A 8 e D E F G
1 1 2 3 4 5 6 7
2 2 3 4 5 1 7 6
3 5 4 1 2 3 6 7
SOLUCIONES
10.1. r, = 0,82; con n = 12: r 0 •995 = 0,727. Rechazamos H 0 .

Concluimos que las variables autoritarismo y esfuerzo por mejorar de estatus están
significativamente relacionadas.
10.2. f 0,67; con n = 12: r 0 . 995 = 0,576. Rechazamos H 0 .

=
Concluimos que las variables autoritarismo y esfuerzo por mejorar de estatus están
significativamente relacionadas.
10.3. r, = -0,70; con n = 5: r 0 . 975 = l. Mantenemos H 0 •

No podemos afirmar que los directivos y los trabajadores compartan opinión.
10.4. i = - 0,60; con n = 5: r 0 , 975 = 0,867. Mantenemos H 0 •

No podemos afirmar que los directivos y los trabajadores compartan opinión.
10.5. y= -0,587; N = 4.420; Z = -3,28; z0 , 01 = -2,33. Rechazamos H 0 .

El grado de satisfacción se encuentra significativamente relacionado con la posición
ocupada entre el número de hermanos.
10.6. W= 0,92; x:
= 25,76; 0 , 95 X~ = 14,07. Rechazamos H 0 •
Podemos afirmar que los especialistas coinciden en los criterios que utilizan.
10.7. W= 0,74; x: = 15,54;

0 , 99 X~ = 11,34. Rechazamos H 0 •
Concluimos que existe acuerdo entre las preferencias mostradas por los niños.
10.8. r, = 0,93; con n = 16: r 0 , 95 = 0,429. Rechazamos H 0 •

Podemos afirmar que las soluciones originales tienden a ser también las más eficaces.
10.9. i = 0,76; con n = 16: r 0 •95 = 0,317. Rechazamos H 0 •

Podemos afirmar que las soluciones originales tienden a ser también las más eficaces.
10.10. W= 0,87; x:
= 17,40; 0 , 95 x; = 11,07. Rechazamos H 0 •
Podemos afirmar que los expertos coinciden en sus valoraciones.
10.11. ¿ = 0,72; N = 1.364; Z = 3,50; z0 •99 = 2,33. Rechazamos H 0 •

Concluimos que los trastornos de tipo emocional en niños recién nacidos son más
frecuentes cuanto más alto es el nivel de estudios de la madre.
10.12. W= 0,83; x:
= 17,43; 0 , 95 x~ = 14,07. Rechazamos H 0 •
Los responsables coinciden en sus valoraciones.
10.13. r., = 0,92; con n = 10: r0 •975 = 0,648. Rechazamos H 0 •

i = 0,82; con n = 10: r 0 . 975 = 0,511. Rechazamos H 0 .
Concluimos que las variables están significativamente relacionadas.
10.14. W= 0,57; x:= 11,40; 0 , 95 x; = 11,07. Rechazamos H 0 .

Los especialistas coinciden en sus valoraciones.
10.15. W= 0,65; x:= 11,70; 0 , 99 X~ = 16,81. Mantenemos H 0 •

No podemos afirmar que los pacientes coincidan en sus valoraciones sobre los
diferentes componentes del programa.
PARTE CUARTA
Análisis de datos cualitativos
Cuando hablamos de datos cualitativos nos estamos refiriendo a datos obtenidos
al medir variables utilizando una escala de medida nominal. Las variables nominales
(también llamadas cualitativas, categóricas, etc.) son variables cuyos niveles (cate-
gorías, modalidades, etc.) permiten clasificar los elementos de una población esta-
bleciendo, únicamente, relaciones de igualdad y desigualdad en una característica
de interés.
Las variables cualitativas o nominales son muy abundantes en la investigación
psicológica: en una investigación clínica podemos encontrar variables como el tipo
de trastorno psicológico (neurosis, esquizofrenia, depresión, etc.), o el tipo de terapia
utilizada (psicoanalítica, conductual, cognitivo-conductual, etc.), o podemos clasificar
a los pacientes como tratados y no tratados, o como recuperados y no recuperados;
en una investigación psicosocial podemos clasificar a los sujetos de acuerdo con las
actitudes que manifiestan hacia un objeto particular (favorables, desfavorables o
indiferentes), o de acuerdo con el tipo de atribuciones que utilizan ante el fracaso
(internas o externas, controlables o incontrolables, etc.); en una investigación sobre
desarrollo psicológico podemos estar interesados en evaluar diferentes métodos de
lectura o el tipo de estrategias cognitivas con que los sujetos afrontan la resolución
de problemas. El sexo, la raza, las preferencias políticas, el tipo de ideología, el
estado civil, la ocupación laboral, la lateralidad manual, el resultado de una tarea
(éxito-fracaso), las diferentes estrategias utilizadas en un programa de entrenamiento,
etcétera, son otros ejemplos de variables cualitativas frecuentemente utilizadas en
la investigación psicológica y social.
Las técnicas de análisis diseñadas para el estudio de datos cualitativos pueden
agruparse siguiendo criterios muy diversos, pero con sólo utilizar tres muy sencillos
podemos decidir con precisión qué técnica es la apropiada para cada situación.
Estos tres criterios son: el número de variables, el tipo de variables y el tipo de
diseño.
En lo referente al número de variables, esta cuarta parte (capítulos 11 y 12)
recoge técnicas de análisis para el tratamiento de una y dos variables. El análisis
de más de dos variables requiere de la utilización de técnicas de análisis cuya
complejidad excede el alcance de un curso básico de análisis de datos (en Pardo
y San Martín, 1994, capítulo 13, por ejemplo, se exponen los modelos log-lineales
y logit para el estudio de tablas de contingencia multidimensionales).
De acuerdo con el segundo criterio, el tipo de variables, las variables cualitativas
pueden ser clasificadas como dicotómicas (variables que sólo tienen dos niveles:
«acierto-error», «varones-mujeres», etc.) o politómicas (variables que tienen más de
dos niveles: el estado civil, las preferencias políticas, etc.). El capítulo 11 recoge
un conjunto de técnicas de análisis diseñadas para estudiar únicamente variables
dícotómicas; el capítulo 12 incluye técnicas de análisis que permiten estudiar tanto
variables dicotómicas como politómicas.
El último criterio mencionado, el tipo de diseño, se refiere a la estrategia de
recogida de datos. Existen dos estrategias básicas. En la estrategia habitual, los
datos representan un corte temporal transversal: se recogen en el mismo o aproxi-
madamente el mismo punto temporal. Si, en lugar de esto, medimos una o más
variables en una muestra de sujetos y hacemos seguimiento a esos sujetos para
volver a tomar una medida de esas mismas variables o de otras diferentes, nos
encontramos en una situación longitudinal: las medidas se toman en diferentes pun-
tos temporales. En general, la prueba X 2 de Pearson y la mayor parte de las me-
didas de asociación que estudiaremos permiten analizar datos provenientes de di-
seños transversales; mientras que los contrastes sobre dos o más proporciones
relacionadas y los índices de riesgo suelen utilizarse para analizar datos provenientes
de diseños longitudinales.
Contrastes de hipótesis
sobre proporciones
11
11.1. Contraste de hipótesis sobre una proporc1on.

11.2. Contrastes de hipótesis sobre dos proporciones.
11.2.1. Dos proporciones independientes.
11.2.2. Dos proporciones relacionadas.
11.3. Contrastes de hipótesis sobre más de dos proporciones.
11.3.1. Más de dos proporciones independientes.
11.3.2. Más de dos proporciones relacionadas.
a) Comparaciones múltiples.
Ap~ndice 11.
Indices de riesgo.
Ejercicios.
11.1. Contraste de hipótesis sobre una proporción
En psicología es relativamente frecuente encontrarse con variables dicotómicas

o dicotomizadas, es decir, con variables que sólo pueden tomar dos valores: acierto-
error, verdadero-falso, tratados-no tratados, recuperados-no recuperados, a favor-en
contra, aprobados-suspensos, etc. Podemos llamar, de forma genérica, éxito y fraca-
so a los dos niveles de una variable de este tipo.
En el capítulo 1, apartado 1.3.4, hemos estudiado ya la distribución muestra)
de los estadísticos X = «número de éxitos» y P = «proporción de éxitos». Hemos
visto allí que ambos estadísticos se distribuyen según el modelo binomial con pa-
rámetros n (número de ensayos) y n (proporción de éxitos). El modelo binomial,
en consecuencia, nos proporciona las probabilidades asociadas a los estadísticos X
y P, y eso significa que podemos utilizar la distribución binomial para diseñar
contrastes de hipótesis sobre proporciones.
Además, sabemos que a medida que n va aumentando, las distribuciones de X y
P se aproximan a la distribución normal con parámetros:
E(X) = nn <Tx = Jnn(l - n) (11.l)
E(P) = n <Tp = Jn(l - n)/n (11.2)
En consecuencia, la variable:
X - nn p -1t
z =--;:::=== (11.3)
Jnn(l -n) Jn(l -n)/n
se distribuirá N(O, 1). Podemos, también, por tanto, utilizar la distribución normal
para diseñar contrastes de hipótesis sobre proporciones. El cuadro 11.1 ofrece,
siguiendo la lógica ya conocida, los pasos resumidos del contraste de hipótesis
sobre una proporción.
CUADRO 11.1
Contraste de hipótesis sobre una proporción. Resumen del procedimiento
1. Hipótesis:
a) Contraste bilateral: H 0 : 7t = n0 ; H 1 : 7t # n0 •
b) Contraste unilateral derecho: H 0 : 7t :::; n 0 ; H 1 : n > n 0 .
e) Contraste unilateral izquierdo: H 0 : 7t ~ n 0 ; H 1 : n < n0 .
2. Supuestos: la variable estudiada es dicotómica o dicotomizada y n es la verdadera

proporción de éxitos en la población (éxito hace referencia a uno cualquiera de los
dos niveles de la variable). De esa población extraemos una muestra aleatoria de n
observaciones con probabilidad de éxito n constante en cada extracción.
3. Estadísticos de contraste 1:
3.1. X = número de éxitos en los n ensayos.
P = X /n = proporción de éxitos en los n ensayos.
X - nn 0 p - 7to
3.2. Z=-;:::===
J nno(I - 7t 0 )
4.1. X y P se distribuyen según el modelo binomial con parámetros n y n0 .
4.2. Z se aproxima a la distribución N(O, 1) a medida que 11 va aumentando 2 •
a. I. Se rechaza H 0 si X o P toman un valor tan alejado de su valor esperado
bajo H 0 que la probabilidad de obtener un valor tan alejado o más que
ése es menor que -x./2.
a.2. Se rechaza H 0 si Z:;;;z, 12 o Z~z 1 -, 12 •
1 Tenemos tres estadístícos. Dos de ellos (X y P) son en realidad el mismo y poseen una distribu-
ción muestra! exacta (la distribución binomial con parámetros n y rr). El otro (Z) posee una distri-
bución muestra! aproximada (la distribución normal estandarizada). Los dos primeros son preferibles
con muestras pequeñas (por ejemplo, con 11 ,,¡;; 25, que es el tope de la tabla binomial del apéndice final).
L será preferiblemente utilizado con muestras grandes (por ejemplo. con 11 > 25, que es justo hasta donde
llega la tabulación de la distribución binomial en el apéndice final).
1 Si 11 no es muy grande. la aproximación es un poco más exacta utilizando la corrección por
cominuidad, que consiste en sumar (si X es menor que nrr) o restar (si X es mayor que nrr) 0,5 puntos a X,
o, de forma equivalente, 0,5/11 puntos a P para hacer el contraste algo más conservador (no faltan
autores que desaconsejen esta corrección por continuídad; por ejemplo, Richardson, 1990):
0.5
P ±- - rro
X± 0,5 -11rr 0 11
Z=----
Contrastes de hipótesis sobre proporciones / 495

h. l. Se rechaza H 0 si X o P toman un valor tan grande que la probabilidad
de obtener un valor como ése o mayor es menor que :x.
h.2. Se rechaza H 0 si Z ~ z 1 _,.
c.I. Se rechaza H 0 si X o P toman un valor tan pequeño que la probabilidad
de obtener un valor como ése o más pequeño es menor que :x.
c.2. Se rechaza H 0 si Z ~ z,.
6. Nivel critico:
a. I. Si utilizamos X o P. el nivel crítico p es el doble de la probabilidad de
obtener un valor X o P tan alejado de su valor esperado bajo H 0 como
el obtenido.
a.2. Si utilizamos Z. p = 2[P(Z ;:;, l=kl)J, siendo zk el valor concreto tomado
por el estadístico Z.
h. I. Si utilizamos X o P. el nivel crítico p es la probabilidad de obtener un
valor X o P tan grande como el obtenido o más grande.
h.2. Si utilizamos Z. p = P(Z ~ =d·
c. I. Si utilizamos X o P. el nivel critico p es la probabilidad de obtener un
valor X o P tan pequeño como el obtenido o más pequeño.
c.2. Si utilizamos Z. p = P(Z ~ =d·
11 (
p + ;: 2
+= JP(-- 1 - Pl
+ :2 )
~-- ( 11.4)
11 +: 2 211 - 11 411 2
donde: se refiere a lz,; 2 1o 1= 1 - •. iJ.

Conforme 11 va aumentando, 11/(11 + z 2) va tendiendo a l. y z 2/(211) y z 2/(411 2) van
tendiendo a cero, de modo que, con 11 grande. la ecuación (11.4) para los límites
de confianza de la proporción puede reducirse a:
P ± I:, 2 lv P(I - P)/11 ( 11.5)
«) Ediciones Pirámide
EJEMPLO 11.1. Al parecer, la sintomatología del 30 por ciento de los pacientes

neuróticos remite espontáneamente durante los tres primeros meses del trastorno.
Según esto, parece lógico pensar que una terapia eficaz con este tipo de trastornos
deberá conseguir a lo largo de los tres primeros meses un número de recuperaciones
significativamente mayor de las que se producen de forma espontánea. Los resultados
obtenidos con 25 sujetos a los que se les ha aplicado una determinada terapia indican
que, en los tres primeros meses, ha habido 11 recuperaciones. ¿Podemos afirmar que el
número de mejoras obtenidas con la terapia difiere significativamente del esperable
por simple recuperación espontánea? (ex = 0,05).
Tenemos una variable dicotómica (pacientes recuperados-pacientes no recuperados)
y una muestra de n = 25 observaciones. Llamaremos 7t a la proporción poblacional de
la categoría pacientes recuperados. Hemos observado X = 11 recuperaciones y, por
tanto, la proporción observada de recuperaciones es P = 11/25 = 0,44.
Vamos a efectuar un contraste sobre 7t para determinar si la verdadera proporción
de pacientes recuperados con la aplicación de la terapia es superior a la que cabe
esperar por simple recuperación espontánea (es decir, superior a 0,30).
l. Hipótesis: H 0 : 7t ~ 0,30; H 1 : 7t > 0,30 (contraste unilateral derecho).
2. Supuestos: tenemos una muestra aleatoria de 25 observaciones con probabili-
dad constante 0,30 de que una observación cualquiera pertenezca a la catego-
ría de pacientes recuperados.
3. Estadísticos de contraste 3 :
3.1. X= 11.
p = 0,44.
11 - 25(0,30) 0,44 - 0,30

3.2. z = --;::::===== ----;:::===== = 1,53
J25(0,30)(1 - 0,30) Jo,30(1 - 0,30)/25
4.1. X y P se distribuyen binomialmente con parámetros n = 25 y 7t = 0,30.
4.2. Z se aproxima a N(O, 1).
5.1. Se rechaza H 0 si la probabilidad de obtener valores X;::-; 11 o P ;::-; 0,44
es menor que ex= 0,05. Es decir, se rechaza H 0 si se verifica:
P(X ;::-; 11) < 0,05, o, equivalentemente, P(P ;::-; 0,44) < 0,05. En la tabla
de la distribución binomial, con n = 25 y 7t = 0,30, vemos que
P(X ;::-; 11) = P(P ;::-; 0,44) = 0,098.
5.2. Se rechaza H 0 si Z ;::-; z0 . 95 = 1,64.
6. Decisión:
6.1. Como P(X ;::-; 11) = P(P ;::-; 0,44) = 0,098 es mayor que ex= 0,05, mantene-
mos H 0 .
3 En un contraste concreto sólo es necesario utilizar uno de los varios estadísticos de contraste
propuestos. Nosotros aquí, en el ejemplo, utilizamos los tres estadísticos con el único objetivo de
ejemplificar su uso.
6.2. Como Z = 1,53 es menor que z0 . 95 = 1,64, mantenemos H 0 •

Tanto con los estadísticos X y P como con el estadístico Z se llega a la misma
decisión 4 . La conclusión es que la proporción de mejoras que se obtiene con la
terapia en cuestión no es significativamente más alta que la proporción de
mejoras que se producen por simple recuperación espontánea.
11 .2. Contrastes de hipótesis sobre dos proporciones
11.2.1. Dos proporciones independientes
Ahora, en lugar de medir una variable dicotómica o dicotomizada (con dos

niveles a los que seguiremos llamando éxito y fracaso) en una sola población, lo
hacemos en dos. Tenemos, pues, dos poblaciones de las que extraemos sendas
muestras aleatorias de tamaños n 1 y n2 y en las que definimos los estadísticos
X 1 = «número de éxitos en los n 1 ensayos de la muestra 1» y X 2 = «número de
éxitos en los n2 ensayos de la muestra 2». Tendremos:
n 1 =proporción de éxitos en la población l.

P 1 = X i/n 1 = proporción de éxitos en la muestra l.
E(P1)=n1
u~ 1 = n 1(1 - ni)/n 1
(11.6)
n 2 = proporción de éxitos en la población 2.
P 2 = X 2 /n 2 = proporción de éxitos en la muestra 2.
E(P2) = n2
u~ 2 = n2(1 - 7t2)/n2
Teniendo en cuenta que una proporción no es más que una media, podemos
seguir la lógica expuesta en el capítulo 4 acerca de los contrastes de hipótesis sobre
dos medias independientes para diseñar contrastes de hipótesis referidos a dos
proporciones independientes. En el cuadro 11.2 están resumimos los pasos del
contraste.
4 La probabilidad asociada al estadístico Z (el nivel crítico p) es más parecida a la probabilidad
exacta proporcionada por la distribución binomial si se utiliza la corrección por continuidad. En el

ejemplo, el nivel crítico con los estadísticos X y P vale p = P(X ~ 11) = 0,098, mientras que el nivel
crítico en el estadístico Z vale p = P(Z ~ 1,53) = 0,063. Si utilizamos la corrección por continuidad
obtenemos:
11 - 0,5 - 25(0,30)
z= = 1,31
J25(0,30)(1 - 0,30)
en cuyo caso el nivel crítico con el estadístico Z vale p = P(Z ~ 1,31) = 0,0951, valor muy parecido al
nivel crítico proporcionado por la distribución exacta (0,098).
CUADRO 11.2
Contraste de hipótesis sobre dos proporciones independientes.
l. Hipótesis
a) Contraste bilateral: H 0 : rr 1 - rr 2 = k; H 1: rr 1 - rr 2 # k.
h) Contraste unilateral derecho: H 0 : rr 1 - rr 2 :::;; k: H 1: rr 1 - rr 2 > k.
e) Contraste unilateral izquierdo: H 0 : rr 1 - rr 2 ;>, k; H 1: rr 1 - rr 2 < k.
2. Supuestos: la variable estudiada es dicotómica o dicotomizada en las dos pobla-

ciones. De esas dos poblaciones extraemos independientemente dos muestras
aleatorias de tamaños 11 1 y 11 2 con probabilidades de éxito (rr 1 y rr 2, respectivamen-
te) constantes en cada extracción.
3.1. Si, en H 0 , k =O,
P1 - P2
Z=----;::======= (11.7)
jP(I - P)(l/11 1 + l/11 2)
donde:
11 1P 1 +11 2 P 2
P=----- (11.8)
111+112
3.2. Si, en H 0 , k #O,
(11.9)
4. Distribución muestra): Z (tanto [11.7] como [11.9]) se aproxima, conforme los

tamaños muestrales van aumentando, a N(O, 1).
5. Zona critica:
a) Contraste bilateral: Z :::;; z, 12 y Z ;>, z 1 _, 12 .
h) Contraste unilateral derecho: Z ;>, z 1-··
e) Contraste unilateral izquierdo: Z :::;; z,.
6. Regla de decisión: se rechaza H 0 si el estadístico de contraste Z cae en la zona

lCJ Edic10111!s Pirc'.:.m1de

7. Nivel crítico:
a) Contraste bilateral: p = 2[P(Z ;;:,: lzkJ)], siendo zk el valor concreto tomado por
el estadístico Z.
b) Contraste unilateral derecho: p = P(Z ;;:,: zk).
e) Contraste unilateral izquierdo: p = P(Z ~ zk).
(11.10)
EJEMPLO 11.2. El grado de dificultad de las preguntas de un test se suele medir

por el número de sujetos que los aciertan, o más exactamente, por la proporción de
aciertos. Para averiguar si dos preguntas de un determinado test de aptitud general
difieren en dificultad hemos seleccionado 200 sujetos y los hemos repartido aleatoria-
mente en dos grupos de 100. Un grupo de sujetos ha respondido a la pregunta 1 y el
otro a la pregunta 2. La pregunta 1 la han acertado 70 sujetos y la 2 la han acertado
60. ¿Podemos afirmar, con un nivel de significación de 0,05, que las dos preguntas
estudiadas difieren en dificultad?
l. Hipótesis: H 0 : n 1 - n 2 =O; H 1 : n 1 - n 2 #O (contraste bilateral).
2. Supuestos: la variable estudiada es dicotómica (acierto-error) en las dos
poblaciones: la población de respuestas a la pregunta 1 y la población de
respuestas a la pregunta 2; de esas dos poblaciones extraemos independiente-
mente dos muestras aleatorias de tamaño 100 con probabilidades de acierto
(n 1 y n 2 , respectivamente) constantes en cada extracción.
3. Estadístico de contraste (para el caso en el que k = O):
70 60
P 1 =-=0,70 P 2 = -=0,60
100 100
100(0,70) + 100(0,60)
p = = 065
100 + 100 '
0,70 - 0,60
z= = 1,48
J0,65(1 - 0,65)(1/100 + 1/100)
5. Zona crítica: Z ~ z0 •025 = -1,96 y Z;;:,: z0 . 975 = 1,96.
6. Decisión: puesto que 1,48 está comprendido entre -1,96 y 1,96, mantenemos
H 0 • No podemos afirmar que las proporciones de acierto n 1 y n 2 difieran y,
por tanto, no podemos afirmar que las preguntas 1 y 2 difieran en dificultad.
7. Nivel crítico: p = 2[P(Z ~ 11,481)] = 2(0,0694) = 0,1388. Este valor nos indica
que la hipótesis nula podría ser rechazada con un nivel de riesgo de 0,1388. Es
decir, podríamos rechazar H 0 , pero con una probabilidad de equivocarnos de
0,1388.
O, 70(0,30) 0,60(0,40)
(0, 70 - 0,60) ± 1,96 ---+ = (-0,03;0,23)
100 100
Los límites de confianza indican que la verdadera diferencia entre n 1 y n 2 se

encuentra entre -0,03 y 0,23. Esto significa que la verdadera diferencia puede
ser cero y, por tanto, las dos preguntas pueden ser igualmente dificiles, lo cual
es coherente con la decisión tomada.
11 .2.2. Dos proporciones relacionadas

Seguimos trabajando con una variable que sólo puede tomar dos valores
(variable dicotómica o dicotomizada), pero ahora no disponemos de dos muestras
independientes de tamaños n1 y n2 , sino una sola muestra de tamaño m en la que
efectuamos dos medidas de una misma variable (se trata de un diseño longitudinal).
La situación es similar a la presentada a propósito del contraste de hipótesis sobre
dos medias relacionadas (apartado 4.4).
Si en una muestra de m sujetos medimos, en dos momentos temporales diferen-
tes (a los que llamaremos A = antes, y D = después), una variable dicotómica
cualquiera (con valores 1 y 2), los datos obtenidos pueden representarse según
muestra la tabla 11.1.
TABLA 11.1
Disposición de los datos y notación en una tabla de contingencia bidimensional
referida a dos medidas (A y D) en una variable dicotómica (con valores
1 = éxito y 2 =fracaso). Frecuencias absolutas
D =Después
1 n11 n12 n1+

A= Antes
2 n11 n12 nz+
n+1 n+2
n 11 = Número de sujetos que puntúan 1 en las dos medidas.

n 12 =Número de sujetos que puntúan 1 en la medida antes y 2 en la medida
después.
ni 1 = Número de sujetos que puntúan 2 en la medida antes y 1 en la medida

después.
n 22 =Número de sujetos que puntúan 2 en las dos medidas.
m = n 11 + n 1 i + ni 1 + n 22 .
Bajo la hipótesis nula de que la proporción de éxitos antes (n 1 + = nA) y la pro-
porción de éxitos después (n+ 1 = nD) son iguales, cabe esperar que en las dos
medidas efectuadas (A y D) se produzcan tantos cambios de 1 a 2 como de 2 a 1
(n 12 :::::: n21 ). Es decir, cabe esperar que los cambios observados sean sólo resultado
del proceso de muestreo. Pero si, por el contrario, H 0 es falsa y nA difiere de nD,
los cambios en una dirección serán más numerosos que en la otra (n 12 =/= n 21 ).
Haciendo:
podemos utilizar la distribución binomial para conocer la probabilidad asociada a

un número concreto de cambios (en cualquier dirección) bajo la hipótesis nula de
que la proporción de éxitos antes es la misma que la proporción de éxitos después:
1tA = 1to.
Y con tamaños muestrales grandes, podemos contrastar la hipótesis nula
nA= n 0 mediante una versión del estadístico X 2 de Pearson propuesta por McNe-
mar (1947):
(n12 - n21) 2 + (n21 - n12) 2
2(n 12 + n2¡)
nf 2 + ni 1 - 2n 12 n 21 + ni 1 + nf 2 - 2n 12 n 21 2nf 2 + 2ni 1 - 4n 12 n 21
2(n 12 + n21 ) 2(n12 + n21)
(n12 - n1¡)2
(11.11)
n12 + n21
que se distribuye según x2 con 1 grado de libertad.
Así pues, el contraste sobre dos proporciones relacionadas nos permite evaluar,
a partir de los cambios que se producen en una y otra dirección, si la proporción de
éxitos en la medida antes (nA) difiere o no de la proporción de éxitos en la medida
después (n 0 ). En el cuadro 11.3 aparece resumido el contraste sobre dos proporcio-
nes relacionadas. Recordemos una vez más que llamamos éxito a uno cualquiera de
los dos niveles de la variable dicotómica estudiada.
CUADRO 11.3
Contraste de hipótesis sobre dos proporciones relacionadas.
l. Hipótesis:
a) Contraste bilateral: H 0 : n:A = n:D; H 1 : n:A # n:D.
b) Contraste unilateral derecho: H 0 : n:A ~ n:D; H 1 : n:A > n:D.
e) Contraste unilateral izquierdo: H 0 : n:A ~ n:D; H 1 : n:A < n:D.
2. Supuestos: muestra aleatoria de m pares de puntuaciones, independientes entre sí,

obtenidos al medir una variable dicotómica o dicotomizada.
3.1. T = 1112·
(111 i - 1121 l 2
'
3.2. 5 X-=·-----
1112 + 1121
4.1. T se distribuye según el modelo de probabilidad binomial con parámetros
11= 1112 + 1121 y 71: = 0,5.
4.2. xi se aproxima a la distribución ;.i:i con 1 grado de libertad a medida que 11
va aumentando 6 •
td < :xi2
a.I. Se rechaza Ho SI T toma un valor tk tal que { P(T
P(T
~
~ tkl < :x/2

a.2. Se rechaza H 0 si X 2 ~ i - .;.i:f.
b.I. Se rechaza H 0 st T toma un valor tk tal que P(T ~ tkl < :x.
h.2. Se rechaza H 0 si Xi ~ 1 - 2 .xf.
c. l. Se rechaza H 0 si T toma un valor tk tal que P( T ~ tk) < :x.
c.2. Se rechaza H 0 si xi ~ 1 _ i.xf.
' Este estadístíco fue ídeado por McNemar en 1947. de ahí que. en muchos contextos, el contraste
sobre dos proporciones relacionadas sea denominado prueha de McNemar.
6 Si n no es muy grande. la aproximación es un poco más exacta utilizando la corrección por
continuidad. que consiste en restar 1 punto al valor absoluto de la diferencia n 12 - n 21 para hacer el
contraste algo más conservador:
(11112 - 11211 - !)'
xi=------
1112 + n11
6. Nivel crítico:
a.I. p = 2[P(r ~ tt)J, siendo r el menor de n 12 y n21·
a.2. p = P(X 2 ;;;?: xf), siendo xf el valor concreto tomado por X 2•

b.1. p = P(T;;;?: lt).
b.2. p = 2[P(X 2 ;;;?: xf)].
c.l. p = P(T ~ lt).
c.2. p = 2[P(X 2 ;;;?: xf)].
Siendo PA = n 12 /m la proporción de éxitos en la medida antes, y P0 = n 21 /m la
proporción de éxitos en la medida después, el intervalo de confianza para nA - n"
viene dado por:
(11.12)
EJEMPLO 11.3. Existe la hipótesis de que los procesos de psicosis esquizofrénica

van acompañados de un incremento del nivel de cobre en sangre. Esto significa que los
pacientes con cuadros de psicosis esquizofrénica graves presentan un nivel de cobre en
sangre más alto que los pacientes con cuadros leves. Un psicólogo clínico cree haber
descubierto un tratamiento mixto (droga-terapia) capaz de reducir el nivel de cobre en
sangre. Para comprobar si esto es cierto elige una muestra aleatoria de 50 pacientes
esquizofrénicos y mide en cada uno de ellos el nivel de cobre en sangre antes y después
de ser sometidos al nuevo tratamiento. Los resultados obtenidos aparecen en la tabla
11.2. ¿Podemos concluir que la proporción de pacientes con nivel alto de cobre en
sangre ha disminuido con la aplicación del nuevo tratamiento? (!X = 0,05).
TABLA 11.2
Nivel de cobre
después del tratamiento
Alto (1) Bajo (2)
Nivel de cobre Alto (1) 3 28

antes del tratamiento Bajo (2) 10 9
Tenemos una muestra aleatoria de m = 50 sujetos a los cuales se les toman dos
medidas en una variable dicotomizada: nivel de cobre en sangre (1 =alto, 2 =bajo).
Para saber si la proporción de sujetos con nivel de cobre alto ha disminuido tras la
aplicación del tratamiento debemos averiguar si n,.. > n 0 (siendo n,.. y n 0 la proporción
de sujetos con nivel de cobre alto antes y después del tratamiento, respectivamente).
l.Hipótesis: H 0 : n,.. ~ n 0 ; H 1: n,.. > n 0 (contraste unilateral derecho).

2. Supuestos: muestra aleatoria de m = 50 pares de puntuaciones, independientes
entre sí, obtenidos al medir una variable dicotomizada.
xi= (n12 - ni1)i (28 - 10¡i

----=8,53
n1i + ni1 28 + 10
4. Distribución muestra!: xi se aproxima a xi con 1 grado de libertad.
5. Regla de decisión: se rechaza H 0 si Xi ~ 1 _ i.X~, es decir, si
xi ~ 0.9o'l.~ = 2,71.
Como el valor tomado por el estadístico de contraste (8,53) es mayor que el
punto crítico (2,71) rechazamos H 0 y concluimos que la proporción de pacien-
tes esquizofrénicos con nivel de cobre en sangre alto ha disminuido significati-
vamente tras la aplicación del nuevo tratamiento.
(0,56 - 0,20) ± 1,96j(28 + 10)/50i = (0,12;0,60)

Vemos que el intervalo de confianza no incluye el cero, indicando esto que la
verdadera diferencia entre n,.. y n 0 es distinta de cero (lo cual podemos afirmar con
una confianza del 95 por 100).
EJEMPLO 11.4. En un grupo de terapia de pareja al que asisten 25 matrimonios se

han efectuado dos controles con una diferencia de tres meses. Una cuestión básica
para valorar la marcha de la terapia se refiere al grado de compenetración (buena o
mala) entre los miembros de la pareja. Sabiendo que los matrimonios que manifesta-
ron tener buena compenetración fueron 10 en el primer control y 18 en el segundo, y
que 4 matrimonios de los que manifestaron buena compenetración en el primer
control pasaron a manifestar mala compenetración en el segundo, ¿podemos concluir
que la proporción de matrimonios con buena compenetración se ha incrementado
durante los tres meses de terapia considerados? (ex = 0,05).
Tenemos una muestra aleatoria de m = 25 matrimonios a los cuales se les toman
dos medidas en una variable dicotomizada: grado de compenetración ( 1 = bueno,
2 =malo). Consideraremos que la proporción de matrimonios con buena compenetra-
ción se ha incrementado si n,.. < n0 (siendo n,.. y n 0 la proporción de matrimonios con
buena compenetración antes -primer control- y después -segundo control-,
respectivamente). Con la información disponible formamos la tabla de frecuencias 11.3.
TABLA 11.3
Grado de compenetración
en el segundo control
Buena (1) Mala (2)
Grado de compenetración 1 Buena (!) 6 4

en el primer control Mala (2) 12 3
'--~~~~.__~~~~~~~~---1
l. Hipótesis: H 0 : nA ~ nv; H 1 : nA < nv (contraste unilateral izquierdo).

2. Supuestos: muestra aleatoria de m = 25 pares de puntuaciones, independientes
entre sí, obtenidos al medir una variable dicotomizada.
3. Estadístico de contraste: T = n 12 = 4.
4. Regla de decisión: se rechaza H 0 si P(T :E; 4) < IX. En la tabla de la distribución
binomial, con n = n 12 + n 21 = 16 y ir= 0,5, obtenemos P(T :E; 4) = 0,038.
Como esa probabilidad es menor que IX= 0,05, rechazamos H 0 y concluimos
que la proporción de matrimonios con buena compenetración ha aumentado
significativamente.
5. Nivel crítico: p = P(T :E; 4) = 0,038.
11.3. Contrastes de hipótesis sobre más de dos

proporciones
11.3.1. Más de dos proporciones independientes
El estudio de J > 2 proporciones independientes ha merecido especial atención

por parte de estadísticos y metodólogos durante muchas décadas, y todavía sigue
siendo objeto de atención especial. La frecuencia con la que un profesional de
cualquier área de conocimiento (y en especial en las ciencias sociales y del compor-
tamiento) se ve en la necesidad de trabajar con más de dos proporciones indepen-
dientes justifica sobradamente esta atención.
Pero no vamos a tratar aquí, en este apartado, los contrastes sobre más de dos
proporciones independientes. Lo haremos en el próximo capítulo (en el apartado
10.3), el cual está dedicado enteramente a la prueba X 2 de Pearson.
11.3.2. Más de dos proporciones relacionadas
Al estudiar más de dos proporciones relacionadas nos encontramos en una

situación similar a la expuesta para el caso de dos proporciones relacionadas.
Seguimos trabajando con variables que sólo pueden tomar dos valores (variables
dicotómicas o dicotomizadas).
A cada sujeto se le toman J medidas de la variable dicotómica estudiada (o se

miden J variables dicotómicas en una muestra de n sujetos). Estamos, por tanto,
ante un diseño idéntico al presentado a propósito del ANOVA A-EF-MR (medidas
repetidas o bloques con un sujeto por nivel y bloque), pero con la diferencia de
que, aquí, la variable medida (es decir, la variable dependiente) es una variable que
sólo puede tomar dos valores.
Los datos pueden organizarse en un tabla de doble entrada, tal como muestra la
tabla 11.4, con los J niveles de la variable independiente (muestras, tratamientos,
etcétera) en las filas y los n sujetos o bloques en las columnas.
TABLA 11.4
Estructura de los datos y notación en un diseño con J
tratamientos o muestras y n sujetos o bloques
Sujetos o bloques
Tratamientos
1 2 i n T+; p +j
o muestras
1 Y11 Y21 Y¡, Y,, 1 T+1 P+1

2 Y12 Y22 Y¡z Y.2 T+2 p +2
... ... ... ... ... ... ...
j Y,; Y2; Y;; Y,,; T+; p +j
... ... ... ... ... ... ...
J Yu Y21 Y¡J Y,,J T+J p +J
7;+ T,+ Ti+ 7;+ T,, + T
La notación es exactamente la misma que la utilizada para el modelo de

ANOVA A-EF-MR. Pero hay que tener presente que Yú ahora es una variable
dicotómica o dicotomizada, con valores: 1 = éxito y O =fracaso. Las proporciones
marginales P + i representan las proporciones de éxito observadas en cada tratamien-
to o muestra: P + i = T+ /n.
Cochran (1950) ha diseñado un procedimiento 7 para contrastar la hipótesis de
que las J proporciones poblacionales de éxito n + i son iguales. El cuadro 11.4
recoge, resumidos, los pasos del contraste.
7 Este procedimiento es generalización del de McNemar para dos proporciones relacionadas. De
hecho, si J = 2, el estadístico de McNemar y el de Cochran son exactamente el mismo (ver, por ejemplo,
Conover, 1980, pág. 204).
CUADRO 11.4
Contraste de hipótesis sobre más de dos proporciones relacionadas.
1. Hipótesis:
Ho: 1C + 1 = 1C + = ··· = 1C + 1·
2
Es decir, la proporción de éxitos no es la misma en cada uno de los J tratamientos.

H 1: 1C, .i :f:. 1C +;-para algún valor dej.
Es decir, la proporción de éxitos es la misma en los J tratamientos.
2. Supuestos: la variable estudiada es dicotómica; de ella se toman J medidas en
una muestra aleatoria de n sujetos o bloques, con probabilidad de éxito 1C + j
constante en cada medida.
r. T2
Q =J(J- 1) .- (J - l)T2
+1
(11.13)
JT-'I.TT,
4. Distribución muestral: Q se distribuye según X2 con J - l grados de libertad.

5. Zona crítica: Q;:: i -aXJ- i·
6. Regla de decisión: se rechaza H0 si el estadístico de contraste Q cae en la zona
Si se rechaza H0 , podemos afirmar que la proporción de éxitos no es la misma
en los J tratamientos o poblaciones.
EJEMPLO 11.5. Un psicólogo quiere averiguar si 4 preguntas de un test que ha

construido poseen o no la misma dificultad. Para ello, una muestra de 10 sujetos
aleatoriamente seleccionados responde a las 4 preguntas. La tabla 11.5 recoge las
respuestas (1 = aciertos, O = errores) dadas por los 10 sujetos a cada una de las
preguntas. Basándonos en la proporción de aciertos de cada pregunta y utilizando
:x = 0,05, ¿podemos afirmar que las preguntas difieren en dificultad?
La variable es dicotómica y ha sido medida J = 4 veces en una muestra aleatoria
de 10 sujetos. La prueba de Cochran es apropiada para analizar estos datos.
l. Hipótesis:
H o: rr + t = rr
+ 2 = rr + 3 = rr + 4
Es decir, la proporción de aciertos es la misma en las 4 pregur.tas.

H 1 : rr + i # rr + i' para algún valor de j.
Es decir, la proporción de aciertos no es la misma en las 4 preguntas.
TABLA 11.5
Sujetos
Preguntas 1 2 3 4 5 6 7 8 9 10 T+i T~i
1 1 1 1 1 o o 1 o 1 o 6 36
~ 1 o o 1 o 1 o o 1 1 5 25
3 1 o 1 1 1 1 1 1 1 1 9 81
4 1 o o o o o 1 o o o 2 4
T¡ + 4 1 2 3 1 2 3 1 3 2 22 146
T!+ 16 1 4 9 1 4 9 1 9 4 58
2. Supuestos: la variable estudiada es dicotómica; de ella se toman J = 4 medidas

en una muestra aleatoria de n = 10 sujetos con probabilidad de acierto
constante en cada medida.
4(4 - 1)(146) - (4 - 1)22 2
Q= 4(22) - 58 = 10
4. Distribución muestra(: Q se distribuye según ·¡_2 con 3 grados de libertad.

5. Zona crítica: Q ~ 0 . 95 ,d = 7,81.
6. Decisión: como el valor tomado por el estadístico de contraste Q es mayor que

el punto crítico (10 > 7,81), rechazamos H 0 . Podemos concluir que la propor-
ción de acierto no es la misma en las 4 preguntas, por lo que no todas poseen
la misma dificultad.
a) Comparaciones múltiples
Si rechazamos la hipótesis general referida a la igualdad entre las J proporcio-
nes, podemos estar interesados en concretar qué poblaciones (tratamientos) difieren
de qué otras. Para ello, podemos utilizar cualquiera de los procedimientos de
comparaciones múltiples ya conocidos, con la única salvedad de que ahora estamos
trabajando con proporciones.
Llamemos Lh a una comparación cualquiera y chi a los coeficientes asignados a
cada proporción poblacional para definir esa comparación Lh:
Lh = chln+ 1 + ch 2n+ 2 + ··· + chJn+J = "'f.chin+i (11.14)

j
Podemos estimar Lh mediante:
Lh =chip +1 + ch2P +i + ··· + chJP +J ="'f. chip +i ( 11.15)

j
y obtener:
atL, =nJ(J
-----
- ])
(11.16)
n
A partir de aquí podemos diseñar procedimientos para comparaciones múltiples

entre proporciones aplicando la lógica ya estudiada en el capítulo 6. En todos los
casos, la hipótesis sometida a contraste es:
Para efectuar comparaciones planeadas ortogonales o comparaciones de tenden-

cia podemos utilizar el estadístico:
(11.17)
que se distribuye según x2 con 1 grado de libertad. Rechazaremos la hipótesis Hoch 1:

Lh =O si el estadístico Z~ es mayor que el cuantil 100(1 - ix) de la distribución x2
con 1 grado de libertad.
Cada término Z~ es un componente del estadístico Q. de modo que, para un
conjunto cualquiera de J - 1 comparaciones ortogonales se verifica:
J-1
¿ z~ =Q (11.18)
j= 1
Para comparaciones planeadas no ortogonales podemos utilizar el procedimiento

de Dunn-Bonferroni:
(11.19)
siendo p = 1 - ix/(2k) y k el número de comparaciones que se ha planeado efectuar.

Rechazaremos la hipótesis Hoch 1: Lh =O si el valor absoluto de Lh es mayor que
DMSoe·
Para comparaciones a posteriori podemos utilizar el procedimiento de Tukey o
el de Scheffé, dependiendo del tipo de contraste que estemos interesados en
plantear: Tukey para efectuar las J(J - 1)/2 comparaciones por pares y Scheffé para
efectuar todas las posibles comparaciones de cualquier tipo. Rechazaremos la
hipótesis Hoch 1: Lh =O si el valor absoluto de Lh es mayor que la DMS correspon-
diente:
DMSTukey = 1 -aqJ,oo •
~ <f[ (11.20)
DMSScherré = J1-aX;-1 ªL, (11.21)
EJEMPLO 11.6. En el ejemplo 11.5 hemos rechazado la hipótesis referida a la

igualdad entre las proporciones de acierto correspondientes a cada pregunta. Vamos a
ilustrar ahora los procedimientos para comparaciones múltiples estudiados en el
último apartado utilizando comparaciones referidas a los datos de ese ejemplo.
Comencemos con las comparaciones planeadas ortogonales. Supongamos que
deseamos efectuar las siguientes dos comparaciones:
L 1 =(O):n:+ 1 + (l):n:+ 2 + (- l):n:+ 3 + (O):n:+ 4

L2 = (l):n:+ • + (l):n:+2 + (l):n:+J + (-3):n:+4
Las hipótesis que tendremos que contrastar serán: H 0 (1 1: L 1 =O y H 0 (2): L 2 =O.
En consecuencia:
L 1 = (0)0,6 + (1)0,5 + (-1)0,9 + (0)0,2 = -0,4

L2 = (1)0,6 + (1)0,5 + (1)0,9 + (-3)0,2 = 1,4
•2
<J-
L,
=
4(22) - 58
10(4)(3)
(º +
2 12 + (-1) 2 + 0 2)
10
=005
'
u! = 4(22) - 58 (1 2 + 12 + 12 + (- 3)2) = o,3

L, 10(4)(3) 10
Zi = -0,4 2/0,05 = 3,20
z~ = 1,4 2/0,3 = 6,53
Con un nivel de confianza de 0,95 obtenemos 0 , 95 xf = 3,84. Por tanto, mantene-

mos H o(I, y rechazamos H o(2)·
Utilizando ahora el procedimiento de Dunn-Bonferroni para efectuar las mismas
dos comparaciones obtenemos:
DMS 081 L,> = z0 , 9875 j{i¡, = 2,24 JQ,05 = 0,50

DMSoe(Lil = z0 , 9875 Ft, = 2,24J'0,3 = 1,23
Comparando estos valores con los de L 1 y l 2 llegamos, al igual que antes, a la

decisión de mantener H O(I, y a la de rechazar H 0121 •
Por último, si utilizamos los procedimientos de Tukey y de Scheffé para efectuar
las 4(4 - 1)/2 = 6 posibles comparaciones por pares, obtenemos las siguientes diferen-
cias mínimas significativas:
•2
(J- =
4(22) - 58 (1 2 + ( -1)2) =o 05
L 10(4)(3) 10 '
q 3 63
DMS = • = -'- foOs =O 57
Tukey j24,oo <1[
0.95
j2 V V,VJ •
DMSscheffé = ~<Ji= fijl JQ,05 = 0,63
APÉNDICE 11
Índices de riesgo
El estadístico Z utilizado para contrastar dos proporciones independientes (ver apartado

11.2.1) puede utilizarse tanto en diseños transversales como en longitudinales. No obstante,
cuando queremos comparar dos proporciones independientes en un diseño longitudinal, po-
demos obtener información adicional recurriendo a los índices de riesgo. Los índices de
riesgo son muy utilizados en la investigación biomédica y epidemiológica para evaluar el
impacto de supuestos factores desencadenantes sobre la aparición de un determinado desen-
lace. Resultan especialmente útiles para analizar diseños longitudinales en los que medimos
dos variables dicotómicas.
El seguimiento de los estudios longitudinales puede hacerse hacia adelante o hacia atrás.
En los diseños longitudinales hacia adelante, llamados diseños prospectivos o de cohortes, los
sujetos son clasificados en dos grupos con arreglo a la presencia o ausencia de algún factor
desencadenante (por ejemplo, el hábito de fumar -fumadores y no fumadores-) y se les
hace seguimiento durante un determinado período de tiempo para establecer la proporción
de sujetos de cada grupo en los que se da un determinado desenlace objeto de estudio (por
ejemplo, problemas cardiovasculares).
En los diseños longitudinales hacia atrás, también llamados retrospectivos o de caso-
control, se forman dos grupos de sujetos a partir de la presencia o ausencia de una deter-
minada condición objeto de estudio (por ejemplo, sujetos sanos y pacientes con problemas
vasculares) y se hace seguimiento hacia atrás intentando encontrar información sobre la
proporción en la que se encuentra presente en cada grupo un determinado factor desenca-
denante (por ejemplo, el hábito de fumar).
Los datos recogidos tanto con un diseño de cohortes como con un diseño de caso-control
pueden representarse de forma genérica en una tabla de contingencia 2 x 2 como la que
muestra la figura 11.6. En ambos casos utilizaremos la misma notación. No obstante, cada
diseño de recogida de datos requiere la utilización de unos estadísticos particulares.
TABLA 11.6
Forma yenérica de representar las frecuencias obtenidas mediante
un diseño de cohortes o un diseño de caso-control
Desenlace ( lj)
Sí U= 1) No U= 2) Total
Sí (i = 1) nu n12 n1+
Desencadenante (X¡) No (i= 2) ni1 ni1 ni+
1 1
Total n+I n+2 n
Diseños prospectivos o de cohortes
En los diseños de cohortes se establecen dos grupos de sujetos a partir de la presencia

o ausencia de una condición que se considera desencadenante y se hace seguimiento hacia
adelante para determinar qué proporción de sujetos de cada grupo alcanza un determinado
desenlace. La medida de interés en este tipo de diseños suele ser el riesgo relativo (R,), el
cual expresa el grado en que la proporción de desenlaces es más alta en un grupo que en
el otro:
R = n11fn1 + (l l.22)
r nz1fn2+
El valor del índice de riesgo relativo se interpreta de la siguiente manera: el riesgo de

encontrar un determinado desenlace entre los sujetos expuestos al factor desencadenante es
R, veces más alto que entre los sujetos no expuestos al factor desencadenante. De otra
manera, por cada desenlace observado entre los sujetos no expuestos, cabe esperar que
aparezcan R, desenlaces entre los sujetos expuestos. Un riesgo relativo de 1 indica que la
probabilidad de encontrarnos con el desenlace es la misma en el grupo de sujetos expuestos
y en el grupo de sujetos no expuestos.
Por supuesto, encontrar un riesgo relativo mayor que 1 no es suficiente para poder
concluir que el factor desencadenante es la causa del desenlace estudiado. Para poder esta-
blecer relaciones de causalidad entre variables es necesario utilizar diseños experimentales
(con asignación aleatoria imposible de llevar a cabo en los diseños de cohortes y de caso
control), o basar nuestras conclusiones en teorías bien estructuradas.
Consideremos los datos de la tabla 11. 7 referidos a un estudio sobre la relación entre el
hábito de fumar, tabaquismo, y la presencia de problemas vasculares en una muestra de 240
sujetos.
TABLA 11.7
Tabla de contingencia de tabaquismo por problemas vasculares
Problemas vasculares
Sí No Total
Fumadores 23 81 104
Tabaquismo 136
No fumadores 9 127
1 1
Total 32 208 240
Entre los fumadores, la proporción de sujetos con problemas vasculares vale

n 11 /n 1+ = 23/104 = 0,221. Entre los no fumadores, n2 ¡/nz+ = 9/136 = 0,066. El riesgo rela-
tivo se obtiene dividiendo ambas proporciones:
R = n1¡/n 1+ = 0,221= 334

r nz ¡/nz + 0,066 '
Este valor indica que el riesgo de encontrar problemas de tipo vascular entre los fuma-
dores es 3,34 veces más alto que entre los no fumadores. O, de otra manera: por cada no
fumador con problemas vasculares, cabe esperar que encontremos 3,34 fumadores.
Para valorar si el índice de riesgo obtenido es significativamente distinto de 1, podemos

obtener el intervalo de confianza para R, mediante:
(11.23)
Si el intervalo de confianza contiene el valor 1, concluiremos que el riesgo de encontrar

un desenlace es el mismo en el grupo de expuestos y en el de no expuestos. Si el intervalo
de confianza no incluye el valor 1, concluiremos que los grupos estudiados poseen un riesgo
significativamente distinto. Utilizando un nivel de confianza de 0,95 para construir un inter-
valo de confianza con los datos de nuestro ejemplo (tabla 11.7), obtenemos:
L; = 3,34exp(-1,96J81/[23(104)] + 127/[9(136)]) = 1,61
L.,= 3,34exp(+ 1,96J81/[23(104)] + 127/[9(136)]) = 6,91
Puesto que el intervalo de confianza no incluye el valor 1, podemos estimar, con una con-
fianza del 95 por 100, que el riesgo de padecer problemas vasculares es significativamente
más alto en el grupo de fumadores que en el de no fumadores.
Diseños retrospectivos o de caso-control
En los diseños de caso-control, tras formar dos grupos de sujetos a partir de alguna
condición de interés, se va hacia atrás buscando la presencia de algún factor desencadenante.
El mismo estudio sobre tabaquismo y problemas vasculares podría diseñarse seleccionando
dos grupos de sujetos diferenciados por la presencia de problemas vasculares y buscando
en la historia clínica la presencia o no del hábito de fumar. Puesto que el tamaño de los
grupos se fija a partir de la presencia o ausencia de un determinado desenlace, no tiene
sentido calcular un índice de riesgo basado en las proporciones de desenlaces observados
(incidencias) en los fumadores y en los no fumadores (pues el número de fumadores y no
fumadores no ha sido previamente establecido sino que es producto del muestreo). Pero
podemos calcular la proporción o ventaja (odds) de tener problemas vasculares respecto de
no tenerlos tanto en el grupo de fumadores como en el de no fumadores, y utilizar el
cociente entre esas ventajas (odds) como una estimación del riesgo relativo:
(11.24)
Este cociente se conoce como odds ratio y suele utilizarse como una estimación del ries-
go relativo en los diseños de caso-control (justamente por la imposibilidad de estimar las
incidencias). La calidad de O, como estimador del riesgo relativo es tanto mayor cuanto más
pequeñas son las proporciones de desencadenantes en cada grupo, pues cuanto más pequeñas
son esas proporciones, más pequeña es también la diferencia entre R, y O,.
Basándonos en Jos datos de la tabla 11.7, Ja odds «tener problemas/no tener problemas»
en el grupo de fumadores vale: 23/81 = 0,284; y en el grupo de no fumadores: 9/127 = 0,071.
El índice de riesgo en un diseño de caso-control se obtiene dividiendo ambas odds:
Este valor se interpreta del mismo modo que el índice de riesgo relativo R, (pues no es
más que una estimación del mismo): el riesgo de encontrar sujetos con problemas vasculares
entre los fumadores es 4 veces más alto que entre los no fumadores.
Para determinar si este índice de riesgo es significativamente distinto de 1, podemos
obtener un intervalo de confianza mediante:
L; = O,exp(z., 2 J- 1- + - 1- + - 1- + - 1-)
n 11 n 12 n 21 n 22
(11.25)
L, = O,exp(z1 -.12 J- 1- + - 1- + - 1- + - 1-)

n11 n12 ni1 ni2
Con los datos de la tabla 11.7 y utilizando un nivel de confianza de 0,95, obtenemos:
L; = 4.00exp(-1.96 _!._ + _!._ + ~ + - 1- ) = 1 76

23 81 9 127 '
1 1 1 1 ) =908
-+-+-+-
L, = 4,00exp( + 1,96
23 81 9 127 '
De nuevo. puesto que el intervalo de confianza no incluye el valor 1, podemos estimar,

con una confianza del 95 por 100, que el riesgo verdadero es mayor que 1 y, en conse-
cuencia, que el riesgo de padecer problemas de tipo vascular es significativamente más alto
en el grupo de fumadores que en el de no fumadores.
EJERCICIOS
11.1. Queremos evaluar si 4 tipos de alucinaciones diferentes (A, B, C, y D) se dan o no con
la misma frecuencia entre pacientes con psicosis paranoica. La tabla 11.8 presenta los datos
obtenidos con 10 pacientes (1 =se da la alucinación; O= no se da). ¿A qué conclusión
llegaremos, con (X = 0,05?
TABLA 11.8
Pacientes
1 2 3 4 5 6 7 8 9 10
A 1 1 1 1 o 1 1 1 o 1
Síntomas
B 1 o 1 o o 1 1 o 1 1
e 1 1 o o o 1 1 1 1 1
D o o o 1 1 1 o o o o
11.2. El ayuntamiento de Madrid encarga a un equipo de psicólogos el diseño de una

campaña de persuasión que intente modificar la creciente actitud negativa de la población
madrileña hacia los enfermos de sida. Al comenzar el trabajo, el equipo de psicólogos
decide obtener evidencia sobre si una técnica persuasiva basada sólo en imágenes será o no
lo bastante eficaz. Para ello, selecciona una muestra aleatoria de 15 personas y registra sus
actitudes antes y después de una sesión de persuación. La tabla 11.9 recoge los resultados
obtenidos (el signo « - » indica actitud negativa y el « + » actitud positiva). A la vista de estos
resultados, ¿podemos afirmar que la técnica persuasiva consigue disminuir la proporción de
sujetos que manifiestan actitud negativa? (r.< = 0,05).
TABLA 11.9
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Antes - - + + - - - + + - + + + - +
Después - + + + - - + + + + + + + + -
11.3. El equipo de psicólogos del ejercicio 11.2. considera conveniente averiguar si combi-
nando las imágenes con lemas informativos se obtiene un nivel de eficacia mayor que el
alcanzado utilizando sólo las imágenes. Para ello, seleccionan una muestra de 2.000 personas
con actitudes negativas hacia los enfermos de sida y, de estas 2.000 personas, seleccionan
aleatoriamente a 30. A 15 de ellas les aplican la técnica persuasiva consistente en sólo
imágenes; a las otras 15 les aplican la técnica que combina las imágenes con los lemas
informativos. Tras esto, registran la actitud de las 30 personas ( 11.10: el signo « - »
indica actitud negativa y el « + » actitud positiva). ¿A qué conclusión llegará el equipo de
psicólogos? (r.< = 0,05).
TABLA 11.10
Sólo imágenes + + + +
Imág. y lemas + + + + + + + + + +
11.4. Un psicólogo está intentando decidir cuál de dos preguntas introducir en una prueba
de orientación espacial que él mismo está construyendo. La pregunta 2 posee ciertas
propiedades psicométricas que la hacen más aceptable, pero sería preferible la pregunta 1 si
ésta resultara ser más dificil que la 2. Para decidir con cuál de las dos quedarse, plantea
ambas preguntas a una muestra de 12 sujetos y registra cada respuesta como acierto (A) o
error (E). Los resultados obtenidos aparecen en la tabla 11.11. Sin olvidar qué es lo que
nuestro psicólogo desea conocer y considerando que la pregunta más fácil será aquella en la
que más aciertos se produzcan, ¿a qué conclusión llegaremos utilizando r.< = 0,05?
TABLA 11.11
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12
Pregunta 1 A E E E E E A A E E E A
Pregunta 2 A E E A A A A A E A A A
11.5. Antes de dar comienzo los Juegos Olímpicos de Barcelona-92, se preguntó a 300
personas si pensaban que la calidad de la ceremonia inaugural sería alta o baja. 200 de ellas
opinaron que la calidad de la ceremonia inaugural sería alta. El día siguiente a la inaugura-
ción se volvió a hacer a esas 300 personas la misma pregunta. Se encontró que 280 personas
pensaban que la calidad de la ceremonia había sido alta y que 10 de las que al principio
pensaban que sería alta, ahora pensaban que había sido baja. Con los datos de que
disponemos, ¿podemos afirmar que la ceremonia inaugural de los juegos olímpicos de
Barcelona-92 ha hecho mejorar la expectativa de calidad que se tenía sobre ella? (oi = 0,01).
11.6. Un psicólogo ha diseñado una prueba de aptitud con 17 ítems dicotómicos. ¿Cuántos
aciertos, como mínimo, debe obtener un sujeto para poder afirmar, con ai = 0,05, que no ha
respondido al azar?
11.7. Un investigador cree que el porcentaje de varones autoritarios supera en más de 20

puntos al porcentaje de mujeres autoritarias. Para comprobarlo, pasa una escala de autorita-
rismo a 50 varones y a 40 mujeres y, dicotomizando por la mediana las puntuaciones de la
escala, obtiene los resultados que aparecen en la tabla 11.12. ¿Podemos concluir que el
investigador tiene razón? (oi = 0,05).
TABLA 11.12
Autoritarios No autoritarios
Varones 35 15
1 Mujeres 18 22
11.8. En un estudio sobre la relación entre diferencias sexuales y memoria a corto plazo. un
psicólogo elaboró una lista de 10 palabras sin sentido, cada una de ellas formada por tres
letras (consonante-vocal-consonante). Seleccionó al azar una muestra de 50 varones y otra de
50 mujeres y presentó a cada sujeto la lista durante un periodo de 45 segundos. Tras este
periodo de tiempo los sujetos tenían que reproducir la lista completa por escrito. El
psicólogo contabilizó el número de sujetos que efectuaron una reproducción correcta y
obtuvo los siguientes resultados: varones = 30; mujeres = 25. ¿Puede el psicólogo, a partir de
estos datos, concluir que los varones y las mujeres difieren en su capacidad de retención a
corto plazo? (oi = 0,05).
11.9. Para estudiar la actitud de los terapeutas hacia la evaluación de la eficacia de sus
tratamientos, un investigador seleccionó una muestra aleatoria de 100 terapeutas y les
preguntó si estaban o no de acuerdo con tal evaluación. Encontró que 30 sí lo estaban y 70
no. Tras explicarles los motivos y propósitos de tal evaluación volvió a hacerles la misma
pregunta, resultando que ahora eran 60 los que sí estaban de acuerdo y que 10 de los que
estaban de acuerdo al principio pasaron a estar en desacuerdo tras la explicación. ¿Se puede
concluir de estos datos que la explicación utilizada por el investigador ha hecho mejorar
significativamente la opinión que los terapeutas tienen de la evaluación de la eficacia de sus
tratamientos? (oi = 0,01).
11.10. Queremos contrastar la hipótesis de que la población de estudiantes de psicología

está compuesta por un 60 por 100 de mujeres y un 40 por 100 de varones. Si extraemos
aleatoriamente de esa población una muestra de 50 sujetos y utilizamos un nivel de
significación de 0,05, ¿con qué número de varones en la muestra comenzaríamos a rechazar

nuestra hipótesis?
11.11. Dos psiquiatras han evaluado a 10 enfermos hospitalizados para determinar cuáles
de ellos tienen pseudoalucinaciones y cuáles no. El informe de los psiquiatras incluye un sí
cuando consideran que el enfermo tiene pseudoalucinaciones y un no cuando consideran que
no las tiene. Los datos de los informes de ambos psiquiatras están recogidos en la tabla 11.13.
¿Podemos afirmar que entre los dos psiquiatras existe un acuerdo significativamente mayor
que el que cabría esperar que se produjera por azar? (tx = 0,05).
TABLA 11.13
Sujetos 1 2 3 4 5 6 7 8 9 10
Psiquiatra 1 sí sí no sí no no sí sí no sí
Psiquiatra 2 sí no sí sí no no sí sí no no
11.12. Un partido político está interesado en conocer la evolución de la opinión pública

respecto a los acontecimientos del 23-F. Tras encuestar a una serie de sujetos, se clasificó en
la categoría de opinión blanda a los que estaban en la línea de la permisividad o aceptación
de los hechos, y en la categoría de opinión dura a los que mantenían una actitud de repulsa y
condena de los mismos. El día 25 de febrero de 1981 (2 días después de la intentona golpista)
se entrevistó a una muestra aleatoria de 2.000 personas de la población española. Cinco años
después, en 1986, se volvió a entrevistar a las mismas 2.000 personas. La tabla 11.14 muestra
los resultados obtenidos. ¿Qué podemos concluir acerca del efecto ejercido por el paso del
tiempo sobre la opinión de los sujetos? (tx = 0,01).
TABLA 11.14
1986
Opinión Opinión
blanda dura
1981 1Op~ni~n blanda 300 100

Opm1on dura 400 1.200
11.13. Un psicólogo sospecha que las preguntas de los cuestionarios de personalidad poseen
un significado especial en función del contexto general del cuestionario del que forman parte.
Esto haría que preguntas similares fueran respondidas de forma distinta por los mismos
sujetos cuando esas preguntas forman parte de cuestionarios diferentes. Para confirmar su
sospecha, el psicólogo pasó a 12 sujetos 3 cuestionarios de personalidad que poseían una
pregunta idéntica (tanto en la forma como en el contenido). La predicción del psicólogo era
que los sujetos responderían de forma distinta a esa pregunta dependiendo del cuestionario
en el que se encontrara. La tabla 11.15 recoge las respuestas dadas por cada sujeto en cada
uno de los 3 cuestionarios a la pregunta repetida (A significa que el sujeto está de acuerdo
con el contenido de la pregunta; D significa que el sujeto está en desacuerdo). ¿A qué
conclusión llegará el psicólogo utilizando tx = 0,05?
TABLA 11.15
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12
Cuestionario 1 A A D D A D A D A A A D
Cuestionario 2 A A D A A D A D A A A A
Cuestionario 3 D A A A A D D A A A D D
11.14. En una muestra aleatoria de 10 sujetos con problemas de enuresis se ha aplicado un

tratamiento cognitivo-conductual y se han obtenido resultados positivos en 7 casos. ¿Es
compatible este resultado con la hipótesis de que al menos el 90 por 100 de los sujetos
en uréticos podrá tener curación con este tratamiento? (oc = 0,01 ).
11.15. En la teoría clásica de Skiner sobre el condicionamiento operante un refuerzo se

define como un estímulo cuya presencia contingente con una respuesta hace que aumente la
prohahilidad de aparición de esa respuesta. Según esto, no es posible saber a priori si un
estímulo actúa o no como refuerzo de una respuesta; sólo podemos decir que un estímulo es
reforzante después de haber comprobado que hace aumentar la probabilidad de aparición de
la respuesta a la que sigue. Un psicólogo desea comprobar cuál de 3 estímulos seleccionados
por él será más apropiado para ser utilizado con varios sujetos cuya conducta asertiva se
desea modificar. Para ello. selecciona una respuesta asertiva concreta en cada uno de los
sujetos y hace coincidir con esas respuestas cada uno de sus 3 estímulos por separado.
Después de la presentación de cada uno de sus estímulos deja transcurrir un determinado
período de tiempo (siempre el mismo) para registrar si la respuesta asociada al estímulo se
repite ( 1) o no (O). La tabla 11.16 recoge los resultados obtenidos. ¿Podemos afirmar, con
oc = 0,05, que los estímulos difieren significativamente en su utilidad como reforzadores de la
respuesta asertiva seleccionada?
TABLA 11.16
Sujetos 1 2 3 4 5 6 7 8 9 ID 11 12
Estímulo 1 1 1 o o 1 1 o o 1 o 1 1
Estímulo 2 o 1 o o o 1 1 1 o 1 o o
Estímulo 3 1 1 o 1 1 o 1 1 1 1 o 1
SOLUCIONES
11.1. J proporciones relacionadas (prueba de Cochran).

Q = 5,25; 0 , 95 X~ = 7,81; mantenemos H 0 .
Concluimos que no hay razón para pensar que los 4 tipos de alucinaciones se den con
diferente frecuencia.
11.2. Dos proporciones relacionadas (prueba de McNemar).

T = 1; P(T~ 1) = 0,188; mantenemos H 0 .
Concluimos que la campaña no ha conseguido cambiar la actitud de la población

hacia los enfermos de SIDA.
11.3. Dos proporciones independientes (con k = O).

Z = -2,196; z0 •05 = -1,645; rechazamos H 0 .
Concluimos que la campaña basada en imágenes y lemas informativos obtiene mejores
resultados que la basada en sólo imágenes.

T =O; P(T= O)= 0,031; rechazamos H 0 .
Esta decisión nos llevará a seleccionar la pregunta 1 para la prueba de orientación
espacial.
11.S. Dos proporciones relacionadas (prueba de McNemar).

xi = 64; o. 9sXI = 5,41; rechazamos H 0 •
La proporción de personas con expectativa de calidad alta se ha incrementado
significativamente tras la ceremonia inaugural.
11.6. 12 aciertos.
11.7. Dos proporciones independientes (con k = 0,20).

Z = 0,49; z0 •95 = 1,645; mantenemos H 0 .
Concluimos que no podemos afirmar que la proporción de varones autoritarios
supere en más de 20 puntos a la de mujeres autoritarias.
11.8. Dos proporciones independientes (con k = O).

Z = 1; z0 •975 = 1,96; mantenemos H 0 •
No podemos afirmar que los varones y las mujeres difieran en su capacidad de
retención a corto plazo.

xi= 18; 0.9sXI = 5,41; rechazamos Ho.
La proporción de terapeutas con opinión favorable hacia la evaluación de sus
tratamientos se ha incrementado significativamente tras la explicación.
11.10. Con menos de 14 o más de 26.
11.11. Una proporción.

X= 7; P(X;;:: 7) = 0,172; mantenemos H 0 •
El acuerdo alcanzado por los psiquiatras no supera el esperable por azar.
11.12. Dos proporciones relacionada.s (prueba de McNemar).

xi= 180; o. 99 xi = 6,63; rechazamos H 0 •
La proporción de personas con opinión dura ha disminuido significativamente.
11.13. J proporciones relacionadas (prueba de Cochran).

Q = 1,14; 0 , 9 sX~ = 5,99; mantenemos H 0 •
Concluimos que no hay razón para pensar que la pregunta posea un significado
diferente en los 3 cuestionarios.
11.14. Una proporción.

X = 7; P(X .;:; 7) = 0,070; mantenemos H 0 .
El resultado obtenido es compatible con la hipótesis de que al menos el 90 por 100
de los sujetos enuréticos podrá tener curación con ese tratamiento.
11.IS. J proporciones relacionadas (prueba de Cochran).

Q = 2,4; 0 , 95 x~ = 5,99; mantenemos H 0 .
Concluimos que los estímulos no difieren en su capacidad para hacer que se repita la
respuesta asertiva seleccionada.
La prueba X2 de Pearson
12
12.1. Introducción.
12.1.1. Tablas de contingencia.
12.1.2. Notación en tablas de contingencia.
12.2. Bondad de ajuste.
12.2.2. Estimación de las frecuencias esperadas.
12.3. Independencia.
12.4. Igualdad de proporciones.
12.4.3. Comparaciones múltiples.
12.5. Errores tipificados.
12.6. Medidas de asociación basadas en X 2 •
Apéndice 12.
Obtención de tablas de contingencia.
Medidas de asociación basadas en la reducción proporcio-
nal del error.
Índices de acuerdo.
Ejercicios.
12.1. Introducción
La prueba X 2 de Pearson permite estudiar diferentes aspectos del análisis de

datos referido a variables cualitativas. En este capítulo, esos diferentes aspectos Jos
hemos concretado en tres: bondad de ajuste (apartado 12.2), independencia (apartado
12.3) y homogeneidad o igualdad de proporciones (apartado 12.4). En el primero de
ellos (bondad de ajuste) se trabaja con una sola variable y se trata de averiguar si
unos datos empíricos concretos se ajustan o no a una determinada distribución
teórica. En el segundo (independencia) se estudian dos variables con el objetivo de
contrastar si son o no independientes. En el tercero (igualdad de proporciones) se
trabaja también con dos variables, pero poniendo el énfasis en Ja distribución
condicional de una de ellas para Jos diferentes niveles de Ja otra.
Antes de abordar estos diferentes aspectos conviene que nos detengamos un
momento en otros relacionados con Ja elaboracion de tablas de contingencia y Ja
notación utilizada en ellas.
12.1.1. Tablas de contingencia
Cuando se trabaja con variables de índole cualitativa, Jos datos suelen presen-
tarse en tablas de contingencia: conjunto organizado de frecuencias clasificadas según
uno o más criterios. Un ejemplo de este tipo de tablas lo tenemos en Ja tabla 12.1.
En ella aparecen unos datos analizados por Cohen ( 1976) referidos a Jos pacientes
de un hospital. Este tipo de tabla de contingencia es la más elemental; se conoce
como tabla 2 x 2 debido a que está formada por dos variables (criterios de
clasificación) con dos categorías cada una de ellas (el producto 2 x 2 = 4 representa
el número de casillas de la tabla). Cuando, como en este caso, una tabla de
contingencia sólo incluye dos variables la llamamos bidimensional; si incluye tres
variables, hablamos de tabla tridimensional; <:;te.
Por supuesto, las tablas de contingencia pueden (y suelen) ser más complejas de
Jo que Ja tabla 12.1 puede dar a entender. Podríamos construir tablas con dos
variables, al igual que Ja tabla 12.1, pero con más de dos niveles por variable; ello
incrementaría el número de casillas. También podríamos seguir aumentando
TABLA 12.1
Ejemplo de tabla bidimensional (dos variables). Clasificación de los pacientes
de un hospital de acuerdo con las variables «sexo» y «diagnóstico»
Diagnóstico
Esquizofr. No esquizofr.
Varón 43 IS
Sexo
Mujer 32 52
indefinidamente el número de variables y conseguir tablas cada vez más complejas

(tanto que, de hecho, no es habitual utilizar tablas con más de tres o cuatro
variables o dimensiones). La tabla 12.2, por ejemplo, recoge los datos obtenidos al
clasificar una muestra de 100 sujetos en 3 variables: concepción que se tiene de la
inteligencia (destreza-rasgo), sexo (hombre-mujer) y tipo de autoinstrucciones
utilizadas durante la realización de una tarea de logro (instrumentales, atribuciones,
y otras).
Siguiendo la misma lógica de las tablas 12.1 y 12.2 podríamos construir tablas
de cuatro, cinco, etc., dimensiones. El límite en el número de dimensiones única-
mente viene impuesto por el tipo de situación real que deseemos representar y por
el grado de complejidad que estemos dispuestos a abordar en nuestras inter-
pretaciones.
TABLA 12.2
Ejemplo de tabla de contingencia tridimensional (tres variables). Clasificación
de una muestra de 100 sujetos de acuerdo con las variables,
«concepción de la inteligencia», «sexo» y «tipo de autoinstrucciones»
Autoinstrucciones
Concepción Respuestas Respuestas Otras

Sexo
1n teligencia instrumentales atribucionales respuestas
Varones 21 7 4
Destreza
Mujeres 3 4 2
Varones s 10 3
Rasgo
Mujeres 6 28 7
La prueba X2 de Pearson / 525
12.1.2. Notación en tablas de contingencia
La tabla 12.3 recoge una forma general de presentar los datos en una tabla de
contingencia bidimensional y la notación que utilizaremos para referirnos a cada
uno de los elementos de la tabla.
TABLA 12.3
Tabla de contingencia resultante de clasificar una muestra de n observaciones
en las categorías combinadas de las variables X¡ e Y¡
Y¡
(Segundo criterio de clasificación)
2 j J
1 n11 "12 nlj n1J n1+

X; 2 "21 "22 n2i n21 n2+
(Primer
criterio de nil n;2 nii n;i n¡+
clasificación)
I "11 "12 n1i nu n1+
n+I n+2 n+ i n+i n
nii = Número de observaciones clasificadas en la categoría i de X¡ y en la

categoría j de lj.
n¡+ =Número de observaciones clasificadas en la categoría i de X¡.
n + i = Número de observaciones clasificadas en la categoría j de lj.
n =Número total de observaciones.
1 J 1 J
L n¡ + = L n + i = L L nii = n
i=I j=I i=!j=I
12.2. Bondad de ajuste
Los contrastes de hipótesis sobre bondad de ajuste permiten comprobar si la

forma de la distribución de probabilidad de una variable se ajusta a una determina-
da distribución de probabilidad teórica. Puesto que estamos tratando con variables
cualitativas, esas distribuciones teóricas serán la uniforme, la binomial y la multino-
mial (que son las distribuciones teóricas de probabilidad estudiadas en Análisis de
datos en psicología I para variables discretas). Esta familia de contrastes se basan en

una idea bastante simple: cabe esperar que la distribución de una variable en una
muestra aleatoria sea similar a la distribución de esa variable en la población de
donde ha sido extraída la muestra.
Extraigamos de una población una muestra aleatoria de tamaño n. Supongamos

que, en cada extracción, el resultado puede ser clasificado en una (y sólo una) de las
I categorías de una variable cualitativa X¡. Llamemos i, de forma genérica, a una
cualquiera de esas categorías (i = 1,2, ... ,/) y n¡ a la probabilidad de que el resultado
de una extracción cualquiera sea clasificado en la categoría i (n¡ = n 1 , n 2 , ••• , n 1 ). Al
final de las n extracciones tendremos, como resultado muestral, n 1 observaciones en
la categoría I, n 2 observaciones en la categoría 2, ... , n1 observaciones en la categoría
l. Estos resultados pueden organizarse tal como muestra la tabla 12.4.
TABLA 12.4
Disposición de los datos al extraer una muestra aleatoria de n observaciones
y clasificarlas en las I categorías de una variable X¡
Categorías de la variable X¡
Frecuencias observadas!t--n-1- - : -2_ _ _ _n_¡____ n1_1_,~n----.I
12.2.2. Estimación de las frecuencias esperadas
Si la variable estudiada tiene sólo dos niveles (/ = 2), la distribución del

resultado muestral obtenido seguirá el modelo de probabilidad binomial. Si la
variable estudiada tiene más de dos niveles (/ > 2), la distribución del resultado
muestral obtenido seguirá el modelo de probabilidad uniforme (si n 1 = n 2 = · · · n 1) o
el multinomial (si 7t¡ # 7t¡·).
Pearson (1911) ha ideado un procedimiento que permite contrastar hipótesis
sobre si un resultado muestral de las características expuestas se ajusta o no a un
determinado tipo de distribución teórica. El procedimiento se basa en comparar las
frecuencias observadas o empíricas (n¡) con las frecuencias esperadas o teóricas, es
decir, con las frecuencias que cabría esperar encontrar en la muestra si realmente la
La prueba X' de Pearson / 527
distribución de probabilidad teórica o poblacional fuera la propuesta. Llamando m¡

a esas frecuencias esperadas, la ecuación:
xi = ±
i=1
(n¡ - m¡)i
m¡
(12.1)
conocida como estadístico o prueba xi de Pearson 1 , permite comparar ambos

tipos de frecuencias al tiempo que posee una distribución muestral conocida. El
valor de las frecuencias esperadas m¡ depende de la distribución teórica sobre la que
deseemos efectuar el ajuste, pero, dado el tipo de distribuciones de que se trata,
siempre se obtiene a partir del tamaño muestral y de la probabilidad teórica
asociada a cada categoría i:
(12.2)
Siguiendo la lógica de los contrastes de hipótesis ya estudiados, podemos

resumir el contraste de hipótesis sobre bondad de ajuste según se muestra en el
cuadro 12.1.
CUADRO 12.l
Contraste de hipótesis sobre bondad de ajuste. Resumen del procedimiento
l. Hipótesis:
H o: f(x¡) =fo( X¡).

Es decir, la función de probabilidad de la variable X¡ esf0 (x¡), siendof0 la función
de probabilidad teórica sobre la cual deseamos efectuar el ajuste.
H 1: f(X¡) '# fo(x¡).
Es decir, la función de probabilidad de la variable X¡ no es f 0 (x¡).
2. Supuestos:
a) Una muestra aleatoria de n observaciones (n extracciones) es clasificada en las
I categorías exclusivas y exhaustivas de una variable X¡.
' En la literatura estadística, a lo que nosotros llamamos xi se le llama, frecuentemente, xi (segun

veremos enseguida, xi se distribuye segun el modelo teórico de probabilidad/). Nosotros, sin embargo,
reservaremos el término x2 para referirnos unícamene a la distribución de probabilidad propiamente
dicha y llamaremos xi al estadístico de Pearson.
i Puede consultarse, en el capítulo 1, el apartado 1.3.4 sobre la distribución muestra! de la
proporción (o, lo que es lo mismo, sobre la distribución muestra! del estadístico X = numero de éxitos en
n ensayos).
h) La probabilidad de que una observación pertenezca a cada una de las

categorías de la variable se mantiene constante en las n extracciones.
e) Todas las frecuencias observadas (11¡) son mayores que cero (es decir, no hay
casillas vacías) y no más del 20 por 100 de las esperadas (m¡) son menores
que 5.
X =
l
L (11¡
I
------ m¡)l
.
;= 1 111¡
4. Distribución muestral: xi se aproxima a / con I - 1 grados de libertad conforme

11va aumentando. Si es necesario estimar algún parámetro (caso que se presentará
cuando deseemos efectuar el ajuste a una distribución con algún parámetro :ir¡
desconocido). se pierde un grado de libertad por cada parámetro independiente
estimado: si ese es el caso. X 2 se aproxima a -¡_ 2 con I - 1 - k grados de libertad,
siendo k el número de parámetros independientes estimados-'.
5. Zona crítica: X 2 :;;i: 1_ ,-¡_f _1 _ k·
6. Regla de decisión: se rechaza /1 0 si el estadístico xi cae en la zona crítica: en caso

contrario. se mantiene.
7. Nivel crítico: p = P(X 2 :;;i: xf). siendo xf el valor concreto tomado por xi.
Siendo P; = 11;:11.
(12.3)
Si rechazamos H 0 • este intervalo de confianza nos permite determinar en qué

categorías de la variable falla el ajuste. En concreto. decidiremos que una categoría
cualquiera i rompe el ajuste cuando el intervalo construido a partir de su
correspondiente proporción P; no incluya el valor de la proporción teórica o
poblacional :ir; de esa categoría.
3 En las distribuciones de probabilidad que estamos tratando los parámetros son las probabilidades
teóricas rr¡ asociadas a cada categoría de la variable. Tanto en la distribución binomial como en la
muiltinomial el número de parámetros rr; es I (número de categorías de la variable). Pero no todos ellos
son independientes. Puesto que L rr; = 1. el número de parámetros independientes será / - l.
~~ Ediciones Pirámide
la prueba X2 de Pearson / 529
EJEMPLO 12.1. Un terapeuta asegura que dispone de un tratamiento capaz de

recuperar con éxito al 80 por 100 de los toxicómanos. Para contrastar esto, toma al
azar una muestra aleatoria de 100 toxicómanos y, tras aplicarles el tratamiento,
constata que 27 de ellos han reincidido en su hábito. ¿Es compatible este resultado con
la afirmación del terapeuta? (oi = 0,05).
1. Hipótesis:
= binomial (11 = 100:

H 11 : .fi..x) 'lTé,; 10 = 0.80).
H 1: .f{x¡) i= binomial (n = 100: 'lT",; 10 = 0,80).
2. Supuestos:
a) Una muestra aleatoria de 100 sujetos es clasificada en I = 2 categorías
exclusivas y exhaustivas (éxito y fracaso) de una variable.
b) La probabilidad de éxito se mantiene constante en las 100 extracciones.
e) Todas las frecuencias observadas n¡ son mayores que cero y ninguna
frecuencia esperada m¡ es menor que 5 (ver tabla 12.5).
3. Estadístico de contraste: la tabla 12.5 recoge las frecuencias (las observadas y
las esperadas) necesarias para obtener el estadístico de contraste. Las frecuen-
cias esperadas se han obtenido teniendo en cuenta que néxito = 0,80 y, por
tanto, 7trracaso = 0,20. Así, méxito = nnéxito = 100(0,80) = 80, y mrracaso =
= nnrracaso = 100(0,20) = 20.
TABLA 12.5
Resultado del tratamiento
Éxito Fracaso n
73 27 100
80 20 100
(73 - 80)i (27 - 20¡i

xi= + = 306
80 20 '
4. Distribución muestra): xi se aproxima a xi con I - 1 = 2 - 1 = 1 grado de

libertad.
5. Zona crítica: xi ~ 0 ,9 sXI = 3,84.
6. Decisión: como el valor del estadístico de contraste (3,06) es menor que el
punto crítico 3,84, mantenemos H 0 • Concluimos que los datos obtenidos son
compatibles con la afirmación de que el tratamiento aplicado es eficaz en el 80
por 100 de los casos.
EJEMPLO 12.2. El departamento comercial de una empresa cuenta con 4 vende-

dores. El jefe del departamento intuye un mal ambiente laboral e incluso que los
distintos vendedores producen de forma desigual a pesar de que el sistema de
retribución económica es el mismo para todos. Ante esto, decide hacer un estudio del
volumen de ventas de cada vendedor y comprobar si todos rinden o no lo mismo. La
tabla 12.6 recoge el número de ventas conseguidas por cada vendedor a lo largo de un
mes cualquiera. Con un nivel de confianza del 95 por ciento, ¿a qué conclusión llegará
el jefe del departamento comercial?
TABLA 12.6
2 3 4
n, 60 100 130 110
Si todos los vendedores rinden por igual, la probabilidad de realizar una venta será
la misma para los 4 vendedores y el resultado muestra! de la tabla 12.3 seguirá el
modelo de distribución uniforme. En consecuencia:
1. Hipótesis:
H0 : ff.,x) = uniforme ( 'l'r; = 1/4 = 0,25).
H 1: .f(x¡) i= uniforme ( 'l'r; = 1/4 = 0,25).
2. Supuestos:
a) Las 400 ventas de un mes aleatoriamente seleccionado son clasificadas en
las l = 4 categorías exclusivas y exhaustivas de una variable (los 4 vende-
dores).
b) La probabilidad asociada a cada categoría (0,25) se mantiene constante en
las 400 extracciones.
e) Todas las n; son mayores que cero y ninguna m, es menor que 5.
3. Estadístico de contraste: las frecuencias esperadas que corresponden a las

observadas de la tabla 12.3 son, todas ellas m, = nn, = 400(0,25) = 100, pues,
en todas las casillas, de acuerdo con H 0 , 11:, = 0,25. Por tanto:
(60 - lOO)i (100 - lOO)i (130 - lOO)i (110 - lOO)i

xi= + + + = 26
100 100 100 100
4. Distribución muestra): xi se aproxima a xi con l - 1 = 4 - 1 = 3 grados de

libertad.
5. Zona crítica: xi ~ 0 , 95 X~ = 7,81.

6. Decisión: como xi= 26 es
mayor que el punto crítico 7,81, rechazamos H 0 •
Concluimos que los vendedores difieren significativamente en el volumen de
ventas alcanzado.
7. Nivel crítico: p = P(X 2 ~ 26) < 0,001.
8. Intervalo de confianza: la tabla 12.7 recoge los límites inferior y superior del
intervalo correspondiente a cada vendedor. Esos límites se han obtenido a
partir de la ecuación (12.3):
P¡ ± J7,St5JP,{l - P;)/400
donde P¡ = n¡/n. Atendiendo a los límites de confianza obtenidos, podemos

comprobar que el número de ventas del vendedor 1 está por debajo del
promedio esperado, mientras que el número de ventas del vendedor 3 está por
encima de ese promedio. Esas dos casillas son las que impiden el ajuste.
TABLA 12.7
Vendedores n, P, L¡nrcrior Lsupcrior lt¡
1 60 0,150 0,10 0,20 n1 = 0,25 no incluida

2 100 0,250 0,19 0,31 n2 = 0,25 incluida
3 130 0,325 0,26 0,39 n 3 = 0,25 no incluida
4 110 0,275 0,21 0,34 it 4 = 0,25 incluida
12.3. Independencia
La segunda importante utilidad del estadístico X 2 se refiere al estudio de la

relación entre dos variables cualitativas. Disponemos ahora, no de una única
variable, como en el apartado anterior sobre bondad de ajuste, sino de dos: la
primera, X;, con I niveles a cada uno de los cuales nos referiremos con el subíndice i
(i = 1, 2, ... , /), y la segunda, lj, con J niveles a cada uno de los cuales nos referire-
mos con el subíndice j U = 1, 2, ... , J).
Ahora, las n observaciones de una muestra aleatoria pueden ser clasificadas con
arreglo a dos criterios: las I categorías de la variable X; y las J categorías de la
variable lj. Llamaremos 7t¡+ a la probabilidad de que una observación cualquiera
pertenezca a la categoría i de la variable X¡. Llamaremos 1t+i a la probabilidad de
que una observación cualquiera pertenezca a la categoría j de la variable lj.
Y llamaremos, por último, 7t¡i a la probabilidad de que una observación cualquiera
pertenezca a una de las JJ casillas o combinaciones X¡ lj. Los datos pueden
disponerse según muestra la tabla 12.8. En ella aparece también la notación que
utilizaremos para identificar cada elemento.
TABLA 12.8
Disposición de los datos al clasificar una muestra de n observaciones en las
categorías combinadas de las variables X¡ e Y¡
y¡
(Segundo criterio de clasificación)
2 j J
1 n, • n, 2 n,j nu n,+
X¡ 2 "21 "22 ll2j "2i ni+
(Primer
criterio de n¡1 n¡2 niJ nu n;+
clasificación)
I n11 "12 n,j n,i "1+
n+ • n+ i n+j n+i n
nii = Número de observaciones clasificadas en la categoría i de X¡ y en la

categoría j de Y¡.
n¡+ = Número de observaciones clasificadas en la categoría i de X¡.
n + i = Número de observaciones clasificadas en la categoría j de Y¡.
n = Número total de observaciones.
1 J 1 J
L n¡ + = L n + i = L L nii = n
i=l j=l i=lj=l
El estadístico xi de Pearson nos permite estudiar la relación entre dos variables

cuando los datos de que disponemos son del tipo propuesto en la tabla 12.8. La
estrategia consiste en comenzar planteando la hipótesis nula de que las variables X¡
e Y¡ son independientes. Si mantenemos esa hipótesis, concluiremos que los datos
disponibles no nos permiten afirmar que las variables X¡ e Y¡ estén relacionadas. Si
rechazamos esa hipótesis, concluiremos que las variables X¡ e Y¡ están relacionadas.
Ahora bien, para poner a prueba esa hipótesis mediante el estadístico xi de
Pearson, necesitamos comparar las frecuencias observadas nii con las esperadas mii
que deberíamos haber encontrado en la muestra si X¡ e Y¡ fueran realmente
independientes. El único problema que debemos resolver, por tanto, es el de
conocer cuál será el valor de las frecuencias esperadas m¡i si consideramos que las
variables sometidas a estudio son independientes.
En términos de probabilidad, decimos que dos sucesos, A y B. son independien-
tes si la probabilidad de su intersección (es decir, la probabilidad de su verificación
simultánea) es igual al producto de sus probabilidades individuales 4 ; es decir, si

P(A n B) = P(A) P(B). Trasladando esta afirmación a los datos de la tabla 12.5,
podemos decir que el suceso i es independiente del suceso j si:
P(X¡ =X¡('\ Y¡= Y)= P(X¡ = X¡)P(Y¡ = Yi) (12.4)
es decir, si:
7tij = 7t¡ + 7t + j (12.5)
Esto significa que, si suponemos que las variables X¡ e Y; son independientes, la

probabilidad de aparición de una observación cualquiera en una casilla determina-
da es igual al producto de las probabilidades marginales de esa casilla.
Ahora bien, la frecuencia esperada de una casilla cualquiera depende del tamaño
de la muestra y de la probabilidad concreta asociada a esa casilla:
(12.6)
Por lo que, si suponemos independencia entre las variables X; e Y¡, tendremos:
mii = nrrii = nrr; + 7t + i (12.7)
Generalmente, 7t¡ + y rr + i serán valores desconocidos que hará falta estimar a

partir de los datos muestrales disponibles:
n;+ n+i
P;+ = - y P+·=- (12.8)
n J n
En consecuencia:
n;+ n+i n;+n+i

m--=n--=-- (12.9)
IJ n n n
será un estimador de las frecuencias esperadas de cada casilla bajo la hipótesis de

que las variables estudiadas son independientes. Estimadas las frecuencias espe-
radas, podemos utilizar el estadístico de Pearson:
(12.10)
4 Por ejemplo, si lanzamos al aire dos monedas independientemente, la probabilidad conjunta del
suceso cara en las dos monedas es igual al producto de las probabilidades individuales de los sucesos cara
en la primera moneda y cara en la segunda moneda (0,5 x 0,5 = 0,25). Ver Análisis de datos en psicología l
(Botella, León y San Martín, 1989, págs. 282-283).
para contrastar la hipótesis de independencia. Cuanto más se parezcan las frecuen-

cias observadas nii a las estimaciones mii de las esperadas, más verosímil será la
hipótesis de independencia, pues eso indicará que lo que de hecho hemos encontra-
do en la muestra es justamente lo que cabe esperar cuando dos variables son
independientes. Por el contrario, cuanto mayores sean las discrepancias entre las nii
y las mii• más seguros estaremos de que las variables estudiadas no son independien-
tes. La prueba X 2 de Pearson nos permite evaluar, precisamente, cuándo esas
discrepancias son lo bastante grandes como para rechazar la hipótesis de inde-
pendencia. El cuadro 12.2 recoge el resumen del contraste de hipótesis sobre indepen-
dencia entre dos variables cualitativas.
CUADRO 12.2
Contraste de hipótesis sobre independencia. Resumen del procedimiento
l. Hipótesis:
H 0 : X; e Y¡ son variables independientes.
H 1: X; e Y¡ no son variables independientes.
2. Supuestos:
a) Una muestra aleatoria de n observaciones (n extracciones) es clasificada en las
IJ combinaciones (casillas) de las categorías de dos variables.
b) La probabilidad de que una observación pertenezca a cada una de las casillas
se mantiene constante en las n extracciones.
e) Todas las frecuencias observadas n;i son mayores que cero y no más del 20 por
100 de las m;i son menores que 5.
1 J ( - • )2
Xi = LL nii • mii
i=ti=• mii
4. Distribución muestral: xi se aproxima a xi con (1- l)(J - 1) grados de libertad

conforme n va aumentando.
5. Zona crítica: xi~ 1-.d/-l)(J-I)•
6. Regla de decisión: se rechaza H 0 si el estadístico xi cae en la zona crítica; en caso

7. Nivel crítico: p = P(Xi ~ xD, siendo x¡ el valor concreto tomado por xi.
EJEMPLO 12.3. Para estudiar la relación entre la lateralidad manual y la laterali-

dad visual, un psicólogo ha seleccionado una muestra de 200 sujetos con problemas de
lateralidad y los ha clasificado según se muestra en la tabla 12.9. Utilizando un nivel
de significación de 0,05, ¿podemos afirmar que la lateralidad manual y la visual están
relacionadas?
TABLA 12.9
Frecuencias observadas (nii)
Lateralidad visual ( lj)
Izquierda Ambiocular Derecha
Izquierda 16 30 14 60
Lateralidad 40
Ambidextra 12 13 15
manual (X,) 21 100
Derecha 32 47
60 90 50
~
Para obtener el estadístico de contraste necesitamos estimar el valor de las
frecuencias esperadas de cada casilla bajo el supuesto de independencia entre ambos ti-
pos de lateralidad. Utilizando la ecuación (12.9) obtenemos las frecuencias esperadas
de la tabla 12.10. Así, por ejemplo, m11 = 60(60)/200 = 18; m12 = 60(90)/200 = 27; etc.
TABLA 12.10
Frecuencias esperadas estimadas ( mii)
Lateralidad visual ( lj)
Izquierda Ambiocular Derecha
Izquierda 18 27 15 60
Lateralidad
manual (X¡)
Ambidextra 12 18 10 40
Derecha 30 45 25 100
60 90 50
~
l. Hipótesis
H 0 : la lateralidad manual y la visual son variables independientes.
H 1 : la lateralidad manual y la visual están relacionadas.
2. Supuestos:
a) Una muestra aleatoria de 200 sujetos es clasificada según el tipo de
lateralidad manual y visual que manifiestan.
b) La probabilidad de que una observación pertenezca a cada una de las
casillas se mantiene constante.
c) Todas las nii son mayores que cero y ninguna mii es menor que 5.
i (16 - 18)i (30 - 27)i (21 - 25)i

X = + + ... + = 5 37
18 27 25 '
4. Distribución muestral: xi se aproxima a xi con (3 - 1)(3 - 1) = 4 grados de

libertad.
5. Zona crítica: xi ~ o. 95 r..¡ = 9,49.
6. Decisión: como el valor del estadístico de contraste (5,37) es menor que el
punto crítico (9,49), mantenemos H 0 y concluimos que no existe evidencia
empírica suficiente para rechazar la hipótesis de independencia entre ambos
tipos de lateralidad.
7. Nivel crítico: p = P(Xi ~ 5,37) > 0,10.
12.4. Igualdad de proporciones
Ya hemos estudiado en el capítulo 9 los constrastes referidos a una proporción,

dos proporciones independientes, dos proporciones relacionadas y J > 2 proporcio-
nes relacionadas. Vamos a ocuparnos ahora del estudio de J > 2 proporciones
independientes.
La situación es prácticamente idéntica a la expuesta en el apartado 12.3 sobre
independencia entre variables cualitativas. La diferencia entre ambos enfoques es
únicamente de tipo conceptual: ahora, las categorías de una de las variables (la Y¡,
por ejemplo) son grupos o muestras de sujetos cuyo comportamiento interesa
comparar en la otra variable (la X¡). Así pues, el interés del análisis en el estudio de
J proporciones independientes se centra, no en determinar si las dos variables
consideradas son o no independientes, sino en si los diferentes grupos definidos por
las categorías de una de las variables (la lj) se distribuyen de la misma manera 5 en
las diferentes categorías de la otra variable (la X¡).
Extraigamos, de J poblaciones, J muestras aleatorias de tamaños n+ i

U = l, 2, .. ., J). Clasifiquemos las observaciones de cada muestra en una de las I
categorías de la variable X; (i = l, 2, .. ., /). Llamemos n; + a la probabilidad de
5 Desde el punto de vista estadístico, la independencia enrre wriables y la igualdad de proporciones
pueden ser consideradas exactamente la misma cosa. Cambia el proceso de muestreo (pues ahora no se
fija n, el tamaño total de la muestra, sino el tamaño de cada grupo), pero eso no tiene consecuencias
sobre el análisis (las estimaciones de las frecuencias esperadas son las mismas). La diferencia más bien
hay que buscarla en el tipo de hipótesis que se plantean (que difieren en la forma pero no en el fondo) y,
consecuentemente, en la interpretación que se hace de los resultados.
pertenecer a la categoría i, n + i a la probabilidad de pertenecer a la muestra j. y n;u a

la probabilidad condicional de que un sujeto sea clasificado en la categoría i dado
que pertenece a la muestra j. Los datos obtenidos pueden ordenarse tal como
muestra la tabla 12.11.
TABLA 12.11
Disposición de los datos al clasificar J muestras de tamaño n + i
en las l categorías de una variable cualitativa X;
y¡
Grupos o muestras
2 j J
1 n11 n12 n•i nlJ n1+

X; 2 ni1 nz2 nii nu ni+
Variable
cualitativa n;1 n;2 nii n;i n;+
I n11 n12 n,i n11 n1+
n+I n+2 n+ i n+J n
nii = Número de observaciones del grupo j clasificadas en la categoría i de X;.

n;+ = Número total de observaciones clasificadas en la categoría i de X¡.
n+i =Tamaño de cada muestra.
n =Número total de observaciones.
I J I J
L n;+
i=l
= L n+i = i=lj=l
j=l
L L nii = n
Hemos llamado n;u a la probabilidad condicional de que un sujeto de la

muestra j sea clasificado en la categoría i. Dadas las características del muestreo
(se fijan los tamaños de cada grupo) la frecuencia esperada de cada casilla vendrá
dada por:
(12.11)
La hipótesis sobre igualdad de proporciones establece que, dentro de cada

categoría de la variable X;, las J poblaciones se distribuyen de la misma manera; lo
cual significa, en términos de proporciones, que las J proporciones n;u de cada
categoría i son iguales. Bajo ese supuesto, las proporciones n;u de una categoría
dada pueden sustituirse por el promedio de las n¡li de esa categoría, que no es otra
cosa que la proporción marginal 7t¡+· En consecuencia:
(12.12)
Utilizando la información muestral para estimar n¡+ obtenemos P¡+ = n¡+/n.

Por lo que:
• n¡+ n¡+n+j
m .. = n+ .·--- = -~-- (12.13)
11 J n n
será un estimador de las frecuencias esperadas de cada casilla (estimador idéntico al

que habíamos llegado en el apartado 9.2 al estudiar la independencia entre
variables).
Sabiendo cómo estimar las frecuencias esperadas que se derivan de la hipótesis
de igualdad de proporciones, podemos ya utilzar el estadístico de Pearson para
comparar las frecuencias observadas y esperadas y tomar una decisión sobre esa
hipótesis. El cuadro 12.3 recoge un resumen del procedimiento.
CUADRO 12.3
Contraste de hipótesis sobre igualdad de proporciones. Resumen del procedimiento
l. Hipótesis:
H 0 : Las J poblaciones tienen la misma distribución.
Es decir, la probabilidad de que una observación sea clasificada en la categoría i
de la variable X¡ es la misma en las J poblaciones (ir; 1 = ir,,~ = · · · = ir,,1 ).
H 1 : Las J poblaciones no tienen la misma distribución.
Es decir, la probabilidad de que una observación sea clasificada en la categoría i
de la variable X; no es la misma en las J poblaciones (ir,,;"# ir;d·· para algún valor
de j).
2. Supuestos:
a) J muestras aleatorias de tamaños 11 + i son clasificadas en las I categorías
exlusivas y exhaustivas de una variable cualitativa.
categorías de la variable se mantiene constante.
e) Todas las frecuencias observadas nii son mayores que cero y no más del 20 por
100 de las m;i son menores que 5.
1 J ( )2
xi = ¿ ¿
A
nii ~ mii
i=I j=I mij
4. Distribución muestra!: X 2 se aproxima a x. 2 con(/ - l)(J - 1) grados de libertad

conforme n va aumentando.
5. Zona crítica: X 2 ~ 1-.X.f1-11<J-1¡·
6. Regla de decisión: se rechaza H0 si el estadístico X 2 cae en la zona crítica; en caso

7. Nivel crítico: p = P(X 2 ~ xf), siendo xf el valor concreto tomado por X 2 •
EJEMPLO 12.4 Para estudiar si la actitud ante la muerte va cambiando con la

edad, se tomaron 3 muestras aleatorias de 40 sujetos de distintas edades. Todos los
sujetos respondieron a la pregunta ¿le preocupa a usted la muerte? en una escala
ordenada de 1 a 4 (desde nada a mucho). La tabla 12.12 recoge los resultados
obtenidos. ¿Podemos afirmar que las poblaciones de edad consideradas difieren en su
actitud hacia la muerte? (O! = 0,05).
TABLA 12.12
Frecuencias observadas ( nii)
Grupos de edad ( }j)
20-35 36-50 más de 50
Nada 5 4 6 15
Respuestas Poco 31 10 19 60
(X,) Bastante 2 21 10 33
Mucho 2 5 5 12
40 40 40
~
Para obtener el estadístico de contraste necesitamos estimar el valor de las
frecuencias esperadas de cada casilla bajo el supuesto de igualdad de proporciones en
cada nivel de edad. Utilizando la ecuación (12.13) obtenemos las frecuencias esperadas
de la tabla 12.13. Por ejemplo, m11 = 15(40)/120 = 5; m21 = 60(40)/120 = 20; etc.
TABLA 12.13
Frecuencias esperadas estimadas (mii)
Grupos de edad (}j)
20-35 36-50 más de 50
Nada 5 5 5 15
Respuestas Poco 20 20 20 60
(X,) Bastante 11 11 11 33
Mucho 4 4 4 12
40 40 40
~
l. Hipótesis
H 0 : Las 3 poblaciones de edad se distribuyen igual en la variable actitud ante
la muerte.
H 1: Las 3 poblaciones de edad no se distribuyen igual en la variable actitud
ante la muerte.
2. Supuestos:
a) Una muestra aleatoria de 120 sujetos es clasificada según sus respuestas.
categorías de respuesta se mantiene constante.
e) Todas las nii son mayores que cero y ninguna mii es menor que 5.
(5 - 5)2 (4 - 5)2 (6 - 5)2 (5 - 4¡i
xi = --- + - - - + - - - + ... + - - - = 29,55
5 5 5 4
4. Distribución muestra(: xi se aproxima a xi con (4 - 1)(3 - 1) = 6 grados de
libertad.
5. Zona crítica: xi?: o. 95 xi = 12,59.
6. Decisión: como el valor del estadístico de contraste (29,55) es mayor que el
punto crítico (12,59), rechazamos H 0 y concluimos que los grupos de edad
considerados difieren significativamente en el grado de preocupación que
manifiestan ante la muerte.
7. Nivel crítico: p = P(Xi ?: 29,55) < 0,001.
12.4.3. Comparaciones múltiples

Si llegamos a la conclusión de que no todas las proporciones poblacionales son
iguales, podemos estar interesados en averiguar qué poblaciones en concreto
difieren entre sí. Para ello, puede utilizarse la prueba X 2 de Pearson para efectuar
comparaciones entre cada dos poblaciones, pero dividiendo el nivel de significación
a por el número de comparaciones que se vayan a efectuar (para controlar la tasa
de error por familia de comparaciones). Es decir, utilizando como nivel de significa-
ción r:i./(J(J - 1)/2). La lógica de este tipo de comparaciones es idéntica a la expuesta
en el capítulo 6; la diferencia está únicamente en que ahora, en lugar de trabajar con
medias, tenemos que hacerlo con proporciones.
Si además estamos interesados en averiguar, no sólo qué poblaciones difieren
entre sí, sino en qué categoría de la variable difieren, podemos utilizar el procedi-
miento que describimos a continuación.
Consideremos, por ejemplo, la categoría 1 de la variable X; (i = 1). Hagamos:
nli
P1i=- (12.14)
n+ i
y utilicemos:
L = c 1 P 11 + c 2 P 12 + ... + c1 PIJ = L,ciPli (12.15)

j
como estimador de la comparación:
L = c 1 n 11 + c 2 n 12 + ··· + c1 n 11 = L,cinli (12.16)

j
Podemos plantear hipótesis nulas del tipo: H 0 : L = O, y contrastarlas a partir del

siguiente intervalo de confianza:
(12.17)
donde:
(12.18)
Rechazaremos la H 0 referida a una comparación cualquiera L siempre que el

intervalo de confianza construido a partir de L no incluya el valor cero. Por
supuesto, el procedimiento puede repetirse para cada categoría de la variable X¡.
EJEMPLO 12.S. Consideremos los datos de la tabla 12.12 (ejemplo 12.4). Hemos
rechazado la hipótesis de igualdad de proporciones y hemos concluido que los grupos
de edad considerados difieren en el grado de preocupación que manifiestan ante la
muerte. Para profundizar en esta conclusión general podemos obtener intervalos
de confianza para la diferencia entre cada dos proporciones poblacionales dentro de
cada categoría de la variable X¡.
Comencemos con la categoría nada (i = 1):
5 4 6
P 11 = - = 0,125 ; P 12 = - = 0,10 P 13 = - = 0,15
40 40 40
Puesto que tenemos 3 poblaciones de edad, las (3)(3 - 1)/2 = 3 comparaciones dos
a dos entre ellas pueden quedar definidas como se muestra en las siguientes hipótesis
nulas:
Ho(I¡: L 1 _ 2 =(l)n+ 1 + (- l)n+ 2 + (O)n+ 3 =O

H 0 (2): L 1 _ 3 =(l)n+ 1 + (O)n+ 2 + (- l)n+ 3 =O
H 0 (3): L 2 _ 3 = (O)n + 1 + (l)n +2 + (- 1)n+ 3 = O
En consecuencia:
l1-2 = (1)0,125 + (-1)0,10 + (0)0,15 = 0,025

l1-3 = (1)0,125 + (0)0,10 + (-1)0,15 = -0,025
[,2-3 = (0)0,125 + (1)0,10 + (-1)0,15 = -0,050
Y, de acuerdo con (12.18):
2 2 0,125(1 - 0,125) 0,10(1 - 0,10) 0,15(1 - 0,15)

<1-L
,_,
=1 40
+ ( -1) 2 40
+ 02 40
= 0,00498
(Jf = 12 0,125(1 - 0,125) + 02 0,10(1 - 0,10) + (- 1)2 0,15(1 - 0,15) = 0,00592

L,_, 40 40 40
(Jf = 02 0,125(1 - 0,125) + 12 0,10(1 - 0,10) + (-1)2 0,15(1 - 0,15) = 0,00544

L,_, 40 40 40
Teniendo en cuenta que i -.Xfi- iici- ii = 0 , 9 sX~ = 12,59, tendremos:
JC para L 1 _ 2: 0,025 ± Jt2,594J0,00498 = (-0,22;0,28)

IC para L1 _ 3: -0,025 ± J 12,594 j0,00592 = ( - 0,30; 0,25)
IC para L 2_3 : -0,050 ± Jt2,594J0,00544 = (-0,31;0,21)
Los tres intervalos construidos contienen el valor cero, de modo que debemos
tomar la decisión de mantener las tres hipótesis plateadas y concluir que las poblacio-
nes de edad consideradas no difieren entre sí en la categoría nada.
El lector interesado puede repetir el proceso para el resto de las categorías de la
variable X¡ y averiguar dónde de hecho se encuentran las diferencias.
12.5. Errores tipificados
Una vez rechazada la hipótesis de independencia o de homogeneidad de pro-

porciones, las pautas de asociación concretas presentes en una tabla de contingencia
pueden estudiarse, según acabamos de ver, utilizando comparaciones múltiples e
intervalos de confianza. Sin embargo, casi siempre resulta útil efectuar una valora-
ción celda a celda de las diferencias existentes entre las frecuencias esperadas y las
observadas. Podemos llamar errores a esas diferencias y definirlos de la siguiente
manera:
(12.19)
Estos errores pueden delatar diferencias mayores en unas celdas que en otras y
la constatación de este hecho puede arrojar luz sobre las pautas de interacción
presentes en la tabla. Una forma sencilla de evaluar estos errores consiste en tipi-
ficarlos:
(12.20)
Estos errores tipificados elevados al cuadrado poseen la importante propiedad

de ser componentes del estadístico X 2 de Pearson:
(12.21)
Pero, bajo la hipótesis nula de independencia, los errores tipificados Ze11 se dis-
tribuyen normalmente con media =O y varianza= (1 - l)(J - 1)/(IJ), lo cual repre-
senta un pequeño inconveniente pues, dado que (1 - l)(J - 1) es siempre menor
que IJ, la varianza de los errores tipificados siempre es menor que 1 y, en conse-
cuencia, su variabilidad no se corresponde con la de las variables distribuidas
N(O, 1).
No obstante, Haberman (1973) ha definido otro tipo de errores tipificados, lla-
mados ajustados o corregidos, que, a diferencia de los errores tipificados, sí se
distribuyen N(O, 1). Los errores tipificados corregidos toman la forma:
(12.22)
En tablas bidimensionales como las estudiadas en este capítulo, a e. puede esti-

marse mediante: "
(12.23)
Los errores tipificados corregidos se distribuyen normalmente con media cero

y desviación típica uno, N(O, 1), y esto es una importante ventaja pues los convierte
en fácilmente interpretables: utilizando un nivel de confianza de, por ejemplo, 0,95,
podemos afirmar que los errores mayores que 1,96 delatan casillas con más casos
de los que cabría esperar si las variables estudiadas fueran independientes; mientras
que los errores menores que -1,96 delatan casillas con menos casos de los que
cabría esperar en una situación de independencia.
12.6. Medidas de asociación basadas en X 2
El estadístico X 2 de Pearson permite contrastar la hipótesis de independencia

en una tabla de contingencia, pero no nos dice nada sobre la fuerza de la asocia-
ci6n entre las variables estudiadas. Esto es debido a que su valor no sólo depende
del grado de ajuste entre los datos y el modelo de independencia, sino del número
de casos de que consta la muestra. Con tamaños muestrales muy grandes, diferen-
cias relativamente pequeñas entre las frecuencias observadas y las esperadas pueden
dar lugar a valores X 2 demasiado altos. Ésta es la razón por la que, para estudiar
el grado de relación existente entre dos variables categóricas, se utilizan medidas
de asociación que intentan cuantificar el grado de relación eliminando el efecto del
tamaño muestra!.
Las medidas de asociación incluidas en este apartado se basan en el estadístico
X 2 de Pearson. Todas estas medidas intentan corregir el valor del estadístico X 2
para hacerle tomar un valor entre O y 1, y para eliminar el efecto del tamaño de
la muestra sobre la cuantificación del grado de asociación. La primera de estas
medidas es el coeficiente de contingencia (C):
e-- (12.24)
e toma valores entre o y 1: el o indica independencia y el 1 asociación perfecta.

En realidad, puesto que n nunca vale cero, C nunca llega a 1. Su valor máximo
depende del número de filas y de columnas de la tabla. Si el número de filas y
de columnas es el mismo (k), entonces el valor máximo de C se obtiene de la
siguiente manera:
(12.25)
Otra medida de asociación basada en el estadístico X 2 es el coeficiente phi (</J),

que se obtiene mediante:
(12.26)
En tablas de contingencia 2 x 2, <P adopta valores entre O y 1, y su valor es

idéntico al del coeficiente de correlación de Pearson calculado sobre dos variables
dicotómicas (con valores O y 1). En tablas en las que una de las variables tiene
más de dos niveles, "' puede tomar valores mayores que 1 (pues el valor de X 2
puede ser mayor que el tamaño muestra!), por lo que su uso debería restringirse
al caso de tablas 2 x 2.
Por último, el coeficiente V de Cramer aporta una ligera modificación al coefi-

ciente phi que le permite ser utilizado con tablas de más de dos categorías por
variable:
(12.27)
donde k se refiere al menor del número de filas (/) y de columnas (J). Vcram~r nun-
ca excede de l. En tablas de contingencia 2 x 2, los coeficientes Vcramu y </> son
idénticos.
Las tres medidas de asociación propuestas permiten completar la información
proporcionada por el estadístico X 2 de Pearson en el que se basan. El estadístico
X 2 nos dice si la relación entre dos variables es estadísticamente significativa. Las
medidas de asociación nos permiten precisar el grado o magnitud de esa relación.
APl:N DICE 12
Obtención de tablas de contingencia
La obtención de tablas de contingencia se ajusta a una serie de procedimientos denomi-

nados esquemas de muestreo que determinan las probabilidades teóricas con las que más
tarde se va a trabajar.
Quizá el más tradicional de tales procedimientos sea el esquema de muestreo multinomial.
Este esquema resulta apropiado cuando lo que se hace es: 1) seleccionar aleatoriamente de
una población de interés una muestra de tamaño n y 2) clasificar cada elemento de la misma
con arreglo a las variables subyacentes. Si consideramos, como ejemplo, la tabla 12.1, el
esquema de muestreo multinomial nos habría llevado a: 1) seleccionar aleatoriamente n
pacientes de un hospital y a 2) clasificar cada paciente con arreglo a su sexo y diagnóstico.
Bajo estas circustancias, las frecuencias observadas de una tabla bidimensional son una
variable aleatoria con función de probabilidad:
n!
---ílílrr'l? (12.28)
; j
donde nii representa la probabilidad de que un elemento aleatoriamente seleccionado

pertenezca a la casilla ij. Puesto que la distribución de las frecuencias sigue el modelo
multinomial, la distribución de cada casilla seguirá el modelo binomial B(n. n;J De lo cual
cabe deducir que el valor esperado de cada casilla, al que llamaremos mii• vendrá dado por:
(12.29)
Otro modo diferente de proceder consiste en utilizar el esquema de muestreo producto-

multinomial, también llamado multinomial condicional. De acuerdo con este esquema, comen-
zaríamos 1) seleccionando una muestra aleatoria de n 1 + varones y otra de n 2 + mujeres y

continuaríamos 2) clasificando a Jos sujetos de cada muestra como esquizofrénicos o no
esquizofrénicos. Con esta forma de proceder ya no fijamos de antemano sólo el tamaño total
de Ja muestra, n, como en el esquema de muestreo multinomial, sino que también fijamos los
totales marginales de las filas (los n; +). Bajo estas circunstancias, Ja distribución de las
frecuencias de cada fila es multinomial M(n;+• 1t¡¡;) 6 , por lo que la función de probabilidad
para cada fila vendrá dada por:
n. !
_•_+_ílrr.'!!J
I} (12.30)
nj
'j
n¡i·
El producto de las l funciones (12.30) (una para cada fila) proporciona la función de
probabilidad para la tabla entera. Las frecuencias esperadas vienen dadas, ahora, por:
(12.31)
Por supuesto, en lugar de fijar Jos totales de cada fila (el número de varones y el número
de mujeres), podría comenzarse fijando los totales de cada columna (número de esquizofréni-
cos y número de no esquizofrénicos). En este caso el esquema de muestreo seguiría siendo el
producto-multinomial, pero con n+¡ fijo en Jugar den;+·
El modelo de Poisson proporciona un tercer método o esquema de muestreo. De acuerdo
con este esquema procederíamos sin establecer de antemano ni el n total ni los totales
marginales. Nos limitaríamos a: 1) observar a los sujetos de una población determinada
durante un periodo de tiempo establecido y a 2) clasificarlos según las variables de interés.
Bajo estas circustancias es razonable suponer que las frecuencias obtenidas seguirán el
modelo de Poisson, por lo que Ja función de probabilidad para cada casilla vendrá dada por:
m'!!J
e-m,j_•J_ (12.32)
n;¡!
de donde se desprende que el valor esperado (frecuencia esperada) de cada casilla es, al igual
que en el modelo multinomial: m;¡ = nn;¡·
Con lo dicho hasta aquí es ya posible hacerse una idea de los tres esquemas de muestreo
más comúnmente utilizados para generar tablas de contingencia y de las distribuciones de
probabilidad que siguen las variables aleatorias (frecuencias observadas) que se obtienen
con cada uno de ellos. Un estudio más detallado de estas y otras distribuciones discretas de
probabilidad puede encontrarse en Johnson y Kotz (1969), o Bishop, Fienberg y Holland
(1975, capítulo 13).
Existen otros esquemas de muestreo (hipergeométrico, multinomial negativo, etc.) que
también pueden servir para generar tablas de contingencia. No obstante, Jos tres esquemas
descritos, no sólo son Jos más frecuentemente utilizados, sino que poseen Ja peculiaridad de
permitir usar Jos mismos métodos inferenciales y conducir a las mismas estimaciones para las
frecuencias esperadas de una tabla de contingencia dada.
6 7t¡¡, se refiere a la probabilidad condicional de la columna j dada la fila i. Así, por ejemplo,
n,,, = n 11 /n 1 +• n213 = n23/n 2 +, etc.
Medidas de asociac1on basadas en la reducción proporcional

del error (RPE)
Las medidas de asociación estudiadas en el apartado 12.6 (basadas en el estadístico X 2 )
no son las únicas disponibles. Existen otras medidas de asociación que, no sólo difieren de
las ya estudiadas en la forma de definir lo que es asociación, sino en la forma en que se
ven afectadas por factores tales como las distribuciones marginales.
No todas las medidas de asociación diseñadas para tablas de contingencia valoran los
mismos aspectos de la tabla. De hecho, una medida puede arrojar un valor bajo en una
situación concreta, no porque las variables estudiadas no estén relacionadas, sino porque esa
medida no sea sensible al tipo de relación presente en los datos. Para seleccionar una me-
dida concreta, además de las características particulares de cada medida, hay que tener en
cuenta cosas tales como el tipo de variables estudiadas y la hipótesis que interesa contrastar.
En ningún caso está justificado obtener todas las medidas disponibles para seleccionar aquella
cuyo valor se ajusta mejor a nuestros intereses.
Las medidas RPE, propuestas por Goodman y Kruskal, son medidas de asociación que
expresan la proporción en que conseguimos reducir la probabilidad de cometer un error de
predicción cuando, al intentar clasificar un caso o grupo de casos como pertenecientes a una
u otra categoría de una variable, en lugar de utilizar únicamente las probabilidades asociadas
a cada categoría de esa variable, efectuamos la clasificación teniendo en cuenta esas mismas
probabilidades en cada categoría de una segunda variable.
Lambda (A.)
Si al predecir a qué categoría de una determinada variable (X) pertenece un caso deci-
mos que pertenece a la categoría más probable de todas, estaremos cometiendo un error
de predicción igual a la probabilidad de pertenecer a una cualquiera de las restantes cate-
gorías; si, en lugar de esto, clasificamos a ese caso en una u otra categoría de la variable X
dependiendo de a qué categoría de una segunda variable (Y) pertenece, podemos estar con-
siguiendo una reducción en el error de predicción (lo cual ocurrirá si las dos variables están
relacionadas). El coeficiente lambda expresa la proporción de error de predicción que con-
seguimos reducir al proceder de esta segunda manera.
Consideremos los datos de la tabla 12.14, que recoge las frecuencias resultantes de cruzar
las variables sexo y grupos de salario en una muestra de 474 sujetos. Si conocemos la
distribución de la variable grupos de salario, al estimar a qué grupo de salario pertenece
un sujeto cualquiera, diremos que pertenece al grupo de «entre 2,5 y 5,0 millones» porque
hay una probabilidad de 260/474 = 0,5485 de pertenecer a ese grupo frente a una probabi-
lidad de (143 + 54 + 17)/474 = 0,4515 de pertenecer a cualquiera de los otros tres grupos.
Procediendo de esta manera, estaremos cometiendo un error de clasificación de 0,4515.
TABLA 12.14
Tabla de contingencia de sexo por grupos de salario
Grupos de salario (en millones de pesetas)
<2,5 2,5-5,0 5,0-7,5 >7,5
1 Hombres 19 174 48 17 258

Sexo
Mujeres 124 86 6 o 216
1
143 260 54 17 474
Si ahora tenemos en cuenta la variable sexo para efectuar esa estimación y clasificamos
a los varones en el grupo de «entre 2,5 y 5,0 millones» porque ése es el grupo de salario
más probable entre los varones (con un error de (19 + 48 + 17)/474 = 0,1772), y a las mu-
jeres en el grupo de «menos de 2,5» porque ése es el grupo de salario más probable entre
las mujeres (con un error de (86 + 6 + 0)/474 = 0,1941), estaremos cometiendo un error de
clasificación de 0,1772 + 0,1941 = 0,3713. Actuando de esta segunda manera hemos conse-
guido reducir el error de clasificación en 0,0802 (de 0,4515 a 0,3713), lo cual representa una
proporción de reducción de 0,0802/0,4515 = O, 1776, que es justamente el valor de lambda
cuando consideramos la variable grupos de salario como variable dependiente. Podemos
obtener el valor de lambda mediante:
L máx;(n;}- máx(n+i)
• i
)•ylx = --------- (12.33)
n - máx(n+i)
donde:
máx; (n;} = la mayor de las frecuencias de la fila i.
máx (n +} = la mayor de las frecuencias marginales de las columnas.
Aplicando la ecuación [12.33] a los datos de la tabla 12.13 obtenemos el siguiente re-
sultado:
A. - (174 + 124) - 260 -

*- 474 - 260 - º' 1776
Lambda tiene tres versiones: dos asimétricas (para cuando una de las dos variables se consi-
dera independiente y la otra dependiente) y una simétrica (para cuando no existe razón para
distinguir entre variable independiente y dependiente). En la ecuación [12.33] estamos con-
siderando que la variable dependiente es la lj. Si la variable dependiente es la Xi• la ecua-
ción de lambda toma esta otra forma:
L máxi(n;) - máx(n;+)
• - j
)•xi}' - -'--------- (12.34)
n - máx(n;+)
donde:
máxi(n;) =la mayor de las frecuencias de la columna j.
máx(n;+) = la mayor de las frecuencias marginales de las filas.
La versión simétrica de lambda se obtiene promediando el valor de las dos versiones
asimétricas.
Se trata de una medida de asociación que toma valores entre O y l. Un valor de O in-
dica que la variable independiente (la variable utilizada para efectuar pronósticos) no con-
tribuye en absoluto a reducir el error de predicción. Un valor de 1 indica que el error de
predicción se ha conseguido reducir por completo, es decir, que la variable independiente
permite predecir con toda precisión a qué categoría de la variable dependiente pertenecen
los casos clasificados.
Cuando dos variables son estadísticamente independientes, lambda vale O. Pero un valor
de O no implica independencia estadística. Lambda es sensible a un tipo particular de aso-

ciación (a la reducción en el error que se consigue al predecir las categorías de una variable
utilizando las de la otra), pero no a todos. Recordemos que no existe ningún índice de
asociación sensible a todo tipo de asociación posible.
Tau ('r)
La medida de asociación tau se parece a lambda, pero se basa en una lógica algo dife-
rente. Al pronosticar a qué categoría de la variable grupos de salario pertenece un grupo
de sujetos, podemos asignar aleatoriamente el 100(143/474) = 30,17 por 100 a la categoría
«menos de 2,5 millones», el 100(260/474) = 54,85 por 100 a la categoría «entre 2,5 y 5,0
millones», etc., basándonos en la probabilidad de pertenecer a cada categoría, en lugar de
considerar sólo la categoría más probable, como hemos hecho con lambda. Procediendo de
esta manera estaremos clasificando correctamente al 30, 17 por 100 de los 143 sujetos del
grupo «menos de 2,5 millones», al 54,85 por 100 de los 260 sujetos con salarios «entre 2,5
y 5,0 millones», etc. Lo cual representa una proporción de clasificación correcta global de
0,4061 y, por tanto, una proporción de clasificación errónea de 1 - 0,4061 = 0,5939.
En lugar de esto, podemos tener en cuenta la variable sexo y, entre los varones, asignar
aleatoriamente el (100)19/258 = 7,36 por 100 a la categoría «menos de 2,5 millones», el
(100)174/258 = 67,44 por 100 a la categoría «entre 2,5 y 5,0 millones», etc.; y entre las
mujeres, asignar aleatoriamente el (100)124/216 = 57,41 por 100 a la categoría «menos de
2,5 millones», el (100)86/216 = 39,81 por 100 a la categoría «entre 2,5 y 5,0 millones»; etc.
Al final, estaremos clasificando de forma correcta al 49,45 por 100 de los sujetos y, por
tanto, estaremos efectuando pronósticos erróneos con el 100 - 49,45 = 50,55 por 100 de los
sujetos.
Procediendo de esta segunda manera reducimos la probabilidad de efectuar pronósticos
erróneos en 0,0884 (la diferencia entre 0,5939 y 0,5055). Por lo que habremos conseguido
reducir la probabilidad de error en una proporción de 0,0884/0,5939 = 0,149, que es justa-
mente el valor de la tau de Goodman y Kruskal cuando consideramos la variable grupos
de salario como dependiente. Podemos obtener el valor de tau utilizando la siguiente ecua-
ción:
n¿¿(nl/n;+)- ¿n~¡
i j j
(12.35)
n2 - ¿n~¡
j
Al igual que lambda, tau también toma valores entre O y 1, significando el O ausencia de
reducción del error de clasificación y el 1 reducción completa. Tau posee dos versiones asi-
métricas, dependiendo de cuál de las dos variables consideremos dependiente; el valor de
ty¡x puede obtenerse intercambiando los roles de X¡ e lj.
Coeficiente de incertidumbre
Al igual que lambda y tau, el coeficiente de incertidumbre es una medida de asociación

basada en la reducción proporcional del error. Por tanto, es una medida que expresa el
grado de incertidumbre que conseguimos reducir cuando utilizamos una variable para efec-
tuar pronósticos sobre otra. Posee dos versiones asimétricas (dependiendo de cuál de las dos
variables consideremos dependiente) y una simétrica (para cuando no hacemos distinción
entre variable independiente y dependiente). Se obtiene de la siguiente manera (sólo para
n;i >O):
I = _J(_X_)+_I(_Y)_-_I_(X_Y)
* /(Y)
(12.36)
donde:
/(X)= - ¿[n;+ ln(n;+)]; /(Y)= - ¿[n+i ln(n+i)]; /(XY) = - ¿¿[nii ln(nii)]

, n n in n ii n n
Para obtener I xil" basta con intercambiar los papeles de /(X) e /(Y). Y la versión simé-
trica se obtiene multiplicando I¡·lx por 2 después de añadirle /(X) al denominador.
Índices de acuerdo
Los índices de acuerdo permiten resolver situaciones relativamente frecuentes en la in-

vestigación psicológica y social. En un estudio clínico, por ejemplo, dos psicólogos podrían
examinar por separado a un grupo de pacientes para asignarlos a una de un conjunto de
varias categorías diagnósticas. En un estudio de opinión, podría preguntarse independiente-
mente a los miembros de una pareja que seleccionaran una categoría de respuesta en un
conjunto de preguntas. Etcétera. Los índices de acuerdo permiten cuantificar el grado de
acuerdo existente entre dos observadores o jueces al clasificar una serie de sujetos u objetos
en un conjunto de categorías nominales.
Los resultados de la clasificación pueden ordenarse en una tabla de contingencia con igual
número de filas y columnas (/ = J). La tabla 12.15 muestra el resultado obtenido por dos
jueces al clasificar una muestra de 200 pacientes neuróticos según el tipo de neurosis.
TABLA 12.15
Resultado obtenido por dos jueces al clasificar una muestra de 200 pacientes histéricos
seyún el tipo de neurosis
Y¡: Juez 2
(i= 1) (i = 2) (i = 3) (i = 4)
Fóbica Histérica Obsesiva Depresiva n¡+
(i = 1) Fóbica 20 8 6 1 35
X;: Juez 1
(i = 2) Histérica 7 36 14 4 61
(i = 3) Obsesiva 1 8 43 7 59
(i = 4) Depresiva 2 6 4 33 45
"+i 30 58 67 45 200
Una forma intuitiva de medir el grado de acuerdo entre los dos jueces consiste en hacer
un recuento del número de coincidencias existentes (es decir, del número de casos que ambos
jueces han clasificado de la misma manera). Sumando las frecuencias que indican acuerdo
(las que se encuentran en la diagonal que va desde la parte superior izquierda de la tabla a
la parte inferior derecha: n;;) obtenemos 132 coincidencias, lo que representa un porcentaje
de acuerdo de (100)132/200 = 66 por 100.
Este porcentaje constituye la base de muchos de los índices diseñados para evaluar el
acuerdo entre dos jueces. Pero tiene un serio inconveniente para ser utilizado como índice
de acuerdo: no tiene en cuenta la probabilidad de obtener acuerdos por azar. Entre los
índices que sí tienen en cuenta esa probabilidad, el coeficiente kappa (K) de Cohen (1960)
es, sin duda, el más conocido y utilizado. Si suponemos que ambos jueces son independien-
tes, los casos que cabría esperar por azar en las casillas de la diagonal pueden obtenerse
multiplicando las correspondientes frecuencias marginales y dividiendo ese producto entre el
total de casos (ver apartado 12.3.2, ecuación [12.9]). Así, en la primera casilla de la diagonal
cabría esperar, por azar, 35(30)/200 = 5,25 casos; en la segunda casilla, 61(58)/200 = 17,69
casos; etc. Repitiendo la operación para todas las casillas de la diagonal, obtenemos un total
de 52,83 casos, lo que representa un 26,42 por 100 de acuerdo esperado por azar.
La diferencia entre la proporción de acuerdo observado (0,66) y la proporción de acuerdo
esperado por azar (0,2642) es 0,3958. El coeficiente kappa de Cohen se obtiene dividiendo
esa diferencia entre la proporción de acuerdo máximo que los dos jueces podrían alcanzar.
Esta proporción máxima se obtiene restando a 1 la proporción de acuerdo esperado por
azar: 1 - 0,2642 = 0,7358. Dividiendo el acuerdo observado (0,3958) entre el acuerdo máximo
posible (0,7358), obtenemos una proporción de acuerdo de 0,538, que es justamente el valor
de kappa si aplicamos la ecuación:
(12.37)
(n;; se refiere a las frecuencias de la diagonal principal: i = j). El valor de kappa debe inter-
pretarse teniendo en cuenta que toma valores entre O (acuerdo nulo) y 1 (acuerdo máximo).
Cuando el acuerdo alcanzado es menor que el esperado por azar, kappa toma un valor
negativo.
Fleiss, Cohen y Everitt ( 1969) han demostrado que el error típico del coeficiente kappa
puede estimarse mediante:
f¡ K =
Podemos contrastar la hipótesis· de que los dos jueces son independientes (o, lo que es
lo mismo, que el coeficiente kappa vale cero) tipificando el valor de kappa. Dividiendo kappa
por su error típico obtenemos un valor tipificado que se ajusta al modelo de probabilidad
normal:
K
z. = - --+ N(O, 1) (12.39)
rr.
Al margen de la significación estadística del coeficiente kappa, Landis y Koch (1977) han
argumentado que, en la mayor parte de los contextos, valores por encima de 0,75 suelen
reflejar un acuerdo excelente; valores entre 0,40 y 0,75, un buen acuerdo; y valores por
debajo de 0,40, un acuerdo más bien pobre.
Aplicando la ecuación [12.37] a los datos de la tabla 12.15 obtenemos:
In¡¡= 20 + 36 + 43 + 33 = 132
i
In;+n+; = 35(30) + 61(58) + 59(67) + 45(45) = 10.566

i
200(132) - 10.566
K = 200 2 - 10.566 = 0•538
Para contrastar la hipótesis de acuerdo nulo (H 0 : K = O) comenzamos estimando el error

típico de kappa (ecuación [12.38]):
In;+n+;(n;+ + 11 +;l = 35(30)(65) + 61(58)(119) + 59(67)(126) + 45(45)(90) = 1.169.600
1 2 2
(¡
•= 200(2002 - 10.566)2 [200 (10.566) + (10.566) - 200(1.169.600)] = 0,041635
K 0,538
z. = ª· = 0,041635 = 12' 92
Puesto que P(Z ;:i: 12,92)::::: O, podemos rechazar H 0 y afirmar que el acuerdo alcanzado
es significativamente más alto que el esperado por azar. Siguiendo las recomendaciones de
Landis y Koch, podemos decir que el acuerdo observado es bueno.
Además del coeficiente kappa, existen otros muchos índices de acuerdo que, aunque son
muy parecidos a kappa, se diferencian entre sí por la forma concreta que tienen de cuanti-
ficar la probabilidad de acuerdo debido al azar (ver, por ejemplo, Fleiss, 1981, capítulo 13;
o Zwick, 1988) .. Por otra parte, el lector interesado en algún índice que permita evaluar el
acuerdo entre más de dos jueces, puede consultar, por ejemplo, Posner, Sampson, Caplan,
Ward y Chendly (1990).
Especial mención merece un índice de acuerdo asimétrico diseñado por Kvalseth (1991):
(12.40)
Mientras kappa permite evaluar el grado de acuerdo mutuo entre dos jueces (trata a los
dos jueces de forma equivalente), el índice K 2 ¡1 permite valorar el acuerdo entre dos jueces
cuando el primero de ellos es considerado como un estándar.
La prueba X 2 de Pearson / 553
EJERCICIOS
12.1. De un estudio sobre tabaquismo se han extraído los siguientes datos correspondientes
a una muestra de 30 sujetos seleccionados de diferente hábitat ( 15 sujetos de medio rural y 15
de medio urbano). A cada sujeto le corresponde, en la tabla 12.16, un registro que indica si
fuma más de 10 cigarrillos/día (!), o menos (O). Apoyándonos en los datos de esta pequeña
muestra, ¿podemos afirmar que la proporción de fumadores no es la misma en los hábitat
rural y urbano? (ex = 0,05).
TABLA 12.16
Medio rural o 1 o o 1 o o o 1 o 1 1 o o o
Medio urbano 1 1 o 1 o 1 1 1 o 1 o o 1 o 1
12.2. Se sospecha que en la población de psicólogos, 1/4 tienen actitudes de derechas, 1/4
actitudes de centro y 2/4 actitudes de izquierdas. Tomada una muestra aleatoria de 24
psicólogos hemos encontrado la distribución de frecuencias que aparece en la tabla 12.17.
¿Son compatibles estos datos con la hipótesis de partida? (ex = 0,05).
TABLA 12.17
Derechas Centro Izquierdas
5 8 11
12.3. Al aplicar una prueba de lenguaje a una muestra aleatoria de 100 sujetos hemos
definido la variable X = número de aciertos y hemos construido su distribución de frecuencias
(tabla 12.18). Queremos contrastar la hipótesis de que, en la población, la variable X se
distribuye binomialmente con n = 0,5. ¿A qué conclusión llegaremos con ex = 0,05?
TABLA 12.18
X o 1 2 3
n; 10 30 50 10
12.4. Un psicólogo industrial recibe el encargo de averiguar si el volumen que se utiliza con
la música que escuchan los trabajadores de una determinada empresa tiene repercusión sobre
el número de unidades producidas. Para cumplir tal encargo, el psicólogo selecciona cinco
niveles de volumen y registra el número de unidades producidas por el conjunto de los
trabajadores de la empresa durante el tiempo de exposición a cada uno de ellos. La tabla
12.19 recoge los resultados obtenidos. ¿Podrá concluir nuestro psicólogo que el volumen de
la música afecta al número de unidades producidas? (ex = 0,05).
TABLA 12.19
Volumen en decibelios 10 20 30 40 50
Unidades producidas 114 124 156 108 98
12.5. ¿Podemos decir que una moneda está bien construida si en 3.000 lanzamientos se
obtienen 1420 caras? (iX = 0,01).
12.6. Queremos realizar un estudio que permita poner a prueba la hipótesis de que los
trastornos de personalidad de los niños están en relación con el número de hermanos que
tales niños tienen. Para ello, hemos seleccionado una muestra aleatoria de 134 niños y, tras
pasarles un test capaz de detectar la presencia de diferentes tipos de trastornos de personali-
dad, los hemos clasificado con arreglo a estos dos criterios: número de hermanos y presencia o
ausencia de trastorno. La tabla 12.20 recoge los resultados de la clasificación. ¿Qué podemos
concluir, con iX = 0,01, sobre la relación entre número de hermanos y tener o no trastornos de
personalidad?
TABLA 12.20
Número de hermanos
o 1 2 J 4 5 o más
1 Niños con trastorno 20 15 10 10 5 10

Niños sin trastorno 4 8 10 20 15 7
12.7. Un grupo de 10 varones y otro de 10 mujeres realizan una tarea de aprendizaje

discriminativo. Al final de la tarea se computa, para cada sujeto, si su ejecución ha sido un
acierto (A) o un error (E). Los resultados obtenidos aparecen en la tabla 12.21. Queremos
poner a prueba la hipótesis de que la proporción de aciertos en la tarea es la misma en los
varones y en las mujeres. ¿A qué conclusión llegaremos, con iX = 0,05?
TABLA 12.21
Varones A A E A E A A A E A
Mujeres E E A E A E A E E E
12.8. Para un experimento sobre memoria a largo plazo un psicólogo necesita utilizar como
estímulos cinco palabras cuyo componente emocional sea similar. Para ello, selecciona 5
palabras que él considera apropiadas y decide evaluar el componente emocional de las
mismas con una muestra aleatoria de 500 sujetos. Presenta, independientemente, cada
palabra a 100 sujetos y registra si la palabra es percibida como emocionalmente positiva
(agradable, placentera, etc.), negativa (desagradable, displacentera, etc.) o neutra. A la vista de
los resultados obtenidos (tabla 12.22), ¿podrá el psicólogo utilizar esas 5 palabras en su
experimento sobre memoria? (iX = 0,05).
('¡,' Ediciones Pirámide
TABLA 12.22
Palabras
1 2 3 4 5
-
Positivo 26 45 32 29 39
Componente
Negativo 32 27 38 37 26
emocional
Neutro 42 28 30 34 35
12.9. Con intención de estudiar la relación entre el nivel socioecon6mico y el tipo de estu-
dios superiores cursados, un psicólogo social seleccionó una muestra de 500 sujetos (100 por
nivel socioeconómico) y obtuvo los resultados recogidos en la tabla 12.23. ¿Podemos decir
que las diferentes poblaciones estudiadas se distribuyen de la misma manera en la variable
tipo de estudios? (IX= 0,05).
TABLA 12.23
Nivel socioeconómico
Medio Medio
Bajo Medio Alto
bajo alto
Estudios de ciencias 6 16 22 17 19
Estudios de letras 8 12 21 30 21
Estudios mixtos 4 10 36 41 45
Sin estudios 82 62 21 12 15
12.10. Un psicólogo interesado en estudiar la relación entre la edad y la actitud hacia el

aborto pasó una encuesta a 300 personas (100 personas de cada grupo de edad establecido).
Tras corregir la encuesta elaboró 5 categorías de actitud hacia el aborto, situando en uno de
los extremos una actitud totalmente desfavorable (mínima) y en el otro una actitud total-
mente favorable (máxima). Los resultados arrojados por la encuesta aparecen en la tabla
12.24. ¿Podemos concluir, con IX= 0,01, que las diferentes poblaciones de edad estudiadas se
distribuyen de la misma manera en la variable actitud hacia el aborto?
TABLA 12.24
Actitud hacia el aborto
Mínima Baja Medía Alta Máxima
Menos de 25 años 8 12 24 37 19
Entre 25 y 55 años 3 29 32 26 10
Más de 55 años 28 31 26 11 4
12.11. En numerosos estudios se ha venido insistiendo en que el estado civil no era una
variable relevante a la hora de explicar las actitudes abortistas. Insistiendo en el tema, se ha
encuestado a 500 sujetos sobre su actitud hacia el aborto y, tras clasificarlos según su estado
556 / Análisis de datos en psico/ogia 11
civil y su actitud hacia el aborto, se han obtenido los resultados que aparecen en la tabla
12.25. ¿A qué conclusión llegaremos utilizando un nivel de confianza de 0,95?
TABLA 12.25
Actitud Actitud
abortista antiabortista
Solteros 120 30
Casados 50 200
Divorciados 30 70
12.12. Algunos trabajos señalan que en la comunidad de Madrid los trastornos de tipo
depresivo afectan al 32 por 100 de las personas en paro. Un psicólogo social sospecha que
esta cifra está desfasada y decide obtener alguna evidencia sobre ello. Selecciona una
muestra aleatoria de 300 sujetos en paro y encuentra que 63 de ellos muestran trastornos de
tipo depresivo. Utilizando :x = 0,01, ¿qué podemos concluir en relación con la sospecha del
psicólogo?
12.13. Alentado por los resultados obtenidos, el psicólogo social del ejercicio 12.12 decide
ampliar su estudio utilizando sujetos pertenecientes a medios rurales, semiurbanos y urbanos.
De cada medio, selecciona una muestra aleatoria de 100 sujetos en paro, obteniendo en cada
grupo el número de depresivos que aparece en la tabla 12.26. ¿Podemos afirmar, con
:x = 0,01, que en la población de desempleados existe relación entre el tipo de medio al que se
pertenece y tener o no trastornos depresirns'!
TABLA 12.26
Semi-
Rural Urbano
urbano
9 13 28
12.14. (Seleccione la alternativa correcta). Al contrastar H 0 : f(x) = B(n, n), obtenemos un

estadístico de contraste X 2 = 25. Sabiendo que éste se distribuye según x2 con 7 grados de
libertad y que P(z~ < 24,32) = 0,999:
a) Rechazaremos H 0 porque el valor 25 aparece menos de una vez de cada mil si H 0
es verdadera.
h) Mantendremos H 0 porque 0,999 > 0,05.
e) Rechazaremos H 0 porque 25 > 7.
d) Concluiremos que no hay evidencia suficiente en los datos para afirmar que X sigue
el modelo binomial.
e) Concluiremos que la variable X sigue el modelo z2 con 7 grados de libertad.
12.15. Seleccionamos dos muestras aleatorias de estudiantes de psicología: una de los

primeros cursos y otra de los últimos. Preguntamos a los estudiantes si, en la asignatura
«.:> Ediciones Pirámide

Análisis de datos, prefieren examen sólo teórico, sólo práctico o ambos. Los datos se
analizan con la prueba xi de Pearson, obteniéndose un valor xi = 3,27 tal que
P(Xi > 3,27) = 0,001. Lo razonable será concluir que (selecciona la alternativa correcta):
a) Las preferencias de las muestras dependen de los cursos.
b) Las preferencias de las muestras no son homogéneas.
e) La proporción de estudiantes que prefiere cada tipo de examen no difiere de los
primeros a los últimos cursos.
d) La proporción de estudiantes que prefiere cada tipo de examen varía de los primeros
a los últimos cursos.
e) Todas las anteriores alternativas son incorrectas.
12.16. Tratando de contrastar con la prueba xi de Pearson la hipótesis de que una varia-
ble se distribuye según el modelo multinomial, hemos obtenido en una muestra aleatoria un
valor xi= 1,02. Sabiendo que P(Xi ~ 1,02) = 0,975 y utilizando un nivel de conjianza de
0,95:
a) ¿Qué decidiremos sobre H 0 ?
b) ¿Podemos concluir que la variable sigue el modelo multinomial?
e) ¿Cuánto vale el nivel crítico?
SOLUCIONES

xi= 2,14; 0 . 95 t.f = 3,84; mantenemos H 0 •
Podemos asumir que la proporción de fumadores es la misma en ambos hábitat.

xi= 0,92; o. 95 t.~ = 5,99; mantenemos H 0 •
Los datos son compatibles con la sospecha inicial.

xi= 6,67; o. 95 t.~ = 7,81; mantenemos H 0 •
Podemos pensar que los datos proceden de una población binomial con 11: = 0,5.

xi= 16,47; 0 • 95 t.i = 9,49; rechazamos H 0 •
El número de unidades producidas cambia significativamente cuando cambia el
volumen de la música.

xi= 8,53; o. 99 t.f = 6,63; rechazamos H 0 .
Podemos concluir que la moneda no está bien construida.
ID Ediciones Pirámide
12.6. Independencia.
X 2 = 21,43; 0 . 99 X~ = 15,09; rechazamos H 0 .
Concluimos que entre las variables estudiadas existe relación significativa.

X 2 = 3,2; o. 95 Xf = 3,84; mantenemos H 0 .
La proporción de aciertos es la misma.

X 2 = 14,25; 0 . 95 X~ = 15,51; mantenemos H 0 .
Podemos concluir que el componente emocional de las 5 palabras es similar.

X 2 = 181,74; o. 95 xf 2 = 21,03; rechazamos H 0 •
Concluimos que los diferentes niveles socioeconómicos no se distribuyen de la misma
manera en la variable tipo de estudios.

X 2 = 61,45; 0 • 99 X~
= 20,09; rechazamos H 0 .
Concluimos que los diferentes grupos de edad estudiados no tienen la misma
distribución en la variable actitud hacia el aborto.
12.11. 1ndependencia.
X 2 = 145,83; 0 . 95 X~ = 5,99; rechazamos H 0 .
Podemos concluir que existe relación entre el estado civil y la actitud hacia el aborto.

X 2 = 16,68; 0 . 99 zf = 6,63; rechazamos H 0 .
Podemos concluir que el porcentaje propuesto es demasiado alto. El psicólogo tiene
razón.

X 2 = 14,45; 0 . 99 X~ = 9,21; rechazamos H 0 •
Las poblaciones de los tres medios estudiados no se distribuyen de la misma manera
en la variable depresión.
12.14. a.
12.15. d.
12.16. a) Mantenerla (el estadístico está situado en la cola izquierda de la distribución).

h) Podemos concluir que no hay razones para pensar que los datos no proceden
de una población multinomial.
e) 0,975
APÉNDICE FINAL
Tablas estadísticas
A. Tabla de números aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561

B. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562
C. Distribución normal estandarizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569
D. Distribución x2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
E. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572
F. Puntos críticos de la distribución F.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573
G. Tabla de coeficientes de polinomios ortogonales . . . . . . . . . . . . . . . . . . . 575
H. Puntos críticos para el estadístico de Dunn-Bonferroni . . . . . . . . . . . . . . 576
l. Puntos críticos para el estadístico de Dunnett . . . . . . . . . . . . . . . . . . . . . . 578
J. Puntos críticos de la distribución del rango studentizado . . . . . . . . . . . 580
K. Puntos críticos de la distribución del módulo máximo studentizado . 581
L. Tabla de potencias para diferentes valores de ~ y x............... 582
M. Puntos críticos de la distribución F no centrada . . . . . . . . . . . . . . . . . . . . 583
N. Puntos críticos de la distribución multivariada del rango studentizado . 585
Ñ. Tabla de transformaciones de rxy en Z de Fisher . . . . . . . . . . . . . . . . . . . 588
O. Puntos críticos para la prueba de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . 589
P. Puntos críticos para la prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . 590
O. Puntos críticos para la prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . 592
R. Puntos críticos para la prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . 594
S. Puntos críticos para el coeficiente de correlación r. de Spearman . . 595
T. Puntos críticos para el coeficiente de correlación r de Kendall . . . . . 596
Tablas estadísticas / 561
TABLA A
Tabla de números aleatorios
12345 12 34 5 12 34 5 12 34 5 12345
1 8 2 o3 1 4582 1 72738 55290 63 164

2 08733 19 7 52 57698 03625 12 7 52
3 23386 14240 2 6 18 9 52698 3 4 o1 o
4 47556 3 o7 7 1 9 16 17 4 17 13 79337
5 1939 5 34955 27580 34881 27534
6 2878 l 4 l 494 24 152 9462 l 52 8 19
7 84851 39660 72190 20670 60130
8 03884 7 5 15 1 73452 07479 66774
9 3 5 3 19 37495 o2 o 1 4 62545 85092
10 34595 27989 o5 5 8 5 17 7 3 5 54772
1 4 153o 9 l 372 5877 1 36397 8 7 9 17
2 72956 78545 3454 1 98675 793 l 8
3 59289 8644 1 53770 80256 06120
4 13339 05287 40903 73 179 45528
5 4 6 o1o 86 2 1o 05031 54903 7 4 7 o1
6 77066 32885 89564 o5 9 1 8 05494
7 33857 57434 57969 50776 68859
8 9 17 13 6929 1 94233 o8 1 8 7 76472
9 62280 94537 25466 56650 46568
10 1759o 02056 5 8 5 19 53374 05824
1 03969 47357 06547 11853 28098
2 3 o8 2 8 14 4 16 76699 97589 64590
3 9 4 9 12 2 o13 2 4679 1 88298 32629
4 72 5 14 49652 8 5 5 1o 82620 69223
5 99257 4 3 12 3 64 152 40422 87 182
6 2 o9 1 8 94461 48679 25069 3 3 ol 2
7 6526 1 2 17 7 1 4 78 14 27374 00129
8 12 9 9 6 42532 74323 38533 65532
9 32837 96048 6 o5 4 1 1 4 9 o5 09441
10 o9 3 4 1 19 58 3 24673 44923 72578
1 67534 2 155o 12 4 7 5 52687 82803
2 9 6 o1 3 05366 29603 476 11 9 1653
3 46996 78581 29262 44905 54520
4 9 7 7 19 26563 36368 39987 72797
5 75333 37376 739 11 23909 59657
6 28 13 1 34 2 1o 3 12 3 2 02397 75069
7 60948 85537 90000 1 9 2 o6 15842
8 3 5 9 o7 7 o1 8 1 29346 92898 98655
9 448 11 74474 4 4 16 5 93659 83243
10 63970 62533 2 6 o5 1 24371 o7 8 2 1
TABLA B
Distribución binomial. Probabilidades acumuladas: P( X :( x)
¡¡
0,05 0,10 0,20 0,30 0,40 0,50 0.60 0,70 0,80 0,90 0,95
X
n= 1 O 0,950 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,050
1 l~l~l~l~l~l~l~l~l~l~l~
n=2 O 0,902 0,810 0,640 0,490 0,360 0,250 0,160 0,090 0,040 0,010 0,002
1 0,997 0,990 0,960 0,910 0,840 0,750 0,640 0,510 0,360 0,190 0,097
n=3 O 0,857 O, 729 0,512 0,343 0,216 O, 125 0,064 0,027 0,008 0,001 0,000
1 0,993 0,972 0,896 0,784 0,648 0,500 0,352 0,216 0,104 0,028 0,007
2 1,000 0,999 0,992 0,973 0,936 0,875 0,784 0,657 0,488 0,271 0,143
n=4 O 0,815 0,656 0,410 0,240 0,130 0,063 0,026 0,008 0,002 0,000 0,000
1 0,986 0,948 0,819 0,652 0,475 0,313 O, 179 0,084 0,027 0,004 0,000
2 1,000 0,996 0,973 0,916 0,821 0,688 0,525 0,348 0,181 0,052 0,014
3 1,000 1,000 0,998 0,992 0,974 0,938 0,870 0,760 0,590 0,344 O, 185
n=5 O 0,774 0,590 0,328 0,168 0,078 0,031 0,010 0,002 0,000 0,000 0,000
1 0,977 0,919 0,737 0,528 0,337 0,188 0,087 0,031 0,007 0,000 0,000
2 0,999 0,991 0,942 0,83 7 0,683 0,500 0,31 7 O, 163 0,058 0,009 0,001
3 1,000 1,000 0,993 0,969 0,913 0,813 0,663 0,472 0,263 0,081 0,023
4 1,000 1,000 1,000 0,998 0,990 0,969 0,922 0,832 0,672 0,410 0,226
n=6 O 0,735 0,531 0,262 0,118 0,047 0,016 0,004 0,001 0,000 0,000 0,000
1 0,967 0,886 0,655 0,420 0,233 0,109 0,041 0,011 0,002 0,000 0,000
2 0,998 0,984 0,901 0,744 0,544 0,344 0,179 0,070 0,017 0,001 0,000
3 1,000 0,999 0,983 0,930 0,821 0,656 0,456 0,256 0,099 0,016 0,002
4 1,000 1,000 0,998 0,989 0,959 0,891 0,767 0,580 0,345 0,114 0,033
5 1,000 1,000 1,000 0,999 0,996 0,984 0,953 0,882 0,738 0,469 0,265
n= 7 O 0,698 0,478 0,210 0,082 0,028 0,008 0,002 0,000 0,000 0,000 0,000
1 0,956 0,850 0,577 0,329 0,159 0,063 0,019 0,004 0,000 0,000 0,000
2 0,996 0,974 0,852 0,647 0,420 0,227 0,096 0,029 0,005 O,OOQ 0,000
3 1,000 0,997 0,967 0,874 0,710 0,500 0,290 0,126 0,033 0,003 0,000
4 1,000 1,000 0,995 0,971 0,904 0,773 0,580 0,353 0,148 0,026 0,004
TABLA B (continuación)
rr
0,05 0.10 0,20 0.30 0.40 0,50 0,60 0,70 0,80 0,90 0,95
X
5 1,000 1,000 1,000 0,996 0,981 0,938 0,841 0,671 0,423 0,150 0,044
6 1,000 1,000 1,000 1,000 0,998 0,992 0,972 0,918 O, 790 0,522 0,302
7 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
n= 8 O 0,663 0,430 O, 168 0,058 0,017 0,004 0,001 0,000 0,000 0,000 0,000
1 0,943 0,813 0,503 0,255 0,106 0,035 0,009 0,001 0,000 0,000 0,000
2 0,994 0,962 0,797 0,552 0,315 0,145 0,050 0,011 0,001 0,000 0,000
3 1,000 0,995 0,944 0,806 0,594 0,363 0,174 0,058 0,010 0,000 0,000
4 1,000 1,000 0,990 0,942 0,826 0,637 0,406 0,194 0,056 0,005 0,000
5 1,000 1,000 0,999 0,989 0,950 0,855 0,685 0,448 0,203 0,038 0,006
6 1,000 1,000 1,000 0,999 0,991 0,965 0,894 0,745 0,497 0,187 0,057
7 1,000 1,000 1,000 1,000 0,999 0,996 0,983 0,942 0,832 0,570 0,337
n= 9 O 0,630 0,387 0,134 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000
1 0,929 0,775 0,436 0,196 0,071 0,020 0,004 0,000 0,000 0,000 0,000
2 0,992 0,947 0,738 0,463 0,232 0,090 0,025 0,004 0,000 0,000 0,000
3 0,999 0,992 0,914 0,730 0,483 0,254 0,099 0,025 0,003 0,000 0,000
4 1,000 0,999 0,980 0,901 0,733 0,500 0,267 0,099 O,Q20 0,001 0,000
5 1,000 1,000 0,997 0,975 0,901 0,746 0,517 0,270 0,086 0,008 0,001
6 1,000 1,000 1,000 0,996 0,975 0,910 0,768 0,537 0,262 0,053 0,008
7 1,000 1,000 1,000 1,000 0,996 0,980 0,929 0,804 0,564 0,225 0,071
8 1,000 1,000 1,000 1,000 1,000 0,998 0,990 0,960 0,866 0,613 0,370
n = 10 o 0,599 0,349 0,107 0,028 0,006 0,001 0,000 0,000 0,000 0,000 0,000
1 0,914 0,736 0,376 0,149 0,046 0,011 0,002 0,000 0,000 0,000 0,000
2 0,988 0,930 0,678 0,383 0,167 0,055 0,012 0,002 0,000 0,000 0,000
3 0,999 0,987 0,879 0,650 0,382 0,172 0,055 0,011 0,001 0,000 0,000
4 1,000 0,998 0,967 0,850 0,633 0,377 0,166 0,047 0,006 0,000 0,000
5 1,000 1,000 0,994 0,953 0,834 0,623 0,367 0,150 0,033 0,002 0,000
6 1,000 1,000 0,999 0,989 0,945 0,828 0,618 0,350 0,121 0,013 0,001
7 1,000 1,000 1,000 0,998 0,988 0,945 0,833 0,617 0,322 0,070 0,012
8 1,000 1,000 1,000 1,000 0,998 0,989 0,954 0,851 0,624 0,264 0,086
9 1,000 1,000 1,000 1,000 1,000 0,999 0,994 0,972 0,893 0,651 0,401
10 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
n = 11 o 0,569 0,314 0,086 0,020 0,004 0,000 0,000 0,000 0,000 0,000 0,000
1 0,898 0,697 0,322 O, 113 0,030 0,006 0,001 0,000 0,000 0,000 0,000
2 0,985 0,910 0,617 0,313 0,119 0,033 0,006 0,001 0,000 0,000 0,000
3 0,998 0,981 0,839 0,570 0,296 O, 113 0,029 0,004 0,000 0,000 0,000
rr
0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
X
4 1,000 0,997 0,950 0,790 0,533 0,274 0,099 0,022 0,002 0,000 0,000
5 1,000 1,000 0,988 0,922 0,753 0,500 0,247 0,078 0,012 0,000 0,000
6 1,000 1,000 0,998 0,978 0,901 0,726 0,467 0,210 0,050 0,003 0,000
7 1,000 1,000 1,000 0,996 0,971 0,887 0,704 0,430 0,161 0,019 0,002
8 1,000 1,000 1,000 0,999 0,994 0,967 0,881 0,687 0,383 0,090 0,015
9 1,000 1,000 1,000 1,000 0,999 0,994 0,970 0,887 0,678 0,303 0,102
10 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,980 0,914 0,686 0,431
11 1~1~1~1~1~1~1~1~1~1~1~
n = 12 o 0,540 0,282 0,069 0,014 0,002 0,000 0,000 0,000 0,000 0,000 0,000
1 0,882 0,659 0,275 0,085 O,Q20 0,003 0,000 0,000 0,000 0,000 0,000
2 0,980 0,889 0,558 0,253 0,083 0,019 0,003 0,000 0,000 0,000 0,000
3 0,998 0,974 0,795 0,493 0,225 0,073 0,015 0,002 0,000 0,000 0,000
4 1,000 0,996 0,927 0,724 0,438 0,194 0,057 0,009 0,001 0,000 0,000
5 1,000 0,999 0,981 0,882 0,665 0,387 O, 158 0,039 0,004 0,000 0,000
6 1,000 1,000 0,996 0,961 0,842 0,613 0,335 0,118 0,019 0,001 0,000
7 1,000 1,000 0,999 0,991 0,943 0,806 0,562 0,276 0,073 0,004 0,000
8 1,000 1,000 1,000 0,998 0,985 0,927 0,775 0,507 0,205 0,026 0,002
9 1,000 1,000 1,000 1,000 0,997 0,981 0,917 0,747 0,442 0,111 O,Q20
10 1,000 1,000 1,000 1,000 1,000 0,997 0,980 0,915 0,725 0,341 0,118
11 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,986 0,931 0,718 0,460
12 l~l~l~l~l~l~l~l~l~l~I~
n = 13 o 0,513 0,254 0,055 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,865 0,621 0,234 0,064 0,013 0,002 0,000 0,000 0,000 0,000 0,000
2 0,975 0,866 0,502 0,202 0,058 0,011 0,001 0,000 0,000 0,000 0,000
3 0,997 0,966 0,747 0,421 0,169 0,046 0,008 0,001 0,000 0,000 0,000
4 1,000 0,994 0,901 0,654 0,353 O, 133 0,032 0,004 0,000 0,000 0,000
5 1,000 0,999 0,970 0,835 0,574 0,291 0,098 0,018 0,001 0,000 0,000
6 1,000 1,000 0,993 0,938 0,771 0,500 0,229 0,062 0,007 0,000 0,000
7 1,000 1,000 0,999 0,982 0,902 0,709 0,426 0,165 0,030 0,001 0,000
8 1,000 1,000 1,000 0,996 0,968 0,867 0,647 0,346 0,099 0,006 0,000
9 1,000 1,000 1,000 0,999 0,992 0,954 0,831 0,579 0,253 0,034 0,003
10 1,000 1,000 1,000 1,000 0,999 0,989 0,942 0,798 0,498 O, 134 0,025
11 1,000 1,000 1,000 1,000 1,000 0,998 0,987 0,936 0,766 0,379 0,135
12 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,945 0,746 0,487
n = 14 O 0,488 0,229 0,044 0,007 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,847 0,585 0,198 0,047 0,008 0,001 0,000 0,000 0,000 0,000 0,000
2 0,970 0,842 0,448 0,161 0,040 0,006 0,001 0,000 0,000 0,000 0,000
TC
0.05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
X
3 0,996 0,956 0,698 0,355 0,124 0,029 0,004 0,000 0,000 0,000 0,000
4 1,000 0,991 0,870 0,584 0,279 0,090 0,018 0,002 0,000 0,000 0,000
5 1,000 0,999 0,956 O, 781 0,486 0,212 0,058 0,008 0,000 0,000 0,000
6 1,000 1,000 0,988 0,907 0,692 0,395 0,150 0,031 0,002 0,000 0,000
7 1,000 1,000 0,998 0,969 0,850 0,605 0,308 0,093 0,012 0,000 0,000
8 1,000 1,000 1,000 0,992 0,942 0,788 0,514 0,219 0,044 0,001 0,000
9 1,000 1,000 1,000 0,998 0,982 0,910 0,721 0,416 0,130 0,009 0,000
10 1,000 1,000 1,000 1,000 0,996 0,971 0,876 0,645 0,302 0,044 0,004
11 1,000 1,000 1,000 1,000 0,999 0,994 0,960 0,839 0,552 0,158 O,Q30
12 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,953 0,802 0,415 0,153
13 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,993 0,956 0,771 0,512
14 1~1~1~1~1~1~1~1~1~1~1~
n = 15 o 0,463 0,206 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,829 0,549 0,167 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000
2 0,964 0,816 0,398 O, 127 0,027 0,004 0,000 0,000 0,000 0,000 0,000
3 0,995 0,944 0,648 0,297 0,091 0,018 0,002 0,000 0,000 0,000 0,000
4 0,999 0,987 0,836 0,515 0,217 0,059 0,009 0,001 0,000 0,000 0,000
5 1,000 0,998 0,939 0,722 0,403 0,151 0,034 0,004 0,000 0,000 0,000
6 1,000 1,000 0,982 0,869 0,610 0,304 0,095 0,015 0,001 0,000 0,000
7 1,000 1,000 0,996 0,950 0,787 0,500 0,213 0,050 0,004 0,000 0,000
8 1,000 1,000 0,999 0,985 0,905 0,696 0,390 O, 131 0,018 0,000 0,000
9 1,000 1,000 1,000 0,996 0,966 0,849 0,597 0,278 0,061 0,002 0,000
10 1,000 1,000 1,000 0,999 0,991 0,941 0,783 0,485 0,164 0,013 0,001
11 1,000 1,000 1,000 1,000 0,998 0,982 0,909 0,703 0,352 0,056 0,005
12 1,000 1,000 1,000 1,000 1,000 0,996 0,973 0,873 0,602 0,184 0,036
13 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,833 0,451 0,171
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,794 0,537
n = 16 o 0,440 O, 185 0,028 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,811 0,515 O, 141 0,026 0,003 0,000 0,000 0,000 0,000 0,000 0,000
2 0,957 0,789 0,352 0,099 0,018 0,002 0,000 0,000 0,000 0,000 0,000
3 0,993 0,932 0,598 0,246 0,065 0,011 0,001 0,000 0,000 0,000 0,000
4 0,999 0,983 0,798 0,450 0,167 0,038 0,005 0,000 0,000 0,000 0,000
5 1,000 0,997 0,918 0,660 0,329 0,105 0,019 0,002 0,000 0,000 0,000
6 1,000 0,999 0,973 0,825 0,527 0,227 0,058 0,007 0,000 0,000 0,000
7 1,000 1,000 0,993 0,926 0,716 0,402 0,142 0,026 0,001 0,000 0,000
8 1,000 1,000 0,999 0,974 0,858 0,598 0,284 0,074 0,007 0,000 0,000
9 1,000 1,000 1,000 0,993 0,942 0,773 0,473 0,175 0,027 0,001 0,000
10 1,000 1,000 1,000 0,998 0,981 0,895 0,671 0,340 0,082 0,003 0,000
¡¡
0,05 0,10 0,20 OJO 0,40 0,50 0,60 0,70 0,80 0,90 0,95
X
11 1,000 1,000 1,000 1,000 0,995 0,962 0,833 0,550 0,202 0,017 0,001
12 1,000 1,000 1,000 1,000 0,999 0,989 0,935 0,754 0,402 0,068 0,007
13 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,901 0,648 0,211 0,043
14 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,974 0,859 0,485 0,189
15 1.000 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,972 0,815 0,560
11 = 17 O 0,418 O, 16 7 0,023 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,792 0,482 0,118 0,019 0,002 0,000 0,000 0,000 0,000 0,000 0,000
2 0,950 0,762 0,310 0,077 0,012 0,001 0,000 0,000 0,000 0,000 0,000
3 0,991 0,917 0,549 0,202 0,046 0,006 0,000 0,000 0,000 0,000 0,000
4 0,999 0,978 0,758 0,389 0,126 0,025 0,003 0,000 0,000 0,000 0,000
5 1,000 0,995 0,894 0,597 0,264 0,072 0,011 0,001 0,000 0,000 0,000
6 1,000 0,999 0,962 0,775 0,448 0,166 0,035 0,003 0,000 0,000 0,000
7 1,000 1,000 0,989 0,895 0,641 0,315 0,092 0,013 0,000 0,000 0,000
8 1,000 1,000 0,997 0,960 0,801 0,500 0,199 0,040 0,003 0,000 0,000
9 1,000 1,000 1,000 0,987 0,908 0,685 0,359 0,105 0,011 0,000 0,000
10 1,000 1,000 1,000 0,997 0,965 0,834 0,552 0,225 0,038 0,001 0,000
11 1,000 1,000 1,000 0,999 0,989 0,928 0,736 0,403 0,106 0,005 0,000
12 1,000 1,000 1,000 1,000 0,997 0,975 0,874 0,611 0,242 0,022 0,001
13 1,000 1,000 1,000 1,000 1,000 0,994 0,954 0,798 0,451 0,083 0,009
14 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,923 0,690 0,238 0,050
15 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,981 0,882 0,518 0,208
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,833 0,582
11 = 18 O 0,397 O, 150 0,018 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,774 0,450 0,099 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,942 0,734 0,271 0,060 0,008 0,001 0,000 0,000 0,000 0,000 0,000
3 0,989 0,902 0,501 0,165 0,033 0,004 0,000 0,000 0,000 0,000 0,000
4 0,998 0,972 0,716 0,333 0,094 0,015 0,001 0,000 0,000 0,000 0,000
5 1,000 0,994 0,86 '! 0,534 0,209 0,048 0,006 0,000 0,000 0,000 0,000
6 1,000 0,999 0,949 0,722 0,374 0,119 O,Q20 0,001 0,000 0,000 0,000
7 1,000 1,000 0,984 0,859 0,563 0,240 0,058 0,006 0,000 0,000 0,000
8 1,000 1,000 0,996 0,940 0,737 0,407 0,135 0,021 0,001 0,000 0,000
9 1,000 1,000 0,999 0,979 0,865 0,593 0,263 0,060 0,004 0,000 0,000
10 1,000 1,000 1,000 0,994 0,942 0,760 0,437 0,141 0,016 0,000 0,000
11 1,000 1,000 1,000 0,999 0,980 0,881 0,626 0,278 0,051 0,001 0,000
12 1,000 1,000 1,000 1,000 0,994 0,952 0,791 0,466 0,133 0,006 0,000
13 1,000 1,000 1,000 1,000 0,999 0,985 0,906 0,66 7 0,284 0,028 0,002
14 1,000 1,000 1,000 1,000 1,000 0,996 0,967 0,835 0,499 0,098 0,011
rr
0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
X
15 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,940 0,729 0,266 0,058
16 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,901 0,550 0,226
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,850 0,603
n = 19 O 0,377 0,135 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1
2
0,755
0,933
0,420
0,705
0,083
0,237
0,010
0,046
0,001
0,005
0,000
0,000
0,000
0,000
0,000
0,000
º·ººº 0,000
0,000 0,000
0,000
0,000
3 0,987 0,885 0,455 0,133 0,023 0,002 0,000 0,000 0,000 0,000 0,000
4 0,998 0,965 0,673 0,282 0,070 0,010 0,001 0,000 0,000 0,000 0,000
5
6
1,000
1,000
0,991
0,998
0,837
0,932
0,474
0,666
0,163
0,308
0,032
0,084
0,003
0,012
º·ººº
0,001
0,000 0,000
0,000 0,000
0,000
0,000
7
8
1,000
1,000
1,000
1,000
0,977
0,993
0,818
0,916
0,488
0,667
0,180
0,324
0,035
0,088
0,003
0,011
0,000 0,000
0,000 0,000
º·ººº
0,000
9 1,000 1,000 0,998 0,967 0,814 0,500 0,186 0,033 0,002 0,000 0,000
10 1,000 1,000 1,000 0,989 0,912 0,676 0,333 0,084 0,007 0,000 0,000
11
12
1,000
1,000
1,000
1,000
1,000
1,000
0,997
0,999
0,965
0,988
0,820
0,916
0,512
0,692
0,182
0,334
0,023 0,000
0,068 0,002
º·ººº
0,000
13 1,000 1,000 1,000 1,000 0,997 0,968 0,837 0,526 0,163 0,009 0,000
14 1,000 1,000 1,000 1,000 0,999 0,990 0,930 0,718 0,327 0,035 0,002
15 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,867 0,545 0,115 0,013
16 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,954 0,763 0,295 0,067
17 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,917 0,580 0,245
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,865 0,623
19 1~1~1~1~1~1~1~1~1~1~1~
n = 20 O
1
0,358
0,736
0,122
0,392
0,012
0,069
0,001
0,008
0,000
0,001
0,000
0,000
0,000 0,000 0,000
0,000 0,000 0,000
0,000
0,000
º·ººº
º·ººº
2
3
0,925
0,984
0,677
0,867
0,206
0,411
0,035
0,107
0,004
0,016
0,000
0,001
º·ººº 0,000 0,000
0,000 0,000 0,000
0,000 0,000
0,000 0,000
4
5
0,997
1,000
0,957
0,989
0,630
0,804
0,238
0,416
0,051
O, 126
0,006
0,021
0,000 0,000 0,000
0,002 0,000 0,000
º·ººº 0,000
0,000 0,000
6 1,000 0,998 0,913 0,608 0,250 0,058 0,006 0,000 0,000 0,000 0,000
7
8
1,000
1,000
1,000
1,000
0,968
0,990
0,772
0,887
0,416
0,596
0,132
0,252
0,021 0,001
0,057 0,005
º·ººº
º·ººº 0,000 0,000
0,000 0,000
9 1,000 1,000 0,997 0,952 0,755 0,412 0,128 0,017 0,001 0,000 0,000
10 1,000 1,000 0,999 0,983 0,872 0,588 0,245 0,048 0,003 0,000 0,000
11
12
1,000
1,000
1,000
1,000
1,000
1,000
0,995
0,999
0,943
0,979
0,748
0,868
0,404 0,113 0,010
0,584 0,228 0,032
º·ººº 0,000
0,000 0,000
13 1,000 1,000 1,000 1,000 0,994 0,942 0,750 0,392 0,087 0,002 0,000
14 1,000 1,000 1,000 1,000 0,998 0,979 0,874 0,584 0,196 0,011 0,000
rr
0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
X
15 1,000 1,000 1,000 1,000 1,000 0,994 0,949 0,762 0,370 0,043 0,003
16 1,000 1,000 1,000 1,000 1,000 0,999 0,984 0,893 0,589 0,133 0,016
17 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,965 0,794 0,323 0,075
18 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,931 0,608 0,264
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,878 0,642
20 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
n = 25 O 0,277 0,072 0,004 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,642 0,271 0,027 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
2 0,873 0,537 0,098 0,009 0,000 0,000 0,000 0,000 0,000 0,000 0,000
3 0,966 0,764 0,234 0,033 0,002 0,000 0,000 0,000 0,000 0,000 0,000
4 0,993 0,902 0,421 0,090 0,009 0,000 0,000 0,000 0,000 0,000 0,000
5 0,999 0,967 0,617 0,193 0,029 0,002 0,000 0,000 0,000 0,000 0,000
6 1,000 0,991 0,780 0,341 0,074 0,007 0,000 0,000 0,000 0,000 0,000
7 1,000 0,998 0,891 0,512 O, 154 0,022 0,001 0,000 0,000 0,000 0,000
8 1,000 1,000 0,953 0,677 0,274 0,054 0,004 0,000 0,000 0,000 0,000
9 1,000 1,000 0,983 0,81 1 0,425 O, 115 0,013 0,000 0,000 0,000 0,000
1o 1,000 1,000 0,994 0,902 0,586 0,212 0,034 0,002 0,000 0,000 0,000
11 1,000 1,000 0,998 0,956 0,732 0,345 0,078 0,006 0,000 0,000 0,000
12 1,000 1,000 1,000 0,983 0,846 0,500 O, 154 0,01 7 0,000 0,000 0,000
13 1,000 1,000 1,000 0,994 0,922 0,655 0,268 0,044 0,002 0,000 0,000
14 1,000 1,000 1,000 0,998 0,966 0,788 0,414 0,098 0,006 0,000 0,000
15 1,000 1,000 1,000 1,000 0,987 0,885 0,575 0,189 0,017 0,000 0,000
16 1,000 1,000 1,000 1,000 0,996 0,946 0,726 0,323 0,047 0,000 0,000
17 1,000 1,000 1,000 1,000 0,999 0,978 0,846 0,488 O, 109 0,002 0,000
18 1,000 1,000 1,000 1,000 1,000 0,993 0,926 0,659 0,220 0,009 0,000
19 1,000 1,000 1,000 1,000 1,000 0,998 0,971 0,807 0,383 0,033 0,001
20 1,000 1,000 1,000 1,000 1,000 1,000 0,991 0,910 0,579 0,098 0,007
21 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,967 0,766 0,236 0,034
22 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,991 0,902 0,463 0,127
23 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,973 0,729 0,358
24 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,928 0,723
TABLA C
Distribución normal estandarizada. Probabilidades acumuladas: P(Z ~ zp)
z o 1 2 3 4 5 6 7 8 9
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010
-2,9 0,0019 0,0018 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0020 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,-0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0, 1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
º·º 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
TABLA C (continuación)
z o 1 2 3 4 5 6 7 8 9
º·º
0,1
0,5000
0,5398
0,5040
0,5438
0,5080
0,5478
0,5120
0,5517
0,5160
0,5551
0,5199
0,5596
0,5239
0,5636
0,5279
0,5675
0,5319
0,5714
0,5359
0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 o,_8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
Valores zP seleccionados: z0 .90 = 1,28 Zo,95 = 1,645 Zo,975 = 1,96

Zo,99 = 2,33 Zo,995 = 2,575 Zo,999 = 3,09
Zo,9994 = 3,25 Zo,9998 = 3,50 Zo,9999 = 3, 75
(t,' Ediciones Pirámide

TABLAD
Distribución x2 • Probabilidades acumuladas: P(X 2 ~ Px;,)
p = probabilidad acumulada hasta el punto P x~1
gl 0,005 0,01 0,025 0,05 0,10 0,90 0,95 0,975 0,98 0,99 0,995 0,999
1 0,00 0,00 0,00 0,00 0,02 2,71 3,84 5,02 5,41 6,63 7,88 10,83
2 0,01 0,02 0,05 0,10 0,21 4,61 5,99 7,38 7,82 9,21 10,60 13,82
3 0,07 0,12 0,22 0,35 0,58 6,25 7,81 9,35 9,84 11,34 12,84 16,27
4 0,21 0,28 0,48 0,71 1,06 7,78 9,49 11,14 11,67 13,28 14,86 18,47
5 0,41 0,55 0,83 1,14 1,61 9,24 11,07 12,83 13,39 15,09 16,75 20,52
6 0,68 0,87 1,24 1,64 2,20 10,64 12,59 14,45 15,03 16,81 18,55 22,46
7 0,99 1,24 1,69 2,27 2,83 12,02 14,07 16,01 16,62 18,48 20,28 24,32
8 1,34 1,65 2,18 2,73 3,49 13,36 15,51 17,53 18,17 20,09 21,96 26,13
9 1,73 2,09 2,70 3,33 4,17 14,68 16,92 19,02 19,68 21,67 23,59 27,88
10 2,16 2,56 3,25 3,94 4,87 15,99 18,31 20,48 21,16 23,21 25,19 29,59
11 2,60 3,05 3,82 4,57 5,58 17,28 19,68 21,92 22,62 24,72 26,76 31,26
12 3,07 3,57 4,40 5,23 6,30 18,55 21,03 23,34 24,05 26,22 28,30 32,91
13 3,57 4,11 5,01 5,89 7,04 19,81 22,36 24,74 25,47 27,69 29,82 34,53
14 4,07 4,66 5,63 6,57 7,79 21,06 23,68 26,12 26,87 29,14 31,32 36,12
15 4,60 5,23 6,26 7,26 8,55 22,31 25,00 27,49 28,26 30,58 32,80 37,70
16 5,14 5,81 6,91 7,96 9,31 23,54 26,30 28,85 29,63 32,00 34,27 39,25
17 5,70 6,41 7,56 8,67 10,09 24,77 27,59 30,19 30,99 33,41 35,72 40,79
18 6,26 7,01 8,23 9,39 10,86 25,99 28,87 31,53 32,35 34,81 37,16 42,31
19 6,84 7,63 8,91 10,12 11,65 27,20 30,14 32,85 33,69 36,19 38,58 43,82
20 7,43 8,26 8,59 10,85 12,44 28,41 31,41 34,17 35,02 37,57 40,00 45,31
21 8,03 8,90 10,28 11,59 13,24 29,62 32,67 35,48 36,34 38,93 41,40 46,80
22 8,64 9,54 10,98 12,34 14,04 30,81 33,92 36,78 37,66 40,29 42,80 48,27
23 9,26 10,20 11,69 13,09 14,85 32,01 35,17 38,08 38,97 41,64 44,18 49,73
24 9,89 10,86 12,40 13,85 15,66 33,20 36,42 39,36 40,27 42,98 45,56 51,18
25 10,52 11,52 13,12 14,61 16,47 34,38 37,65 40,65 41,57 44,31 46,93 52,62
26 11,16 12,20 13,84 15,38 17,29 35,56 38,89 41,92 42,86 45,64 48,29 54,05
27 11,81 12,88 14,57 16,15 18,11 36,74 40,11 43,19 44,14 46,96 49,64 55,48
28 12,46 13,56 15,31 16,39 18,94 37,92 41,34 44,46 45,42 48,28 50,99 56,89
29 13,21 14,26 16,05 17,71 19,77 39,09 42,56 45,72 46,69 49,59 52,34 58,30
30 13,79 14,95 16,79 18,49 20,60 40,26 43,77 46,98 47,96 50,89 53,67 59,70
Para gl > 30, los puntos de la distribución x2 pueden obtenerse utilizando la aproximación:
TABLA E
Distribución t de Student. Probabilidades acumuladas: P(T~ Pt91 )
p = probabilidad acumulada
g/ 0,60 0,70 0,75 0,80 0,90 0,95 0,975 0,99 0,995
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66

2 0,289 0,617 0,817 1,061 1,886 2,920 4,303 6,965 9,925
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604
5 0,267 0,559 0,728 0,920 1,476 2,015 2,571 3,365 4,032
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106
12 0,259 0,539 0,696 0,873 1,356 1,782 2,179 2,681 3,055
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947
16 0,258 0,535 0,690 0,865 1,337 1,746 2,120 2,583 2,921
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878
19 0,257 0,533 0,687 0,861 1,328 1,729 2,093 2,539 2,861
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,192 2,797
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756
30 0,256 0,530 0,683 0,854 1,310 1,697 2,042 2,457 2,750
40 0,255 0,529 0,681 0,851 1,303 1,684 2,021 2,423 2,704
50 0,255 0,528 0,679 0,849 1,298 1,676 2,009 2,403 2,678
60 0,254 0,527 0,679 0,848 1,296 1,671 2,000 2,390 2,660
70 0,254 0,527 0,678 0,846 1,294 1,667 1,994 2,381 2,648
80 0,254 0,527 0,678 0,846 1,292 1,664 1,990 2,374 2,639
90 0,254 0,527 0,677 0,845 1,290 1,662 1,986 2,369 2,632
100 0,254 0,526 0,677 0,845 1,290 1,660 1,984 2,365 2,626
120 0,254 0,526 0,677 0,845 1,289 1,658 1,980 2,358 2,617
200 0,254 0,525 0,676 0,843 1,286 1,653 1,972 2,345 2,601
500 0,253 0,525 0,676 0,842 1,283 1,648 1,965 2,334 2,586
00 0,253 0,524 0,674 0,842 1,282 1,645 1,960 2,326 2,576
TABLA F
Puntos críticos de la distribución F
CG
~ n 1 grados de libertad del numerador. n 2 grados de libertad del denominador Probabilidad acumulada = 1 - a. = 0,95
¡;·
~
...3~
~
I~ 1
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 X
2 18,51 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,48 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53
4 7.71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,93
9 5,12 4.26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,75 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,58 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,45 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2~38 2,34 2,30 2,25 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,18 2,13
15 4,54 3,68 3,29 3,06 2,W 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,11 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,.28 2,24 2,19 2,15 2,11 2,06 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,01 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,97 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,93 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,90 1,84
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,87 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,84 1,78
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,79 1,73
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,77 1,71
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,75 1,69
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,95 1,88 1,84 1,79 1,73 1,67
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 l,il7 1,82 1,77 1,71 1,65
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,70 1,64
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,68 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58 1.51
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47 1,39
120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35 1,25
X 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 • 1,00
1,32 1,22
TABLA F (continuación)
n 1 grados de libertad del numerador. n 2 grados de libertad del denominador Probabilidad acumulada = 1 - ix = 0.99
¡~2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 00
98,50 99,00 99,17 99,25 9'J,30 99,33 99,36 99,37 99,39 99,40 99,42 99,43 99,45 99.46 99,47 99,47 99,48 99,49 99,50
2
34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,0S 26,~ 26,69 26,60 26,SO 26,41 26,32 26,22 26,13
3
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,56 13,46
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,11 9,02
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,97 6,88
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,74 5,65
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,95 4,86
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,40 4,31
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,00 3,91
11 9,65 7,21 6,22 5,67 5,32 5,o7 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,69 3,60
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,45 3,36
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,25 3,17
14 9,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,09 3,00
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,96 2,87
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,84 2,75
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,75 2,65
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,66 2,57
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,58 2,49
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,52 2,42
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,46 2,36
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,40 2,31
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,35 2,26
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,31 2,21
25 1,n 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,27 2,17
© 26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,SO 2,42 2,33 2,23 2,13
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,20 2,10
g:~ 28
29
7,64
7,60
5,45
5,42
4,57
4,54
4,07
4,04
3,75
3,73
3,53
3,50
3,36
3,33
3,23
3,20
3,12
3,09
3,03
3,00
2,90
2.~
2,75
2,73
2,60
2,57
2,52
2,49
2,44
2,41
2,35
2,33
2,26
2,23
2,17
2,14
2,06
2,03
~ 30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,80 2,55 2,47 2,39 2,30 2,21 2,11 2,01
...~ 40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,92 1,80
~
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,.SO 2,35 2,20 2,12 2,03 1,94 1,84 1,73 1,60
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,53 1,38
00 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,32 1,00
TABLA G
Tabla de coeficientes de polinomios ortogonales
J Polinomio 1 2 3 4 5 6 7 8 9 10 r.cJ
3 Lineal -1 o 1 2
Cuadrático 1 -2 1 6
Lineal -3 -1 1 3 20
4 Cuadrático 1 -1 -1 1 4
Cúbico -1 3 -3 1 20
Lineal -2 -1 o 1 2 10
5 Cuadrático 2 -1 -2 -1 2 14
Cúbico -1 2 o -2 1 10
De 4.º grado 1 -4 6 -4 1 70
Lineal -5 -3 -1 1 3 5 70
6 Cuadrático 5 -1 -4 -4 1 5 84
Cúbico -5 7 4 -4 -7 5 180
De 4• grado 1 -3 2 2 -3 1 28
Lineal -3 -2 -1 o 1 2 3 28
7 Cuadrático 5 o -3 -4 -3 o 5 84
Cúbico -1 1 1 o -1 -1 1 6
De 4° grado 3 -7 1 6 1 -7 3 154
Lineal -7 -5 -3 -1 1 3 5 7 168
Cuadrático 7 1 -3 -5 -5 -3 1 7 168
8 Cúbico -7 5 7 3 -3 -7 -5 7 264
De 4° grado 7 -13 -3 9 9 -3 -13 7 616
De 5° grado -7 23 -17 -15 15 17 -23 7 2184
Lineal -4 -3 -2 -1 o 1 2 3 4 60
Cuadrático 28 7 -8 -17 -20 -17 -8 7 28 2772
9 Cúbico -14 7 13 9 o -9 -13 -7 14 990
De 4° grado 14 -21 -11 9 18 9 -11 -21 14 2002
De S• grado -4 11 -4 -9 o 9 4 -11 4 468
Lineal -9 -7 -5 -3 -1 1 3 5 7 9 330
Cuadrático 6 2 -1 -3 -4 -4 -3 -1 2 6 132
10 Cúbico -42 14 35 31 12 -12 -31 -35 -14 42 8580
De 4' grado 18 -22 -17 3 18 18 3 -17 -22 18 2860
De 5° grado -6 14 -1 -11 -6 6 11 1 -14 6 780
576 / Análisis de datos en psicología ti
TABLA H
Puntos críticos para el estadístico de Dunn-Bonferroni (contrastes bilaterales)
Valores 1 _, 12 tk.gl.,, .. para ~F = 0,05
k = número de comparaciones
g/crror 2 3 4 5 6 7 8 9 10
5 3,16 3,53 3,81 4,03 4,22 4,38 4,53 4,66 4,77

6 2,97 3,29 3,52 3,71 3,86 4,00 4,12 4,22 4,32
7 2,84 3,13 3,34 3,50 3,64 3,75 3,86 3,95 4,03
8 2,75 3,02 3,21 3,36 3,48 3,58 3,68 3,76 3,83
9 2,69 2,93 3,11 3,25 3,36 3,46 3,55 3,62 3,69
10 2,63 2,87 3,04 3,17 3,28 3,37 3,45 3,52 3,58
11 2,59 2,82 2,98 3,11 3,21 3,29 3,37 3,44 3,50
12 2,56 2,78 2,93 3,05 3,15 3,24 3,31 3,37 3,43
13 2,53 2,75 2,90 3,01 3,11 3,19 3,26 3,32 3,37
14 2,51 2,72 2,86 2,98 3,07 3,15 3,21 3,27 3,33
15 2,49 2,69 2,84 2,95 3,04 3,11 3,18 3,23 3,29
16 2,47 2,67 2,81 2,92 3,01 3,08 3,15 3,20 3,25
17 2,46 2,65 2,79 2,90 2,98 3,06 3,12 3,17 3,22
18 2,45 2,64 2,77 2,88 2,96 3,03 3,09 3,15 3,20
19 2,43 2,63 2,76 2,86 2,94 3,01 3,07 3,13 3,17
20 2,42 2,61 2,74 2,85 2,93 3,00 3,06 3,11 3,15
21 2,41 2,60 2,73 2,83 2,91 2,98 3,04 3,09 3,14
22 2,41 2,59 2,72 2,82 2,90 2,97 3,02 3,07 3,12
23 2,40 2,58 2,71 2,81 2,89 2,95 3,01 3,06 3,10
24 2,39 2,57 2,70 2,80 2,88 2,94 3,00 3,05 3,09
25 2,38 2,57 2,69 2,79 2,86 2,93 2,99 3,03 3,08
30 2,36 2,54 2,66 2,75 2,82 2,89 2,94 2,99 3,03
40 2,33 2,50 2,62 2,70 2,78 2,84 2,89 2,93 2,97
50 2,31 2,48 2,59 2,68 2,75 2,81 2,85 2,90 2,94
75 2,29 2,45 2,56 2,64 2,71 2,77 2,81 2,86 2,89
100 2,28 2,43 2,54 2,63 2,69 2,75 2,79 2,83 2,87
00 2,24 2,39 2,50 2,58 2,64 2,69 2,73 2,77 2,81
TABLA H (continuación)
Valores 1 _ 212 t1 ,g1.,m para ri.F = 0,01
k = número de comparaciones
g/mor 2 3 4 5 6 7 8 9 10
5 4,77 5,25 5,60 5,89 6,14 6,35 6,54 6,71 6,87

6 4,32 4,70 4,98 5,21 5,40 5,56 5,71 5,84 5,96
7 4,03 4,36 4,59 4,79 4,94 5,08 5,20 5,31 5,41
8 3,83 4,12 4,33 4,50 4,64 4,76 4,86 4,96 5,04
9 3,69 3,95 4,15 4,30 4,42 4,53 4,62 4,71 4,78
10 3,58 3,83 4,00 4,14 4,26 4,36 4,44 4,52 4,59
11 3,50 3,73 3,89 4,02 4,13 4,22 4,30 4,37 4,44
12 3,43 3,65 3,81 3,93 4,03 4,12 4,19 4,26 4,32
13 3,37 3,58 3,73 3,85 3,95 4,03 4,10 4,16 4,22
14 3,33 3,53 3,67 3,79 3,88 3,96 4,03 4,09 4,14
15 3,29 3,48 3,62 3,73 3,82 3,90 3,96 4,02 4,07
16 3,25 3,44 3,58 3,69 3,77 3,85 3,91 3,96 4,01
17 3,22 3,41 3,54 3,65 3,73 3,80 3,86 3,92 3,97
18 3,20 3,38 3,51 3,61 3,69 3,76 3,82 3,87 3,92
19 3,17 3,35 3,48 3,58 3,66 3,73 3,79 3,84 3,88
20 3,15 3,33 3,46 3,55 3,63 3,70 3,75 3,80 3,85
21 3,14 3,31 3,43 3,53 3,60 3,67 3,73 3,78 3,82
22 3,12 3,29 3,41 3,50 3,58 3,64 3,70 3,75 3,79
23 3,10 3,27 3,39 3,48 3,56 3,62 3,68 3,72 3,77
24 3,09 3,26 3,38 3,47 3,54 3,60 3,66 3,70 3,75
25 3,08 3,24 3,36 3,45 3,52 3,58 3,64 3,68 3,73
30 3,03 3,19 3,30 3,39 3,45 3,51 3,56 3,61 3,65
40 2,97 2,12 3,23 2,31 2,37 2,43 2,47 2,51 2,55
50 2,94 3,08 2,18 3,26 3,32 3,38 3,42 3,46 3,50
75 2,89 3,03 3,13 3,20 3,26 3,31 3,35 3,39 3,43
100 2,87 3,01 3,10 3,17 3,23 3,28 3,32 3,36 3,39
00 2,81 2,94 3,02 3,09 3,14 3,19 3,23 3,26 3,29
TABLA 1
Puntos críticos para el estadístico de Dunnett ( p = probabilidad acumulada)
Contrastes unilaterales
J = número de medias (incluida la del grupo control)
g/error p 2 3 4 5 6 7 8 9 10
0,95 2,02 2,44 2,68 2,85 2,98 3,08 3,16 3,24 3,30
5 0,99 3,37 3,90 4,21 4,43 4,60 4,73 4,85 4,94 5,03
0,95 1,94 2,34 2,56 2,71 2,83 2,92 3,00 3,07 3,12
6 0,99 3,14 3,61 3,88 4,07 4,21 4,33 4,43 4,51 4,59
0,95 1,89 2,27 2,48 2,62 2,73 2,82 2,89 2,95 3,01
7 0,99 3,00 3,42 3,66 3,83 3,96 4,07 4,15 4,23 4,30
0,95 1,86 2,22 2,42 2,55 2,66 2,74 2,81 2,87 2,92
8 0,99 2,90 3,29 3,51 3,67 3,79 3,88 3,96 4,03 4,09
0,95 1,83 2,18 2,37 2,50 2,60 2,68 2,75 2,81 2,86
9 0,99 2,82 3,19 3,40 3,55 3,66 3,75 3,82 3,89 3,94
10 0,95 1,81 2,15 2,34 2,47 2,56 2,64 2,70 2,76 2,81
0,99 2,76 3, 11 3,31 3,45 3,56 3,64 3,71 3,78 3,83
11 0,95 1,80 2,13 2,31 2,44 2,53 2,60 2,67 2,72 2,77
0,99 2,72 3,06 3,25 3,38 3,48 3,56 3,63 3,69 3,74
12 0,95 1,78 2,11 2,29 2,41 2,50 2,58 2,64 2,69 2,74
0,99 2,68 3,01 3,19 3,32 3,42 3,50 3,56 3,62 3,67
13 0,95 1,77 2,09 2,27 2,39 2,48 2,55 2,61 2,66 2,71
0,99 2,65 2,97 3,15 3,27 3,37 3,44 3,51 3,56 3,61
14 0,95 1,76 2,08 2,25 2,37 2,46 2,53 2,59 2,64 2,69
0,99 2,62 2,94 3, 11 3,23 3,32 3,40 3,46 3,51 3,56
15 0,95 1,75 2,07 2,24 2,36 2,44 2,51 2,57 2,62 2,67
0,99 2,60 2,91 3,08 3,20 3,29 3,36 3,42 3,47 3,52
16 0,95 1,75 2,06 2,23 2,34 2,43 2,50 2,56 2,61 2,65
0,99 2,58 2,88 3,05 3,17 3,26 3,33 3,39 3,44 3,48
18 0,95 1,73 2,05 2,21 2,32 2,41 2,48 2,53 2,58 2,62
0,99 2,55 2,84 3,01 3,12 3,21 3,27 3,33 3,38 3,42
20 0,95 1,72 2,03 2,19 2,30 2,39 2,46 2,51 2,56 2,60
0,99 2,53 2,81 2,97 3,08 3,17 3,23 3,29 3,34 3,38
24 0,95 1,71 2,01 2,17 2,28 2,36 2,43 2,48 2,53 2,57
0,99 2,49 2,77 2,92 3,03 3, 11 3,17 3,22 3,27 3,31
30 0,95 1,70 1,99 2,15 2,25 2,33 2,40 2,45 2,50 2,54
0,99 2,46 2,72 2,87 2,97 3,05 3, 11 3,16 3,21 3,24
0,95 1,68 1,97 2,13 2,23 2,31 2,37 2,42 2,47 2,51
40
0,99 2,42 2,68 2,82 2,92 2,99 3,05 3,10 3,14 3,18
0,95 1,67 1,95 2,10 2,21 2,28 2,35 2,39 2,44 2,48
60
0,99 2,39 2,64 2,78 2,87 2,94 3,00 3,04 3,08 3,12
0,95 1,66 1,93 2,08 2,18 2,26 2,32 2,37 2,41 2,45
120
0,99 2,36 2,60 2,73 2,82 2,89 2,94 2,99 3,03 3,06
00 0,95 1,64 1,92 2,06 2,16 2,23 2,29 2,34 2,38 2,42
0,99 2,33 2,56 2,68 2,77 2,84 2,89 2,93 2,97 3,00
TABLA 1 (continuación)
Contrastes bilaterales
J = número de medias (incluida la del grupo control)
g/error p 2 3 4 5 6 7 8 9 10
5 0,95 2,57 3,03 3,29 3,43 3,62 3,73 3,82 3,90 3,97
0,99 4,03 4,63 4,98 5,22 5,41 5,56 5,69 5,80 5,89
6 0,95 2,45 2,86 3,10 3,26 3,39 3,49 3,57 3,64 3,71
0,99 3,71 4,21 4,51 4,71 4,87 5,00 5,10 5,20 5,28
7 0,95 2,36 2,75 2,97 3,12 3,24 3,33 3,41 3,47 3,53
0,99 3,50 3,95 4,21 4,39 4,53 4,64 4,74 4,82 4,89
8 0,95 2,31 2,67 2,88 3,02 3,13 3,22 3,29 3,35 3,41
0,99 3,36 3,77 4,00 4,17 4,29 4,40 4,48 4,56 4,62
9 0,95 2,26 2,61 2,81 2,95 3,05 3,14 3,20 3,26 3,32
0,99 3,25 3,63 3,85 4,01 4,12 4,22 4,30 4,37 4,43
10 0,95 2,23 2,57 2,76 2,89 2,99 3,07 3,14 3,19 3,24
0,99 3,17 3,53 3,74 3,88 3,99 4,08 4,16 4,22 4,28
11 0,95 2,20 2,53 2,72 2,84 2,94 3,02 3,08 3,14 3,19
0,99 3,11 3,45 3,65 3,79 3,89 3,98 4,05 4,11 4,16
12 0,95 2,18 2,50 2,68 2,81 2,90 2,98 3,04 3,09 3,14
0,99 3,05 3,39 3,58 3,71 3,81 3,89 3,96 4,02 4,07
13 0,95 2,16 2,48 2,65 2,78 2,87 2,94 3,00 3,06 3,10
0,99 3,01 3,33 3,52 3,65 3,74 3,82 3,89 3,94 3,99
14 0,95 2,14 2,46 2,63 2,75 2,84 2,91 2,97 3,02 3,07
0,99 2,98 3,29 3,47 3,59 3,69 3,76 3,83 3,88 3,93
15 0,95 2,13 2,44 2,61 2,73 2,82 2,89 2,95 3,00 3,04
0,99 2,95 3,25 3,43 3,55 3,64 3,71 3,78 3,83 3,88
16 0,95 2,12 2,42 2,59 2,71 2,80 2,87 2,92 2,97 3,02
0,99 2,92 3,22 3,39 3,51 3,60 3,67 3,73 3,78 3,83
18 0,95 2,10 2,40 2,56 2,68 2,76 2,83 2,89 2,94 2,98
0,99 2,88 3,17 3,33 3,44 3,53 3,60 3,66 3,71 3,75
20 0,95 2,09 2,38 2,54 2,65 2,73 2,80 2,86 2,90 2,95
0,99 2,85 3,13 3,29 3,40 3,48 3,55 3,60 3,65 3,69
24 0,95 2,06 2,35 2,51 2,61 2,70 2,76 2,81 2,86 2,90
0,99 2,80 3,07 3,22 3,32 3,40 3,47 3,52 3,57 3,61
30 0,95 2,04 2,32 2,47 2,58 2,66 2,72 2,77 2,82 2,86
0,99 2,75 3,01 3,15 3,25 3,33 3,39 3,44 3,49 3,52
40 0,95 2,02 2,29 2,44 2,54 2,62 2,68 2,73 2,77 2,81
0,99 2,70 2,95 3,09 3,19 3,26 3,32 3,37 3,41 3,44
60 0,95 2,00 2,27 2,41 2,51 2,58 2,64 2,69 2,73 2,77
0,99 2,66 2,90 3,03 3,12 3,19 3,25 3,29 3,33 3,37
120 0,95 1,98 2,24 2,38 2,47 2,55 2,60 2,65 2,69 2,73
0,99 2,62 2,85 2,97 3,06 3,12 3,18 3,22 3,26 3,29
00
0,95 1,96 2,21 2,35 2,44 2,51 2,57 2,61 2,65 2,69
0,99 2,58 2,79 2,92 3,00 3,06 3,11 3,15 3,19 3,22
TABLA J
Puntos críticos ( q) de la distribución del rango studentizado
Probabilidad acumulada = 1 - ex = 0,95

Número de medias
g/error 2 3 4 5 6 7 8 9 10 11 12 15 20
5 3,64 4,60 5,22 5,67 6,03 6,33 6,58 6,80 7,00 7,17 7,32 7,72 8,21
6 3,46 4,34 4,90 5,31 5,63 5,90 6,12 6,32 6,49 6,65 6,79 7,14 1,59
7 3,34 4,16 4,68 5,06 5,36 5,61 5,82 6,00 6,16 6,30 6,43 6,76 7,17
8 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 6,18 6,48 6,87
9 3,20 3,95 4,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87 5,98 6,28 6,64
10 3,15 3,88 4,33 4,65 4,91 5,12 4,30 5,46 5,60 5,72 5,83 6,11 6,47
11 3,11 3,82 4,26 4,51 4,82 5,03 5,20 5,35 5,49 5,60 5,71 5,98 6,33
12 3,08 3,77 4,20 4,51 4,15 4,95 5,12 5,26 5,40 5,51 5,62 5,88 6,21
13 3,06 3,74 4,15 4,45 4,69 4,88 5,05 5,19 5,32 5,43 5,53 5,79 6,11
14 3,03 3,70 4,11 4,41 4,64 4,83 4,99· 5,13 5,25 5,36 5,46 5,71 6,03
15 3,01 3,67 4,08 4,37 4,60 4,78 4,94 5,08 5,20 5,31 5,40 5,65 5,96
16 3,00 3,65 4,05 4,33 4,56 4,74 4,90 5,03 5,15 5,26 5,35 5,59 5,90
18 2,97 3,61 4,00 4,28 4,50 4,67 4,82 4,96 5,07 5,17 5,27 5,50 5,19
20 2,95 3,58 3,96 4,23 4,44 4,62 4,77 4,90 5,01 5,11 5,20 5,43 5,71
24 2,92 3,53 3,90 4,17 4,17 4,54 4,68 4,81 4,92 5,01 5,10 5,32 5,59
30 2,89 3,49 3,84 4,10 4,30 4,46 4,60 4,72 4,82 4,92 5,00 5,21 5,47
40 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,64 4,74 4,82 4,90 5,11 5,36
60 2,83 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 4,73 4,81 5,00 5,24
00 2,77 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47 4,55 4,62 4,80 5,01
Probabilidad acumulada= 1 - ex= 0,99

Número de medias
g/crror 2 3 4 5 6 7 8 9 10 11 12 15 20
5 5,70 6,98 7,80 8,42 8,91 9,32 9,67 9,97 10,24 10,48 10,70 11,24 11,93
6 5,24 6,33 7,03 7,56 7,97 8,32 8,62 8,87 9,10 9,30 9,48 9,95 10,54
7 4,95 5,92 6,54 7,00 7,37 7,68 7,94 8,17 8,37 8,55 8,71 9,12 9,65
8 4,75 5,64 6,20 6,62 6,96 7,24 7,47 7,68 7,86 8,03 8,18 8,55 9,03
9 4,60 5,43 5,96 6,35 6,66 6,92 7,13 7,32 7,50 7,65 7,78 8,13 8,57
10 4,48 5,27 5,11 6,14 6,43 6,67 6,88 7,06 7,21 7,36 7,48 7,81 8,23
11 4,39 5,15 5,62 5,91 6,25 6,48 6,67 6,84 6,99 7,13 7,25 7,56 7,95
12 4,32 5,05 5,50 5,84 6,10 6,32 6,51 6,67 6,81 6,94 7,06 7,36 7,73
13 4,26 4,96 5,40 5,73 5,98 6,19 6,37 6,53 6,67 6,79 6,90 7,19 7,55
14 4,21 4,90 5,32 5,63 5,88 6,08 6,26 6,41 6,54 6,66 6,77 7,05 7,39
15 4,17 4,84 5,25 5,56 5,80 5,99 6,16 6,31 6,44 6,56 6,66 6,93 7,26
16 4,13 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35 6,46 6,56 6,82 7,15
18 4,07 4,70 5,09 5,38 5,60 5,79 5,94 6,08 6,20 6,31 6,41 6,66 6,97
20 4,02 4,64 5,02 5,29 5,51 5,69 5,84 5,91 6,09 6,19 6,28 6,52 6,82
24 3,96 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92 6,02 6,11 6,33 6,61
30 3,89 4,46 4,80 5,05 5,24 5,40 5,54 5,65 5, 76 5,85 5,93 6,14 6,41
40 3,82 4,37 4,70 4,93 5,11 5,26 5,39 5,50 5,60 5,69 5,76 5,96 6,21
60 3,76 4,28 4,60 4,82 4,99 5,13 5,25 5,36 5,45 5,53 5,60 5,78 6,02
00 3,64 4,12 4,40 4,60 4,76 4,88 4,99 5,08 5,16 5,23 5,29 5,45 5,65
TABLA K
Puntos críticos de la distribución del módulo máximo studentizado
Probabilidad acumulada = 1- IX = 0,95

Número de comparaciones
g/cnor 3 4 5 6 7 8 9 10 15
4 3,74 4,01 4,20 4,37 4,50 4,62 4,72 4,82 5,17

5 3,40 3,62 3,79 3,93 4,04 4,14 4,23 4,31 4,61
6 3,19 5,39 3,54 3,66 3,77 3,86 3,94 4,01 4,28
7 3,06 3,24 3,38 3,49 3,59 3,67 3,74 3,80 4,05
8 2,93 3,13 3,26 3,36 3,45 3,53 3,60 3,66 3,89
9 2,89 3,05 3,17 3,27 3,36 3,43 3,49 3,55 3,77
10 2,83 2,98 3,10 3,20 3,28 3,35 3,41 3,47 3,68
11 2,78 2,93 3,05 3,14 3,22 3,29 3,35 3,40 3,60
12 2,75 2,89 3,01 3,09 3,17 3,24 3,29 3,35 3,54
14 2,69 2,83 2,94 3,02 3,09 3,16 3,21 3,26 3,45
16 2,65 2,78 2,89 2,97 3,04 3,09 3,15 3,20 3,38
18 2,62 2,75 2,85 2,93 2,99 3,05 3,11 3,15 3,32
20 2,59 2,72 2,82 2,90 2,96 3,02 3,07 3,11 3,28
24 2,56 2,68 2,77 2,85 2,91 2,97 3,02 3,06 3,22
30 2,52 2,64 2,73 2,80 2,87 2,92 2,96 3,00 3,16
40 2,49 2,60 2,69 2,76 2,82 2,87 2,91 2,95 3,10
60 2,45 2,56 2,65 2,72 2,77 2,82 2,86 2,90 3,04
00 2,39 2,49 2,57 2,63 2,68 2,73 2,77 2,80 2,93
Probabilidad acumulada = 1 - IX = 0,99
g/cnor 3 4 5 6 7 8 9 10 15
4 5,99 6,36 6,66 6,90 7,09 7,27 7,43 7,57 8,09

5 5,11 5,39 5,63 5,81 5,97 6,11 6,23 6,33 6,74
6 4,61 4,85 5,05 5,20 5,33 5,45 5,55 5,64 5,99
7 4,30 4,51 4,68 4,81 4,93 5,03 5,12 5,20 5,50
8 4,08 4,27 4,42 4,55 4,65 4,74 4,82. 4,89 5,17
9 3,92 4,10 4,24 4,35 4,45 4,53 4,61 4,67 4,92
10 3,80 3,97 4,09 4,20 4,29 4,37 4,44 4,50 4,74
11 3,71 3,87 3,99 4,09 4,17 4,25 4,31 4,37 4,59
12 3,63 3,78 3,89 4,00 4,08 4,15 4,21 4,26 4,48
14 3,52 3,66 3,77 3,85 3,93 3,99 4,05 4,10 4,30
16 3,43 3,57 3,67 3,75 3,82 3,88 3,94 3,99 4,17
18 3,37 3,49 3,59 3,68 3,74 3,80 3,85 3,90 4,07
20 3,32 3,45 3,54 3,62 3,68 3,74 3,79 3,83 4,00
24 3,25 3,37 3,46 3,53 3,59 3,64 3,69 3,73 3,89
30 3,18 3,29 3,38 3,45 3,50 3,55 3,59 3,64 3,78
40 3,12 3,22 3,30 3,37 3,42 3,47 3,51 3,54 3,68
60 3,06 3,15 3,23 3,29 3,34 3,38 3,42 3,46 3,59
00 2,93 3,02 3,09 3,14 3,19 3,23 3,26 3,29 3,40
TABLA L
Tabla de potencias para diferentes valores de A y a
Nivel de significación ci (contrastes

unilaterales)
/!;. 0,05 0,025 0,01 0,005
1,00 0,26 0,17 0,09 0,06

1,10 0,29 0,20 0,11 0,07
1,20 0,33 0,22 0,13 0,08
1,30 0,37 0,26 0,15 0,10
1,40 0,40 0,29 0,18 0,12
1,50 0,44 0,32 0,20 0,14
1,60 0,48 0,36 0,23 0,17
1,70 0,52 0,40 0,27 0,19
1,80 0,56 0,44 0,30 0,22
1,90 0,60 0,48 0,34 0,25
2,00 0,64 0,52 0,37 0,28
2,10 0,68 0,56 0,41 0,32
2,20 0,71 0,60 0,45 0,35
2,30 0,74 0,63 0,49 0,39
2,40 0,78 0,67 0,53 0,43
2,50 0,80 0,71 0,57 0,47
2,60 0,83 0,74 0,61 0,51
2,70 0,85 0,77 0,65 0,55
2,80 0,88 0,80 0,68 0,59
2,90 0,90 0,83 0,72 0,63
3,00 0,91 0,85 0,75 0,66
3,10 0,93 0,87 0,78 0,70
3,20 0,94 0,89 0,81 0,73
3,30 0,95 0,91 0,84 0,77
3,40 0,96 0,93 0,86 0,80
3,50 0,97 0,94 0,88 0,82
3,60 0,98 0,95 0,90 0,85
3,70 0,98 0,96 0,92 0,87
3,80 0,98 0,97 0,93 0,89
3,90 0,99 0,97 0,94 0,91
4,00 0,99 0,98 0,95 0,92
4,10 0,99 0,98 0,96 0,94
4,20 • 0,99 0,97 0,95
4,30 • 0,99 0,98 0,96
4,40 • 0,99 0,98 0,97
4,50 • 0,99 0,99 0,97
4,60 • • 0,99 0,98
4,70 • • 0,99 0,98
4,80 • • 0,99 0,99
4,90 • • • 0,99
5,00 • • • 0,99
TABLA M
Puntos críticos (valores de p) de la distribución F no centrada
oc= 0,05
gl, g/2 0,5 1,0 1,2 1,4 1,6

• 1,8 2,0 2,2 2,6 3,0
2 0,93 0,86 0,83 0,78 0,74 0,69 0,64 0,59 0,49 0,40
4 0,91 0,80 0,74 0,67 0,59 0,51 0,43 0,35 0,22 0,12
6 0,91 0,78 0,70 0,62 0,52 0,43 0,34 0,26 0,14 0,06
8 0,90 0,76 0,68 0,59 0,49 0,39 0,30 0,22 0,11 0,04
1 10 0,90 0,75 0,66 0,57 0,47 0,37 0,28 0,20 0,09 0,03
12 0,90 0,74 0,65 0,56 0,45 0,35 0,26 0,19 0,08 0,03
16 0,90 0,74 0,64 0,54 0,43 0,33 0,24 0,17 0,07 0,02
20 0,90 0,73 0,63 0,53 0,42 0,32 0,23 0,16 0,06 0,02
30 0,89 0,72 0,62 0,52 0,40 0,31 0,22 0,15 0,06 0,02
00 0,89 0,71 0,60 0,49 0,38 0,28 0,19 0,12 0,04 0,01
2 0,93 0,88 0,85 0,82 0,78 0,75 0,70 0,66 0,56 0,48
4 0,92 0,82 0,77 0,70 0,62 0,54 0,46 0,38 0,24 0,14
6 0,91 0,79 0,71 0,63 0,53 0,43 0,34 0,26 0,13 0,05
8 0,91 0,77 0,68 0,58 0,48 0,37 0,28 0,20 0,08 0,03
2 10 0,91 0,75 0,66 0,55 0,44 0,34 0,24 0,16 0,06 0,02
12 0,90 0,74 0,64 0,53 0,42 0,31 0,22 0,14 0,05 0,01
16 0,90 0,73 0,62 0,51 0,39 0,28 0,19 0,12 0,04 0,01
20 0,90 0,72 0,61 0,49 0,36 0,26 0,17 0,11 0,03 0,01
30 0,90 0,71 0,59 0,47 0,35 0,24 0,15 0,09 0,02 0,00
00 0,89 0,68 0,56 0,43 0,30 0,20 0,12 0,06 0,01 0,00
2 0,93 0,89 0,86 0,83 0,80 0,76 0,73 0,69 0,60 0,52
4 0,92 0,83 0,77 0,71 0,63 0,55 0,47 0,39 0,25 0,14
6 0,91 0,79 0,71 0,62 0,52 0,42 0,33 0,24 0,11 0,04
8 0,91 0,76 0,67 0,57 0,46 0,35 0,25 0,18 0,06 0,02
3 10 0,91 0,75 0,65 0,53 0,41 0,30 0,21 0,13 0,04 0,01
12 0,90 0,73 0,62 0,50 0,38 0,27 0,18 0,11 0,03 0,01
16 0,90 0,71 0,60 0,47 0,34 0,23 0,14 0,08 0,02 0,00
20 0,90 0,70 0,58 0,45 0,32 0,21 0,13 0,07 0,01 0,00
30
00
0,89
0,88
0,68
0,64
0,55
0,50
0,42
0,36
0,29
0,23
0,18
0,13
0,10
0,07
0,05
0,03
0,01
º·ºº
º·ºº º·ºº
2 0,94 0,89 0,87 0,84 0,81 0,77 0,74 0,70 0,62 0,54
4 0,92 0,83 0,78 0,71 0,64 0,55 0,47 0,39 0,25 0,14
6 0,92 0,79 0,71 0,62 0,52 0,41 0,31 0,23 0,10 0,04
8 0,91 0,76 0,66 0,55 0,44 0,33 0,23 0,15 0,05 0,01
4 10 0,91 0,74 0,63 0,51 0,39 0,27 0,18 0,11 0,03 0,01
12 0,90 0,72 0,61 0,48 0,35 0,24 0,15 0,08 0,02 0,00
16 0,90 0,70 0,57 0,44 0,31 0,19 0,11 0,06 0,01 0,00
20 0,89 0,68 0,55 0,41 0,28 0,17 0,09 0,04 0,01 0,00
30 0,89 0,66 0,52 0,37 0,24 0,14 0,07 0,03 0,00 0,00
00 0,88 0,60 0,45 0,29 0,17 0,08 0,04 0,01 0,00 0,00
TABLA M (continuación)
a= 0,01
clJ
gl. g/2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0
2 0,99 0,97 0,96 0,95 0,94 0,93 0,91 0,90 0,87 0,83
4 0,98 0,95 0,93 0,90 0,87 0,83 0,78 0,73 0,62 0,50
6 0,98 0,93 0,90 0,86 0,81 0,75 0,69 0,61 0,46 0,31
8 0,98 0,92 0,89 0,84 0,78 0,70 0,62 0,54 0,37 0,22
1 10 0,98 0,92 0,87 0,82 0,75 0,67 0,58 0,49 0,31 0,17
12 0,97 0,91 0,87 0,81 0,73 0,65 0,55 0,46 0,28 0,14
16 0,97 0,90 0,85 0,79 0,71 0,61 0,52 0,42 0,24 0,11
20 0,97 0,90 0,85 0,78 0,69 0,59 0,49 0,39 0,21 0,10
30 0,97 0,89 0,83 0,76 0,67 0,57 0,46 0,36 0,19 0,08
00 0,97 0,88 0,81 0,72 0,62 0,51 0,40 0,30 0,14 0,05
2 0,99 0,98 0,97 0,96 0,95 0,94 0,93 0,92 0,89 0,86
4 0,98 0,96 0,94 0,92 0,89 0,85 0,81 0,76 0,66 0,54
6 0,98 0,94 0,91 0,87 0,82 0,76 0,70 0,62 0,46 0,31
8 0,98 0,93 0,89 0,84 0,78 0,70 0,61 0,52 0,34 0,19
2 10 0,98 0,92 0,88 0,82 0,74 0,65 0,55 0,45 0,26 0,13
12 0,98 0,91 0,86 0,80 0,71 0,61 0,51 0,40 0,22 0,09
16 0,97 0,90 0,84 0,77 0,67 0,57 0,45 0,34 0,16 0,06
20 0,97 0,90 0,83 0,75 0,65 0,53 0,42 0,31 0,14 0,04
30 0,97 0,88 0,82 0,72 0,61 0,49 0,37 0,26 0,10 0,03
00 0,97 0,86 0,77 0,66 0,53 0,40 0,28 0,18 0,05 0,01
2 0,99 0,98 0,97 0,96 0,96 0,95 0,94 0,93 0,90 0,88
4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,77 0,67 0,55
6 0,98 0,94 0,91 0,87 0,82 0,76 0,69 0,61 0,44 0,29
8 0,98 0,93 0,89 0,84 0,77 0,68 0,59 0,49 0,30 0,16
3 10 0,98 0,92 0,87 0,80 0,72 0,62 0,52 0,41 0,22 0,09
12 0,98 0,91 0,85 0,78 0,69 0,58 0,46 0,35 0,17 0,06
16 0,97 0,90 0,83 0,74 0,64 0,51 0,39 0,28 0,11 0,03
20 0,97 0,89 0,82 0,72 0,60 0,47 0,35 0,24 0,08 0,02
30 0,97 0,87 0,79 0,68 0,55 0,42 0,29 0,18 0,05 0,01
00 0,97 0,84 0,73 0,59 0,44 0,30 0,18 0,10 0,02 0,00
2 0,99 0,98 0,97 0,97 0,96 0,95 0,94 0,93 0,91 0,88
4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,78 0,67 0,56
6 0,98 0,94 0,91 0,87 0,82 0,76 0,68 0,60 0,43 0,28
8 0,98 0,93 0,89 0,83 0,76 0,67 0,57 0,47 0,28 0,14
4 10 0,98 0,92 0,86 0,79 0,70 0,60 0,49 0,37 0,19 0,07
12 0,98 0,91 0,85 0,76 0,66 0,55 0,42 0,31 0,13 0,04
16 0,97 0,89 0,82 0,72 0,60 0,47 0,34 0,23 0,08 0,02
20 0,97 0,88 0,80 0,69 0,56 0,42 0,29 0,18 0,05 0,01
30 0,97 0,86 0,77 0,64 0,50 0,35 0,22 0,13 0,03 0,00
00 0,96 0,81 0,68 0,53 0,36 0,22 0,11 0,05 0,01 0,00
TABLA N
Puntos críticos de la distribución multivariada del rango studentizado
2 3 4 5 6 7 8 2 3 4 5 6 7 8
"' =
gl...., Probabilidad acumulada =1- ce = 0,95 Probabilidad acumulada = 1 - ce = 0,99
5 4,38 5,38 6,01 6,47 6,83 7,12 7,37 6,65 7,99 8,86 9,49 9,99 10,39 10,75
6 4,13 5,03 5,59 6,01 6,34 6,59 6,83 6,05 7,19 7,91 8,45 8,87 9,22 9,52
7 3,97 4,79 5,33 5,71 6,01 6,25 6,46 5,66 6,67 7,31 7,79 8,16 8,47 8,73
8 3,85 4,64 5,13 5,49 5,77 5,99 6,19 5,39 6,31 6,89 7,33 7,67 7,95 8,19
9 3,76 4,52 4,99 5,33 5,59 5,82 5,99 5,19 6,05 6,59 6,99 7,31 7,57 7,79
10 3,69 4,42 4,88 5,19 5,46 5,67 5,85 5,05 5,86 6,37 6,74 7,03 7,28 7,49
11 3,64 4,35 4,79 5,09 5,35 5,55 5,73 4,93 5,69 6,18 6,54 6,82 7,05 7,25
12 3,59 4,29 4,71 5,02 5,26 5,46 5,63 4,84 5,58 6,04 6,38 6,64 6,87 7,05
13 3,56 4,24 4,65 4,95 5,19 5,38 5,54 4,76 5,47 5,92 6,24 6,49 6,71 6,89
14 3,53 4,19 4,59 4,89 5,12 5,31 5,47 4,69 5,39 5,82 6,13 6,38 6,59 6,76
15 3,49 4,16 4,55 4,84 5,07 5,25 5,41 4,64 5,31 5,73 6,04 6,28 6,48 6,65
16 3,48 4,12 4,52 4,79 5,02 5,19 5,36 4,59 5,25 5,66 5,96 6,19 6,39 6,55
17 3,46 4,09 4,48 4,76 4,98 5,16 5,31 4,55 5,19 5,59 5,89 6,12 6,29 6,47
18 3,44 4,07 4,45 4,73 4,94 5,12 5,27 4,52 5,15 5,54 5,82 6,05 6,23 6,39
19 3,43 4,05 4,43 4,69 4,91 5,08 5,23 4,49 5,11 5,49 5,77 5,99 6,17 6,32
20 3,41 4,03 4,39 4,67 4,88 5,05 5,19 4,46 5,07 5,45 5,72 5,94 6,11 6,27
24 3,37 3,97 4,33 4,59 4,79 4,96 5,09 4,37 4,95 5,31 5,57 5,77 5,94 6,08
30 3,33 3,91 4,26 4,51 4,69 4,86 4,99 4,28 4,84 5,18 5,42 5,62 5,77 5,91
40 3,28 3,85 4,18 4,42 4,61 4,76 4,89 4,19 4,72 5,04 5,27 5,45 5,59 5,72
60 3,23 3,78 4,09 4,33 4,51 4,66 4,78 4,07 4,57 4,88 5,09 5,27 5,39 5,52
120 3,21 3,74 4,05 4,27 4,44 4,58 4,69 4,05 4,53 4,81 5,02 5,17 5,29 5,41
240 3,19 3,71 4,01 4,23 4,39 4,54 4,65 3,99 4,47 4,75 4,94 5,09 5,22 5,33
V2 =3 V2 =3
gl...., 2 3 4 5 6 7 8 2 3 4 5 6 7 8
5 4,81 5,83 6,46 6,92 7,27 7,56 7,81 7,23 8,59 9,47 10,09 10,59 11,01 11,36
6 4,52 5,43 5,99 6,41 6,73 6,99 7,22 6,53 7,69 8,43 8,96 9,39 9,73 10,03
7 4,33 5,17 5,69 6,08 6,37 6,62 6,82 6,08 7,11 7,76 8,24 8,61 8,92 9,18
8 4,19 4,98 5,48 5,83 6,11 6,34 6,54 5,77 6,71 7,29 7,73 8,08 8,36 8,59
9 4,09 4,84 5,39 5,65 5,92 6,14 6,32 5,55 6,42 6,97 7,37 7,68 7,94 8,16
10 4,01 4,74 5,18 5,51 5,77 5,98 6,16 5,38 6,19 6,71 7,09 7,38 7,63 7,83
11 3,94 4,65 5,08 5,39 5,65 5,85 6,02 5,25 6,02 6,51 6,87 7,15 7,38 7,58
12 3,89 4,58 4,99 5,31 5,55 5,74 5,91 5,14 5,88 6,35 6,69 6,96 7,18 7,37
13 3,85 4,52 4,93 5,23 5,46 5,66 5,82 5,05 5,77 6,21 6,54 6,79 7,01 7,19
14 3,81 4,47 4,87 5,17 5,39 5,58 5,74 4,98 5,67 6,09 6,42 6,67 6,87 7,05
15 3,78 4,43 4,82 5,11 5,33 5,52 5,67 4,91 5,59 6,01 6,31 6,56 6,76 6,92
16 3,75 4,39 4,78 5,06 5,28 5,46 5,61 4,86 5,52 5,93 6,23 6,46 6,65 6,82
17 3,73 4,36 4,74 5,02 5,23 5,41 5,56 4,81 5,46 5,86 6,15 6,38 6,57 6,73
18 3,71 4,33 4,71 4,98 5,19 5,37 5,52 4,77 5,39 5,79 6,08 6,29 6,49 6,64
19 3,69 4,29 4,68• 4,95 5,16 5,33 5,48 4,74 5,36 5,74 6,02 6,24 6,42 6,57
20 3,67 4,28 4,65 4,92 5,13 5,29. 5,44 4,69 5,31 5,69 5,96 6,18 6,36 6,51
24 3,62 4,21 4,57 4,82 5,02 5,19 5,33 4,59 5,18 5,54 5,79 5,99 6,17 6,31
30 3,57 4,14 4,49 4,73 4,92 5,08 5,21 4,51 5,06 5,39 5,64 5,83 5,98 6,12
40 3,52 4,07 4,39 4,64 4,82 4,97 5,09 4,39 4,92 5,24 5,47 5,65 5,79 5,92
60 3,46 3,99 4,31 4,54 4,72 4,86 4,98 4,27 4,76 5,06 5,28 5,45 5,59 5,69
120 3,43 3,94 4,25 4,47 4,63 4,77 4,88 4,24 4,71 4,99 5,19 5,34 5,47 5,58
240 3,39 3,91 4,21 4,42 4,58 4,72 4,83 4,19 4,64 4,92 5,11 5,26 5,38 5,48
TABLA N (continuación)
"• = 2 3 4 5 6 7 8 2 3 4 5 6 7 8
Kl.rror Probabilidad acumulada= 1 - ex= 0,95 Probabilidad acumulada = 1 - ex = 0,99
5 5,12 6,14 6,77 7,23 7,58 7,87 8,11 7,64 9,03 9,89 10,53 11,03 11,44 11,78
6 4,79 5,71 6,28 6,69 7,01 7,27 7,49 6,87 8,05 8,79 9,32 9,75 10,09 10,38
7 4,58 5,43 5,95 6,33 6,63 6,87 7,07 6,38 7,42 8,08 8,55 8,93 9,23 9,49
8 4,43 5,23 5,72 6,07 6,35 6,58 6,77 6,05 6,99 7,59 8,02 8,36 8,64 8,88
9 4,31 5,07 5,54 5,88 6,14 6,36 6,54 5,79 6,68 7,23 7,63 7,94 8,19 8,42
10 4,22 4,95 5,39 5,73 5,98 6,19 6,37 5,62 6,44 6,95 7,33 7,63 7,87 8,08
11 4,15 4,86 5,29 5,61 5,85 6,05 6,22 5,47 6,25 6,74 7,09 7,38 7,61 7,81
12 4,09 4,78 5,19 5,51 5,75 5,94 6,11 5,35 6,09 6,57 6,91 7,18 7,39 7,58
13 4,05 4,72 5,13 5,43 5,66 5,85 6,01 5,26 5,97 6,42 6,75 7,01 7,22 7,39
14 4,01 4,66 5,06 5,36 5,58 5,77 5,93 5,18 5,87 6,29 6,62 6,87 7,07 7,25
15 3,97 4,62 5,01 5,29 5,52 5,69 5,85 5,11 5,78 6,19 6,51 6,75 6,95 7,12
16 3,94 4,58 4,96 5,24 5,46 5,64 5,79 5,05 5,71 6,12 6,41 6,65 6,84 7,01
17 3,92 4,54 4,92 5,19 5,41 5,59 5,74 4,99 5,64 6,04 6,33 6,56 6,75 6,91
18 3,89 4,51 4,89 5,16 5,37 5,54 5,69 4,95 5,58 5,97 6,26 6,48 6,67 6,82
19 3,87 4,48 4,85 5,12 5,33 5,49 5,65 4,91 5,53 5,91 6,19 6,41 6,59 6,75
20 3,85 4,46 4,82 5,09 5,29 5,46 5,61 4,88 5,49 5,86 6,14 6,35 6,53 6,68
24 3,79 4,38 4,73 4,99 5,19 5,35 5,49 4,77 5,35 5,69 5,96 6,16 6,33 6,47
30 3,74 4,29 4,64 4,89 5,08 5,23 5,37 4,66 5,21 5,54 5,79 5,98 6,13 6,26
40 3,68 4,23 4,55 4,79 4,97 5,21 5,24 4,55 5,06 5,38 5,61 5,78 5,93 6,05
60 3,62 4,14 4,46 4,68 4,85 4,99 5,12 4,41 4,89 5,19 5,41 5,58 5,71 5,83
120 3,58 4,08 4,38 4,59 4,76 4,89 5,01 4,37 4,83 5,11 5,29 5,46 5,58 5,69
240 3,55 4,05 4,34 4,55 4,71 4,84 4,95 4,32 4,76 5,03 5,22 5,37 5,49 5,59
V2 = 5 V2 = 5
g/error 2 3 4 5 6 7 8 2 3 4 5 6 7 8
5 5,36 6,38 7,01 7,46 7,81 8,09 8,34 7,96 9,36 10,23 10,86 11,35 11,76 12,09
6 5,01 5,93 6,49 6,89 7,22 7,48 7,69 7,14 8,32 9,06 9,59 10,02 10,36 10,65
7 4,78 5,63 6,15 6,53 6,82 7,06 7,26 6,62 7,67 8,32 8,79 9,17 9,47 9,73
8 4,61 5,41 5,89 6,26 6,53 6,76 6,95 6,26 7,21 7,81 8,24 8,58 8,86 9,09
9 4,49 5,25 5,71 6,05 6,32 6,53 6,71 5,99 6,88 7,43 7,83 8,15 8,39 8,62
10 4,39 5,12 5,57 5,89 6,15 6,35 6,53 5,79 6,63 7,14 7,52 7,82 8,06 8,26
11 4,32 5,02 5,45 5,77 6,01 6,21 6,38 5,64 6,43 6,92 7,27 7,55 7,79 7,98
12 4,25 4,94 5,36 5,66 5,89 6,09 6,26 5,52 6,27 6,73 7,08 7,34 7,57 7,75
13 4,19 4,87 5,28 5,57 5,81 5,99 6,16 5,42 6,14 6,58 6,91 7,17 7,38 7,56
14 4,16 4,81 5,21 5,49 5,73 5,91 6,07 5,33 6,03 6,45 6,77 7,02 7,22 7,40
15 4,12 4,76 5,15 5,44 5,66 5,84 5,99 5,26 5,93 6,35 6,66 6,89 7,09 7,27
16 4,09 4,72 5,09 5,38 5,59 5,78 5,93 5,19 5,85 6,26 6,56 6,79 6,99 7,15
17 4,06 4,68 5,06 5,33 5,55 5,72 5,87 5,14 5,78 6,18 6,47 6,69 6,89 7,05
18 4,03 4,65 5,02 5,29 5,49 5,67 5,82 5,09 5,72 6,11 6,39 6,62 6,79 6,96
19 4,01 4,62 4,99 5,25 5,46 5,63 5,77 5,05 5,67 6,05 6,33 6,55 6,73 6,88
20 3,99 4,59 4,96 5,22 5,42 5,59 5,73 5,01 5,62 5,99 6,27 6,48 6,66 6,81
24 3,93 4,51 4,86 5,11 5,31 5,47 5,61 4,89 5,47 5,82 6,08 6,28 6,45 6,59
30 3,87 4,43 4,76 5,01 5,19 5,35 5,48 4,78 5,33 5,66 5,89 6,09 6,24 6,38
40 3,79 4,33 4,66 4,89 5,08 5,22 5,35 4,66 5,17 5,49 5,71 5,89 6,04 6,16
60 3,74 4,25 4,57 4,79 4,96 5,09 5,22 4,52 4,99 5,29 5,51 5,67 5,81 5,92
120 3,69 4,19 4,49 4,69 4,86 4,99 5,11 4,47 4,93 5,19 5,39 5,55 5,67 5,78
240 3,66 4,15 4,44 4,65 4,81 4,93 5,04 4,41 4,86 5,12 5,31 5,46 5,57 5,68
TABLA N (continuación)
"• =
2 3 4 5 6 7 8 2 3 4 5 6 7 8
g/error Probabilidad acumulada = 1 - ex = 0,95 Probabilidad acumulada= 1 - ex= 0,99
5 5,56 6,58 7,19 7,65 7,99 8,28 8,52 8,22 9,63 10,49 11,12 11,62 12,02 12,36
6 5,19 6,09 6,67 7,07 7,39 7,64 7,86 7,36 8,55 9,29 9,82 10,24 10,58 10,86
7 4,94 5,79 6,31 6,68 6,97 7,21 7,41 6,81 7,86 8,52 8,99 9,36 9,67 9,93
8 4,76 5,56 6,05 6,39 6,68 6,89 7,09 6,44 7,39 7,98 8,42 8,76 9,03 9,27
9 4,63 5,39 5,86 6,19 6,45 6,67 6,85 6,16 7,04 7,59 7,99 8,31 8,57 8,79
10 4,53 5,26 5,69 6,03 6,28 6,48 6,66 5,95 6,78 7,29 7,67 7,97 8,21 8,41
11 4,45 5,15 5,58 5,89 6,14 6,34 6,49 5,79 6,57 7,06 7,42 7,69 7,93 8,12
12 4,38 5,06 5,48 5,79 6,02 6,21 6,38 5,65 6,39 6,87 7,21 7,48 7,69 7,89
13 4,33 4,99 5,39 5,69 5,92 6,11 6,27 5,55 6,27 6,72 7,04 7,29 7,51 7,69
14 4,28 4,93 5,33 5,62 5,84 6,03 6,18 5,46 6,15 6,59 6,89 7,15 7,36 7,53
15 4,24 4,88 5,27 5,55 5,77 5,95 6,11 5,38 6,05 6,47 6,78 7,02 7,22 7,39
16 4,19 4,83 5,22 5,49 5,71 5,89 6,04 5,31 5,97 6,38 6,68 6,91 7,09 7,27
17 4,17 4,79 5,17 5,44 5,66 5,83 5,98 5,25 5,89 6,29 6,59 6,82 6,99 7,16
18 4,15 4,76 5,13 5,39 5,61 5,78 5,93 5,19 5,83 6,22 6,51 6,73 6,91 7,07
19 4,12 4,73 5,09 5,36 5,57 5,74 5,88 5,16 5,78 6,16 6,44 6,66 6,84 6,99
20 4,09 4,69 5,06 5,32 5,53 5,69 5,84 5,12 5,73 6,09 6,38 6,59 6,77 6,92
24 4,04 4,61 4,96 5,21 5,41 5,57 5,69 4,99 5,57 5,92 6,18 6,38 6,55 6,69
30 3,97 4,53 4,86 5,09 5,27 5,44 5,57 4,88 5,42 5,75 5,99 6,18 6,34 6,47
40 3,89 4,44 4,76 4,99 5,19 5,32 5,44 4,75 5,26 5,57 5,79 5,98 6,12 6,24
60 3,85 4,36 4,67 4,89 5,06 5,19 5,31 4,59 5,08 5,38 5,59 5,75 5,89 5,99
120 3,79 4,28 4,57 4,78 4,94 5,07 5,18 4,55 4,99 5,27 5,47 5,62 5,74 5,85
240 3,75 4,24 4,52 4,73 4,88 5,01 5,12 4,49 4,93 5,19 5,38 5,52 5,64 5,74
V2 = 7 V2 = 7
g/error 2 3 4 5 6 7 8 2 3 4 5 6 7 8
5 5,72 6,74 7,36 7,81 8,16 8,44 8,68 8,45 9,85 10,72 11,34 11,84 12,24 12,58
6 5,33 6,25 6,81 7,21 7,52 7,78 7,99 7,55 8,74 9,47 10,01 10,42 10,76 11,04
7 5,07 5,92 6,44 6,81 7,09 7,34 7,54 6,98 8,03 8,68 9,16 9,53 9,83 10,09
8 4,89 5,69 6,17 6,52 6,79 7,02 7,21 6,58 7,54 8,13 8,57 8,89 9,18 9,42
9 4,75 5,51 5,97 6,31 6,57 6,78 6,96 6,29 7,18 7,73 8,13 8,44 8,69 8,92
10 4,64 5,37 5,82 6,14 6,39 6,59 6,77 6,08 6,91 7,42 7,79 8,09 8,34 8,54
11 4,56 5,26 5,69 5,99 6,24 6,44 6,61 5,91 6,69 7,18 7,54 7,82 8,05 8,24
12 4,49 5,17 5,59 5,89 6,12 6,32 6,48 5,77 6,52 6,99 7,33 7,59 7,82 7,99
13 4,43 5,09 5,49 5,79 6,02 6,21 6,37 5,66 6,38 6,83 7,15 7,41 7,62 7,79
14 4,38 5,03 5,43 5,72 5,94 6,12 6,28 5,56 6,26 6,69 7,01 7,26 7,46 7,63
15 4,34 4,98 5,37 5,65 5,87 6,05 6,19 5,48 6,16 6,58 6,88 7,12 7,32 7,49
16 4,29 4,93 5,31 5,59 5,79 5,98 6,13 5,41 6,07 6,48 6,78 7,01 7,19 7,37
17 4,27 4,89 5,26 5,54 5,75 5,92 6,07 5,35 5,99 6,39 6,68 6,91 7,09 7,26
18 4,24 4,85 5,22 5,49 5,69 5,87 6,01 5,29 5,93 6,32 6,59 6,82 7,01 7,16
19 4,22 4,82 5,19 5,45 5,66 5,82 5,97 5,25 5,87 6,25 6,53 6,75 6,93 7,08
20 4,19 4,79 5,15 5,41 5,62 5,78 5,92 5,21 5,82 6,19 6,47 6,68 6,86 7,01
24 4,13 4,69 5,09 5,29 5,49 5,65 5,79 5,08 5,66 6,01 6,27 6,47 6,63· 6,77
30 4,06 4,61 4,94 5,18 5,37 5,52 5,65 4,96 5,49 5,83 6,07 6,26 6,41 6,54
40 3,99 4,52 4,84 5,07 5,25 5,39 5,52 4,83 5,34 5,65 5,87 6,05 6,19 6,31
60 3,91 4,42 4,73 4,95 5,12 5,25 5,37 4,67 5,15 5,45 5,66 5,82 5,95 6,07
120 3,86 4,35 4,64 4,85 5,01 5,14 5,25 4,62 5,07 5,34 5,53 5,68 5,79 5,89
240 3,83 4,31 4,59 4,79 4,95 5,07 5,18 4,56 4,99 5,25 5,44 5,58 5,69 5,79
TABLA Ñ
Tabla de transformaciones de rxy en Z de Fisher
r"' o Pzy z, o zp r"' o Pzy z, o zp r"' o Pzy z, o zp

0,00 0,0000 0,40 0,4236 0,80 1,0986
0,01 0,0100 0,41 0,4356 0,81 1,1270
0,02 0,0200 0,42 0,4477 0,82 1,1568
0,03 0,0300 0,43 0,4599 0,83 1,1881
0,04 0,0400 0,44 0,4722 0,84 1,2212
0,05 0,0500 0,45 0,4847 0,85 1,2562
0,06 0,0601 0,46 0,4973 0,86 1,2933
0,07 0,0701 0,47 0,5101 0,87 1,3331
0,08 0,0802 0,48 0,5230 0,88 1,3758
0,09 0,0902 0,49 0,5361 0,89 1,4219
0,10 0,1003 0,50 0,5493 0,90 1,4722
0,11 0,1104 0,51 0,5627 0,91 1,5275
0,12 0,1206 0,52 0,5763 0,92 1,5890
0,13 0,1307 0,53 0,5901 0,93 1,6584
0,14 0,1409 0,54 0,6042 0,94 1,7380
0,15 0,1511 0,55 0,6184 0,95 1,8318
0,16 0,1614 0,56 0,6328 0,960 1,9459
0,17 0,1717 0,57 0,6475 0,962 1,9721
0,18 0,1820 0,58 0,6625 0,964 1,9996
0,19 0,1923 0,59 0,6777 0,966 2,0287
0,20 0,2027 0,60 0,6931 0,968 2,0595
0,21 0,2132 0,61 0,7089 0,970 2,0923
0,22 0,2237 0,62 0,7250 0,972 2,1273
0,23 0,2342 0,63 0,7414 0,974 2,1649
0,24 0,2448 0,64 0,7582 0,976 2,2054
0,25 0,2554 0,65 0,7753 0,978 2,2494
0,26 0,2661 0,66 0,7928 0,980 2,2976
0,27 0,2769 0,67 0,8107 0,982 2,3507
0,28 0,2877 0,68 0,8291 0,984 2,4101
0,29 0,2986 0,69 0,8480 0,986 2,4774
0,30 0,3095 0,70 0,8673 0,988 2,5550
0,31 0,3205 0,71 0,8872 0,990 2,6467
0,32 0,3316 0,72 0,9076 0,992 2,7587
0,33 0,3428 0,73 0,9287 0,994 2,9031
0,34 0,3541 0,74 0,9505 0,996 3,1063
0,35 0,3654 0,75 0,9730 0,998 3,4534
0,36 0,3769 0,76 0,9962
0,37 0,3884 0,77 1,0203
0,38 0,4001 0,78 1,0454
0,39 0,4118 0,79 1,0714
TABLA O
Puntos críticos ( sp) para la prueba de Wilcoxon. Probabilidades acumuladas
n -'0.005 -'0.01 -'0.025 -'0.05 -'0.10 -'0,20 -'0,10 -'o,90 -'o,95 -'o,975 -'o.99 -'o.999
4 o o o o 1 3 7 9 10 10 10 10
s o o 1 o 3 4 11 12 14 1S 1S 1S
6 o 1 o 3 4 6 1S 17 18 20 21 21
7 o 1 3 4 6 9 19 22 24 2S 27 28
8 1 2 4 6 9 12 24 27 30 32 34 3S
9 2 4 6 9 11 1S 30 34 36 39 41 43
10 4 6 9 11 1S 19 36 40 44 46 49 Sl
11 6 8 11 14 18 23 43 48 S2 SS S8 60
12 8 10 14 18 22 28 so S6 60 64 68 70
13 10 13 18 22 27 33 S8 64 69 73 78 81
14 13 16 22 26 32 39 66 73 79 83 89 92
1S 16 20 26 31 37 4S 1S 83 89 94 100 104
16 20 24 30 36 43 Sl 8S 93 100 106 112 116
17 24 28 3S 42 49 S8 9S 104 111 118 12S 129
18 28 33 41 48 S6 66 lOS 11S 123 130 138 143
19 33 38 47 S4 63 74 116 127 136 143 1S2 1S1
20 38 44 S3 61 70 83 127 140 149 1S1 166 172
21 44 so S9 68 78 91 140 1S3 163 172 181 187
22 49 S6 67 76 87 100 1S3 166 177 186 197 204
23 SS 63 74 84 9S 110 166 181 192 202 213 221
24 62 70 82 92 lOS 120 180 19S 208 218 230 238
2S 69 77 90 101 114 131 194 211 224 23S 248 2S6
26 76 8S 99 111 12S 142 209 226 240 2S2 266 21S
27 84 94 108 120 13S 1S4 224 243 2S8 270 284 294
28 92 102 117 131 146 166 240 260 21S 289 304 314
29 101 111 127 141 1S8 178 2S1 277 294 308 324 334
30 110 121 138 1S2 170 191 274 29S 313 327 344 3SS
31 119 131 148 164 182 20S 291 314 332 348 36S 377
32 129 141 160 176 19S 219 309 333 3S2 368 387 399
33 139 1S2 171 188 208 233 328 3S3 373 390 409 422
34 149 163 183 201 222 248 347 373 394 412 432 446
3S 160 11S 196 214 236 263 367 394 416 434 4SS 470
36 172 187 209 228 2Sl 279 387 41S 438 4S1 479 494
37 184 199 222 242 266 29S 408 437 461 481 S04 S19
38 196 212 236 2S1 298 312 429 4S9 484 sos S29 S4S
39 208 22S 2SO 272 314 329 4S1 482 S08 S30 sss S12
40 221 239 26S 287 331 347 473 S06 S33 sss S81 S99
Para n > 40, los puntos críticos sP de la distribución del estadístico de Wilcoxon pueden
obtenerse utilizando la aproximación normal:
s, = [n(n + l)]/4 + z, J n(n + 1)(2n + 1)/24
TABLA P
Puntos críticos (up) para la prueba de Mann-Whitney. Probabilidades acumuladas
n, p n2 = 3 4 s 6 7 8 9 10 11 12 13 14 lS 16 17 18 19 20
0,001 6 6 66 6 6 6 6 6 6 6 6
6 6 7 7 7 7
O,OOS 6 6 6 6
6 6 7 7 7 8 8 8 9 9 9 9 10 10
3 0,01 6 6 6 6
7 7 8 8 8 9 9 9 10 10 11 11 11 12
0,02S 6 6 78 9 9 10 10 11 11 12 12
8 13 13 14 14 lS
o,os 7 7 89 10 11 11 12 12 13 14 14
9 IS 16 16 17 18
0,001 10 10 10 10 10 10 10 11 11 11 12 12 12 13 13 14 14 14
o,oos 10 10 10 11 11 12 12 13 13 14 14 IS 16 16 17 17 18 19
4 0,01 10 10 11 12 12 13 14 14 lS 16 16 17 18 18 19 20 20 21
0,02S 10 11 12 13 14 IS lS 16 17 18 19 20 21 22 22 23 24 2S
o,os 11 12 13 14 IS 16 17 18 19 20 21 22 23 2S 26 27 28 29
0,001 lS lS IS IS IS 16 17 17 18 18 19 19 20 21 21 22 23 23
o,oos IS lS 16 17 17 18 19 20 21 22 23 23 24 2S 26 27 28 29
s 0,01 lS 16 17 18 19 20 21 22 23 24 2S 26 27 28 29 30 31 32
0,02S 16 17 18 19 21 22 23 24 2S 27 28 29 30 31 33 34 3S 36
o,os 17 18 20 21 22 24 2S 27 28 29 31 32 34 3S 36 38 39 41
0,001 21 21 21 21 21 23 24 2S 26 26 27 28 29 30 31 32 33 34
0,005 21 22 23 24 25 26 27 28 29 31 32 33 34 35 37 38 39 40
6 0,01 21 23 24 25 26 28 29 30 31 33 34 35 37 38 40 41 42 44
0,025 23 24 25 27 28 30 32 33 35 36 38 39 41 43 44 46 47 49
0,05 24 25 27 29 30 32 34 36 38 39 41 43 45 47 48 50 52 54
0,001 28 28 28 29 30 31 32 34 35 36 37 38 39 40 42 43 44 45
0,005 28 29 30 32 33 3S 36 38 39 41 42 44 4S 47 48 so 51 S3
7 0,01 29 30 32 33 35 36 38 40 41 43 45 46 48 so 52 S3 SS S7
0,025 30 32 34 35 37 39 41 43 4S 47 49 SI 53 SS S7 S9 61 63
0,05 31 33 35 37 40 42 44 46 48 50 53 55 57 59 62 64 66 68
0,001 36 36 37 38 39 41 42 43 45 46 48 49 51 52 54 55 57 S8
0,005 36 38 39 41 43 44 46 48 50 52 54 55 57 59 61 63 65 67
8 0,01 37 39 41 43 44 46 48 50 52 54 56 59 61 63 65 67 69 71
0,025 39 41 43 45 47 50 52 54 56 59 61 63 66 68 71 73 75 78
0,05 40 42 45 47 50 52 55 S7 60 63 65 68 70 73 76 78 81 84
0,001 45 45 47 48 49 51 53 54 56 58 60 61 63 65 67 69 71 72
0,005 46 47 49 51 53 55 57 59 62 64 66 68 70 73 75 77 79 82
9 0,01 47 49 51 53 55 57 60 62 64 67 69 72 74 77 79 82 84 86
0,025 48 50 53 56 58 61 63 66 69 72 74 77 80 83 85 88 91 94
0,05 50 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100
0,001 55 56 57 59 61 62 64 66 68 70 73 75 77 79 81 83 85 88
0,005 56 58 60 62 65 67 69 72 74 77 80 82 85 87 90 93 95 98
10 0,01 57 59 62 64 67 69 72 7S 78 80 83 86 89 92 94 97 100 103
0,025 59 61 64 67 70 73 76 79 82 85 89 92 95 98 101 104 108 111
0,05 60 63 67 70 73 76 80 83 87 90 93 97 100 104 107 111 114 118
0,001 66 67 69 71 73 75 77 79 82 84 87 89 91 94 96 99 101 104
0,005 67 69 72 74 77 80 83 85 88 91 94 97 100 103 106 109 112 115
11 0,01 68 71 74 76 79 82 85 89 92 95 98 101 104 108 111 114 117 120
0,025 70 73 76 80 83 86 90 93 97 100 104 107 111 114 118 122 125 129
0,05 72 75 79 83 86 90 94 98 101 105 109 113 117 121 124 128 132 136
TABLA P (continuación)
n1 p n2 = 3 4 S 6 7 8 9 10 11 12 13 14 IS 16 17 18 19 20
0,001 78 79 81 83 86 88 91 93 96 98 102 104 106 110 113 116 118 121

o,oos 80 82 8S 88 91 94 97 100 103 106 110 113 116 120 123 126 130 133
12 0,01 81 84 87 90 93 96 100 103 107 110 114 117 121 12S 128 132 13S 139
0,02S 83 86 90 93 97 101 !OS 108 112 116 120 124 128 132 136 140 144 148
o.os 84 88 92 96 100 JOS 109 111 117 121 126 130 134 139 143 147 ISI 1S6
0,001 91 93 9S 97 100 103 106 109 112 11S 118 121 124 127 130 134 137 140
o,oos 93 9S 99 102 !OS 109 112 116 119 123 126 130 134 137 141 14S 149 1S2
13 0,01 94 97 101 104 108 112 llS 119 123 127 131 13S 139 143 147 lSl lSS 1S9
0,02S 96 100 104 108 112 116 120 12S 129 133 137 142 146 !Sl lSS 1S9 164 168
o.os 98 102 107 111 116 120 12S 129 134 139 143 148 1S3 IS7 162 167 172 176
0,001 lOS 107 109 112 llS 118 121 12S 128 131 13S 138 142 14S 149 IS2 IS6 160
o,oos 107 110 113 117 121 124 128 132 136 140 144 148 1S2 156 160 164 169 173
14 0,01 108 112 116 119 123 128 132 136 140 144 149 153 157 162 166 171 175 179
0,02S 111 115 119 123 128 132 137 142 146 lSI 156 161 165 170 175 180 184 189
o.os 113 117 122 127 132 137 142 147 1S2 IS7 162 167 172 177 183 188 193 198
0,001 120 122 125 128 133 135 138 142 145 149 1S3 1S7 161 164 168 172 176 180
o,oos 123 126 129 133 137 141 14S ISO 154 IS8 163 167 172 176 181 18S 190 194
IS 0,01 124 128 132 136 140 14S 149 IS4 1S8 163 168 172 177 182 187 191 196 201
0,02S 126 131 13S 140 14S ISO ISS 160 16S 170 175 180 185 191 196 201 206 211
o.os 128 133 139 144 149 154 160 16S 171 176 182 187 193 198 204 209 21S 221
0,001 136 139 142 14S 148 152 IS6 160 164 168 172 176 180 185 189 193 197 202
o,oos 139 142 146 ISO !SS IS9 164 168 173 178 182 187 192 197 202 207 211 216
16 0,01 140 144 149 1S3 158 163 168 173 178 183 188 193 198 203 208 213 219 224
0,02S 143 148 152 IS8 163 168 174 179 184 190 196 201 207 212 218 223 229 235
o.os 14S !SI IS6 162 167 173 179 18S 191 197 202 208 214 220 226 232 238 244
0,001 IS4 156 159 163 167 171 175 179 183 188 192 197 201 206 211 21S 220 224
o,oos 156 160 164 169 173 178 183 188 193 198 203 208 214 219 224 229 23S 240
17 0,01 IS8 162 167 172 177 182 187 192 198 203 209 214 220 22S 231 236 242 247
0,02S 160 16S 171 176 182 188 193 199 20S 211 217 223 229 23S 241 247 2S3 2S9
o.os 163 169 174 180 187 193 199 20S 211 218 224 231 237 243 2SO 2S6 263 269
0,001 172 17S 178 182 186 190 19S 199 104 209 214 218 223 228 233 238 243 248
O,OOS 174 178 183 188 193 198 203 209 214 219 22S 230 236 242 247 253 2S9 264
18 0,01 176 181 186 191 196 202 208 213 219 22S 231 237 242 248 2S4 260 266 272
0,02S 179 184 190 196 202 208 214 220 227 233 239 246 2S2 2S8 26S 271 278 284
o.os 181 188 194 200 207 213 220 227 233 240 247 2S4 260 267 274 281 288 29S
0,001 191 194 198 202 206 211 216 220 22S 231 236 241 246 251 257 262 268 273
O,OOS 194 198 203 208 213 219 224 230 236 242 248 254 260 26S 272 278 284 290
19 0,01 19S 200 206 211 217 223 229 23S 241 247 2S4 260 266 273 279 28S 292 298
0,02S 198 204 210 216 223 229 236 243 249 2S6 263 269 276 283 290 297 304 310
o.os 201 208 214 221 228 23S 242 249 256 263 271 278 285 292 300 307 314 321
0,001 211 214 218 223 227 232 237 243 248 2S3 2S9 26S 270 276 281 287 293 299
o,oos 214 219 224 229 23S 241 247 2S3 2S9 26S 271 278 284 290 297 303 310 316
20 0,01 216 221 227 233 239 245 251 2S8 264 271 278 284 291 298 304 311 318 32S
0,02S 219 225 231 238 24S 2Sl 259 266 273 280 287 294 301 309 316 323 330 338
o.os 222 229 236 243 2SO 2S8 26S 273 280 288 29S 303 311 318 326 334 341 349
TABLA Q
Puntos críticos para la prueba de Kruskal- Wallis
n, ni n3 h P(H ~ h) h P(H ~ h)
2 2 2 4,571 0,0667
3 2 2 4,714 0,0476
3 3 2 5,139 0,0607
3 3 3 5,600 0,0500
4 2 1 4,821 0,0571
4 2 2 5,125 0,0524
4 3 1 5,208 0,0500
4 3 2 5,400 0,0508
4 3 3 5,727 0,0505 6,745 0,0100
4 4 1 4,867 0,0540 6,667 0,0095
4 4 2 5,236 0,0521 6,873 O,ül08
4 4 3 5,576 0,0507 7,136 0,0107
4 4 4 5,692 0,0487 7,538 0,0107
5 2 1 5,000 0,0476
5 2 2 5,040 0,0556 6,533 0,0079
5 3 1 4,871 0,0516 6,400 0,0119
5 3 2 5,251 0,0492 6,822 0,0103
5 3 3 5,515 0,0507 7,079 0,0087
5 4 1 4,860 0,0556 6,840 0,0111
5 4 2 5,268 0,0505 7,118 0,0101
5 4 3 5,631 0,0503 7,445 0,0097
5 4 4 5,618 0,0503 7,760 0,0095
5 5 1 4,909 0,0534 6,836 0,0108
5 5 2 5,246 0,0511 7,269 0,0103
5 5 3 5,626 0,0508 7,543 0,0102
5 5 4 5,643 0,0502 7,823 0,0098
5 5 5 5,660 0,0509 7,980 0,0105
6 2 1 4,822 0,0478
6 3 1 4,855 0,0500 6,582 0,0119
6 3 2 5,227 0,0520 6,970 0,0091
6 3 3 5,615 0,0497 7,192 0,0102
6 4 1 4,947 0,0468 7,083 0,0104
6 4 2 5,263 0,0502 7,212 0,0108
6 4 3 5,604 0,0504 7,467 0,0101
6 4 4 5,667 0,0505 7,724 0,0101
6 5 1 4,836 0,0509 6,997 0,0101
6 5 2 5,319 0,0506 7,299 0,0102
6 5 3 5,600 0,0500 7,560 0,0102
6 5 4 5,661 0,0499 7,936 0,0100
6 5 5 5,729 0,0497 8,012 0,0100
6 6 1 4,857 0,0511 7,066 0,0103
6 6 2 5,410 0,0499 7,410 0,0102
6 6 3 5,625 0,0500 7,725 0,0099
6 6 4 5,721 0,0501 8,000 0,0100
6 6 5 5,765 0,0499 8,119 0,0100
6 6 6 5,719 0,0502 8,187 0,0102
7 7 7 5,766 0,0506 8,334 0,0101
8 8 8 5,805 0,0497 8,435 0,0101
Valor asintótico 5,991 0,0500 9,210 0,0100
TABLA Q (continuación)
n1 ni nl n4 h P(H ~ h) h P(H~h)
3 2 2 2 6,333 0,0476 7,133 0,0079

3 3 2 1 6,156 0,0560 7,044 0,0107
3 3 2 2 6,527 0,0492 7,636 0,0100
3 3 3 1 6,600 0,0493 7,400 0,0086
3 3 3 2 6,727 0,0495 8,015 0,0096
3 3 3 3 6,879 0,0502 8,436 0,0108
4 2 2 1 6,000 0,0566 7,000 0,0095
4 2 2 2 6,545 0,0492 7,391 0,0089
4 3 1 1 6,178 0,0492 7,067 0,0095
4 3 2 1 6,309 0,0494 7,455 0,0098
4 3 2 2 6,621 0,0495 7,871 0,0100
4 3 3 1 6,545 0,0495 7,758 0,0097
4 3 3 2 6,782 0,0501 8,333 0,0099
4 3 3 3 6,967 0,0503 8,659 0,0099
4 4 1 1 5,945 0,0495 7,500 0,0114
4 4 2 1 6,364 0,0500 7,886 0,0102
4 4 2 2 6,731 0,0487 8,308 0,0102
4 4 3 1 6,635 0,0498 8,218 0,0103
4 4 3 2 6,874 0,0498 8,621 0,0100
4 4 3 3 7,038 0,0499 8,867 0,0100
4 4 4 1 6,725 0,0498 8,571 0,0101
4 4 4 2 6,957 0,0496 8,857 0,0101
4 4 4 3 7,129 0,0502 9,075 0,0100
4 4 4 4 7,213 0,0507 9,287 0,0100
n1 ni nl n4 ns h P(H ~ h) h P(H ~h)
2 2 2 2 2 7,418 0,0487 8,291 0,0095

3 2 2 1 1 7,200 0,0500 7,600 0,0079
3 2 2 2 1 7,309 0,0489 8,127 0,0094
3 2 2 2 2 7,667 0,0508 8,682 0,0096
3 3 2 1 1 7,200 0,0500 8,055 0,0102
3 3 2 2 1 7,591 0,0492 8,576 0,0098
3 3 2 2 2 7,897 0,0505 9,103 0,0101
3 3 3 1 1 7,515 0,0538 8,424 0,0091
3 3 3 2 1 7,769 0,0489 9,051 0,0098
3 3 3 2 2 8,044 0,0492 9,505 0,0100
3 3 3 3 1 7,956 0,0505 9,451 0,0100
3 3 3 3 2 8,171 0,0504 9,848 0,0101
3 3 3 3 3 8,333 0,0496 10,200 0,0099
TABLAR
Puntos críticos para la prueba de Friedman
J n x2 P(x; ~x;) x; P(x; ~x;J

'
3 3 6,000 (0,0278)
4 6,500 (0,0417) 8,000 (0,0046)
5 6,400 (0,0394) 8,400 (0,0085)
6 7,000 (0,0289) 9,000 (0,0081)
7 7,143 (0,0272) 8,857 (0,0084)
8 6,250 (0,0469) 9,000 (0,0099)
9 6,222 (0,0476) 8,667 (0,0103)
10 6,200 (0,0456) 9,600 (0,0075)
11 6,546 (0,0435) 9,456 (0,0065)
12 6,167 (0,0510) 8,667 (0,0107)
13 6,000 (0,0501) 9,385 (0,0087)
14 6,143 (0,0480) 9,000 (0,0101)
15 6,400 (0,0468) 8,933 (0,0097)
Valor asintótico 5,991 (0,0500) 9,210 (0,0100)
4 3 7,400 (0,0330) 9,000 (0,0017)

4 7,800 (0,0364) 9,600 (0,0067)
5 7,800 (0,0443) 9,960 (0,0087)
6 7,600 (0,0433) 10,200 (0,0096)
7 7,800 (0,0413) 10,543 (0,0090)
8 7,650 (0,0488) 10,500 (0,0094)
5 3 8,53 (0,0455) 13,13 (0,0078)

4 8,8 (0,0489) 11,2 (0,0079)
5 8,96 (0,049) 11,52 (0,0100)
6 9,067 (0,049) 11,867 (0,0099)
7 9,143 (0,049) 12,114 (0,0100)
8 9,200 (0,050) 12,300 (0,0099)
6 3 9,857 (0,046) 11,762 (0,0095)

4 10,286 (0,047) 12,571 (0,0109)
5 10,486 (0,048) 13,229 (0,0099)
6 10,571 (0,049) 13,619 (0,0097)
TABLAS
Puntos críticos para el coeficiente de correlación r,
de Spearman
p = probabilidad acumulada = 1 - ix
n 0,95 0,975 0,99 0,995
4 1,000 • • •
5 0,900 1,000 1,000 •
1,000
6 0,829 0,886 0,943
7 0,714 0,786 0,893 0,929
8 0,643 0,738 0,833 0,881
9 0,600 0,700 0,783 0,833
10 0,564 0,648 0,745 0,794
11 0,536 0,618 0,709 0,755
12 0,503 0,587 0,678 0,727
13 0,484 0,560 0,648 0,703
14 0,464 0,538 0,626 0,679
15 0,446 0,521 0,604 0,654
16 0,429 0,503 0,582 0,635
TABLA T
Puntos críticos ('r:p) para el coeficiente de correlación t
de Kendall
p = probabilidad acumulada = 1 - oc
n 0,95 0,975 0,99 0,995
4 1,000 1,000 1,000 1,000

5 0,800 1,000 1,000 1,000
6 0,733 0,867 0,867 1,000
7 0,619 0,714 0,810 0,905
8 0,571 0,643 0,714 0,786
9 0,500 0,556 0,667 0,722
10 0,467 0,511 0,600 0,644
11 0,418 0,491 0,564 0,600
12 0,394 0,455 0,545 0,576
13 0,359 0,436 0,513 0,564
14 0,363 0,407 0,473 0,516
15 0,333 0,390 0,467 0,505
16 0,317 0,383 0,433 0,483
17 0,309 0,368 0,426 0,471
18 0,294 0,346 0,412 0,451
19 0,287 0,333 0,392 0,439
20 0,274 0,326 0,379 0,421
21 0,267 0,314 0,371 0,410
22 0,264 0,307 0,359 0,394
23 0,257 0,296 0,352 0,391
24 0,246 0,290 0,341 0,377
25 0,240 0,287 0,333 0,367
26 0,237 0,280 0,329 0,360
27 0,231 0,271 0,322 0,356
28 0,228 0,265 0,312 0,344
29 0,222 0,261 0,310 0,340
30 0,218 0,255 0,301 0,333
31 0,213 0,252 0,295 0,325
32 0,210 0,246 0,290 0,323
33 0,205 0,242 0,288 0,314
34 0,201 0,237 0,280 0,312
35 0,197 0,234 0,277 0,304
36 0,194 0,232 0,273 0,302
37 0,192 0,228 0,267 0,297
38 0,189 0,223 0,263 0,292
39 0,188 0,220 0,260 0,287
40 0,185 0,218 0,256 0,285
Glosario de
símbolos griegos
IX Nivel de significación en los contrastes de hipótesis.

Probabilidad asociada al error de tipo l.
Origen de la recta de regresión en el análisis de regresión lineal simple.
ac Tasa de error por comparación.
IXF Tasa de error por familia de comparaciones.
ixi Efecto del j-ésimo nivel del factor A en el ANOVA de uno y dos factores.
p Probabilidad asociada al error de tipo II.
Pendiente de la recta de regresión en el análisis de regresión lineal simple.
pk Efecto del k-ésimo nivel del factor B en el ANOVA de dos factores.
y Coeficiente de correlación gamma de Goodman y Kruskal.
{J Tamaño del efecto en los contrastes sobre medias.
~ Tamaño del efecto corregido por el tamaño muestral.
e2 Medida del tamaño del efecto en los modelos de ANOVA.
11 2 Medida del tamaño del efecto en los modelos de ANOVA.
() Notación genérica para un parámetro cualquiera.
K Índice de acuerdo kappa de Cohen.
A. Parámetro de no centralidad.
Medida de reducción proporcional del error lambda de Goodman y Kruskal.
µ Media poblacional.
µx Media de la distribución muestral de la media.
v Notación genérica para los grados de libertad.
n: Proporción poblacional.
Px, Coeficiente de correlación de Pearson en la población.
u Desviación típica poblacional.
u2 Varianza poblacional.
ux Error típico de la distribución muestral de la media.
r Coeficiente de correlación tau de Kendall.
Medida de reducción proporcional del error tau de Goodman y Kruska1.
<P Parámetro de no centralidad.
Medida de asociación phi (basada en el estadístico X 2 de Pearson).
x2 Distribución de probabilidad ji-cuadrado.
w2 Medida del tamaño del efecto en los modelos de ANOVA.
Referencias bibliográficas
Agresti, A. (1984): Analysis of ordinal categorical data, Nueva York: Wiley.

Agresti, A. (1990): Categorical data analysis, Nueva York: Wiley.
Amón, J. (1979): Estadística para psicólogos, vol. 1 (2.ª ed.), Madrid: Pirámide.
Amón, J. (1984): Estadística para psicólogos, vol. 2 (3.ª ed.), Madrid: Pirámide.
Azorin, F., y Sánchez Crespo, J. L. (1986): Métodos y aplicaciones del muestreo, Madrid:
Alianza.
Bangert, R.; Kulik, J. A., y Kulik, C. L. C. (1983): «Effect of coaching programs on
achievement test performance», Review of Educational Research, 53, 571-585.
Bechhofer, R. E., y Dunnett, C. W. (1982): «Multiple comparisons for ortogonal contrasts:
Examples and tables», Technometrics, 24, 213-222.
Bishop, Y. M. M.; Fienberg, S. E., y Holland, P. W. (1975): Discrete multivariate analysis:
Theory and practice, Cambridge, MA: The MIT Press.
Blair, R. C., y Higgins, J. J. (1985): «Comparison of the power of the paired samples t test to that
of Wilcoxon's signed-ranks test under various population shapes», Psychological Bul/etin,
97, 119-128.
Blair, R. C.; Higgins, J. J., y Smitley, D. S. (1980): «On the relative power of the U and t
tests», British Journal of Mathematical and Statistical Psychology, 33, 114-120.
Boneau, C. A. (1960): «Test of violations of assumptions underlying the t test», Psychological
Bul/etin, 57, 49-64.
Botella, J.; León, O. G., y San Martín, R. (1993): Análisis de datos en psicología /, Madrid:
Pirámide.
Box, G. E. P. (1953): «Non-normality and tests on variance», Biometrika, 40, 318-335.
Box, G. E. P. (1954a): «Sorne theorems on quadratic forms applied in the study of analysis of
variance problems: l. Effects of inequality of variance in the one-way classificatiom>,
Annals of Mathematical Statistics, 25, 290-302.
Box, G. E. P. (1954b): «Sorne theorems on quadratic forms applied in the study of analysis of
variance problems: 11. Effects of inequality of variance and of correlation between errors
in the two-way classification», Annals of Mathematical Statistics, 25, 484-498.
Brown, M., y Forsythe, A. (1974a): «Robust tests for the equality of variances», Journal of the
American Statistical Association, 69, 364-367.
Brown, M., y Forsythe, A. (1974b): «The ANOVA and multiple comparisons for data with
heterogeneous variances», Biometrics, 30, 719-724.
Bryk, A. S., y Raudenbush, S. W. (1988): «Heterogeneity of variance in experimental studies:
A challenge to conventional interpretations», Psychological Bul/etin, 104, 396-404.
Carroll, R. M., y Nordholm, L. A. (1975): «Sampling characteristics of Kelley's e2 and Hays's
w 2 », Educational and Psychological Measurements, 35, 541-554.
Cochran, W. G. (1950): «The comparison of percentages in matched samples», Biometrika, 37,
256-266.
600 / Bibliografía
Cochran, W. G., y Cox, G. M. (1957): Experimental designs (2.ª ed.), Nueva York: Wiley.
Cohen, J. (1960): «A coefficient of agreement for nominal scales», Educational and Psicho-
logical Measurement, 20, 37-46.
Cohen, J. (1966): «Sorne statistical issues in psychological research», en B. B. Wolman (ed.):
Handbook of clinical psychology, Nueva York: McGraw-Hill.
Cohen, J. (1969): Statistical power analysis for the behavioral sciences, Nueva York: Academic
Press.
Cohen, J. (1976): «The distribution of the chi-squared statistic under clustered sampling from
contingency tables», Journal of the American Statistical Association, 71, 665-670.
Cohen, J. (1977): Statistical power analysis for the behavioral sciences (ed. revisada), Nueva
York: Academic Press.
Cohen, J. (1988): Statistical power analysis for the behavioral sciences (2.ª ed.), Nueva York:
Academic Press.
Cohen, J. (1993): «A power primer», Psychological Bulletin, 112, 155-159.
Conover, W. J. (1980): Practica/ nonparametric statistics (2.ª ed.), Nueva York: Wiley.
Conover, W. J.; Johnson, M. E., y Johnson, M. M. (1981): «A comparative study of test for
homogeneity of variances with applications to the outer continental self bidding data»,
Technometrics, 23, 351-361.
Coombs, C. H.; Daves, R. M., y Tversky, A. (1981): Introducción a la psicología matemática,
Madrid: Alianza (original en inglés: Mathematical psychology. An elementary introduction,
Nueva York: Prentice-Hall, 1970).
Chambers, J. M.; Cleveland, W. S.; Kleiner, B., y Tukey, P. A. ( 1983): Graphical methods for
data analysis, Belmont, CA: Wadsworth. .
Davis, J. A. (1985): The logic of causal order, Beverly Hills, CA: Sage.
Dunn, C. W. (1961): «Multiple comparisons among means», Journal of the American
Statistical Association, 56, 52-64.
Dunnett, C. W. ( 1955 ): «A multiple comparison procedure for comparing severa( treatments
with a control», Journal <f the American Satistical Association, 50, 1096-1121.
Dunnett, C. W. (1980a): «Pairwise multij:>le. ~mparisons in the homogeneous variance, une-
qual sample size case», Journal of the American Statistical Association, 75, 789-795.
Dunnett, C. W. (1980b): «Pairwise multiple comparisons in the unequal variance case»,
Journal of the American Statistical Association, 75, 795-800.
Einot, l., y Gabriel, K. R. (1975): «A study of the powers of several methods of multiple
comparisons», Journal of the American Statistical Association, 70, 574-583.
Felzenbaum, A.; Hart, S., y Hochberg, Y. (1983): «lmproving sorne multiple comparison
procedures», Anna/s of Statistics, 11, 121-128.
Fenstad, G. U. (1983): «A comparison between U and V tests in the Behrens-Fisher problem»,
Biometrika, 70, 300-302.
Festinger, L. (1946): «The significance of difference between means without reference to the
frequency distribution function», Psycometrika, 11, 97-105.
Fienberg, S. E. (1980): The analysis of cross-classified categorial data (2.ª ed.), Cambridge,
MA: The MIT Press.
Fisher. R. A. ( 1921 ): «Ün the probable error of a coeficient of correlation deduced from a small
sample». Metrom. J, 3, 32.
Fisher, R. A. (l 922a): «On the mathematical foundations of theoretical statistics», Philosophi-
cal Transactions of the Royal Society of London, 222, 309-368.
Fisher, R. A. (1922b). «On the interpretation of chi square from contingency tables, and the
calculation of P», Journal of the Royal Statistical Society, 85, 87-94.
Bibliografía / 601
Fisher, R. A. (1924): «The conditions under which X 2 measures the discrepancy between
observation and hypothesis», Journal of the Royal Statistical Society, 87, 442-450.
Fisher, R. A. (1925): Statistical methods for research workers, Edimburgo: Oliver and Boyd.
Fisher, R. A. (1955): «Statistical methods and scientific induction», Journal of the Royal
Statistical Society, 17, 69-78.
Fleiss, J. L. (1981): Statistical methods for rates and proportions, Nueva York: Wiley.
Fleiss, J. L.; Cohen, J., y Everitt, B. S. (1969): «Large sample standard errors of kappa
and weighted kappa>>, Psychological Bulletin, 72, 323-327.
Fowler, R. L. (1985): «Point estimates and confidence intervals in measures of association»,
Psychological Bulletin, 98, 160-165.
Friedman, H. (1968): «Magnitude of experimental effect anda table for its rapid estimation»,
Psychological Bulletin, 70, 245-251.
Friedman, M. (1937): «The use of ranks to avoid the assumtion of normality implicit in the
analysis of variance», Journal of the American Statistical Association, 61, 1081-1096.
Games, P. A., y Howell, J. F. (1976): «Pairwise multiple comparison procedures with unequal
n's and/or variances: A Monte Cario study», Journal of Educational Statistics, l. 113-
125.
Games, P. A.; Keselman, H. J., y Rogan, J. C. (1981): «Simultaneous pairwise multiple
comparison procedures for means when sample sizes are unequal», Psychological Bulletin,
90. 594-598.
Geisser, S., y Greenhouse, S. W. (1958): «An extension of Box' results on the use of F
distribution in multivariate analysis», Annals of Mathematical Statistics, 29, 885-891.
Gibbons, R. D.; Hedeker, D. R., y Davis, J. M. (1993): «Estimation of effect size from a series
of experiments involving paired comparisons», Journal of Educational Statistics, 18, 271-
279.
Glass, G. V. (1976): «Primary, secondary and metanalysis of research», Educational Resear-
cher, 5, 3-8.
Glass, G. V.; Peckham, P. D., y Sanders, J. R. (1972): «Consequences of failure to meet
assumptions underlying the fixed effects analysis of variance and covariance», Review of
Educational Research, 42. 237-288.
Glass, G. V., y Stanley, J. C. (1986): Métodos estadísticos aplicados a las ciencias sociales,
Madrid: Prentice-Hall (original en inglés: Statistical methods in educational and psycho-
logy, Englewood Cliffs, NJ: Prentice-Hall, 1970).
Goodman, L. A. (1968): «The analysis of cross-classified data: Independence, quasi-indepen-
dence, and interactions in contingency tables with or without missing data», Journal of
the American Statistical Association, 63, 1091-1131.
Goodman, L. A., y Kruskal, W. H. (1979): Measures of association for cross-classifications,
Nueva York: Springer-Verlag.
Haberman, S. J. (1973): «The analysis of residuals in cross-classification tables», Biometrics,
29, 205-220.
Haberman, S. J. (1978): Analysis of qualitative data. 1: lntroductory topics, Nueva York:
Academic Press.
Haberman, S. J. (1979): Analysis of qualitative data. 2: New developments, Nueva York:
Academic Press.
Hartley, H. O. (1940): «Testing the homogeneity of a set of variances», Biometrika, 31, 249-
255.
Hartley, H. O. (1950): «The maximum F-ratio as a short-cut test for heterogeneity of
variance», Biometrika, 37, 308-312.
602 / Bibliografía
Harwell, M. R.; Rubinstein, E. N.; Hayes, W. S., y Olds, C. C. (1992): «Summarizing Monte
Cario results in methodological research: The one- and two-factor fixed effects ANOVA
cases», Journal of Educational Statistics, 17, 315-339.
Hays, W. L. (1963): Statistics, Nueva York: Holt, Rinehart and Winston.
Hays, W. L. (1995): Statistics (5.ª ed.), Nueva York: Holt, Rinehart and Winston.
Hayter, A. J. ( 1984): «A proof of a conjeture that the Tukey-Kramer multiple comparison
procedure is conservative», Annals o.f Statistics, 12, 61-75.
Hedges, L. V. ( 1981 ): «Distribution theory for Glass's estimator of effect size and related
estimators», Journal of Educationa/ Statistics. 6, 107-128.
Hedges, L. V. ( 1982): «Estimation of efTect size from a series of independent experiments»,
Psycholoyical Bulletin, 91, 490-499.
Hedges, L. V., y Olkin, l. ( 1984): «Nonparametric estimators of efTect size in meta-analysis»,
Psycho/oyical Bulletin, 96, 573-580.
Hempel, C. G. ( 1984): Filos<?fla de la ciencia ntltural, Madrid: Alianza (original en inglés:
Philosophy <?f natural science, Nueva York: Prentice-Hall, 1966).
Hochberg, Y. (1974): «Sorne generalizations of the T-method in simultaneous inference»,
Journal of Multivariate Analysis, 4, 224-234.
Hochberg, Y., y Tamhane, A. C. (1987): Mu/tiple comparison procedures, Nueva York: Wiley.
Holland, B. S., y Copenhaver, M. D. (1988): «lmproved Bonferroni-type multiple testing
procedures», Psycholoyical Bulletin, 104, 145-149.
Holm, S. ( 1979): «A simple sequentially rejective multiple test procedure», Scandinavian
Journal of Statistics. 6, 65-70.
Horsnell, G. ( 1953): «The efTect of unequal groups variances on the F-test for homogeneity of
group means», Biometrika, 40. 128-136.
Hotelling, H. ( 1931 ): «The generalization of Student's ratio», Annals <?f Mathematical
Statistics, 2, 360-378.
Howell, D. C. (1992): Statistical methods .for psyclwloyy (3.ª ed.). Boston: PWS-Kent Publis-
hing Company.
Huynh, H., y Feldt, L. S. (1970): «Conditions under which mean square ratios in repeated
measurements designs have exact F-distribution», Journal of the American Statistica/
Association. 65. 1582-1589.
Huynh, H., y Feldt, L. S. (1976): «Estimation of the Box correction for degrees of freedom
from sample data in randomized block and split-plot design», Journal o.f Educational
Statistics, 1, 69-82.
Huynh, H., y Mandeville, G. K. (1979): «Validity conditions in repeated measures designs»,
Psycholoyical Bt1/letin, 86. 964-973.
Iman, R. L., y Conover, W. J. (1983): A moclern approach to statistics, Nueva York: Wiley.
Iman, R. L., y Davenport, J. M. ( 1980): «Approximations of the critica( region of the
Friedman statistics», Communications in Statistics. A9. 571-595.
Jaccard, J. J.; Becker, M. A., y Wood, G. (1984): «Pairwise multiple comparison procedures:
A review», Psycholoyical Bulletin, 96, 589-596.
Jáñez, L. ( 1989): Fundamentos de psicología matemática. Madrid: Pirámide.
Johnson, N. L., y Kotz, S. ( 1969): Distrihutions in statistics: Discrete clistrihutions. Nueva
York: Wiley.
Kelley, T. L. (1935): «An unbiased correlation ratio measure», Proceedings o.f the National
Academy o.f Sciences, 21, 554-559.
Kendall, M. G. (1938): «A new measure of rank correlation», Biometrika, 30, 81-93.
Kendall, M. G. (1963): Rank corre/ation methods (3.ª ed.), Londres: Griffin.
Kendall, M. G., y Babington-Smith, B. (1939): «The problem of m rankings», The Annals o.f
Mathematical Statistics. 10. 275-287.
Bibliografía / 603
Kenny, D. A., y Judd, Ch. M. (1986): «Consequences of violating the independence assump-
tion in analysis of variance», Psychological Bulletin, 99. 422-431.
Keppel, G. (1991): Design and analysis: A researcher's handbook (3.ª ed.), Englewood Cliffs,
NJ: Prentice-Hall.
Keselman, H. J. (1994): «Stepwise and simultaneous multiple comparison procedures of re-
peated measures' means», Journal of Educational Statistics, 19, 127-162.
Keselman, H. J.; Games, P. A., y Rogan, J. C. (1979): «An addendum to "A comparison ofthe
modified Tukey and Scheffé methods of multiple comparisons for pairwise contrasts»,
Journal of the American Statistical Association, 74, 626-627.
Keselman, H. J.; Keselman, J. C., y Games, P. A. (1991): «Maximum familywise type 1 error
rate: The least significant differende, Newman-Keuls, and other multiple comparison
procedures», Psychological Bulletin, 1JO, 155-161.
Keselman, H. J.; Keselman, J. C., y Shaffer, J. P. (1991): «Multiple pairwise comparisons of
repeated measures means under violation of multisample sphericity», Psychological
Bulletin, 11 O, 162-170.
Keselman, H. J.; Lix, L. M., y Kowalchuk, R. K. (1998): «Multiple comparison procedures
for trimmed means», Psychological Methods, 3, 123-141.
Keselman, H. J., y Rogan, J. C. (1978): «A comparison of the modified Tukey and Scheffé
methods of multiple comparisons», Journal of the American Statistical Association, 73, 47-52.
Keselman, H. J.; Rogan, J. C.; Mendoza, J. L., y Breen, L. J. (1980): «Testing the validity
conditions of repeated measures F tests», Psychological Bulletin, 87. 479-481.
Keuls, M. (1952): «The use of studentized range in connection with an analysis of variance»,
Euphytica, 1, 112-122.
Kirk, R. E. (1978): lntroductory statistics, Monterey, CA: Wadsworth.
Kirk, R. E. (1982): Experimental design. Procedures for the behavioral sciences (2.ª ed.),
Belmont, CA: Brooks/Cole.
Kirk, R. E. (1995): Experimental design: Procedures for the behabioral sciences (3.ª ed.),
Belmont, CA: Brooks/Cole.
Klayman, J., y Ha, Y-W. (1987): «Confirmation, disconfirmation and information in hypothe-
sis testing», Psychological Bulletin. 94, 211-228.
Kohr, R. L., y Games, P. A. (1974): «Robustness of analysis of variance, the Welch procedure,
anda Box procedure to heterogeneous variances», Journal of Experimental Education, 43,
61-69.
Kohr, R. L., y Games, P. A. (1977): «Testing complex a priori contrasts in means from
independent samples», -Journal of Educational Statistics, 1, 207-216.
Kraemer, H. C., y Andrews, G. (1982): «A nonparametric technique for meta-analysis effect
size calculation», Psycho/ogica/ Bulletin, 91, 404-412.
Kramer, C. Y. (1956): «Extension of multiple range test to group means with unequal
numbers of replications», Biometrics, 12, 307-310.
Krantz, D. H.; Luce, R. D.; Suppes, P., y Tversky, A. (1971): Foundations of measurement. 1:
Additive and polynomial representation, Nueva York: Academic Press.
Kruskal, W. H. (1958): «Ordinal measures of associatiom>, Journal of the American Statistical
Association, 53, 814-861.
Kruskal, W. H., y Wallis, W. A. (1952): «Use of ranks on one-criterion variance analysis»,
Journal of the American Statistical Association, 47, 583-621 (aparecen correcciones en el
volumen 48, págs. 907-911).
KvAlseth, T. O. (1991): «A coefficient of agreement for nominal sacales: An asymetric version
of kappa», Educational and Psychological Measurement, 51, 95-101.
604 / Bibliografía
Landis, J. R., y Koch, G. G. (1977): «The measurement of observer agreement for catego-
rical data», Biometrics, 33, 159-174.
León, O. G. (1984): «El uso del término "significativo" en los informes experimentales»,
Revista de Psicología General y Aplicada, 39, 455-469.
León, O. G., y Montero, l. (1997): Diseño de investigaciones. Introducción a la lógica de la
investigación en psicología y educación (2.ª ed.), Madrid: McGraw-Hill.
Levene, H. (1960): «Robust tests for the equality of variance», en J. Olkin (ed.): Contributions
to probabi/ity and statistics, Palo Alto, CA: Stanford University Press.
Levy, P. (1967): «Substantive significance ofsignificant differences between groups», Psycholo-
gical Bulletin, 67, 37-40.
Lewis, P. A. W., y Orav, E. J. (1989): Simulation methodology for statisticians, operation
analysts, and engineers, Belmont, CA: Wadsworth.
Lilliefors, H. W. (1967): «Ün the Kolmogorov-Smirnov test for normality with mean and
variance unknown», Journal of the American Statistical Association, 62, 399-402.
Little, R. J. A., y Rubín, D. B. (1987): Statistical analysis with missing data, Nueva York:
Wiley.
Luce, R. D. y Krumhansl, C. L. (1988): «Measurement scaling and psychophysics», en R. L.
Atkinson, R. J. Herrnstein, G. Luce y R. D. Luce (eds.): Stevens' handhook of experimen-
tal psychology (vol. 1), Nueva York: Wiley.
Mann, H. B., y Whitney, D. R. (1947): «On a test of whether one of two random variables is
stochastically larger than the other», Annals of Mathematical Statistics, 18, 50-60.
Marascuilo, L. A., y Busk, P. L. (1987): «Log-linear models: A way to study main effects and
interactions for multidimensional contingency tables with categorical data», Journal of
Counseling Psychology, 34, 443-455.
Marascuilo, L. A., y McSweeney, M. (1977): Nonparametric and distribution-free methods,
Monterrey, CA: Brooks/Cole.
Marascuilo, L. A., y Serlin, R. C. (1990): Statistical methods for the social and behavioral
sciences, Nueva York: Freeman.
Mauchly, J. W. (1940): «Significance test for sphericity of a normal n-variate distribution»,
Annals of Mathematical Statistics, 11. 204-209.
Maxwell, S. E. (1980): «Pairwise multiple comparisons in repeated measures designs», Journal
of Educational Statistics, 5, 269-287.
Maxwell, S. E.; Camp, C. J., y Arvey, R. D. (1981): «Measures of strength of association:
. A comparative examination», Journal of App/ied Psychology, 66, 525-534.
Maxwell, S. E., y Delany, H. D. (1990): Designing experiments and analyzing data, Belmont,
CA: Wadsworth.
McGraw, K.O., y Wong, S. P. (1992): «A common language effect size statistic», Psychologi-
cal Bulletin, 111. 361-365.
McNemar, Q. (1947): «Note on the sampling error of the difference between correlated
proportions or percentages», Psychometrika, 12, 153-157.
Miller, R. G. Jr. (1981): Simultaneous statistical inference (2.ª ed.), Nueva York: McGraw-Hill.
Narens, L. y Luce. R. D. ( 1986): «Measurement: The theory of numcrical assignmcnts»,
P.1yc/10l0Kical Bulletin, 99, 166-180.
Newman, D. (1939): «The distribution of the range in samples of a normal population, ex-
pressed in terms of an independent estímate of standard deviation», Biometrika, 31, 20-30.
Neyman, J., y Pearson, E. S. (1928): «On the use and interpretation of certain test criteria for
purposes of statistical inference» (2.ª parte), Biometrika, 20, 263-294.
Neyman, J., y Pearson, E. S. (1932): «The testing of statistical hypotheses in relation to
probabilities a priori», Procedings of the Cambridge Philosophical Society, 29, 492-516.
Bibliografía / 605
Neyman, J., y Pearson, E. S. (1933): «On the problem of the most efficient test of statistical
hipotheses», Philosophical Transactions of the Royal Society, 231, 284-337.
Nijsse, M. (1988): «Testing the significance of Kendall's t and Spearman's r,», Psychological
Bulletin, 103, 235-237.
O'Brien, R. G. (1981): «A simple test for variance efTects in experimental designs», Psycho/ogi-
cal Bulletin, 89, 570-574.
O'Grady, K. E. (1982): «Measures of explained variance: Cautions and limitations», Psycho/o-
gical Bulletin, 92, 766-777.
Pardo, A., y Alonso, J. (1990): Motivar en el aula, Madrid: Ediciones de la Universidad
Autónoma.
Pardo, A., y San Martín, R. (1994): Análisis de datos en Psicología 11 (l.ª ed.), Madrid:
Pirámide.
Pearson, K. (1905): «On the theory of skew correlations and nonlinear regression. Mathema-
tical contributions to the theory of evolution», Biometric Laboratory Publications,
Londres: Cambridge University Press.
Pearson, K. (1911): «Ün the probability that two independent distributions of frequency are
really samples from the same population», Biometrika, 8, 250-254.
Peña, D. (1986): Estadística. Modelos y métodos. /: Fundamentos, Madrid: Alianza.
Pereda, S. (1987): Psicología experimental. /: Metodología, Madrid: Pirámide.
Peters, C. C., y Van Voorhis, W. R. (1940): Statistical procedures and their mathematical bases,
Nueva York: McGraw-Hill.
Pfanzagl, J. (1968): Theory of measurement, Nueva York: Wiley.
Popper, K. (1982): La lógica de la investigación científica (7.ª ed.), Madrid: Tecnos (original en
inglés: The logic of scientific discovery, Londres: Hutchinson, 1959).
Posner, K. L.; Sampson, P. D.; Captan, R. A.; Ward. R. J., y Chendly F. W. (1990): «Mea-
suring interrater reliability among multiple raters: An example of methods for nominal
data», Statistics in Medicine, 9, 1103-1116.
Ramsey, P. (1980): «Exact type 1 error rates for robustness ofStudent's t test with unequal
variances», Journal of Educational Statistics, 5, 337-349.
Rao, C. R. (1973): Linear statistical inference and its applications (2.ª ed.), Nueva York: Wiley.
Richardson, J. T. E. (1990): «Variants of chi-square for 2 x 2 contingency tables», British
Journal of Mathematical and Statistical Psychology, 43, 309-326.
Ríos, S. (198S): Métodos estadísticos (l.ª ed., 3.ª reimp.), Madrid: Ediciones del Castillo.
Roberts, F. S. (1979): Measurement theory, Reading, MA: Addison-Wesley.
Rogan, J., y Keselman, H. (1977): «Is the ANOVA F-test robust to variance heterogeneity
when sample sizes are equal? An investigation via a coeficient of variation», American
Educational Research Journal, 14, 493-498.
Rosenthal, R. (1984): Meta-analytic procedures for social research, Beverly-Hills, CA: Sage.
Rosenthal, R., y Rosnow, R. L. (1991): Essentials of behavioral research: Methods and data
analysis (2.ª ed.), Nueva York: McGraw-Hill.
Rosenthal, R., y Rubin, D. B. (1982): «A simple, general pourpose display of magnitude of
experimental efTect», Journal of Educational Psychology, 74, 166-169.
Rosenthal, R., y Rubin, D. B. (1984): «Multiple contrasts and ordered Bonferroni procedu-
res», Journal of Educational Psychology, 76, 1028-1034.
Rouanet, H., y Lépine, D. (1970): «Comparisons between treatments in a repeated-measures
design: ANOVA and multivariate methods», The British Journal of Mathematical and
Statistical Psycho/ogy, 23, 147-163.
Ryan, T. A. (1960): «Significance tests for multiple comparisons of proportions, variances and
other statistics», Psycho/ogical Bulletin, 57, 318-328.
606 / Bibliografía
San Martín, R.; Espinosa, L., y Fernández, L. (1987): Psicoestadística. Estimación y contraste,
Madrid: Pirámide.
San Martín, R., y Pardo, A. (1989): Psicoestadística. Contrastes paramétricos y no paramétri-
cos, Madrid: Pirámide.
Satterthwaite, F. E. (1946): «An approximate distribution of estimates of variance compo-
nents», Biometrics. 2, 110-114.
Sawilowsky, S., y Blair, R. C. (1992): «A more realistic look at the robustness and type JI
error properties of the t test to departures from population normality», Psychological
Bulletin. 111. 352-360.
Scheffé, H. A. ( 1953): «A method for judging ali possible contrasts in the analysis of variance»,
Seaman, M. A.; Levin, J. R., y Serlin, R. C. (1991): «New developments in pairwise multiple
comparisons: Sorne powerfull and practicable procedures», Psychological Bulletin. 1 JO,
577-586.
Shaffer, J. P. ( 1986): «Modified sequentially rejective multiple test procedures», Journal of the
American Statistical Association. 81. 826-831.
Sidák, Z. (1967): «Rectangular confidence regions for the means of multivariate normal
distributions», Journal qf' the American Statistical Association. 62. 626-633.
Snedecor, G. W., y Cochran, W. G. (1967): Statistica/ methods (6.ª ed.), Ames, IA: lowa State
University.
Spearman, C. ( 1904): «The proof and measurement of association between two things»,
American Journal <f Psychology, 15. 72-101.
SPSS Inc. (1998): SPSS Base for Windows: User's guide, Chicago, IL: SPSS Inc.
Steiger, J. H. ( 1980): «Tests for comparing elements of a correlation matrix», Psychologica/
Bulletin. 87, 245-251.
Stevens, S. S. ( 1946): «Ün the theory of scales of measurement», Science, 103, 677-680.
Stevens, S. S. ( 1951 ): «Mathematics, measurement and psychophysics», en S. S. Stevens (ed.):
Handhook of' experimenta/ psychology, Nueva York: Wiley.
Stevens, S. S. ( 1959): «Measurements, psychophysics and utility», en C. W. Churchman
y P. Ratoosh (eds.): Measurement: De.finitions and theorems. Nueva York: Wiley.
Stoline, M. (1981): <<The status of multiple comparisons: Simultaneous estimation of ali
pairwise comparisons in one way ANOVA», American Statistician. 3. 134-142.
Student (1927): «Errors of routine analysis», Biometrika, 19, 151-164.
Suppes, P., y Zinnes, J. L. (1963): «Basic measurement theory», en R. C. Luce y E. Galanter
(eds.): Handhook of' mathematica/ psycho/ogy (vol. 1), Nueva York: Wiley.
Tamhane, A. C. (1977): «Multiple comparisons in model 1 one-way ANOVA with unequal
variances», Communications in Statistics, A6(1), 5-32.
Tamhane, A. C. ( 1979): «A comparison of procedures for multiple comparisons of means with
unequal variances», Journal of' the American Statistical Association. 74. 471-480.
Thurstone, L. L. (1927): «A law of comparative judgement», Psychological Review, 34, 273-
286.
Tomarken, A. J., y Serlin, R. C. ( 1986): «Comparison of A NOVA alterna ti ves under variance
heterogeneity and specific noncentrality structures», Ps_vchological Bul/etin. 99, 90-99.
Toothaker, L. ( 1991 ): Mu/tiple comparisons .fór researchers. Newbury Park, CA: Sage.
Tukey, J. W. (1953): The prohlem of' mu/tiple comparisons. Ditto: Princeton University.
Wallis, W. A. ( 1939): <<The correlation ratio for ranked data», Journal qf' the American
Statistirnl Association, 34. 533-538.
Welch, B. L. ( 1938): «The significance of the difference between two means when the
population variances are unequal», Biometrika, 29. 350-362.
Bibliografía / 607
Welch, B. L. ( 1947): «The generalization of Student's problem when several difference

population variances are involved», Biometrika. 34, 29-35.
Welch, B. L. (1951): «Ün the comparison of severa) mean values: An alternative approach»,
Welsch, R. E. (1977): «Stepwise multiple comparison procedures», Journal of the American
Statistical Association, 72, 566-575.
Wickens, Th. D. (1989): Multiway contingency tables analysisfor the social sciences, Hillsdale,
New Jersey: LEA.
Wilcox, R.; Charin, V., y Thompson, K. (1986): «New Monte Cario results on the robustness
of ANOV A F, W, and F* statistics», Communications in Statistics - Simulation and
Computation, 15, 933-944.
Wilcox, R. R. (1997): «Three multiple comparison procedures for trimmed means», Biome-
trical Journal, 37, 643-656.
Wilcoxon, F. (1945): «Individual comparisons by ranking methods», Biometrics, 1, 80-83.
Williams, E. J. (1959): «The comparison of regression variables», Journal of the Royal
Statistical Society (Series B ), 21. 396-399.
Wilson, E. B., y Hilferty, M. M. (1931): «The distribution of chi-square», Proceedings of
National Academy of Sciences, 17, 684-688.
Winer, B. J. (1971): Statistical principies in experimenta/ design (2.ª ed.), Nueva York:
McGraw-Hill.
Winer, B. J.; Brown, D. R., y Michels, K. M. (1991): Statistical principies in experimental
design (3.ª ed.), Nueva York: McGraw-Hill.
Wonnacott, T. H., y Wonnacott, R. J. (1990): lntroductory statistics (5.ª ed.), Nueva York:
Wiley.
Zar, J. H. (1972): «Significance testing of the Spearman rank correlation coeficient», Journal
of the American Statistical Association, 67, 578-580.
Zar, J. H. (1984): Biostatistical analysis (2.ª ed.), Englewood Cliffs, NJ: Prentice-Hall.
Zwick, R. (1988): «Another iook at interrater agreement», Psychological Bulletin, 103, 374-
378.
Índice de materias
A modelo de regresión lineal simple, 390-391

regresión en formato ANOV A, 395-397
A posteriori, comparaciones (ver Comparacio- relación entre Py r xy• 398
nes múltiples a posteriori) supuestos del modelo de regresión, 391
A priori, comparaciones (ver Comparaciones variable dependiente o criterio, 389
múltiples a priori) variable independiente o predictora, 389
Acuerdo (ver Índices de acuerdo) Análisis de varianza (ANOVA), 231
Aditividad (ver Supuestos de un contraste) ANOVA por rangos con muestras indepen-
Afijación (ver Muestreo aleatorio estratifi- dientes (ver Kruskal-Wallis)
cado) ANOVA por rangos con muestras relacio-
Afirmación del consecuente, falacia, 141 nadas (ver Friedman)
Aleatorio, muestreo, 55 clasificación cruzada y jerárquica, 325
Aleatorios: clasificación de los modelos de ANOVA,
bloques, 182, 233, 353 232-234
factor de efectos, 234, 265-266, 390 comprobación de supuestos, 269-273
errores, 230-231, 242, 244, 256-257, 332, efectos fijos y aleatorios, 234, 265-266
390-391 efectos fijos, aleatorios y mixtos, 349-351
números, 78, 561 efectos principales, 371
Aleatorización, 232 efectos simples, 372
Alternativa, hipótesis, 131-133 en condiciones de heterocedasticidad:
Análisis de datos: solución de Box, 271
para qué sirve, 20-21 solución de Welch, 271-272
qué es, 19-20 interacción entre factores, 326-329
Análisis de correlación lineal simple: lógica del ANOVA, 235-238
coeficiente de correlación r"'' de Pearson, medidas del tamaño del efecto, 266-269, 352
210, 397-398 modelo de dos factores completamente alea-
contraste sobre Pxy• 398-401 torizados, 232-234, 330-351
contraste sobre p 1-p 2 , 402-403 efectos aleatorios (modelo 11), 234,
contraste sobre Px,-Px:• 403 349-351
relación entre p y r xy• 398 efectos fijos (modelo 1), 232, 234, 330-
transformación Z de Fisher, 400, 588 351
Análisis de regresión lineal simple: efectos mixtos (modelo III), 349-351
coeficiente de regresión lineal (pendiente de modelo de dos factores con medidas repeti-
la recta de regresión), 392 das en ambos (diseño factorial aleatoriza-
contraste sobre p, 392-395 do en bloques), 182-183, 233, 353-362,
contraste sobre P1-P2 , 401-402 370-372
ecuación de regresión, 391-392 modelo de dos factores con medidas repeti-
610 / Índice de materias
das en un solo factor (diseño mixto o Coeficiente de concordancia W de Kendall,

sp/it-plot), 353, 362-370, 372-376 475-480
modelo de un factor completamente aleato- Coeficiente de contingencia (C), 544
rizado, 238-254 Coeficiente de incertidumbre, 549-550
modelo de un factor con medidas repetidas Coeficiente de regresión lineal, 392 (ver tam-
(diseño intrasujetos o de bloques con un bién Análisis de reyresión lineal simple)
sujeto por nivel y bloque), 254-265 Coeficientes de correlación:
modelos 1, 11 y III, 234, 349-351 d de Sommers, 473
significado de los parámetros, 240-243 gamma (y) de Goodman y Kruskal, 471-475
Aproximación normal a la binomial, 75-77, r., de Spearman, 460-464, 480
493-494 rxr de Pearson, 210, 397-401, 460
Asimétricas, medidas de asociación, 473, 548- tau (r) de Kendall, 464-471, 480
550 tau-b (r-b) de Kendall, 466-467
Asociación (ver Medidas tle asociación) tau-e (r-c) de Kendall, 467
(ver también Medidas de asociación)
Cohen, kappa de, 551-552
B
Cohortes, diseño de, 511-513
Combinatoria:
Bechhofer-Dunnett, prueba de, 313
teorema fundamental, 64
Binomial (ver Distribuciones de probabilidad)
variaciones con repetición, 47
Bloques, 182-183, 233
variaciones sin repetición, 48
diseño aleatorizado en bloques, con un sujeto
Comparaciones múltiples, 288
por nivel y bloque, 182, 233, 254-265,
a posteriori o post hoc, 307
441, 506
Brown-Forsythe (F), 314
diseño factorial aleatorizado en bloques (o
Duncan (rango múltiple), 315
bloques aleatorios), 182, 233, 353-362
Dunn-Bonferroni, 303-306, 311-312, 315,
Bonferroni, prueba de (ver Dunn-Bot!ferroni)
344, 370, 373, 438, 509
Bonferroni, desigualdad de, 303
Dunnett (C), 314
Bondad de ajuste y x2 , 525-531
Dunnett (T3), 314
Brown-Forsythe, prueba F sobre igualdad de
Games-Howell, 314
varianzas, 271
Hochberg (GT2), 313
Box, solución de (corrección de y/ para el caso
Keselman-Keselman-Shafer (KKS), 372
de heterocedasticidad en el ANOVA), 271
Ryan-Einot-Gabriel-Welsch (Q), 315, 317
Box-Geisser-Greenhouse, solución de (para el
Scheffé, 309-312, 346-347, 439, 509
caso de no circularidad en el ANOVA de
Student-Newman-Keuls, 311, 315-316
medidas repetidas), 272-273
Tamhane (T2), 314
Tukey, 308-309, 311-313, 344-349, 373,
e 439, 509
Tukey-b, 308
Cálculo de probabilidades, 20. Tukey-Kramer, 309
Carencia de sesgo, 91 a priori o planeadas, 294
Caso-control, diseño de, 511, 513-514 Bechhofer-Dunnett, 313
Circularidad (ver Supuestos de un contraste) comparaciones de tendencia:
Cochran, prueba Q sobre igualdad de propor- niveles igualmente espaciados, 298-301,
ciones, 505-510 311-312, 344
Cochran y Cox, solución de (corrección de y/ niveles desigualmente espaciados, 301-
para el caso de varianzas distintas en los 303
contrastes sobre medias), 198 Dunn (ver Dunn-Bot!ferroni)
Índice de materias / 611
Dunn-Bonferroni, 303-306, 311-312, 315, nivel de significación o riesgo, 98, 137, 154-
344,370, 373,438, 509 157
Dunnett (comparaciones con un grupo no paramétricos, 415-416
control), 306-307, 311, 344, 439 paramétricos, 415-416
F planeadas, 295-298, 311-313, 344 potencia, 148-154, 163-172, 215-219, 274-
diferencia mínima significativa, 305, 306, 276
308-309, 344-345 regla de decisión, 137-139
en el ANOV A de dos factores completa- supuestos, 133-135 (ver Supuestos de un
mente aleatorizados, 344-349 contraste)
en el ANOVA de dos factores con medidas y estimación por intervalos, 161-163
repetidas en ambos, 370-372 zona de aceptación, 137-138
en el ANOV A de dos factores con medidas zona de rechazo, 137-139
repetidas en un solo factor, 372-376 zona crítica, 13 7-139
en el ANOV A de un factor cempletamente Contrastes de hipótesis sobre:
aleatorizado, 294-317 coeficientes de correlación:
en el ANOVA de un factor con medidas gamma (y) de Goodman y Kruskal, 473-
repetidas, 315 475
en el contraste sobre J proporciones inde- p, de Spearman, 461-464
pendientes (X 2 de Pearson), 540-542 Pxy de Pearson:
en el contraste sobre J proporciones rela- dos coeficientes independientes, 402-
cionadas {Q de Cochran), 508-510 403
en la prueba de Friedman, 447 dos coeficientes relacionados, 403
en la prueba de Kruskal-Wallis, 437-441 un coeficiente, 398-401
métodos secuenciales, 315-317 tau (t) de Kendall, 467-470
post hoc (ver Comparaciones múltiples a tau-b (t-b) de Kendall, 467-471
posteriori) coeficientes de regresión lineal:
tasa de error por comparación, 293-294 dos coeficientes, {1 1-{12 , 401-402
tasa de error por familia de comparaciones, un coeficiente, {I, 392-395
293-294 medianas:
Comparaciones lineales, 287-290 dos medianas:
valor esperado, 289 independientes, 424-430
varianza, 289 relacionadas, 430-433
Comparaciones no ortogonales, 303-307 más de dos medianas:
Comparaciones ortogonales, 295-303 independientes, 433-441
polinomios ortogonales, 299, 301-303, 575 relacionadas, 441-44 7
Componentes de varianza, ANOVA de, 234 una mediana, 416-424
Condición experimental, 239 medias:
Contraste de hipótesis, 127, 130 dos medias independientes:
bilateral y unilateral (bidireccional y unidi- con 11 1 y 11 2 conocidas, 191-193
reccional), 132, 138-139, 159-161 con 11 1 y 11 2 desconocidas y supuestas
decisión, significado, 140-141 iguales, 194-198
enfoque bayesiano, 130 con 11 1 y 11 2 desconocidas y supuestas
enfoque clásico, 128-141 distintas, 198-202
estadístico de contraste, 135-137 dos medias relacionadas, 202-206
hipótesis estadísticas, 131-133 más de dos medias:
lógica, 128-130 independientes, 238-254
nivel crítico, 156-158, 190 relacionadas, 254-265
nivel de confianza, 98, 138 una media:
con a conocida, 187-188 de variabilidad, 254

con a desconocida, 188-191 Diferencia mínima significativa (ver Compara-
proporciones: ciones múltiples a posteriori)
dos proporciones: Diseño factorial, 182
independientes, 497-500, 511-514, 539- clasificación cruzada y jerárquica, 325
542 dos factores completamente aleatorizados:
relacionadas, 500-505 efectos aleatorios (modelo 11), 234, 349-
más de dos proporciones: 351
independientes, 505, 536-542 efectos fijos (modelo 1), 234, 330-343,
relacionadas, 505-510 349-351
una proporción, 493-497 efectos mixtos (modelo III), 349-351
varianzas: intrasujetos (dos factores con medidas re-
dos varianzas independientes, 213-215 petidas en ambos, o factorial aleatoriza-
dos varianzas relacionadas, 215 do en bloques), 182-183, 233, 353-362,
más de dos varianzas independientes, 370-372
270-272 Mixto o split-plot (dos factores con medi-
Corrección por continuidad, 76-77, 418, 494, das repetidas en un factor), 353, 362-370,
497, 502 372-376
Corrección por empates: Diseño longitudinal, 490, 511
en el coeficiente de correlación tau (r) de antes-después, 500
Kendall, 466-467, 470-471 prospectivo o de cohortes, 511-513
en el índice de acuerdo W de Kendall, 478 retrospectivo o de caso-control, 511, 513-
en la prueba de Friedman, 444 514
en la prueba de Kruskal-Wallis, 435, 437- Diseño unifactorial, 182
438 bloques aleatorios, 182, 233
en la prueba de Mann-Whitney, 427 bloques aleatorios con un sujeto por nivel y
en la varianza de una comparación lineal, bloque, 182-183, 233, 254-265, 441, 506
438 grupos aleatorios (un factor completamente
Consistencia, 91 aleatorizado), 182-183, 232, 238-254
Consistente (ver Estimador) intrasujetos (un factor con medidas repeti-
Correlación (ver Coeficientes de correlación) das), 182-183, 233, 254-265, 441, 506
Cramer, coeficiente V, 545 Diseño transversal, 490, 511
Diseños con los mismos sujetos, 182-183
Diseños con sujetos diferentes, 182
D Diseños de investigación, 23-24, 182
Distribuciones de probabilidad continuas:
d de Sommers, 473 F de Snedecor, 214, 249, 261, 337-338, 356,
Datos cualitativos, cuantitativos y semicuanti- 365, 396; puntos críticos, 573-574
tativos, 181, 415-416 F no centrada, 274; puntos críticos, 583-584
Decisión (ver Contraste de hipótesis) módulo máximo studentizado, 313-315; pun-
Desigualdad de Bonferroni, 303 tos críticos, 581
Desigualdad de Sidák, 304, 314 multivariada del rango studentizado, 346;
Diagramas puntos críticos, 58-587
de barras, 253 normal, 67, 68, 70, 74, 103, 107, 187, 192,
de cajas, 254 400, 422, 427, 493; tabla de probabilida-
de líneas, 253, 265, 298, 301, 327, 329, 376, des, 569-570
384, 385 rango stwlenti::ado, 308-309, 314, 316-317,
de dispersión, 392 345; puntos críticos, 580
t de Student, 70-71, 104, 189, 197-199, 212- de la diferencia entre dos medias, 192, 195,
213, 215, 402-403; puntos críticos 572 198, 208, 213, 203, 209
uniforme, 63, 525-526 de la media, 67, 102, 105, 192
x2 , 10, 72-74, 106-107, 212, 249, 261, 444; de la proporción, 75, 114, 493
puntos críticos, 571 de la varianza, 73, 113
Distribuciones de probabilidad discretas: de los errores en tablas de contingencia, 543
binomial, 75-76, 116, 136, 416-417, 493, del coeficiente de correlación de Pearson,
525-526; tabla de probabilidades, 562-568 398
multinomial, 525-526, 546 del coeficiente de regresión (B), 401,
poisson, 546 del número de aciertos, 75, 493
Distribución muestra!, 58-59, 65-66 y tamaño muestra!, 68-69
de la diferencia de medias, 212-213 Error de tipo 1, 144
de la media, 66-71 en las comparaciones múltiples, 292-294
de la proporción, 75-77 probabilidad~. 144-145
de la varianza, 71-7 5 Error de tipo 11, 144
ejemplos, 59-65 probabilidad fl, 144-145, 155
Duncan, prueba del rango múltiple, 315 relación entre ~y {I, 146-148
Dunn, prueba de (ver Dunn-Bonferroni) y error típico, 146-147
Dunn-Bonferroni, prueba de, 303-306, 311-312, y tamaño del efecto, 145-146
315, 344, 370, 373, 438, 509; puntos críticos, y tamaño muestra!, 147
576-577 Errores:
Dunnett, estadístico C, 314 aleatorios, 230-231, 242, 244, 256-257, 332,
Dunnett, estadístico T3, 314 390-391
Dunnett, prueba de (para comparaciones con en tablas de contingencia:
un grupo control), 306-307, 311, 344, 439; tipificados, 543
puntos críticos, 578-579 tipificados corregidos o ajustados, 543
Escalas de medida (intervalo, razón, nominal,
ordinal), 24-30
E
Esfericidad (ver Supuestos de un contraste)
Ecuación de regresión lineal (ver Análisis de Espacio muestra!, 52
re~¡resión lineal simple) Estadística:
Efecto, tamaño del (ver Tamaño del efecto) como ciencia, 19
Efectos fijos, aleatorios, mixtos (ver Análisis como herramienta metodológica, 20-21
de varianza) descriptiva, 19
Efectos principales (ANOVA), 370 inferencia! o inductiva, 19-20
Efectos simples (ANOVA), 372 Estadístico:
Eficiencia, 91 como variable aleatoria, 43-45
Eficiente (ver Estimador) de contraste, 135-137
Empates (ver Corrección por empates) distribución muestra! de un, 58-59, 65-66
Épsilon (1:) (ver Homocedasticidad) error típico de un, 66
Épsilon-cuadrado (1: 2), 268-269 valor esperado de un, 66
Error muestra!, 95 varianza de un, 66
Error muestra! máximo, 95, 97, 101-104 Estimación puntual, 90
Error típico, 66 (ver también Varianza) método de máxima verosimilitud, 115-117
de la diferencia entre dos coeficientes de método de mínimos cuadrados, 117-118
correlación, 402 método de los momentos, 90
de la diferencia entre dos coeficientes de Estimación por intervalos, 95
regresión, 402 error muestra!, 95
error muestra) máximo, 95, 97, 101- 104 F no centrada , distribución (ver Distribuciones
intervalo de confianza: de probabilidad)
en las comparaciones múltiples a poste- F planeadas, comparaciones (ver Comparacio-
riori, 309, 31 O nes múltiples a priori)
en las comparaciones múltiples a priori, Factor, 232
305, 307 efectos fijos (ver Análisis de varianza)
en los contrastes sobre bondad de ajuste, efectos aleatorios (ver Análisis de varianza)
528 intersujetos, 362-366, 372-375
en los contrastes sobre igualdad de pro- intrasujetos, 362-366, 372-375
porciones, 541 Factorial, (ver Diseño factorial)
para el coeficiente de regresión lineal, 393 Falsación, 140-141
para el índice de riesgo relativo, 513 Fijos, factor de efectos (ver Análisis de va-
para la diferencia entre dos medias inde- rianza)
pendientes, 196, 200 Fisher, 130, 140
para la diferencia entre dos medias rela- estadístico F (ver F, estadístico de Fisher)
cionadas, 205 transformación Z, 400, 588
para la diferencia entre dos proporciones Frecuencias:
independientes, 499-500 esperadas o teóricas, 526-527, 532-533,
para la diferencia entre dos proporciones 537-538
relacionadas, 503-504 observadas o empíricas, 526
para la media, 102-105, 190 Friedman, prueba de, 441-447; puntos críti-
para la odds ratio, 514 cos, 594
para la proporción, 109-111, 495 Fuentes de variación (ver Variación)
para la varianza, 106-108 Función de máxima verosimilitud, 116
límites de confianza, 96-97 Función de probabilidad (o de densidad de
precisión del intervalo, 100-101, 103-104, probabilidad), 47-55, 58, 60, 64
111-115 Función de probabilidad conjunta, 47-55
y contraste de hipótesis, 161-163
y tamaño muestra), 111-115
Estimador, 90 G
consistente, 91
eficiente, 91, 94 Games-Howell, prueba de, 314
insesgado, 91, 94 Gamma (y) de Goodman y Kruskal, 471-475
maximoverosímil, 117 Geisser-Greenhouse, solución de (para el caso
minimocuadrático, 118 de no circularidad en el ANOV A de medi-
propiedades de un buen estimador, 90-92 das repetidas), 272-273
ejemplos de buenos estimadores, 92-94 Goodman y Kruskal:
suficiente, 91 coeficiente de incertidumbre, 549-550
Eta-cuadrado (r¡ 2 ), 267-268, 352 gamma (y), 471-475
lambda (A.), 547-549
reducción proporcional del error, 547-550
F tau (t), 549
Gosset, 308
F, distribución (ver Distribuciones de probabi- Grados de libertad, 247, 259-260, 335-336,
lidad) 355, 365
F, estadístico de Fisher (ANOV A), 248-250, corrección de Cochran y Cox, 198
260-261, 269-272, 309, 336-338, 350-351, corrección de W elch, 199, 312
356-357, 365, 396, 434, 442 corrección de Box, 271
corrección épsilon (e) de Box-Geisser-Gre- Intergrupos, variación (ver Variación)

enhouse y Huynh-Feldt, 272-273 Intersujetos, factor (ver Factor)
Gráficos (ver Diagramas) Intersujetos, variación (ver Variación)
Intervalo de confianza (ver Estimación por
intervalos)
H Intragrupos, variación (ver Variación)
Intrasujetos, factor (ver Factor)
Hartley, estadístico F sobre igualdad de va-
rianzas, 214-215
Hipótesis científicas, 128, 131. K
Hipótesis estadísticas, 131
nula y alternativa, 131-133 Kappa (K) de Cohen, 551-552
simples y compuestas, 133 Kappa ().) de K valseth, 552
Hochberg, estadístico GT2, 313 Kendall, coeficiente tau (r), 464-471, 480
Homocedasticidad (ver Supuestos de un con- Kendall, coeficiente tau-b (r-b), 466-467
traste) Kendall, coeficiente tau-e (r-c), 467
Homogeneidad de varianzas (ver Homocedas- Kendall, coeficiente de concordancia W, 475-
ticidad) 480
Huynh-Feldt, solución de (ver Circularidad) Keselman-Keselman-Shafer, estadístico KKS,
372
Kruskal-Wallis, prueba de, 433-771; puntos
críticos, 592-593
K valseth, kappa de, 552
Igualdad:
de medias, 191-206, 242-243, 248, 250, 257,
261, 266, 287, 295-297, 304-306, 309, 311, L
316, 337, 370, 372-373
de proporciones, 498-499, 501-502, 504, Lambda(}.) de Goodman y Kruskal, 547-549
539-542, 507, 509 Levene, prueba sobre igualdad de varianzas,
de varianzas (ver Homocedasticidad) 214, 270
Iman-Davenport, estadístico F, (ANOV A con Lillieffors, prueba sobre normalidad, 270
rangos), 442, 444 Límites de confianza (ver Estimación por inter-
Independencia: valos)
en tablas de contingencia, 531-536 Linealidad (ver Supuestos de un contraste)
entre variables, 47, 398, 461, 467
entre observaciones, 244, 269, 333, 391
Índices de acuerdo, 550-551 M
kappa (K) de Cohen, 551-552
kappa (K 2 ¡1 ) de Kvalseth, 552 Mann-Whitney, prueba U de, 424-430; puntos
W de Kendall, 475-480 críticos, 590-591
Índices de riesgo, 511 Máxima verosimilitud, 115-117
en los diseños de cohortes, 511-513 Maximoverosímil (ver Estimador)
en los diseños de caso-control, 513-514 McNemar, prueba de, 502, 506
índice de riesgo relativo, 512-513 Media, 93
odds ratio, 513-514 distribución muestra! de la, 66-67
Inferencia estadística, 20-21, 39, 89, 127 error típico de la, 67, 102, 105, 192
lnsesgado (ver Estimador) valor esperado de la, 67, 92, 96, 102, 192
Interacción entre factores, 326-329 varianza de la, 67-68, 92-93, 112, 137
Medias cuadráticas, 237, 247, 260, 336, 355- con reposición, 46-47
356 sin reposición, 48-49
Medición, 24-27 aleatorio en población infinita, 54-55
Medida, escalas de (ver Escalas de medida) aleatorio estratificado, 56-57
Medidas de asociación: aleatorio por conglomerados, 57-58
asimétricas, 473, 548-550 polietápico, 58
coeficiente de contingencia, 544 aleatorio sistemático, 56
coeficiente de incertidumbre, 549-550 cómo extraer una muestra aleatoria, 77-78
épsilon-cuadrado (e 2 ), 268-269 en tablas de contingencia, 545-546
eta-cuadrado (17 2 ), 267-268, 352 espacio muestra!, 52
lambda (A.) de Goodman y Kruskal, 471-475 método Monte Cario, 78-80
omega-cuadrado (w 2 ), 267-268, 352 probabilístico y no probabilístico, 45
phi (f>), 544 Multivariada del rango studentizado (ver Dis-
reducción proporcional del error, 547-550 tribuciones de probabilidad)
simétricas, 473, 548-550
tau (t) de Goodman y Kruskal, 549
V de Cramer, 545 N
Medidas repetidas, 182-183, 233, 254-265,
353-376, 441, 506 Nivel de confianza, 98, 101
Metodología: Nivel de riesgo, 98, 101
correlaciona! o selectiva, 23-24. Nivel de significación, 137, 154-157
experimental, 23-24 Nivel crítico, 156-158, 190
observacional, 23-24 Niveles de indagación (descriptivo, relacional,
Mínimos cuadrados, 117-118, 392 explicativo), 21-24
Mixtos: Niveles de medida (ver Escalas de medida)
diseños, 353, 362-370, 372-376 No centrada, distribución F, 274, 583-584
efectos, 349-351 No centralidad, parámetro de, 274
Modelo 1 (ANOVA), 234, 349-351 No paramétricos, contrastes:
Modelo 11 (ANOV A), 234, 349-351 características, 415-416
Modelo III (ANOVA), 349-351 dos muestras independientes, 424-430
Modelo lineal general, 229-231, 389-390 dos muestras relacionadas, 430-433
Módulo máximo studentizado (ver Distribucio- más de dos muestras independientes, 433-
nes de probabilidad) 441
Momentos, método de los, 90 más de dos muestras relacionadas, 441-447
Monte Cario, método, 78-80 una muestra, 416-424
Multinomial (ver Distribuciones de probabili- Normal (ver Distribuciones de probabilidad)
dad) Normalidad (ver Supuestos de un contraste)
Muestra, 41-42 Nula, hipótesis, 131-133
aleatoria, 46, Números aleatorios, 78, 561
aleatoria simple, 47
cómo extraer una muestra aleatoria, 77-78
Muestras: o
independientes, 182-183, 233
dependientes o relacionadas, 182-183, 202- O'Brien, prueba sobre igualdad de varianzas,
204, 233, 352 271
Muestreo, 45 Observaciones perdidas (missing), 206-207
aleatorio, 55 Odds ratio, 513-514
aleatorio en población finita: Omega-cuadrado (ro 2 ), 268-269, 352
Ortogonales: Significación estadística, 207

comparaciones, 295-303 Signos, prueba de los, 416-419
polinomios, 299, 301-303, 575 Simetría (ver Supuestos de un contraste)
Simetría compuesta (ver Supuestos de un con-
p traste)
Simétricas, medidas de asociación, 473, 548-550
Paramétricos, contrastes, 215-216 Simulación, 78-79
Parámetro, 42-43 Sommers, d, 473
Pearson: Spearman, coeficiente de correlación r, de,
estadístico X 2 de, 527-528, 533-534, 538, 543 460-464, 4 79-480
coeficiente de correlación r xy de, 210, 397- SPSS,33,80,273, 308
401. 460 Student, distribución t (ver Distribuciones de
Phi (!/>). coeficiente, 544 probabilidad)
Población, 40-41 Student-Newman-Keuls, prueba de, 311, 315,
Poisson (ver Distribuciones de probabilidad) 316-317
Polinomios ortogonales, 299, 301-303, 575 Suficiencia, 91-92
Post hoc, comparaciones (ver Comparaciones Suficiente (ver Estimador)
múltiples a posteriori) Sumas de cuadrados, 246, 258-259, 334-335,
Potencia de un contraste, 49 354-356, 364, 395
cálculo: Supuestos de un contraste, 133-135, 244
ANOV A de un factor, 274-276 aditividad, 272-273, 257-258, 354
dos medias independientes, 217-218 circularidad, 272
dos medias relacionadas, 218-219 epsilon (r.) de Box-Geisser-Greenhouse,
una media, 215-217 272-273
una proporción, 149-154 épsilon (f:) de Huynh-Feldt, 273
curva de potencias, 163-165 comprobación de supuestos, 269-273
efecto del tamaño de la muestra sobre la. esfericidad (ver circularidad),
166-172, 276 homocedasticidad, 213-215
Prueba de significación, 127 cómo contrastarla, 214-215, 270-271
Prueba estadística, 127 en los contrastes sobre medias, 194, 197-
198
en el ANOVA, 244-245, 270-272
R
independencia, 244, 269, 333, 2-391
Rachas, prueba de las, 269 linealidad, 391
Rango studentizado (ver Distribuciones de pro- normalidad:
babilidad) en los contrastes sobre medias, 188-189,
Reducción proporcional del error, 547-550 192-193, 197, 213
Región crítica (ver Zona crítica) en el ANOVA, 244, 270, 333, 371
Regresión lineal simple (ver Análisis de reyre- simetría, 420, 430-431
sión lineal simple) simetría compuesta, 272
Residuos (ver Errores)
Ryan-Einot-Gabriel-Welsch, prueba de, 315,
317 T
t de Student, distribución (ver Distribuciones

s de probabilidad)
Scheffé, prueba de, 309-312, 346-347, 439, 509 Tamhane, estadístico T2, 314
Sidák, desigualdad de, 304, 314 Tablas de contingencia, 523-525
métodos de obtención de tablas de contin- Tukey, prueba de, 308-309, 311-313, 344-349,
gencia, 545-546 373, 439, 509
Tamaño del efecto, 58, 207 Tukey-b, prueba de, 308
en los contrastes sobre medias, 207-212 Tukey-Kramer, prueba de, 309
en el ANOVA de un factor, 266-269
en el ANOV A de dos factores, 352
Tamaño muestra):
u
y estimación por intervalos, 111-115 U de Mann-Whitney, 424-430
y potencia de un contraste, 166-172, 215- Unidad experimental, 232
219, 276 Uniforme (ver Distribuciones de probabilidad)
Tasa de error, 293 Universo (ver Población)
por comparación, 293-294
por experimento, 294
V
por familia de comparaciones, 293-294
Tau ('r) de Goodman y Kruskal, 549 V de Cramer, 545
Tau(<) de Kendall, 464-471 Valor esperado:
Tau-b (<-b) de Kendall, 466-467 de la diferencia entre dos medias, 196
Tau-e (<-e) de Kendall, 467 de la media, 67, 92, 96, 102, 192
Tendencias, comparaciones de (ver Compara- de la proporción, 75, 92, 109, 493
ciones múltiples a priori) de la varianza, 73, 92, 93
Teorema central del límite, 67, 187, 192 de una comparación lineal, 289
Teorema de Tchebycheff, 112 de una media cuadrática, 248, 260, 336-337,
Tipificación: 350-351, 355, 357, 365
de la diferencia entre dos coeficientes de de una suma de rangos, 422, 427, 443
correlación, 402, 403 del número de aciertos, 75, 493
de la diferencia entre dos coeficientes de Variabilidad (ver Variación)
regresión, 402 Variable:
de la diferencia entre dos medias, 193-196, aleatoria, 44-55, 58, 63, 66-68, 72-76
198, 200, 203-204, 212-213, 308 bloqueada, 233
de la diferencia entre dos medias poblacio- extraña, 233, 254
nales, 208-209, 217-218 dependiente, 231-232, 241, 389-390
de la diferencia entre dos proporciones, dicotómica, 75, 79, 490
498, 502 independiente, 231-232, 241, 389-390
de la media, 68, 69, 71, 102, 104, 187-190 politómica, 490
de la proporción, 75, 109, 493-494 Variación, fuentes de:
de la varianza, 73-74, 106, 212 intergrupos, 242, 245, 250, 258, 262, 333,
de una comparación lineal, 296, 302, 304, 313 354
de una suma de rangos, 422, 427, 432, 435, intersujetos, 258, 262, 354, 364
443-444 intragrupos o error, 242, 245, 250, 258,
del coeficiente de correlación de Pearson, 262, 334
400-401 intrasujetos, 364
del coeficiente de regresión lineal, 393, 396 total, 245, 250, 258, 262, 334, 354
del cociente entre dos varianzas indepen- Varianza (ver también Error típico)
dientes, 214-215, 249-250, 261, 296, 338- de la diferencia entre dos medias, 192, 203
339, 356, 357, 365 de la diferencia entre dos variables, 194
del número de aciertos, 75-76, 152, 418, de la media, 67-68, 92-93, 112, 237
493-494 de la mediana, 93
Transformación de puntuaciones, 273-274 de la proporción, 92, 497
de la varianza, 73, 92-93, 113 medias en el caso de varianzas distintas),

de los errores, 246-247, 402 271-272
de una comparación lineal, 289, 438, 509, solución de (corrección de gl para el caso
541 de varianzas distintas en los contrastes
de una suma de rangos, 422, 427, 433 sobre medias), 199, 312
del coeficiente de correlación de Pearson, Wilcoxon, prueba W :
398 para una muestra, 419-424
distribución muestra) de la, 71-75 para dos muestras relacionadas, 430-433
homocedasticidad (ver Supuestos de un con- puntos críticos, 589
traste)
sesgada e insesgada, 72, 93, 107
valor esperado de la, 73 z
Z de Fisher, 400, 588
w Zona crítica, 137-138
Welch: Zona de aceptación, 137-138
estadístico Vw (para contrastar igualdad de Zona de rechazo (ver Zona crítica)

Pardo &amp; San Marin - Analisis de Datos en Psicologia II

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Pardo &amp; San Marin - Analisis de Datos en Psicologia II

Uploaded by

Copyright:

Available Formats

ANTONIO PARDO

PROFESOR TITULAR DE METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO

RAFAEL SAN MARTÍN

Diseño de cubierta: C. Carabina

Reservados todos los derechos. El contenido de

©Antonio Pardo y Rafael San Martín

3. Contraste de hipótesis....................................................... 125

4. Contrastes de hipótesis sobre medias . .. .. .. .. . . .. . . .. . . . . . . .. . . .. . . .. . . .. . 185

5. Análisis de varianza de un factor .. . .. . .. .. .. .. .. . .. . .. .. .. . . .. . . .. .. .. . .. . . 227

5.2.1. Modelos de ANOVA.. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .. . 232

6. Comparaciones múltiples entre medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

6.1. Qué son las comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

7. Análisis de varianza de dos factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323

7.1. La interacción entre factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

7.4. Efectos fijos, aleatorios y mixtos . . . . . . .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349

8. Introducción al análisis de regresión y correlación . . . . . . . . . . . . . . . . . . . . . . . . 387

8.1. Introducción . .. . .. .. .. . . . .. . .. .. . .. . . . .. .. .. . . .. . . . .. . . . . . . . . . . . . . . . . . . . . . 389

9. Contrastes no paramétricos . . .. . . . .. . .. .. . . . . . . . .. . . . . . . . . . .. .. . . . . . . .. . . .. . 413

9.1. Caracterización de los contrastes no paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . 415

10. Relación entre variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457

1O. l. El coeficiente de correlación '·' de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460

10.3. El coeficiente de correlación y de Goodman y Kruskal . . . . . . . . . . . . . . . . . . . . 471

11. Contrastes de hipótesis sobre proporciones............................... 491

12. La prueba X 2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521

Apéndice final. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559

Glosario de símbolos griegos..................................................... 597

Referencias bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599

Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609

Análisis de datos en psicología I I es continuación de Análisis de datos en

datos semicuantitativos, es decir, técnicas que permiten aprovechar la información

1. Qué es el análisis de datos.

Cuando hablamos de análisis de datos nos estamos refiriendo a un conjunto de

corresponde con lo que anteriormente hemos llamado extracción de conclusiones).

2. Para qué sirve el análisis de datos

Las ciencias pueden ser clasificadas en formales y empmcas. En las ciencias

generalización inductiva (propia de las ciencias empíricas) intenta ir desde lo que se

3. Niveles de indagación: descriptivo. relacional. explicativo

Supongamos que un psicólogo interesado en comprender ciertos aspectos del

la metodología observacional (existe, por ejemplo, selección -de ahí el nombre--

El análisis de datos se basa, obviamente, en datos. Pero un dato no es otra cosa

frecuentemente ocurre en psicología (aunque no sólo), no parece muy claro que

4.1. Escala nominal

La medida nominal consiste en clasificar en categorías a los sujetos u objetos

psicológico, la lateralidad manual, el tipo de atribuciones utilizadas para explicar el

4.2. Escala ordinal

La medida ordinal consiste en asignar a los sujetos u objetos medidos un

un 3, pero tampoco sabemos qué cantidad de depresión refleja esa diferencia

4.3. Escala de intervalo

4.4. Escala de razón

intervalo; recuérdese el ejemplo de la temperatura medida en escala Celsius), sino un

4.5. Un comentario más sobre las escalas de medida

La importancia de distinguir apropiadamente las diferentes escalas de medida

4 El significado de la propiedad de exc/usil'idad referida a las escalas de medida necesita ser

podremos considerar equivalentes esas distancias porque en la escala de CI no

5. Sobre los contenidos de este libro

Según hemos señalado en el primer apartado de esta introducción, el análisis de

5 Aunque en el análisis de datos el orden lógico de trabajo es el propuesto (selección. caracterización

entender ahora cómo el análisis de datos puede ayudarnos a extraer conclusiones en

6. Software para el análisis de datos

Actualmente, la complejidad de cálculo de muchas de las técnicas de análisis de

1.1. Conceptos básicos.

puede constituir un verdadero problema cuando esas predicciones están a la base de

Una pohlación (o universo) es un conjunto de elementos (sujetos, objetos

En general, el término población hace referencia al conjunto total de elementos

Pardo & San Marin - Analisis de Datos en Psicologia II

Pardo & San Marin - Analisis de Datos en Psicologia II