You are on page 1of 138

Estadstica y Probabilidad

Jos Jess Rosell Escolar

borrador,portada provisional

Introduccin

trabajo est pensado con los pes, as que no me hago una gran ilusin para poder
escribiri cuatro cosas que todos sabemos pero que no s si me va a salir bien. La
verdad es que como tenga que cambiar todas la tildes me da algo.
STE

ndice general
Introduccin

III

ndice de figuras

IX

ndice de Tablas

XI

I Estadstica

1. Estadstica Descriptiva
1.1. Breve Introduccin Histrica . . . . . . . . . . . . .
1.2. Estadstica Descriptiva . . . . . . . . . . . . . . . .
1.2.1. Definiciones Bsicas . . . . . . . . . . . . .
1.2.2. Medicin de un carcter . . . . . . . . . . .
1.3. Variable Estadstica . . . . . . . . . . . . . . . . . .
1.3.1. Variables Estadsticas Cuantitativas Discretas
1.3.2. Variables Estadsticas Cuantitativas Continua
1.3.3. Variables Estadsticas Cualitativas . . . . . .

.
.
.
.
.
.
.
.

3
3
4
4
5
6
6
6
6

.
.
.
.
.

9
9
11
16
16
18

.
.
.
.
.
.
.
.
.
.
.

25
25
25
30
31
33
36
36
37
38
38
40

2. Representaciones Grficas
2.1. Distribucin de frecuencias . . . . . . . . . . .
2.2. Representacin grfica de variable cualitativa .
2.3. Representacin grfica de variable cuantitativa .
2.3.1. Variable Estadstica Discreta: . . . . .
2.3.2. Variable Estadstica Continua: . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

3. Reduccin Numrica de Datos


3.1. Medidas de Centralizacin . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1. La Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2. La Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3. Media Aritmtica . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.4. Comportamiento de la media frente a transformaciones lineales
3.2. Otras Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Media Aritmtica Ponderada: . . . . . . . . . . . . . . . . . .
3.2.2. Media Armnica: . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3. Media Geomtrica: . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4. Media Cuadrtica: . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Medidas de Posicin . . . . . . . . . . . . . . . . . . . . . . . . . . .

ndice general

VI

3.3.1. Cuartiles . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3. Percentiles . . . . . . . . . . . . . . . . . . . . . .
3.3.4. Clculo de un cuantil . . . . . . . . . . . . . . . . .
Medidas de Dispersin Absolutas . . . . . . . . . . . . . .
3.4.1. Recorrido . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Recorrido Intercuartlico . . . . . . . . . . . . . . .
3.4.3. La Desviacin Media . . . . . . . . . . . . . . . . .
3.4.4. La Varianza . . . . . . . . . . . . . . . . . . . . . .
3.4.5. Propiedades de la varianza . . . . . . . . . . . . . .
3.4.6. Desviacin Tpica . . . . . . . . . . . . . . . . . .
3.4.7. Propiedades de la Desviacin Tpica . . . . . . . . .
Medidas de Dispersin Relativas . . . . . . . . . . . . . . .
3.5.1. Coeficiente de Apertura . . . . . . . . . . . . . . .
3.5.2. Recorrido Relativo . . . . . . . . . . . . . . . . . .
3.5.3. Recorrido Semi-InterCuartlico . . . . . . . . . . .
3.5.4. Coeficiente de variacin de Pearson . . . . . . . . .
3.5.5. Indice de Dispersin Respecto a la Mediana . . . . .
Medidas de Concentracin . . . . . . . . . . . . . . . . . .
3.6.1. El ndice de concentracin de Gini . . . . . . . . . .
3.6.2. La curva de Lorenz. Propiedades. . . . . . . . . . .
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.1. Momentos no Centrados . . . . . . . . . . . . . . .
3.7.2. Momentos Centrados . . . . . . . . . . . . . . . . .
3.7.3. Relacin entre Momentos Centrados y no Centrados
Medidas de Forma . . . . . . . . . . . . . . . . . . . . . .
3.8.1. Simetra . . . . . . . . . . . . . . . . . . . . . . . .
3.8.2. Apuntamiento o Curtosis . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

40
41
41
41
42
43
43
43
44
44
46
46
46
47
47
47
47
47
48
48
50
51
52
52
52
52
52
54

4. Distribuciones Bidimensionales
4.1. Tablas de Doble Entrada. Tablas de Contingencia . . . . . .
4.2. Distribuciones Marginales . . . . . . . . . . . . . . . . . .
4.3. Distribuciones Condicionadas . . . . . . . . . . . . . . . .
4.3.1. Distribucin Condicionada de X respecto de Y = y j .
4.3.2. Distribucin Condicionada de Y respecto de X = xi .
4.4. Dependencia o Independencia Estadstica . . . . . . . . . .
4.5. Parmetros de las distribuciones condicionadas y marginales
4.5.1. Media . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Nube de puntos . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Asociacin . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7.1. Coeficiente Chi-Cuadrado . . . . . . . . . . . . . .
4.7.2. Coeficiente Contingencia de Pearson . . . . . . . . .
4.7.3. Coeficiente T de Tschuprow . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

57
57
59
62
62
63
64
66
66
67
67
68
69
69
70

5. Regresin y Correlacin
5.1. Concepto de Regresin . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1. Lnea de regresin . . . . . . . . . . . . . . . . . . . . . . . . .

71
71
72

3.4.

3.5.

3.6.

3.7.

3.8.

ndice general

V II

5.1.2. Relacin entre Variables . . . . . . . . . . . . .


5.2. Curva de Mnimos Cuadrados. Residuos . . . . . . . . .
5.2.1. Curva de Mnimos Cuadrados . . . . . . . . . .
5.2.2. Residuos . . . . . . . . . . . . . . . . . . . . .
5.3. Recta de Mnimos Cuadrados . . . . . . . . . . . . . . .
5.3.1. Recta de Mnimos Cuadrados de Y respecto de X
5.3.2. Recta de Mnimos Cuadrados de X respecto de Y

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

73
75
75
76
76
76
79

II Probabilidad

81

6. Combinatoria
6.1. Variaciones sin repeticin . . .
6.2. Variaciones con Repeticin . .
6.3. Permutaciones sin Repeticin .
6.4. Permutaciones con Repeticin
6.5. Combinaciones sin Repeticin
6.6. Combinaciones con Repeticin
6.7. Cuadro Resumen . . . . . . .

.
.
.
.
.
.
.

83
83
84
84
84
85
86
86

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

89
90
90
91
91
91
91
94
96
98
98
99
100
100
101
101
101
101
102
102
103

.
.
.
.

107
107
109
110
112

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

7. Probabilidad
7.1. Experimentos Aleatorios . . . . . . . . . . . . . . . . . . . . . . .
7.2. Conceptos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3. Operaciones con Sucesos . . . . . . . . . . . . . . . . . . . . . . .
7.3.1. Realizacin de un suceso . . . . . . . . . . . . . . . . . . .
7.3.2. Igualdad de Sucesos . . . . . . . . . . . . . . . . . . . . .
7.3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . .
7.4. lgebra de Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . .
7.5. Frecuencias Relativas y Sucesos . . . . . . . . . . . . . . . . . . .
7.6. Axiomtica de Probabilidad . . . . . . . . . . . . . . . . . . . . .
7.6.1. Concepto de Probabilidad . . . . . . . . . . . . . . . . . .
7.6.2. Concepto Clsico de probabilidad o de Laplace . . . . . . .
7.6.3. Concepto Frecuentista de Probabilidad . . . . . . . . . . .
7.6.4. Concepto Subjetivo de Probabilidad . . . . . . . . . . . . .
7.6.5. Propiedades de la Definicin de Probabilidad . . . . . . . .
7.7. Elecciones al Azar . . . . . . . . . . . . . . . . . . . . . . . . . .
7.7.1. Elegir al azar un objeto de entre los N . . . . . . . . . . . .
7.7.2. Elegir al azar, y simultneamente, dos objetos de entre los N
7.7.3. Elegir al azar, y simultneamente, k objetos de entre los N .
7.7.4. Elegir al azar, y sucesivamente, dos objetos entre los N . . .
7.7.5. Elegir al azar, y sucesivamente, k objetos de entre los N . .
8. Probabilidad Condicionada
8.1. Probabilidad Condicionada . . .
8.2. Sucesos independientes . . . . .
8.3. Teorema de la Probabilidad Total
8.4. Teorema de Bayes . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

ndice general

V III

9. Variables Aleatorias
9.1. Variable Aleatoria Discreta . . . . .
9.1.1. Distribucin Binomial . . .
9.1.2. Distribucin de Poisson . .
9.2. Variable Aleatoria Continua . . . .
9.2.1. Distribucin Gamma . . . .
9.2.2. Distribucin 2 . . . . . . .
9.2.3. Distribucin t de Student . .
9.2.4. Distribucin F de Snedecor
9.2.5. Distribucin . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

115
115
115
116
117
117
118
119
119
119

Bibliografa

121

Glosario

123

ndice alfabtico

125

ndice de figuras
1.1.
1.2.
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
2.10.
2.11.
2.12.
2.13.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
4.1.
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
5.7.
5.8.
5.9.

Caracteres Estadsticos . . . . . . . . . . . . . . . . . . .
Cuadro de Caracteres Estadsticos . . . . . . . . . . . . .
Diagrama de Barras . . . . . . . . . . . . . . . . . . . . .
Diagrama de Pareto . . . . . . . . . . . . . . . . . . . . .
Diagrama de Sectores . . . . . . . . . . . . . . . . . . . .
Pictograma . . . . . . . . . . . . . . . . . . . . . . . . .
Cartograma . . . . . . . . . . . . . . . . . . . . . . . . .
Pirmide de Poblacin . . . . . . . . . . . . . . . . . . .
Comparaciones . . . . . . . . . . . . . . . . . . . . . . .
Diagrama de Barras . . . . . . . . . . . . . . . . . . . . .
Curva de Distribucin . . . . . . . . . . . . . . . . . . . .
Histograma y Polgono de Frecuencias . . . . . . . . . . .
Curva de Distribucin . . . . . . . . . . . . . . . . . . . .
Formas Caractersticas de Curvas de Frecuencias . . . . .
Diagrama de Tallos . . . . . . . . . . . . . . . . . . . . .
Mediana Variable Discreta Impar . . . . . . . . . . . . . .
Mediana Variable Discreta Par . . . . . . . . . . . . . . .
Mediana Variable Continua . . . . . . . . . . . . . . . . .
Mediana Variable Continua II . . . . . . . . . . . . . . . .
Moda Variable Continua . . . . . . . . . . . . . . . . . .
Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . .
Curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . .
Comparacin Curva de Lorenz . . . . . . . . . . . . . . .
Distribucin Simtrica . . . . . . . . . . . . . . . . . . .
Nube de Puntos . . . . . . . . . . . . . . . . . . . . . . .
Lnea de regresin de Y sobre X . . . . . . . . . . . . . .
Lnea de regresin de X sobre Y . . . . . . . . . . . . . .
Curva de Regresin Variables Independientes Y respecto X
Curva de Regresin Variables Independientes X respecto Y
Curva de Mnimos Cuadrados . . . . . . . . . . . . . . .
Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . .
Relacin Lineal entre X e Y . . . . . . . . . . . . . . . . .
Relacin no Lineal entre X e Y . . . . . . . . . . . . . . .
Recta de Mnimos Cuadrados . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

4
7
12
12
13
14
14
15
15
16
17
18
19
20
21
26
27
28
29
31
40
51
51
53
68
72
73
74
74
75
76
77
77
78

ndice de Tablas
1.1.
2.1.
2.2.
2.3.
2.4.
2.5.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.

Alumnos Centro . . . . . . . . . . . . . . . . . . . . . . . .
Tabla Simple de Modalidades . . . . . . . . . . . . . . . . .
ngulos de Sectores . . . . . . . . . . . . . . . . . . . . . .
Piezas Defectuosas . . . . . . . . . . . . . . . . . . . . . .
Kilmetros Recorridos . . . . . . . . . . . . . . . . . . . .
Diagrama de Tallos . . . . . . . . . . . . . . . . . . . . . .
Mediana Variable Discreta Impar . . . . . . . . . . . . . . .
Mediana Variable Discreta Par . . . . . . . . . . . . . . . .
Mediana Variable Continua . . . . . . . . . . . . . . . . . .
Media Variable Discreta Frecuencias Absolutas . . . . . . .
Media Variable Discreta Frecuencias Relativas . . . . . . . .
Media Variable Continua . . . . . . . . . . . . . . . . . . .
ndice Gini . . . . . . . . . . . . . . . . . . . . . . . . . .
ndice de Gini II . . . . . . . . . . . . . . . . . . . . . . . .
Distribucin conjunta de frecuencias absolutas . . . . . . . .
Distribucin conjunta de frecuencias relativas . . . . . . . .
Distribucin conjunta de frecuencias absolutas y marginales
Distribucin conjunta de frecuencias relativas y marginales .
Distribuciones marginales . . . . . . . . . . . . . . . . . . .
Distribucin condicionada de X repestecto Y = y j . . . . . .
Distribucin condicionada de Y repestecto X = xi . . . . . .
Independencia Estadstica . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

5
10
13
16
18
21
26
27
28
32
33
33
48
49
58
58
60
60
61
62
63
65

Parte I
Estadstica

Captulo

Estadstica Descriptiva

Estadstica constituye una poderosa herramienta para generar conocimientos y ha


experimentado un vigoroso desarrollo a lo largo del pasado siglo. Se aplica a todas
las reas del saber; en Administracin de Empresas se utiliza para evaluar la aceptacin
de un producto antes de comercializarlo; En Economa, para medir la evolucin de los
precios mediante nmeros ndices o para estudiar los hbitos de los consumidores a travs
de encuestas; En Ciencia Poltica, para conocer las preferencias de los electores y as
orientar las estrategias de los candidatos; en Sociologa, para estudiar las opiniones de
los colectivos sociales; En Psicologa, para elaborar las escalas de los tests y cuantificar
aspectos del comportamiento humano. La bibliografa utilizada es [1], [4] y [8]
A

1.1. Breve Introduccin Histrica


En su origen, la Estadstica responda a la preocupacin y necesidad de los hombres
de Estado por conocer, cuantitativamente y con la mayor precisin posible, los aspectos
ms importante de su entorno. Como el problema econmico, conocimiento de bienes
y recursos disponibles. Esto justifica que en un principio la Estadstica se limitase a un
conocimiento puro de aspectos demogrficos (censos de poblacin, natalidad, mortalidad,
etc. ), econmicos (comercio exterior, interior, hectreas de cultivo, etc.).
En la Historia, nos podemos remontar a los datos que fueron recogidos por israelitas y
egipcios en relacin con la poblacin. Parece ser que los datos ms antiguos son los censos
ordenados por el Emperador Tao de la China, 2200 aos a.C. El primer intento de obtener
algo ms que una descripcin demogrfica, surge en 1660, cuando Graunt en sus trabajos
sobre la poblacin de Londres, intenta, a partir de una parte de la poblacin, dar resultados sobre el comportamiento global de la mortalidad, natalidad y otras caractersticas de
inters.
Hasta el siglo XIX, la Estadstica es una ciencia descriptiva que utiliza medias y grficos para sintetizar datos sociales y econmicos. A partir del siglo XIX se va transformando paulatinamente en una ciencia normativa para extraer conclusiones de los datos,
prever la evolucin de variables y guiar la toma de decisiones en ambiente de incertidumbre; esta transformacin es posible por la incorporacin del concepto de Probabilidad, en
particular a la hora de calcular Seguros de Vida.
En el siglo XX la Estadstica se extiende a todos los campos cientficos, dando lugar
a disciplinas especficas como la Econometra, la Bioestadstica, la Biometra o la Psicometra. En la actualidad, la Estadstica es probablemente una de las disciplinas cientficas
ms usadas y estudiadas en todos los campos del conocimiento.
El mtodo actual de la Estadstica es:

Estadstica Descriptiva

Descripcin de los datos observados. (Estadstica Descriptiva)


Modelizacin del comportamiento. (Clculo de Probabilidades)
Estimacin de los desconocido y generalizacin. (Teora de Muestras e Inferencia
Estadstica)

1.2. Estadstica Descriptiva


Las tcnicas estadsticas pueden dividirse en dos grandes grupos, con funciones distintas: La Estadstica Descriptiva y la Estadstica Inferencial.
En trminos breves, la estadstica descriptiva se ocupa fundamentalmente de reducir y
describir las voluminosas informaciones recogidas en la observacin de un fenmeno y
que vienen desorganizadas. Necesitamos que en pocos valores, pueda reflejarse la mxima
informacin posible, ya que todo resumen implica una prdida de informacin, aunque
una mayor claridad.

1.2.1. Definiciones Bsicas


Definicin 1.2.1. Se definen las herramientas bsicas de la Estadstica:
1. Estadstica Descriptiva: Es un mtodo de descripcin numrica de conjuntos numerosos.
2. Poblacin: el universo de objetos al cual queremos estudiar. Puede designar a un
conjunto de personas o cosas: coches, artculos de broma, libros, etc.
3. Individuo: A cada uno de los elementos de la poblacin. Al nmero de individuos
de la poblacin se le suele llamar tamao (N)
4. Muestra: Un subconjunto de la Poblacin.
5. Caracteres o caractersticas estadsticas: Son las propiedades que deseamos observar sobre los elementos de la poblacin. Para cada caracterstica, deben estar
definidas todas las situaciones posibles en que se puede encontrar un individuo de
la poblacin, stas son las modalidades. En cuanto a las modalidades, hemos de
cuidarnos no slo de enumerarlas, sino que han de estar bien definidas, de modo
que cada individuo pueda permanecer a una y slo una de ellas: las modalidades
han de ser incompatibles (mutuamente excluyentes) y exhaustivas (cubrir toda la
poblacin).

M1

M3

Mk1

k
[

Mi = Poblacin

i=1

M2

Mi

Mk

Figura 1.1: Caracteres Estadsticos

Mi

M j = 0/

Ejemplo: Poblacin todos los alumnos de un centro de Secundaria.


Carcter
Sexo
Edad
Curso

1.2 Estadstica Descriptiva

Modalidades
{Hombre, Mujer}
{12, 13, 14, 15, 16, 17, 18}
o
{ 1 E, 2o E, 3o E, 4o E, 1o B, 2o B,. . . }
Tabla 1.1: Alumnos Centro

1.2.2. Medicin de un carcter


Atendiendo a su naturaleza, los caracteres sern o no susceptibles de representacin
numrica. Efectuaremos una clasificacin de las mismas, distinguiendo entre caracteres
cuantitativos y caracteres cualitativos. Si las modalidades pueden expresarse mediante
nmeros la llamaremos tambin variable. Segn la forma de medir un carcter se puede
realizar una clasificacin de las escalas de medida:
1. Escala Nominal. Se limitan a efectuar comparaciones, distinguiendo entre modalidades iguales o distintas. Por ejemplo, la poblacin activa, podemos clasificarla
atendiendo al sector de produccin al que pertenece: Agricultura, Industria, Servicios, Construccin.
2. Escala Ordinal. Recogen la idea de orden entre las modalidades. Por ejemplo,
pedir a una persona que indique sus preferencias sobres tres objetos asignando el
valor 3 al preferido, 2 al siguiente y 1 al menos deseado. No tiene sentido decir que,
como las diferencias entre 1 y 2 y entre 2 y 3 son las mismas, ocurre igual con las
preferencias entre objetos. Tambin carece de sentido decir que el objeto favorito
es tan preferido como la suma de los otros dos.
3. Escala de Intervalo. Podemos establecer un orden y tambin las distancias que
separan dos categoras. Por ejemplo, una firma de confeccin de camisas establece
su tallaje a partir de una mnima dada (cuyo valor asignado no tiene por qu ser el
cero), pongamos por caso, talla 36. Decide aadir (en la elaboracin de las prendas)
por cada talla contigua superior 0, 5 cm (unidad de medida). De este modo, al comparar unas tallas con otras, sabe que la distancia entre la talla 36 y la 38 (1 cm) es
comparativamente, la misma que entre la 40 y la 42; o el doble que existe entre 40
y 41. Pero evidentemente, no se le ocurre confeccionar a la talla 72, como el doble
de la talla 36. Hay una unidad de medida, pero no un origen.
4. Escala de Razn. No slo podremos distinguir las distancias existentes entre dos
categoras diferentes, sino comparar tambin directamente estas modalidades estableciendo las veces que una de ellas se ms grande que la otra. Por ejemplo, el
ingreso y el gasto de una empresa, los sueldos de los trabajadores de la empresa.
La naturaleza de los caracteres conque se trabaja es importante porque de ella depende el
tipo de tcnicas que pueden utilizarse para estudiarlas.

Estadstica Descriptiva

1.3. Variable Estadstica


Si el carcter segn el cual se estudia una poblacin es cuantitativo, a cada individuo
se le asocia un nmero real, lo que da a lugar a un conjunto de puntos (subconjunto de R)
formado por los valores que el carcter puede tomar. De ah que hablemos de variable al
estudiar una propiedad que se presta a medicin numrica, permitiendo la clasificacin de
los elementos de una poblacin. Cuando las modalidades de los caracteres de estudio no
sean medibles numricamente, los denominaremos atributos. En este caso, slo pueden
considerarse operaciones referentes al nivel nominal u ordinal. Abusando del lenguaje,
nos referiremos a un carcter cualitativo como variable cualitativa.
Las variables suelen representarse por letras maysculas, X, Y, Z, y los valores que
toma cada una de ellas, con las mismas letras que las variables pero en minsculas y
subindizadas:
X : x1 , x2 , . . . , xn , xn+1 , . . .

1.3.1. Variables Estadsticas Cuantitativas Discretas


Diremos que una variable estadstica es discreta si el paso de un valor de la variable al
siguiente representa un salto, supuestos ordenados de menor a mayor. Se podra formalizar
esta idea diciendo que conjunto de nmeros reales que soporta la variable est formado
slo por puntos aislados de la recta real (en nmero finito o infinito numerable).
Ejemplo Variables Estadsticas Discretas

1.
2.
3.
4.

Nmero de libros editados cada ao.


Nmero de coches fabricados en un ao.
Nmero de ordenadores en el hogar.
Nmero de sobresalientes en el curso.

1.3.2. Variables Estadsticas Cuantitativas Continua


Diremos que una variable estadstica es continua si proporcionados dos valores cualesquiera que toma la variable, siempre existe entre ellos una infinidad de valores que
puede adoptar. Es decir, toma los valores en un intervalo de la recta real.
Ejemplo Variables Estadsticas Continuas

1.
2.
3.
4.

Altura de los edificios de una ciudad.


Tiempo de vuelo del trayecto San Javier-Londres.
Peso de los alumnos de una clase.
Temperatura de una localidad en un da.

1.3.3. Variables Estadsticas Cualitativas


Las variables cualitativas son aquellas que no aparecen en forma numrica, sino como
categoras o atributos. Tambin es conocida como Variable Categrica.

1.3 Variable Estadstica

Ejemplo Variables Estadsticas Cualitativas

1.
2.
3.
4.

El sexo de un recin nacido.


Color de los ojos.
Profesin de una persona.
Grupo favorito de Msica.

Atendiendo al nmero de caracteres que presenta cada unidad observada, las variables
se dividen en unidimensionales, bidimensionales, tridimensionales, . . . , segn se estudie
uno, dos, tres, . . . , caracteres respectivamente.

Discretas Valores aislados

Cuantitativos (Variables) Continuas Valores en un intervalo


Caracteres
Estadstico

Cualitativos (atributos)
Figura 1.2: Cuadro de Caracteres Estadsticos

Ejercicios

1.1

1.2
1.3
1.4

1.5

1.6

Clasifica las siguientes variables:


1. Temperatura mxima diaria.
2. Nmero en la camiseta de los jugadores de un equipo de baloncesto.
3. Calificacin obtenida en un examen.
4. Marca de refresco consumida.
5. Cdigo postal que aparece en un carta.
6. Estado civil de una persona.
Da cuatro ejemplos de variables cualitativas.
Propn dos ejemplos de cada uno de los tipos de variables cuantitativas.
Se desea comparar la calidad de vida de varias localidades. Propn de forma razonada seis variables que podran utilizarse para realizar el estudio. Qu tipo de
variable es cada una de ellas?
Se plantea el estudio para determinar si una persona se ha contagiado o no de una
enfermedad. Determina razonadamente, tres variables en que basar el estudio. Qu
tipo de variable es cada una de ellas?
Cierto centro de secundaria decide evaluar la capacidad docente de su profesorado
mediante encuestas realizadas entre todos los alumnos. Propn de forma justificada
cinco variables que deban figurar en el estudio. Qu tipo de variable es cada una
de ellas?

Captulo

Representaciones Grficas

objetivo fundamental de una representacin grfica de una distribucin de frecuencias es proporcionar una visin del comportamiento de un fenmeno. Hay distintos tipos de representaciones segn si el carcter es cualitativo o cuantitativo. La representacin
de los datos consiste en mostrarlos clasificados y ordenados para poder dar mayor claridad y ofrecer una visin global del conjunto, que pueda ser interpretable. La bibliografa
para este captulo es [1], [2], [4], [5],[7] y [8].
L

2.1. Distribucin de frecuencias


La tabulacin tiene como objetivo presentar de forma ordenada y clara la informacin
referente a uno o ms caracteres observados en la poblacin.
Consideremos una poblacin o muestra que consta de N unidades estadsticas, sea k
el nmero de modalidades definidas para un determinado carcter, tenemos entonces las
modalidades M1 , M2 , . . . , Mk .
1. Frecuencia Absoluta ni de la modalidad Mi al nmero de individuos de la poblacin que representan dicha modalidad, es decir, el nmero de veces que se repite.
Como las modalidades son incompatibles y exhaustivas, se tiene que:
k

ni = N

i=1

2. Frecuencia Relativa fi de la modalidad Mi a la proporcin de individuos de la


poblacin que representan dicha modalidad. Se consigue dividiendo la frecuencia
absoluta por el total de elementos de la poblacin:
fi =

ni
; Se tiene: 0 fi 1 y
N

fi = 1

i=1

3. Frecuencia Absoluta Acumulada Ni de la modalidad Mi a la suma de las frecuencias absolutas hasta la i-sima modalidad:
i

Ni = n1 + n2 + + ni =

nj

j=1

4. Frecuencia Relativa Acumulada Fi de la modalidad Mi a la suma de las frecuencias relativas hasta la i-sima modalidad:
i

Fi = f1 + f2 + + fi =

fj

j=1


10

Representaciones Grficas

El aspecto general de una tabla simple, para un carcter con k modalidades, es la siguiente:

Modalidades

F. Absolutas
Ordinaria ni

F. Absolutas
Acumuladas Ni

F. Relativas
Ordinarias fi

F. Relativas
Acumuladas Fi

M1
M2
..
.

n1
n2
..
.

N1
N2
..
.

f1
f2
..
.

F1
F2
..
.

Mi
..
.

ni
..
.

Ni
..
.

fi
..
.

Fi
..
.

Mk
Sumas

nk
N

Nk = N

fk
1

Fk = 1

Tabla 2.1: Tabla Simple de Modalidades

La Distribucin de Frecuencias de una variable estadstica es el conjunto de valores


de la variable con sus frecuencias correspondientes. Consiste en la ordenacin de los datos
de menor a mayor, distribuyndolos en distintas categoras, a cada una de las cuales se
hace corresponder el nmero de elementos de la poblacin que la presenta. Se representa
por el conjunto de pares ordenados:
{(Mi , ni )}i=1,2,...k bien {(Mi , fi )}i=1,2,...k
En el caso discreto, las modalidades son los valores numricos aislados que toma la variable estadstica. Entonces la distribucin de frecuencias es:
{(x1 , n1 ), (x2 , n2 ), . . .(xk , nk )} bien {(x1 , f1 ), (x2 , f2 ), . . .(xk , fk )}
En el caso continuo, o en el discreto con un gran nmero de datos, la poblacin se divide
en clases o intervalos. Es decir, los datos se clasifican en intervalos de la recta real (el
nmero de clases debe ser aproximadamente igual a la raz cuadrada del nmero de datos),
dando lugar a datos agrupados en intervalos:
(e0 , e1 ],
Clase 1a

(e1 , e2 ],
Clase 2a

...

(ei1 , ei ],
...
Clase i-sima

(ek1 , ek ],
Clase k-sima

Extremos de Clases: ei1 y ei son los extremos inferior y superior de la clase isima (ei1 , ei ]
Amplitud de Clase: ai = ei ei1 es la amplitud de la clase i-sima.
Marca de Clase: Son los puntos medios de las clases.
xi =

ei1 + ei
marca de clase de la clase i-sima
2

Las amplitudes de las clases no tienen porqu ser iguales, pero es ms cmodo,
sobre todo a la hora de la representacin grfica.
Las clases primera y ltima pueden ser intervalos no acotados, de amplitud infinita.
Lo que se pretende es recoger casos muy extremos


11

2.2 Representacin grfica de variable cualitativa

Ejemplo de Distribucin de Variable Estadstica Discreto ordinal

Las calificaciones obtenidas por 32 alumnos de Matemticas han sido las siguientes:
Mi
MDF
INS
SUF
BIEN
NOT
SOB

ni
0
5
6
4
12
5
N=32

Ni
0
5
11
15
27
322

fi
0/32
5/32
6/32
4/32
12/32
5/32
32/32=1

Fi
0/32
5/32
11/32
15/32
27/32
32/32=1

Se trata de un carcter cualitativo discreto medido en un nivel ordinal (las calificaciones tiene un orden)
Ejemplo de Distribucin de Variable Estadstica Discreto con paso a Continua

Las edades de las personas que acuden a un mdico a lo largo de un mes son:
3 2 11
4 5 3
3 6 29

13 4 3
3 5 6
13 6 17

2 4 5
27 15 4
6 13 6

6
7 3
21 14 4
5 12 26

Se construye la correspondiente tabla de frecuencias agrupando los datos en clases


o intervalos de amplitud 5:
Clases Ii
(0,5]
(5,10]
(10,15]
(15,20]
(20,25]
(25,30]

Marcas xi
2,5
7,5
12,5
17,5
22,5
27,5

ni
17
7
7
1
1
3
N=36

Ni
17
24
31
32
33
36

fi
17/36
7/36
7/36
1/36
1/36
3/36
36/36=1

Fi
17/36
24/36
31/36
32/36
33/36
36/36=1

Se trata de una variable estadstica discreta a la que, por haber un nmero grande de
datos, se trata de forma continua.

2.2. Representacin grfica de variable cualitativa


Diagrama de Barras:
El diagrama de barras permite visualizar de manera sencilla la distribucin de una
variable cualitativa. Para construirlo, basta con dibujar sobre la clase correspondiente una


12

Representaciones Grficas

barra (o rectngulo) cuya altura coincida con la frecuencia (absoluta o relativa, esto no
modifica la forma) de dicha clase.
Tomemos el primer ejemplo del punto anterior, su representacin grfica sera:
12
11
10
9
8
7
6
5
4
3
2
1
0

12

6
5

B
SO

OT

BI
EN

F
SU

IN

Figura 2.1: Diagrama de Barras

Diagrama de Pareto:
Si se ordenan las clases de mayor a menor frecuencia y se dibujan los rectngulos, se
tiene el diagrama de Pareto. En la parte superior se suele trazar una lnea que expresa la
frecuencia total de cada clase y la que la precede.
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0

12

BI
EN

5
IN

5
SO

F
SU

OT

Figura 2.2: Diagrama de Pareto


13

2.2 Representacin grfica de variable cualitativa

Diagrama de Sectores:

El diagrama de sectores consiste en un crculo en el que se representan sectores (o porciones) con reas proporcionales a las frecuencias de cada una de las clases. Se construye
tomando ngulos proporcionales a las frecuencias para cada una de las clases:

i =

ni
360o = fi 360o
N

Siguiendo con nuestro ejemplo, obtenemos:


Mi
MDF
INS
SUF
BIEN
NOT
SOB

ni
0
5
6
4
12
5
32

fi
0/32
5/32
6/32
4/32
12/32
5/32

i (o )
0
56,25
67,5
45
135
56,25
360

Tabla 2.2: ngulos de Sectores

El diagrama de sectores queda as:


SUF
BIEN

INS
MDF
SOB

NOT

Figura 2.3: Diagrama de Sectores

Pictogramas:
Los pictogramas consisten en la representacin de figuras alusivas al carcter en estudio de forma tal que el rea resultante sea proporcional a la frecuencia de cada modalidad.
Unas veces se presentan dibujos de ancho constante y altura proporcional a la frecuencia
de cada modalidad o atributo (pictograma de ampliacin). Otras se suele tomar un dibujo como unidad y se repite tantas veces como corresponde a la frecuencia (pictograma
de repeticin).


14

Representaciones Grficas

En el siguiente ejemplo, tenemos el nmero de lneas telefnicas instaladas en tres


aos consecutivos:
Ao
2006
2007
2008
Miles
100
90
80
70
60
50
40
30
20
10
0

Lneas
50.000
60.000
100.000

2006 2007 2008

Figura 2.4: Pictograma

Cartograma:
Los cartogramas son mapas que representan zonas en estudio, sobre las cuales, por
medio de colores y otras marcas, se destacan las intensidades de un cierto carcter. Por
ejemplo, la produccin de hierro en distintas zonas de Murcia. Est especialmente indicado cuando las modalidades hacen referencia de manera directa o indirecta a situaciones
geogrficas.
Por ejemplo, el siguiente cartograma representa la urbanizacin en el mundo atendiendo a la industrializacin:

Figura 2.5: Cartograma


15

2.2 Representacin grfica de variable cualitativa

Pirmides de Poblacin:

Las pirmides de poblacin se utilizan para estudiar conjuntamente el carcter cuantitativo edad y el carcter cualitativo sexo.
El diagrama se obtiene representando en la abscisa el sexo y en la ordenada el grupo
de edad. En la pirmide de poblacin, se puede analizar la distribucin de la poblacin
por edad y sexo, deducir vicisitudes (guerras, catstrofes, etc.) conocer el comportamiento
demogrfico, conocer el desarrollo de la poblacin, etc.

EDAD

70
60
50
40
30
20
10
0

Hombres

Mujeres

Figura 2.6: Pirmide de Poblacin

Comparaciones:
A veces se desea comparar varias poblaciones respecto de un mismo carcter. Para
ello, se superponen los grficos. Es conveniente usar las frecuencias relativas, ya que de
esta forma, se elimina el factor tamao. Por ejemplo:
40
35
30

1o A

40

37

35
30

25
20
15
10

1o B

34
26

25
20

20
15

15

28

1o D

20
15

16
12
8 7 7
6

5
0

1o C

INS

SUF

BIEN

NOT

Figura 2.7: Comparaciones

SOB


16

Representaciones Grficas

2.3. Representacin grfica de variable cuantitativa


2.3.1. Variable Estadstica Discreta:
Diagrama de Barras:
Es la representacin sobre un sistema cartesiano de referencia del conjunto de puntos
{xi , ni }i=1,2,...,k {xi , fi }i=1,2,...,k (frecuencias absolutas o relativas). En el eje de abscisas
se colocan los valores de la variable estadstica y en el de ordenadas sus frecuencias.
Seguidamente se trazan barras de longitud proporcional a dichas frecuencias.
Por ejemplo, consideremos una poblacin formada por 1000 lotes de ciertas piezas
mecnicas. El carcter que se observa en cada unidad es el nmero de piezas defectuosas
que contiene: 0, 1, 2, 3, 4, 5, 6, 7 o ms. El resultado del estudio est dado en la siguiente
tabla:
Nmero de piezas
defectuosas por lote
Nmero de lotes
con xi piezas defect.
Frecuencias
Acumuladas

xi

ni

300

365

214

83

23

15

Ni

300

665

879

962

985

985

1000

1000

Tabla 2.3: Piezas Defectuosas

400
350
300

ni

250

365
300

200

214

150
100
83

50
0

xi
Figura 2.8: Diagrama de Barras

Curva Acumulativa o de Distribucin:


Vamos a introducir el concepto de funcin de distribucin o acumulativa. Dada una
poblacin P, estudiada segn un carcter C cuantitativo discreto, se define como funcin


17

2.3 Representacin grfica de variable cuantitativa

de distribucin o acumulativa de la variable estadstica asociada a:


F : R = R
x R = F(x)

siendo F(x) la proporcin de individuos de la poblacin cuyo carcter sea menor o igual
a x (x C):

F1
F(x) = F2

..

Si x < x1
Si x1 x < x2
Si x2 x < x3
..
.
Si xk x

Esta funcin verifica: Es no decreciente, es continua por la derecha de cada xi , es escalonada, F(+) = 1 y F() = 0. La curva de distribucin no es ms que la representacin
grfica de la funcin de distribucin.
Para el ejemplo anterior, se tiene la siguiente funcin y curva acumulativa o de distribucin:

0
Si x < 0

0, 300 Si 0 x < 1

0, 665 Si 1 x < 2

0, 897 Si 2 x < 3
F(x) = 0, 962 Si 3 x < 4

0, 985 Si 4 x < 5

0, 985 Si 5 x < 6

1
Si 6 x < 7

1
Si x 7
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0

Fi

xi
0 1 2 3 4 5 6 7 8
Figura 2.9: Curva de Distribucin


18

Representaciones Grficas

2.3.2. Variable Estadstica Continua:


Histograma:
Cuando la distribucin expresa sus modalidades mediante intervalos, desconocemos
cmo se reparten las frecuencias dentro de ellos; lo ms que podemos afirmar es el nmero de individuos que corresponden a cada intervalo. Por convenio, suponemos que los
elementos estn situados dentro del intervalo de forma homognea.
Efectuamos los cocientes:
fi
hi =
ai
donde fi y ai representan la frecuencia y la amplitud del intervalo i-simo respectivamente. Al cociente se le denomina densidad de frecuencia hi .
El histograma se efecta representando los intervalos de clase en el eje de abscisas, a
continuacin se construye rectngulos de base la amplitud ai y altura hi .
Polgono de Frecuencias:
Se denomina as a la lnea poligonal que se obtiene uniendo por segmentos los puntos
de abscisas iguales a las marcas de clase y ordenadas las alturas hi de los rectngulos correspondientes. Esta lnea encierra con el eje de abscisas un rea igual a la del pictograma.
Por ejemplo, consideremos un parque automovilstico de 2478 coches clasificados
segn el nmero de kilmetros recorridos en un ao.
Kilmetros (en miles)
(ei1 , ei ]
(0,4]
(4,8]
(8,12]
(12,16]
(16,20]
(20,24]

Nmero de vehculos
ni
228
634
821
475
233
87

Tabla 2.4: Kilmetros Recorridos

1000
800
600
400
200

Fi

xi
4 0 4 8 12 16 20 24

Figura 2.10: Histograma y Polgono de Frecuencias


19

2.3 Representacin grfica de variable cuantitativa

Curva Acumulativa o de Distribucin:

Para obtener la curva de distribucin es necesario primero conocer la funcin de distribucin de la variable continua. La funcin de distribucin en el caso continuo es anloga
al discreto, hay que tener en cuenta que trabajamos con intervalos. Se define
F : R = R
x R = F(x)
Siendo F(x) la proporcin de individuos de la poblacin cuyo carcter sea menor o igual
a x (x C):

F1
F(x) = F2

..

Si x < e0
Si e0 x < e1
Si e1 x < e2
..
.
Si ek x

Nota: Como no se conoce el comportamiento de la funcin de distribucin en cada intervalo, se supone que la funcin aumenta de forma lineal.
Siguiendo con el ejemplo, se tiene:

0, 092

0, 348
F(x) = 0, 679

0, 871

0, 965

1
1.000

Si x < 0
Si 0 < x 4
Si 4 < x 8
Si 8 < x 3
Si 12 < x 16
Si 16 < x 20
Si 20 < x

0.800
b

0.600
0.400
b

0.200
b
b

4 0

x
12 16 20 24 28

Figura 2.11: Curva de Distribucin

Formas Caractersticas de las Curvas de Frecuencias:


El polgono de frecuencias, para una poblacin grande, se aproxima a una curva llamada curva de frecuencias. Estas curvas pueden ser:


20

S ESGADA

Representaciones Grficas

A LA I ZQUIERDA

F ORMA J OTA I NVERTIDA

U NIMODAL

S IMTRICA

F ORMA

DE

B IMODAL

S ESGADA

A LA

F ORMA

D ERECHA

DE

M ULTIMODAL

Figura 2.12: Formas Caractersticas de Curvas de Frecuencias

Diagrama de Tallos y Hojas:


El diagrama de tallos y hojas fue introducido por John W. Tukey en 1977, y permite
obtener simultneamente una distribucin de frecuencias de la variable y su representacin grfica.
Para construirlo basta separar en cada dato el ltimo dgito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formarn el tallo).
Si giramos el grfico 90o , obtendremos prcticamente el diagrama clsico; el grfico
simula una tabla de recuentos, los tallos simulan las modalidades y las hojas la columna
de recuento.
Por ejemplo, para los siguientes datos,se obtiene el siguiente diagrama:

47 70
88 06

84 60 89 34
61 31 87 58

59 75 58 92
57 32 48 85

21

2.3 Representacin grfica de variable cuantitativa

88 80 19 81
69 17 90 85

98
92

Tabla 2.5: Diagrama de Tallos

Tallo
0
1
2
3
4
5
6
7
8
9

Hoja
6
9

4
7
9
0
0
4
2

1
8
8
1
5
9
8

2
8
9

8
0

0 1 8
2

7 5

Figura 2.13: Diagrama de Tallos

Ejercicios

2.1

Los siguientes datos corresponden a rgimen de tenencia de viviendas en Espaa:


Por compra (totalmente pagada) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.158.320
Por compra (con pagos pendientes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.825.695
Por herencia o donacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.182.109
Facilitadas (por otras personas, empresas u organismos) . . . . . . . . . . . . . . . . 538.572
En alquiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.757.469
Otras formas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.504
1. Halla la distribucin de frecuencias relativas.
2. Representa mediante un diagrama de Pareto y un pictograma la distribucin
de la variable.
3. Qu conclusiones puedes sacar?

2.2 Los siguientes datos corresponden al nmero de bibliotecarios en las bibliotecas


pblicas de las diferentes provincias:
4
7
4
8
6

7
4
1
12
6

5
3
10
3
1

2
4
2
2
3

4
4
5
2
15

5
3
2
5
16

6
4
2
4
6

4
3
5
1
7

7
2
3
5
12

3
4
3
8
3

1. Halla la distribucin de frecuencias relativas y represntala mediante un diagrama de barras.


2. Obtn y representa la distribucin de frecuencias relativas acumuladas.


22

Representaciones Grficas

3. Qu proporcin de provincias tienen ms de siete bibliotecarios?


4. Presenta algunas conclusiones sobre esta variable.

2.3 Las siguientes observaciones expresan el nmero de veces que veintids consumidores compraron una determinada marca de un producto en los dos ltimos meses.
0 2 5 0 3 1 8 0 3 1 1
9 2 4 0 2 9 3 0 1 9 8
1. Construir la distribucin de frecuencias relativas y la de frecuencias relativas
acumuladas.
2. Representar ambas distribuciones.
3. Qu proporcin de personas no compraron nunca dicha marca?
4. Qu porcentaje de consumidores adquirieron dicha marca menos de cinco
veces?
5. Se puede obtener alguna conclusin del estudio?

2.4 El Servicio de Atencin al Paciente comprueba que el nmero de enfermos que


acuden al Servicio de Urgencias de un Hospital durante 100 das elegidos al azar,
es el que recoje la tabla:
87 80 109 91 83 70 91
93 86 95
71 86 98 104 107 89 109 126 102 83
86 107 85 115 103 69 74
70 86 92
97 118 102 122 97 78 91 108 101 85
100 80 93 90 90 79 93 102 107 107
83 103 99 87 92 107 80
90 72 100
118 81 115 88 70 87 99 105 99 103
99 98 88 90 89 73 93
94 82 80
84 115 87 91 113 113 108 75 76 85
115 103 88 99 92 93 71
89 112 119
1. Ordena esta serie de 100 observaciones en intervalos de amplitud 10.
2. Representa grficamente la distribucin obtenida.
3. Cuntos das al ao acudirn al Servicio de Urgencias ms de 100 enfermos?.
Cuntos das acudirn menos de 90 enfermos?

2.5 Completa los datos que aparecen en la siguiente tabla.


Xi ni Ni
fi
1 4
0.08
2 4
3
16 0.16
4 7
0.14
5 5 28
6
38
7 7 45 0.14
8

2.6

A partir de la siguiente informacin proporcionada por la Encuesta de Poblacin


Activa en Espaa(INE) correspondiente al cuarto trimestre de 2006, acerca de la
distribucin de paro segn sexo, estratos de edad y sectores econmicos:

Miles

De 16
a 19 aos

23

2.3 Representacin grfica de variable cuantitativa

De 20
a 24 aos

De 25
a 54 aos

De 55
en adelante

Varones
Agricultura
1.3
2.5
29.4
5.3
Industria
10.0
17.5
50.5
6.4
Construccin
11.0
21.7
107.7
10.4
Servicios
20.9
36.4
173.1
11.7
Parados que buscan su primer
empleo o han dejado su lti35.7
34.2
145.7
32.3
mo empleo hace ms de un
ao
Mujeres
Agricultura
1.4
7
32.8
1.7
Industria
3.0
10.9
41
3.8
Construccin
0.0
1.4
3.9
0.2
Servicios
34.7
77.7
335.3
15.1
Parados que buscan su primer
empleo o han dejado su lti45.6
61.2
331.6
38.5
mo empleo hace ms de un
ao
1. Construye la distribucin de frecuencias del nmero de parados segn el sexo
y elabora los correspondientes diagramas de sectores y de barras.
2. Construye la distribucin de frecuencias del nmero de parados segn actividad econmica y elabora los correspondientes diagramas de sectores y de
barras.
3. Construye la distribucin de frecuencias del nmero de parados segn estratos
de edad y elabora los correspondientes diagramas de sectores e histograma.

Captulo

Reduccin Numrica de Datos

ahora se han visto dos formas de representacin de datos: la tabla estadstica


de frecuencias o alguna representacin grfica. Veamos otra forma de sintetizar los
datos, mediante la bsqueda de indicadores que nos ofrezcan la posicin o representacin
de los valores que adopta una variable, es decir, un resumen cuantitativo que incluso
permita realizar comparaciones entre distintos conjuntos de datos. Existen diferentes tipos
de medidas segn sea el objetivo que se pretenda: de posicin central, de dispersin, de
forma, etc. Empecemos con las medidas de sntesis ms sencillas.
La bibliografa utilizada es [1], [2], [4], [5], [7] y [8]
ASTA

3.1. Medidas de Centralizacin


Las medidas o estadsticos de centralizacin, o de tendencia central, nos indican los
puntos en torno a los cuales se encuentran los valores de la variable estadstica en estudio;
es decir, nos indican los puntos centrales de una distribucin. Representan el conjunto de
datos mediante un slo valor numrico, tratando de resumir y sintetizar la distribucin
de frecuencias. Las medidas de posicin central ms utilizadas son las medias (aritmtica,
geomtrica, armnica, cuadrtica), la moda y la mediana.

3.1.1. La Mediana
Matemticamente, se define la mediana como la solucin de la ecuacin
1
2
Siendo F(x) la funcin de distribucin. Pero esta es una definicin formal, pero no la ms
prctica.
F(x) =

Definicin 3.1.1. Sea X una variable estadstica (carcter cuantitativo) de una poblacin
o muestra con N individuos. Se llama mediana a un valor, representado por Me , tal que,
ordenados los N valores de X en orden creciente, el 50 % de ellos son menores que Me y
el 50 % restante son mayores que Me .
Estudiemos la forma de calcular la mediana en los distintos casos:
Caso Discreto:
1. Si N es impar. Sea X una variable estadstica discreta, con distribucin de frecuencias: Para calcular la mediana de esta distribucin podemos proceder de varias for-


26

Reduccin Numrica de Datos

Xi
3
4
5
6
7
8
9
10

ni
1
2
1
1
3
0
0
1

Ni
1
3
4
5
8
8
8
9

fi
1/9
2/9
1/9
1/9
3/9
0
0
1/9

Fi
1/9
3/9
4/9
5/9
8/9
8/9
8/9
1

Tabla 3.1: Mediana Variable Discreta Impar

mas:
a) Directamente sobre los datos. Ordenamos los datos sin agrupar, es decir, repitiendo cada uno tantas veces como indique su frecuencia absoluta, en este
caso:
3 4 4 5 6 7 7 7 10
En este caso, N=9, la mediana es el valor central: Me =6, ya que deja la mitad
de los datos por encima y la otra mitad por debajo.
b) A partir de la funcin de distribucin de frecuencias absolutas (o relativas).
Dibujamos la funcin de distribucin de frecuencias absolutas, basada en las
frecuencias absolutas acumuladas. A continuacin dibujamos la recta horizontal de ecuacin y = N2 , en nuestro ejemplo y = 92 = 4, 5, mitad del tamao de
la poblacin. Observamos que la primera vertical que corta es la recta x = 6.
Este es el valor de la mediana: Me =6.
9
8
7
6
5
4
3
2
1
0

Figura 3.1: Mediana Variable Discreta Impar

10

2. Si N es par. Sea X una variable estadstica discreta con distribucin de frecuencias:


Para calcular la mediana de esta distribucin podemos se procede de varias formas:
a) Directamente sobre los datos. Ordenamos los datos sin agrupar, es decir, repitiendo cada uno tantas veces como indique su frecuencia absoluta:
3 4 4 5 6 7 7 7 10 10
En este caso, N=10, es par, por lo que hay dos valores centrales, el 6 y el 7;
se toma por mediana el punto medio de ambos:
Me =

6+7
= 6, 5
2


27

3.1 Medidas de Centralizacin

Xi
3
4
5
6
7
8
9
10

ni
1
2
1
1
3
0
0
2

Ni
1
3
4
5
8
8
8
10

fi
1/10
2/10
1/10
1/10
3/10
0
0
2/10

Fi
1/10
3/10
4/10
5/10
8/10
8/10
8/10
1

Tabla 3.2: Mediana Variable Discreta Par

b) A partir de la funcin de distribucin de frecuencias absolutas (o relativas).


Dibujamos la funcin de distribucin de frecuencias absolutas, basada en las
frecuencias absolutas acumuladas. A continuacin dibujamos la recta horizontal de ecuacin y = N2 , en nuestro caso y = 5, mitad del tamao de la poblacin.
Ahora, para todo punto x del intervalo [6, 7) se tiene que N(x) = 5, se toma
como valor mediano el punto medio del intervalo: Me = 6,5.
10
9
8
7
6
5
4
3
2
1
0
0

Figura 3.2: Mediana Variable Discreta Par

10

Est claro que si el tamao de la poblacin N, es pequeo, es ms cmodo el clculo


de la mediana a partir de los datos, mientras que si N es relativamente grande, ser
mejor hallar la mediana a partir de su funcin de distribucin. En cualquier caso, el
segundo mtodo ofrece ms inters terico, aparte de que es el que se usar cuando
la variable sea continua.

Caso Continuo:
Tomemos el siguiente ejemplo, visto ya en la pgina 18 punto 2.3.2: Un parque automovilstico de 2478 coches clasificados segn el nmero de kilmetros recorridos en un
N 2478
ao: La mitad de datos es: =
= 1239. La primera clase cuya frecuencia absoluta
2
2
acumulada es mayor o igual a N/2 es el intervalo (8, 12]. Este es el intervalo mediano o
clase mediana de la distribucin.
La mediana, Me pertenece a dicho intervalo, y se determinar por interpolacin lineal.
Sobre la grfica de la funcin de distribucin de frecuencias absolutas, tracemos la recta


28

Reduccin Numrica de Datos

ni
228
634
821
475
233
87

(ei1 , ei ]
(0,4]
(4,8]
(8,12]
(12,16]
(16,20]
(20,24]

Ni
228
862
1683
2158
2391
2478

fi
228/2478
634/2478
821/2478
475/2478
233/2478
87/2478

hi = fi /4
228/9912
634/9912
821/9912
475/9912
233/9912
87/9912

Fi
228/2478
862/2478
1683/2478
2158/2478
2391/2478
1

Tabla 3.3: Mediana Variable Continua

2500

24

28

2250
b

2000
B

1750

1500
C

1250
1000
A

750

500
250
0

12

16

20

Figura 3.3: Mediana Variable Continua

y = N2 , en nuestro caso y = 1239. Tal recta corta al segmento de extremos A(8, 862) y
B(12, 1683) en un punto C(x, 1239). La abscisa del punto de corte es la que tomamos
como mediana (a este proceso lo llamamos interpolacin lineal).
Para hallar la abscisa x = Me :

A travs de la ecuacin punto pendiente


La pendiente del segmento [A, B] es
m=

yB yA 1683 862
=
xB xA
12 8

la ecuacin punto pendiente de la recta que pasa por A y B es


y yA = m(x xA )


29

3.1 Medidas de Centralizacin

Al sustituir con los datos conocidos tenemos:


y 862 =

1683 862
(x 8)
12 8

Como el punto C(Me, 1239) pertenece a la dicha recta, ha de satisfacer su ecuacin:


1239 862 =
Despejando Me :

1683 862
(Me 8)
12 8

1239 862
(12 8) 9,84
1683 862
De esta manera, una vez determinado el intervalo mediano Ii = (ei1 , ei ], de frecuencia
absoluta acumulada Ni , se puede deducir la frmula de la mediana:
Me = 8 +

N
Ni1
Me = ei1 + 2
(ei ei1 )
Ni Ni1
A travs de tringulos semejantes
Fijmonos en el siguiente grfico: Los tringulos ACC y ABB son semejantes,
B

Ni
C

N
2

Ni1

A
ei1

bc

Me

bc

ei

Figura 3.4: Mediana Variable Continua II

por tanto:

Sustituyendo, se tiene:

Despejando Me :

AC AB
=
CC B B
Me ei1
ei ei1
=
N
Ni Ni1
Ni1
2
N
Ni1
(ei ei1 )
Me = ei1 + 2
Ni Ni1

~ y AB
~ son proporcionales.
Vectorialmente equivale a decir que los vectores AC
Observaciones:
El tratamiento es idntico en el caso de intervalos de amplitudes desiguales.


30

Reduccin Numrica de Datos

Si trabajamos con frecuencias relativas en vez de absolutas, se obtiene grficas semejantes y el rea encerrada por los rectngulos o bajo el polgono de frecuencias
es igual a 1, y la mediana se calcula a travs de la frmula:
1
Fi1
Me = ei1 + 2
(ei ei1 )
Fi Fi1

Dejando al cuidado del lector la comprobacin.


La mediana es un estadstico no muy sensible a los cambios que se efecten en algunos valores de la variable. Veremos cmo otros estadsticos (por ejemplo la media)
alteran sus valores con slo cambiar un valor de la distribucin. Sin embargo la
mediana puede no verse afectada. Esta propiedad de la mediana la hace apropiada
para determinar objetivos. As puede resultar adecuado su clculo cuando la distribucin de frecuencias sea demasiada asimtrica, con algunos valores muy altos (o
muy bajos) que podamos considerar atpicos.
En general nos interesarn ms los estadsticos que aprovechen al mximo la informacin disponible en la distribucin. En este sentido la mediana presenta este
inconveniente, ya que para su clculo slo tiene en cuenta parte de la distribucin
(el valor o valores centrales).

3.1.2. La Moda
Definicin 3.1.2. Dada un distribucin de frecuencias, se define la moda como el valor
ms frecuente de la distribucin. Se denota Mo .
Caso Discreto.
Dada una distribucin estadstica discreta X con distribucin de frecuencias
{(x1 , n1 ), (x2 , n2 ), . . ., (xi , ni ), . . ., (xk , nk )}
se llama moda a la modalidad que presenta una frecuencia mxima. Es decir, llamaremos
moda, al valor x j de manera que n j = max{ni : i = 1, 2, . . ., k} En el diagrama de barras
es la modalidad a la que corresponde la barra ms alta.
Para el ejemplo de la pgina 16, se tiene que su moda es el valor m0 = 1 ya que su
frecuencia es la mxima (365).
Caso continuo.
Dada una variable estadstica continua X con distribucin de frecuencias
{(I1, n1 ), (I2 , n2 ), . . ., (Ii , ni ), . . . , (Ik , nk )}
se llama clase modal a la clase a la que le corresponde el rectngulo de mayor altura en el
histograma de frecuencias (que no tiene por qu ser necesariamente el de mayor rea). Si
deseamos especificar ms concretamente a qu valor de la variable le atribuimos el papel
de moda, tendremos que proceder de manera anloga a como lo hicimos con la mediana,
por interpolacin. La semejanza de los tringulos AFD y CFB hace que:

hi

D
F

G
B

hi+1

hi1

31

3.1 Medidas de Centralizacin

ei1

M0

ei

Figura 3.5: Moda Variable Continua

FG HF
=
CB
AD
de donde:

FG + HF
HF
=
CB + AD
AD

Despejando:
HF = M0 ei1 =

AD
(FG + HF)
CB + AD

Y por lo tanto:
M0 = ei1 +

hi hi1
(ei ei1 )
(hi hi1 ) + (hi hi+1 )

Para el ejemplo de la pgina 18 punto 2.3.2, la moda sera:


M0 = 8 +

187
4 9, 403
187 + 346

Observaciones:
En el caso de distribuciones de intervalos de amplitudes desiguales, el tratamiento
es anlogo a lo ya descrito.
Cuando una distribucin presenta varios mximos locales, bien en el diagrama de
barras (caso discreto), o bien en el histograma (caso continuo), se habla de una
distribucin multimodal.

3.1.3. Media Aritmtica


Definicin 3.1.3. Dada una variable X , se define la media (media aritmtica), como la
suma ponderada por sus frecuencias relativas, de los valores de la variable estadstica.
Se suele representar por x.


32

Reduccin Numrica de Datos

Caso Discreto.
Sea X una variable estadstica discreta de una poblacin finita de tamao N, sean
x1 , x2 , . . . , xN los N valores observados de X . Su media es:
N

xi
x1 + x2 + + xN
i=1
=
x=
N
N
N

Donde usamos la notacin x1 + x2 + + xN = xi


i=1

Si de esos N valores slo hay k distintos x1 , x2 , . . .xk , que se repiten respectivamente


n1 , n2 , . . . , nk veces, entonces su media se calcula:
k

nixi

x=

i=1

Usando la definicin, se tiene:


k

x = f1 x1 + f2 x2 + + fk xk = fi xi
i=1

Los clculos se pueden realizar de las siguientes maneras:


xi
3
4
5
6
7
8
9
10

ni
1
2
1
1
3
0
0
2
ni = 10

ni xi
3
8
5
6
21
0
0
20
ni xi = 63

Tabla 3.4: Media Variable Discreta Frecuencias Absolutas

xi ni

x=

i=1

63
= 6,3
10

Si preferimos trabajar con frecuencias relativas:


8

x = fi xi =
i=1

63
= 6,3
10

xi
3
4
5
6
7
8
9
10

33

3.1 Medidas de Centralizacin

ni
1
2
1
1
3
0
0
2
ni = 10

fi
1/10
2/10
1/10
1/10
3/10
0
0
2/10
fi = 1

fi xi
3/10
8/10
5/10
6/10
21/10
0
0
20/10
fi xi = 63/10

Tabla 3.5: Media Variable Discreta Frecuencias Relativas

Caso Continuo.
En este caso sustituimos las clases por sus marcas (suponemos que todos los puntos
del intervalo estn concentrados en el punto medio de dicho intervalo), definiendo de
modo anlogo, sin ms que sustituir por las marcas de clase xi , los valores de la variable.
k

nixi

x = xi fi =
i=1

i=1

Por ejemplo:
(ei1 , ei ]
(40,50]
(50,70]
(70,90]
(90,100]
(100,105]

xi
45
60
80
95
102,5

ni
6
12
16
14
2
ni = 50

xi ni
270
720
1280
1330
205
xi ni = 3805

Tabla 3.6: Media Variable Continua

nixi

x=

i=1

3805
= 76, 1
50

3.1.4. Comportamiento de la media frente a transformaciones lineales


Dada una variable estadstica X de valores {x1 , x2 , . . ., xk } y distribucin de frecuencias {n1 , n2 , . . . , nk }, definimos una nueva variable X resultante de someter las modalidades a la transformacin:
X = aX + b a 6= 0; y para cualquier b


34

xi ,

Reduccin Numrica de Datos

La nueva variable ser de la misma naturaleza que X y con modalidades que notaremos
constituyendo la distribucin de frecuencias {xi , fi }i=1,2,...,k .

Proposicin 3.1.4. Si designamos con x a la media de la variable X se verifica


x = ax + b
Demostracin. Partiendo de la definicin de x se tiene:
k

i=1

i=1

i=1

x = xi fi = (axi + b) fi = a xi fi + b = ax + b
Por tanto se puede decir que la media conserva las transformaciones lineales.
El multiplicar xi por a equivale a multiplicar la unidad de medida tomada para representar X por a, y el sumar b equivale a efectuar una traslacin, por lo que el origen
inicial (cero) pasara a ser el punto b. Esta es la razn por la que se suele decir que se ha
efectuado un cambio de origen y un cambio de escala o de unidad de medida.
En la prctica, esta transformacin est justificada por querer reducir las modalidades
a otros nmeros ms manejables para el clculo.
Proposicin 3.1.5. La suma de las desviaciones de los valores de la variable respecto a
su media aritmtica es cero.
k

(xi x)ni = 0

Demostracin. Hay que demostrar que:

i=1

Desarrollando el sumatorio tenemos:


k

(xi x)ni = xi ni x ni = xi ni x ni = N x x ni = N x x N = 0

i=1

i=1

i=1

i=1

i=1

Por Ejemplo: Se ha realizado un estudio en una zona marginada de una ciudad para
comprobar cul es el salario medio mensual (en euros) que perciben las 500 familias que
conviven en esa zona. Los datos que se han recogido se muestran en la siguiente tabla:
(ei1 , ei ]
(180,300]
(30,360]
(360,420]
(420,540]
(540,660]
(660,780]
Sumas
Su media sera:

xi
240
330
390
480
600
720

ni
21
84
136
215
32
12
500

xi ni
5040
27720
53040
103200
19200
8640
216840

216840
= e 433,68
500
Efectuemos la transformacin lineal para encontrar valores menores en la variable estadstica y simplificar los clculos.
x=

Llamamos a la variable X =

35

3.1 Medidas de Centralizacin


1
X
8 con a =
y b = 8.
60
60

Se han tomado estos valores de manera que la marca del intervalo (420,540] se anule
(se puede elegir el que se quiera). Este es, en general, un buen mtodo para la transformacin lineal.
Efectuando la tabla de X sera:
(ei1 , ei ]
(180,300]
(30,360]
(360,420]
(420,540]
(540,660]
(660,780]
Sumas

xi
-4
-2.5
-1.5
0
2
4

ni
21
84
136
215
32
12
500

xi ni
-84
-210
-204
0
64
48
-386

Y su media sera:
x =

386
= 0,772
500

Vemos que los valores se han simplificado mucho. Para la media aritmtica de X , deshacemos el cambio:
x b 0,772 + 8
=
= e 433.68
x=
a
1/60
Proposicin 3.1.6. La suma de las desviaciones al cuadrado de los valores de la variable
respecto a una constante K cualquiera, se hace mnima cuando K = x (Teorema de Knig).
Demostracin. Consideremos la expresin D(K) =
Entonces, desarrollando, se tiene:
D(K) =
=

1 k
(xi K)2 ni

N i=1

1 k
1 k
(xi K + x x)2 ni = [(xi x) (K x)]2 ni =

N i=1
N i=1
2
1 k 
(xi x)2 + (K x)2 2(xi x) (K x) ni =

N i=1

1 k
1 k
2 k
2
2
= (xi x) ni + (K x) ni (xi x) (K x)ni =
N i=1
N i=1
N i=1
=

k
1 k
2
2
2
(x

(K

x)
n
+
(K

x)

x)
i
i
(xi x)2ni =
N i=1
N
i=1

1 k
= (xi x)2 ni + (K x)2 = D(x) + (K x)
N i=1
De donde deducimos que el mnimo se obtiene cuando K = x


36

Reduccin Numrica de Datos

3.2. Otras Medias


La media aritmtica es el promedio ms empleado. No obstante, cuando una variable
estadstica X toma algunos valores extremos muy elevados en relacin con el resto, la
media aritmtica se ve muy afectada por ellos, con lo que la interpretacin de los resultados se ve muy afectada por ellos, con lo que la interpretacin de los resultados puede
verse distorsionada y su representatividad ser escasa. Es por eso por lo que que a veces se
emplean otras medias. En otras ocasiones es la propia naturaleza de la variable X la que
obliga a emplear una media distinta a la aritmtica. Estas medias son:

3.2.1. Media Aritmtica Ponderada:


Sea X una variable estadstica discreta que toma los valores x1 , x2 , . . .xk , con frecuencias absolutas n1 , n2 , . . . , nk . Si a las modalidades x1 , x2 , . . .xk se les atribuyen distintos
pesos (ponderaciones) 1 , 2 , . . . , k , se tiene la media aritmtica ponderada, x :
k

xw =

n1 1 x1 + n2 2 x2 + + nk k xk
=
n1 1 + n2 2 + + nk k

niixi

i=1
k

nii

i=1

Ejemplo de Media Ponderada

Un hotel para contratar a un recepcionista de entre dos aspirantes, A y B, los somete a cuatro pruebas: Idiomas, Informtica, Contabilidad y Cultura general. Las
calificaciones y pesos se dan en la siguiente tabla:
Prueba
Idiomas
Informtica
Contabilidad
Cultura
Totales

Peso i
10
8
7
5
30

Calif. A (ai )
6
7
8
9
30

Calif. B (bi )
10
8
6
5
29

ai i
60
56
56
45
217

bi i
100
64
42
25
231

Qu candidato debe ser contratado?


Las medias aritmticas de las calificaciones de los candidatos son A = 30
4 = 7,50 y
29
B = 4 = 7,25, lo que llevara a contratar al candidato A.
Pero si consideramos los diferentes pesos, las medias aritmticas ponderadas seran
231
para el candidato A: Aw = 217
30 7,23 y para el candidato B: Bw = 30 7,70.
Por tanto, se debe contratar a B.


37

3.2 Otras Medias

3.2.2. Media Armnica:

Sea X una variable estadstica discreta que toma los valores x1 , x2 , . . .xk , con frecuencias absolutas n1 , n2 , . . ., nk . Se define media armnica, denotada H como:

H=

n1 x11

+ n2 x12

1
=
+ + nk x1k

1
= 
1
1
ni xi
X
i=1
k

ni

i=1

Es decir, la media armnica de X es la inversa de la media aritmtica de (1/X ). Es poco


sensible a valores elevados, pero mucho a los valores pequeos. No est determinada si
algn xi es 0. Se utiliza cuando X representa unidades relativas: Km/h, e /$
Ejemplo de Media Armnica

Por ejemplo: En el trayecto entre dos ciudades, los n1 = 40 primeros kilmetros se


recorren a una velocidad media de x1 = 90Km/h, los n2 = 50 kilmetros siguientes
a la velocidad media de x2 = 120Km/h, y los ltimos n3 = 10 kilmetros, a una
velocidad media de x3 = 30Km/h. Cul es la velocidad media del recorrido?
Por supuesto, ni la media aritmtica ni la media aritmtica ponderada son la respuese
ta. La velocidad media es, por definicin: v = , el espacio total recorrido, dividido
t
por el tiempo empleado.
En este caso, hay tres etapas con distintas velocidades, en cada una el tiempo empleado es
1
ni
t i = = ni
xi
xi
De modo que el tiempo total es
3

t = ni
i=1

1
40
50
10 43
=
+
+
=
xi 90 120 30 36

El espacio recorrido es la suma de los espacios recorridos en cada etapa:


3

e = ni = 40 + 50 + 10 = 100
i=1

La velocidad media es por tanto la media armnica de las velocidades xi ponderadas


por los recorridos parciales ni :
H=

100 3600
=
83, 72 Km/h
43
43
36


38

Reduccin Numrica de Datos

3.2.3. Media Geomtrica:


Sea X una variable estadstica discreta que toma los valores x1 , x2 , . . .xk , con frecuencias absolutas n1 , n2 , . . . , nk . Se define la media geomtrica, denotada G como:
q
G = N xn11 xn22 xnk k

Donde N = n1 + n2 + + nk
Usando logaritmos y sus propiedades tenemos:
q
n1 ln x1 + n2 ln x2 + + nk ln xk
n
ln G = ln N xn11 xn22 xk k =
= ln X
N
Es decir, el logaritmo neperiano de la media geomtrica de X es la media aritmtica de la
variable estadstica ln X :
G = eln X

La media geomtrica es menos sensible a los valores extremos, aunque puede estar
indeterminada si existen valores negativos de X . Se emplea para promediar variables estadsticas cuyos valores presentan alteraciones en un perodo de tiempo dado: rendimientos
de capital, tasas de crecimiento, nmeros ndices como el IPC.
Ejemplo de Media Geomtrica

El precio de un bien ha aumentado un 20 % durante el ao 2008 y un 10 % durante


el ao 2009. Cul es el porcentaje promedio de aumento durante los dos aos?
20 + 10
La tentacin es contestar: la media aritmtica:
= 15; pero la respuesta no
2
es correcta.
Si llamamos p al porcentaje medio por ao, el bien al final del ao 2008 tendr un
valor de (1 + p)x y al final del ao 2009 de (1 + p)2 x, siendo x el precio inical del
bien, entonces se tiene:
(1 + p)2 x = (1, 20) (1, 10)x (1 + p)2 = (1, 20) (1, 10)
Lo que quiere decir que el porcentaje medio es:
p
1 + p = (1, 20) (1, 10) 1, 1489 p = 14, 89 %

En estos casos debemos usar la media geomtrica.

3.2.4. Media Cuadrtica:


Sea X una variable estadstica discreta que toma los valores x1 , x2 , . . .xk , con frecuencias absolutas n1 , n2 , . . . , nk . Se define media cuadrtica, denotada C como:
v
u k
u
s
u ni x2i
p
2
2
2
n1 x1 + n2 x2 + + nk xk t i=1
=
= X2
C=
N
N

Es decir, el cuadrado de la media cuadrtica de X es la media aritmtica de la variable


estadstica X 2 .
El inconveniente de esta media es que es muy sensible a los valores elevados.


39

3.2 Otras Medias

Ejemplo de Media Cuadrtica

Si un cuadrado tiene de lado a y otro tiene de lado b, cul ha de ser el lado de un


cuadrado cuya rea sea la media de las reas de los otros dos?
Si x es el lado del cuadrado de rea media, ha de ser:
s
2
2
a +b
a2 + b2
rea = x2 =
x=
2
2

Proposicin 3.2.1. Entre las distintas medias, se verifica las siguientes desigualdades:
H GxC

Demostracin. La proposicin se demostrar para el caso ms sencillo, a saber:


xi
ni
Partiendo de
al desarrollar se tiene:

a
1

b
1

( a b)2 0

a+b
ab
a + b 2 ab 0 a + b 2 ab
2
Es decir:
xG

Dndole la vuelta a la desigualdad anterior se tiene:

2
a+b
1
ab
ab
=
2
a+b
ab
ab
Operando se tiene:

2
2
2ab
ab
ab
ab
1 1
a+b
a+b
+
a b
ab
Es decir:
HG

Para la ltima desigualdad, usamos el siguiente resultado:

0 (a b)2 = a2 + b2 2ab 2ab a2 + b2

Elevamos al cuadrado x y usamos la desigualdad anterior:

(a + b)2 a2 + b2 + 2ab a2 + b2 + a2 + b2 2(a2 + b2 ) a2 + b2


=

=
=
= C2
22
4
4
4
2
de donde se deduce:
xC

(x)2 =

Por tanto se cumplen las desigualdades:

H GxC


40

Reduccin Numrica de Datos

3.3. Medidas de Posicin


Existen otras medidas que nos indican cmo es la distribucin de una variable estadstica; las ms importantes son los cuantiles que a su vez se clasifican en cuartiles, deciles,
y percentiles.
Definicin 3.3.1. Dada una variable estadstica X con distribucin de frecuencias asociada {(xi , fi )}, sea un nmero real tal que 0 1. Llamaremos cuantil de orden
de la variable X , a la solucin, si existe, de la ecuacin
F(x) =
donde F(x) es la curva acumulativa o de distribucin de la variable X .
Una definicin ms simple es: el cuantil de orden es el valor de la variable que
acumula el 100 % de la distribucin, es decir, los cuantiles son valores de la variable que
dividen a la poblacin en partes, a las que corresponden iguales proporciones.
Segn el nmero de partes en que se divida la poblacin reciben nombres diversos:
cuartiles, deciles y percentiles.

3.3.1. Cuartiles
Son puntos de la distribucin que la dividen en cuatro partes, cada una de la cuales
engloban el 25 % de ella, por lo que podemos obtener tres cuartiles:
Q1 : primer cuartil, o cuartil inferior es la solucin de la ecuacin: F(x) = 0,25
Q2 : segundo cuartil o mediana es la solucin de la ecuacin: F(x) = 0,50
Q3 : tercer cuartil, o cuartil superior es la solucin de la ecuacin: F(x) = 0,75
Grficamente:
Q1

Q2

25 %

Q3

25 %

25 %

25 %

Figura 3.6: Cuartiles

NOTA:
Se observa que los cuartiles no tienen por qu estar a la misma distancia unos de
otros. Lo nico que deben verificar es que entre uno y otro est un 25 % de la
poblacin.
El cuartil de orden 2 es la mediana, ya que divide a la distribucin en dos partes; por
ello, es lgico que el clculo de cualquier cuartil sea muy similar al de la mediana.


41

3.3 Medidas de Posicin

3.3.2. Deciles

Son puntos que dividen a la distribucin en diez partes cada una de las cuales engloban
el 10 %. Notaremos con Di al i-simo decil donde i = 1, 2, 3, . . ., 9, se deduce D5 = Q2 =
Me . El decil de orden i es la solucin de la ecuacin:
F(x) =

i
10

3.3.3. Percentiles
Son puntos que dividen a la distribucin en cien partes, cada una de las cuales engloban el 1 %.Se deduce que P50 = D5 = Q2 = Me . Los notaremos con Pi con i = 1, 2, . . ., 99
y son solucin de la ecuacin
i
F(x) =
100

3.3.4. Clculo de un cuantil


Razonando de manera anloga al clculo de la mediana, supongamos que estamos
interesados en calcular el valor que deja por debajo al 100 % de la distribucin, denotado C( ). Buscaremos en el caso discreto el valor xi cuyo Fi sea igual o superior a
(o de igual forma, el valor xi cuyo Ni sea igual o superior a N ). En el caso de que
la variable sea continua debemos seleccionar el intervalo donde se encuentra el cuantil
(ei1 , ei ] y aplicar la siguiente expresin que surge sustituyendo 0,5 por en la frmula
de la mediana (pgina 27, punto 3.1.1)
C( ) = ei1 +

N Ni1
(ei ei1 )
Ni Ni1

Calculemos algunos cuantiles con la distribucin del ejemplo de la pgina 34:


El salario medio mensual (en euros) que perciben 500 familias que conviven en una zona,
estn recogidas en la siguiente tabla:
(ei1 , ei ]
(180,300]
(300,360]
(360,420]
(420,540]
(540,660]
(660,780]
Sumas

ni
21
84
136
215
32
12
500

Ni
21
105
241
456
488
500

1. Calculamos los cuartiles:


a) Q1 : En este caso el valor de es = 0,25, y por tanto N = 125, as que el
cuartil est en el intervalo (360, 420] y su valor es:
Q1 = 360 +

125 105
60 368, 82
136


42

Reduccin Numrica de Datos

b) Q2 : Es la mediana, y utilizando la frmula con = 0,50 y N = 250, el


intervalo es (420, 540] obtenemos:
Me = Q2 = 420 +

250 241
120 425, 02
215

c) Q3 : Procediendo de igual forma, se obtiene = 0,75 y N = 375, el intervalo


es (420, 540], su clculo:
Q3 = 420 +

375 241
120 494, 79
215

2. Calculamos ahora el decil 2; en este caso = 0,2 y N = 100, por lo que el


intervalo que contiene al decil 2 ser (300, 360], su clculo es:
D2 = 300 +

100 21
60 356, 43
84

3. Calculamos el percentil 98; se tiene = 0,98 y N = 490, por lo que el intervalo


que contiene al percentil 98 ser (660, 780], su clculo es:
P98 = 660 +

490 488
120 = 680
12

4. Cul es el mayor salario que percibe el 20 % de las familias ms probres?. Cul es


el menor salario que percibe el 25 % de las familias con mayor poder adquisitivo?
En el primer caso nos piden el percentil 20, o decil 2,y en el segundo caso, nos
piden el tercer cuartil o percentil 75.

3.4. Medidas de Dispersin Absolutas


Hemos visto cmo mediante los estadsticos de tendencia central, por ejemplo, intentamos representar el conjunto total de datos mediante unos valores centrales. Mediante
los estadsticos que veremos a continuacin, trataremos de acercarnos ms al estudio de
las poblaciones, proporcionando en pocos valores informaciones referentes a colectivos
numerosos. Representan pues, un paso ms hacia adelante, en la tarea de desvelar la composicin o estructura de una poblacin.
No satisface de manera suficiente el que resumamos en una medida central (la media
por ejemplo) todos los valores de una poblacin; es preciso aportar al mismo tiempo una
medida de la representatividad o de la confianza que nos merece dicha media. Es evidente
que ante dos distribuciones de frecuencias referidas al mismo carcter, que tengan una
misma medida de posicin, el comportamiento puede ser notablemente distinto.


43

3.4 Medidas de Dispersin Absolutas

Ejemplo de Dispersin

Los salarios siguientes reflejan la distribucin salarial de las empresas A y B respectivamente:


A:
B:

12
12 18 540 600 900
345 346 347 347 347 348 349

Se comprueba que tanto en la empresa A como en la empresa B, el salario medio


vale 347. Ahora bien, mientras que 347 nos ofrece una idea totalmente falsa de los
salarios en A, la empresa B queda perfectamente representada.
Buscamos en consecuencia otros indicadores que nos permitan juzgar la representatividad de los promedios o medidas de posicin estudiadas. As como otras medidas que
analicen la posicin relativa de los datos.

3.4.1. Recorrido
Una primera medida que puede informar del grado de dispersin de una distribucin
es el recorrido de la variable, denotado Re
Re = max{xi } min{xi }
Efectivamente, a mayor recorrido existir mayor dispersin en la variable. Ahora bien,
como se puede observar, esta medida tiene poca fiabilidad pues no se preocupa de como
se encuentren distribuidas las observaciones dentro del intervalo marcado por los valores
mximo y mnimo de la variable. El recorrido como medida de dispersin carece de sentido cuando se observa que la distribucin de frecuencias presenta valores atpicos, tanto
por exceso como por defecto, que perturbarn la calidad de esta medida de dispersin.

3.4.2. Recorrido Intercuartlico


Una alternativa al recorrido, que no se ve afectado por el problema anterior de los
valores atpicos, es el Recorrido Intercuartlico, denotado RI
R I = Q3 Q1
indica la amplitud del intervalo donde se encuentran el 50 % de las observaciones centrales. Aunque no es estrictamente cierto, cuanto menor sea el intervalo intercuartlico
menor ser la dispersin.

3.4.3. La Desviacin Media


Desviacin media respecto a la media aritmtica.
Como medida de representatividad de la media aritmtica se puede considerar la siguiente:
1 k
D = (xi x)ni
N i=1


44

Reduccin Numrica de Datos

Pero como ya se comprob en las propiedades de la media aritmtica el valor de D es


inevitablemente cero ya que las desviaciones positivas se compensan con las desviaciones
negativas. Para solucionar este problema se puede considerar no la diferencia entre cada
observacin y el valor medio, sino la distancia, es decir:
1 k
Dx = |xi x| ni
N i=1
La Desviacin Media Respecto a la Mediana.
Anloga medida a la presentada para la media aritmtica se puede considerar para
la mediana cuando sta ha sido la medida de tendencia central elegida para sintetizar la
informacin. La Desviacin Media con respecto a la Mediana, denotada DMe , se define
pues como:
1 k
DMe = |xi Me | ni
N i=1
Las desviaciones medias tienen un significado preciso como promedio de las desviaciones, pero tienen el inconveniente de no ser adecuadas para el clculo algebraico ya que
introducen la funcin valor absoluto. Se definirn por ello en el siguiente punto una serie
de medidas alternativas que cuantifiquen la representatividad de los promedios sin hacer
uso de la funcin valor absoluto.

3.4.4. La Varianza
Cuando se intentaba medir la representatividad de la media aritmtica mediante la suma de las desviaciones de cada observacin respecto a x se ha observado que esta suma
vale cero porque existen diferencias positivas y negativas que se compensan. Como alternativa se ha tomado el valor absoluto de las diferencias, pero otra alternativa a la hora
de eliminar los signos es la de elevar estas diferencias a una potencia par, se elige la ms
simple de todas, esto es, elevar al cuadrado. As aparece otra medida de representatividad
de la x , la varianza:
1 k
S2 = (xi x)2 ni
N i=1
Si el valor de S2 es grande, la media aritmtica ser poco representativa y viceversa. El
mejor de los casos es aqul en que la varianza toma el valor cero ya que esto indica que
todos los sumandos son cero y por tanto cada uno de ellos, de donde se deduce que todos
los valores de la variable coinciden con el valor medio.

3.4.5. Propiedades de la varianza


Proposicin 3.4.1. La varianza es siempre un nmero positivo o nulo.
Demostracin. Propiedad obvia, ya que se trata de una suma de nmeros al cuadrado
Proposicin 3.4.2. La varianza es la medida de dispersin ptima ya que:
S2 =

1 k
1 k
2
x)
n

(x

i
i
(xi K)2ni
N i=1
N i=1

Para cualquier nmero real K


Demostracin. Definamos la funcin:
f (K) =

45

3.4 Medidas de Dispersin Absolutas

1 k
(xi K)2 ni
N i=1

Si esta funcin admite un mnimo, ha de estar entre las soluciones de la ecuacin:


f (K) = 0
Desarrollando se tiene:
f (K) =

k
2 k
(x

K)n

i
i
(xi K)ni = 0
N i=1
i=1

Despejando K:
K=

1 k
xini = x
N i=1

Y es efectivamente un mnimo, puesto que la derivada segunda, como comprobar el


lector, cumple:
f (x) = 2 0
Proposicin 3.4.3. Clculo simplificado de la varianza:
S2 =

1 k 2
1 k
2
(x

x)
n
=
i
i

xi ni (x)2
N i=1
N i=1

Demostracin. Desarrollando el cuadrado (xi x)2 obtenemos que:


S2 =

1 k 2
1 k
1 k 2
1 k 2
2
x

2x
x)n
=
x
n

2x
(x
+
x
n
+
i
i
i
i i N i N xi ni =
N i=1
N i=1
i=1
i=1

1 k 2
1 k 2
2
2
= xi ni + x 2x = xi ni x2
N i=1
N i=1
Proposicin 3.4.4. Si en una distribucin de frecuencias se le suma a todos los valores
de la variable una constante, la varianza no vara.
Demostracin. Sea {(xi , ni )}ki=1 una distribucin de frecuencias, y tomemos yi = xi + K,
obteniendo la distribucin {(yi , ni )}, entonces la varianza de la nueva variable estadstica
Y = X + K es:
SY2 =

1 k
1 k
1 k
2
2
(y

(x
+
K

(x
y)
n
=
+
K))
=
i
i
i
(xi x)2 = SX2
N i=1
N i=1
N i=1

Proposicin 3.4.5. Al multiplicar los valores de la variable por una constate K, la varianza queda multiplicada por el cuadrado de dicha constante.
Demostracin. Demostracin anloga a la anterior, queda al cuidado del lector.


46

Reduccin Numrica de Datos

3.4.6. Desviacin Tpica


El problema que se puede plantear al utilizar la varianza como medida de dispersin
del grado de representatividad de la media aritmtica, es un problema de unidades de medida, ya que la varianza viene expresada en las unidades originales de la variable elevadas
al cuadrado (este inconveniente no lo presentaban las desviaciones medias). Para solucionarlo, se crea otra medida de dispersin, la desviacin tpica (o estndar), S, que viene
definida como la raz cuadrada positiva de la varianza:

S = + S2
con lo que se obtiene una medida de dispersin con propiedades semejantes a la varianza
pero cuyas unidades de medida son las mismas que las de la variable en origen.

3.4.7. Propiedades de la Desviacin Tpica


Proposicin 3.4.6. S 0 (obvia por la definicin)
Proposicin 3.4.7. Es la medida de dispersin ptima, es decir:
v
u k
u1
S = minK + t (xi K)2 ni
N i=1
para cualquier nmero real K

Demostracin. Demostracin anloga a la realizada en la pgina 44 en la proposicin


3.4.2
Proposicin 3.4.8. Si en una distribucin de frecuencias se les suma a todos los valores
de la variable una constante, la desviacin tpica no vara
Demostracin. Es consecuencia inmediata de la proposicin 3.4.4 de la pgina 45
Proposicin 3.4.9. Al multiplicar los valores de la variable por una constate K, la desviacin tpica queda multiplicada por dicha constante sin su signo.
Demostracin. Es consecuencia inmediata de la proposicin 3.4.5 de la pgina 45

3.5. Medidas de Dispersin Relativas


Puede ser de inters en el supuesto de poseer informacin sobre dos distribuciones
de frecuencias distintas de las que se conocen sus promedios valorar mediante alguna
medida en cual de las distribuciones este promedio es ms representativo. En una primera
aproximacin se podran comparar sus respectivas medidas de dispersin, para lo cual
bastara comparar ambos valores y elegir el menor. Ahora bien, es posible que las unidades
de medidas en que vengan expresados sean distintas (por ejemplo no podemos comparar
euros con dlares) en cuyo caso la comparacin no tendra sentido. As pues, es preciso
construir medidas de dispersin que carezcan de unidades de medida (adimensionales).
Estas son las llamadas medidas de dispersin relativas que siempre vendrn expresadas
mediante un cociente.


47

3.5 Medidas de Dispersin Relativas

3.5.1. Coeficiente de Apertura


Se define como:
Ap =

xn
x1

de tal forma que cuanto mayor sea Ap mayor ser la dispersin. Este coeficiente tiene
el problema de ser sensible a los valores atpicos de la distribucin y no tener en cuenta
como se encuentran distribuidos los valores de la variable entre el mximo y el mnimo.

3.5.2. Recorrido Relativo


Se define como:
Rr =

Re
x

Rr basado en el recorrido como medida de dispersin absoluta, y tiene los mismos problemas que sta.

3.5.3. Recorrido Semi-InterCuartlico


Denotado Rs , se define como:
Rs =

C3 C1
C3 +C1

3.5.4. Coeficiente de variacin de Pearson


Se define como:
V=

S
x

Est basado en la desviacin tpica y por tanto es el que mejores resultados ofrece. Este
coeficiente indica el nmero de veces que la desviacin tpica contiene a la media aritmtica. Puede ofrecer valores positivos o negativos dependiendo del signo de la media.
Si el valor de V es prximo a cero indicar una alta concentracin de los valores de la
variable en torno al valor medio, esto es poca dispersin, por el contrario, cuanto mayor
sea su valor ms dispersas estarn las observaciones.
El coeficiente de variacin de Pearson tiene el problema de que no es calculable cuando la media es cero, incluso la informacin que suministra queda deformada cuando el
valor de la media es un nmero prximo a cero.

3.5.5. Indice de Dispersin Respecto a la Mediana


Por razones totalmente anlogas a la obtencin del coeficiente de variacin de Pearson
se define el coeficiente de dispersin respecto a la mediana, VMe :
VMe =

DMe
Me


48

Reduccin Numrica de Datos

3.6. Medidas de Concentracin


An cuando dispersin y concentracin tienen significados opuestos, el significado estadstico de ambos conceptos no coinciden con el que corrientemente se da a ambos
vocablos.
Desde el punto de vista estadstico la dispersin hace referencia a la variabilidad de
los datos, a la diferencias que entre ellos existe y, por tanto, a la mayor o menor representatividad de los promedios. Las medidas de concentracin, sin embargo, tratan de poner
de relieve el mayor o menos grado de igualdad en el reparto total de los valores de la
variable. Son, por tanto, indicadores del grado de equidistribucin de la variable.
La nocin de concentracin fue introducida por el estadstico italiano Corrado Gini, a
propsito de la distribucin de salarios y rentas. En general se aplica a la descripcin de
unidades econmicas segn el tamao: empresas segn ventas, nmero de asalariados, de
produccin, etc.
Se quiere estudiar por ejemplo una distribucin de salarios, y sean x1 x2 . . . xk
los sueldos objeto de estudio. Lo que se pretende estudiar es hasta qu punto la masa
k

salarial

xi est equitativamente repartida.

i=1

Existen dos casos extremos, por un lado la equidistribucin, esto es, todos cobran la
misma cantidad (x1 = x2 = = xk ).
El otro extremo se representa cuando un solo trabajador percibe el total de la masa
salarial y los restantes no perciben nada, es decir x1 6= 0, x2 = x3 = = xn = 0
Entre estos dos extremos se pueden encontrar infinitas situaciones intermedias. Por
tanto el objetivo de este apartado ser buscar un coeficiente que mida el grado de equidistribucin de la variable. Este coeficiente ser el llamado Indice de Concentracin de
Gini.

3.6.1. El ndice de concentracin de Gini


Se acompaarn los razonamientos para el clculo de este ndice del siguiente ejemplo: En el sector textil, la distribucin de ventas entre las empresas est dada segn la
tabla 3.7.
Venta (miles de Euros)
600-2400
2400-6000
6000-12000
12000-30000
30000-60000
60000-120000

No de Empresas
5
15
30
50
20
10

Tabla 3.7: ndice Gini

El problema a resolver es cmo calcular el ndice de concentracin del sector. Sea


(xi , ni ) la distribucin de ventas, a partir de esta distribucin de frecuencias se forman las
siguientes columnas:


49

3.6 Medidas de Concentracin

1. Los productos xi ni , que indicarn la venta total percibida por los ni individuos de la
clase (volumen de ventas por clase)
2. Frecuencias absolutas acumuladas Ni
3. Los totales acumulados:
j

u j = xi ni
i=1

donde indicar el volumen total de ventas de las primeras empresas.


4. Las frecuencias absolutas acumuladas expresadas en tanto por cien:
pi =

Ni
100
N

5. Los totales acumulados expresados en tanto por cien:


qi =

ui
100
un

El clculo de estas expresiones para el ejemplo de las empresas del sector textil da como
resultado los siguientes valores: Si se ponen en relacin las dos ltimas columnas se
xi
1500
4200
9000
21000
45000
90000

ni
5
15
30
50
20
10

xi ni
7500
63000
270000
1050000
900000
900000

Ni
5
20
50
100
120
130

ui
7500
70500
340500
1390500
2290500
3190500

pi
3.85
15.38
38.46
76.92
92.31
100

qi
0.24
2.21
10.67
43.58
71.79
100

Tabla 3.8: ndice de Gini II

obtiene la informacin buscada sobre el reparto de las ventas.


La tabla que se acaba de presentar se puede leer de la siguiente forma:
El 3.85 % de las empresas con menor volumen de ventas apenas se reparten el
0.24 % del mercado.
El 15.38 % de las empresas con menor volumen de ventas apenas se reparten el
2.21 % del mercado.
El 38.46 % de las empresas con menor volumen de ventas apenas se reparten el
10.67 % del mercado.
y as sucesivamente.
Tambin se puede leer la informacin de otra manera:
El 7,69 % de las empresas con mayor volumen de ventas tienen en su poder el
28,21 % del mercado.
As pues, para dar una idea de la equidistribucin de la variable se pueden considerar
las diferencias (pi qi ). Si la distribucin fuese equitativa, todos los valores pi coincidiran con lo de qi y por tanto la suma de todas las diferencias sera cero.


50

Reduccin Numrica de Datos

Esta suma tiene como cota superior

pi, ya que el mximo valor que alcanzan las

i=1

diferencias (pi 1i ) se obtendran cuando los valores qi fuesen cero. A partir de este
razonamiento se puede considerar el cociente:
n1

(pi qi )
i=1
n1

pi

i=1

de tal forma que por un lado se crea una medida adimensional y por otro se consigue
que su cota superior sea 1 obteniendo as un indicador cuyo campo de variacin est
comprendido entre 0 y 1. Ser cero cuando la distribucin sea equitativa y 1 cuando una
parte reciba el total y la restante nada.
Este cociente que puede expresarse en tanto por cien, que es el llamado ndice de Gini,
IG :
n1

IG =

(pi qi )
i=1
n1

pi

100

i=1

Para el ejemplo planteado sera:


n1

(pi qi) = 226,92

i=1
n1

pi = 98,43

i=1

IG =

226,92
0,43
98,43

3.6.2. La curva de Lorenz. Propiedades.


La representacin grfica es otra forma alternativa de comparar las columnas pi y qi .
Con este fin se representan en los ejes cartesianos los puntos (pi , qi ) , unindolos mediante
una lnea quebrada que recibe el nombre de curva de Lorenz. Por otra parte se representan
las curvas correspondientes a mxima y mnima concentracin para compararlas con la
curva de Lorenz y observar lo prximas o alejadas que se encuentran de ella.
La curva de concentracin mnima, equivalente a la equidistribucin, es la bisectriz
del primer cuadrante ya que para pi = qi para todo i. Mientras que la curva de mxima
concentracin son los lados del cuadrado determinados por los puntos (0,0) (100,0) y
(100,0) (100,100).
En nuestro ejemplo:
Esta curva verifica una serie de propiedades cuyo enunciado es el siguiente y que no
se van a demostrar:
Proposicin 3.6.1. La curva siempre se mantiene bajo la diagonal.


51

3.7 Momentos
120

qi

100
b

80
b

60
b

40
20
b

pi
20 40 60 80 100 120
b

Figura 3.7: Curva de Lorenz

Proposicin 3.6.2. La curva de Lorenz es no decreciente.


Por ltimo, cabe sealar que si bien el ndice de Gini tiene la ventaja de resumir en una
sola cifra las complejas informaciones expresadas por la curva de Lorenz, y por lo mismo
permite ms fcilmente que la curva comparar la concentracin de dos distribuciones, esta
ventaja tiene su contrapartida: dos distribuciones de aspectos muy diferentes pueden tener
dos ndices de concentracin del mismo valor. Vemoslo con un ejemplo:
qi
120
100
80
60
40
20
0

pi
20 40 60 80 100 120

Figura 3.8: Comparacin Curva de Lorenz

3.7. Momentos
Dada una variable X discreta con distribucin de frecuencias asociada {xi , ni } en la
que:
1. x es su media.

2. a R

3. r N {0}

Se define momento de orden r respecto de a como la expresin que indicaremos por


mr (a), dada por:
1 k
mr (a) = (xi a)r
N i=1
Es decir, la media de la variable estadstica Y = (X a)r


52

Reduccin Numrica de Datos

3.7.1. Momentos no Centrados


Si tomamos a = 0, el origen de coordenadas, los momentos se llaman no centrados o
respecto el origen, mr :
1 k
mr = ni xri
N i=1
Siendo m0 = 1, m1 = x y m2 = S2 + x2

3.7.2. Momentos Centrados


Si tomamos a = x se definen los momentos centrales o respecto la media, r :

r =

1 k
ni(xi x)r
N i=1

Siendo 0 = 1, 1 = 0 y 2 = S2

3.7.3. Relacin entre Momentos Centrados y no Centrados


A travs del Binomio de Newton, se puede demostrar que:
 
 
 
1
2
2
r r
0
1 r
0 r
m0 mr
mr1 m1 + (1) mr2 m1 + + (1)
mr m1 + (1)
r = (1)
r
1
0

3.8. Medidas de Forma


En nuestra bsqueda de indicadores que nos suministren informacin sobre el comportamiento global de una poblacin, damos un paso ms, al intentar precisar la forma
de una distribucin sin necesidad de efectuar su confeccin grfica; esto es, mediante
un resumen numrico. Estos indicadores nos dicen algo sobre el comportamiento de una
distribucin, comparndola con un modelo de distribucin, la distribucin normal. Todas
estas medidas cumplen tambin con el objetivo de reducir a unos pocos nmeros todos
los valores observados en la poblacin.

3.8.1. Simetra
Definicin 3.8.1. Diremos que una distribucin es simtrica si la perpendicular que pasa
por la media divide al diagrama diferencial en dos partes iguales.
Esto equivale a decir que a ambos lados de ese eje y equidistantes de l, hay pares de
valores con la misma frecuencia. De lo contrario diremos que es asimtrica.
En nuestro caso diremos:
Definicin 3.8.2. Una distribucin es simtrica cuando x = Me = M0 .


53

3.8 Medidas de Forma

Figura 3.9: Distribucin Simtrica

Dado que en una distribucin simtrica los momentos de orden impar respecto de la media son nulos (demostracin que har amablemente el lector), podramos pensar que el
indicador ms adecuado, en lo que se refiere al clculo de la simetra, es 1 . Pero tal
como hemos venido repitiendo, la particularidad de la media hace que se anule siempre.
Podramos tomar 3 , como medida, pero tiene el inconveniente de que si bien, es invariante frente a cambios de origen, le afecta los cambios de escala. Por ello se divide por el
cubo de la desviacin tpica con lo que se obtiene el llamado coeficiente de asimetra de
Fisher
Definicin 3.8.3. Se define el coeficiente de asimetra de Fisher, 1 , como:

1 =

3
S3

Es una cantidad sin unidades, que vale cero si la distribucin es simtrica alrededor de
la media.
A pesar de sus buenas propiedades, una transformacin lineal no es suficiente para
modificar rasgos ms complejos de una distribucin, como su asimetra. Se puede comprobar que una transformacin lineal de datos traslada y dilata o contrae la distribucin,
pero no cambia su asimetra.
Para hacer ms simtrica una distribucin es necesario utilizar transformaciones ms
complicadas que las lineales. Las operaciones matemticas ms frecuentemente utilizadas
son:
La raz cuadrada

El logaritmo

La inversa

La potenciacin

El tipo de transformacin que ha de utilizarse depende de la asimetra que se quiera


corregir.
Si los datos dan lugar a una distribucin asimtrica a la derecha, pueden utilizarse la
raz cuadrada, el logaritmo o el inverso de los datos para obtener una distribucin con


54

Reduccin Numrica de Datos

mayor simetra. La menos contundente es la raz; el logaritmo tiene un efecto intermedio;


y, finalmente, la funcin inversa es la ms enrgica de las tres.
El motivo por el que estas transformaciones corrigen la asimetra a la derecha es que,
esencialmente, aumentan las observaciones pequeas y hacen menores los datos grandes.
Si se quiere mejorar la simetra de distribuciones asimtricas a la izquierda, hay que
utilizar transformaciones que tengan el efecto contrario: aumentar las observaciones mayores y hacer menores las ms pequeas. Elevar los datos a una potencia mayor que uno
cumple con estos requisitos.

3.8.2. Apuntamiento o Curtosis


Otra caracterstica de inters en una distribucin es su apuntamiento o curtosis, que
describe lo picuda o plana que es la distribucin. Un razonamiento como el realizado
para la simetra nos conduce a considerar ahora las cuartas potencias de las desviaciones
medias.
Definicin 3.8.4. El coeficiente de apuntamiento o curtosis, 2 , se define como:

2 =

4
3
S4

Cuando 2 = 0 la distribucin es mesocrtica.


Cuando 2 > 0 la distribucin es leptocrtica.
Cuando 2 < 0 la distribucin es platicrtica.
Algunas veces no se calcula este valor, sino que se da su valor relativo con respecto
al de una distribucin que se toma como patrn (la distribucin normal que se ver en el
captulo . . . )

Ejercicios

3.1

El propietario de una empresa tiene asignado un sueldo de e 3900 mensuales. Los


salarios en euros de los empleados aparecen en la tabla siguiente:
480 510 783 882 858 498
504 1104 978 1170 852 486
552 942 1710 1890 594

1. Cul es el salario medio de todos los que trabajan en la empresa, incluyendo


al propietario? Cul es su desviacin tpica?
2. Si se decide aumentar el salario a cada uno en e 180, cmo vara la media?
y la desviacin tpica?
3. Si se aumenta slo el sueldo del dueo en e 600, qu ocurre con la media?
4. Halla la mediana y el rango intercuatlico de todos los salarios.
5. Qu ocurre con la mediana si se aumenta todos los sueldos en e 300? Y con
el rango intercuartlico?
6. Cmo varan ambas cantidades si slo se aumenta el salario del director en
e 1200?

3.2 En una ciudad existen tres grandes plantas de fabricacin de automviles, que llamaremos A, B y C. La primera emplea a 542 personas y su salario medio es de


55

3.8 Medidas de Forma

3.3

3.4

e 1080. En la segunda trabajan 843 empleados y su ingreso medio es de e 861. Finalmente, la paga media de los 1538 trabajadores de C es e 813.47. Cmo podras
calcular el salario medio de los empleados en la industria del automvil?
Se sabe que la media de las calificaciones de una prueba es 5.2 y la mediana es 6.3.
Dibuja un esquema aproximado de la forma del histograma que se puede deducir
del conocimiento de estos valores.
Se han contabilizado el nmero de das que durante un ao han faltado al trabajo, por baja laboral, los trabajadores de una empresa, obteniendose los siguientes
resultados:
Nmero de das
1 2 3 4 5 6 7 8
Nmero de obreros 2 6 10 5 10 3 2 2

1. Calcula su media, mediana y moda.


2. Calcula su recorrido intercuartlico.
3. Calcula su media geomtrica y armnica.
4. Calcula sus tres primeros momentos centrados y no centrados.

3.5 La distribucin de los salarios de los trabajadores de una cierta empresa es la


siguiente:
Salario/mes
213
274.2
360
450

3.6

Representa grficamente la curva de Lorenz y calcula el ndice de Gini.


Dada la siguiente distribucin del salario/hora en euros de 120 trabajadores:
Salario/hora
6-8
8-10
10-12
12-15
18-18

3.7

Nmero de trabajadores
10
17
12
11

Nmero de trabajadores
10
25
46
30
9

Determina los coeficientes de asimetra y curtosis.


Utilizando el Producto Escalar en R2 y la Desigualdad de Cauchy-Schwarz en
los vectores ~x = (a, b) y ~y = (1, 1), haz una demostracin distinta de
xH

3.8

 
r
Demuestra que mr =
k x(rk)
k
k=0
r

Captulo

Distribuciones Bidimensionales

Conjuntos de datos que contienen observaciones de ms de una variable permiten


estudiar la relacin o asociacin que existe entre ellas. En este parte se aborda el
problema en las tres situaciones generales en que puede presentarse para dos variables.
Las distribuciones bidimensionales (como las unidimensionales) pueden venir expresadas
con valores de la variable agrupados en intervalos, caso continuo, o sin agrupar, caso
discreto. Es posible que cada uno de los caracteres en estudio tenga distinta naturaleza.
Tambin se considera el caso en que ambas variables son cualitativas; Finalmente, cuando
se dispone de una variable cuantitativa y otra cualitativa, el estudio se enfoca como un
problema de comparacin del comportamiento de la variable numrica en las diferentes
subpoblaciones que define la variable categrica.
Aunque existen procedimientos y tcnicas para desentraar asociaciones entre dos o
ms variables, nos centraremos en el caso ms sencillo de dos variables para introducir
los diferentes conceptos.
Se introducen los conceptos de distribuciones marginales y condicionadas, y se estudia
la independencia o no de las variables de la distribucin.
OS

4.1. Tablas de Doble Entrada. Tablas de Contingencia


Supongamos que disponemos de N pares de observaciones correspondientes a dos
variables estadsticas. Cada una de ellas determina de manera natural diferentes clases o
categoras. Si la primera puede tomar valores correspondientes a k clases y la segunda a
m clases, entonces al considerarlas conjuntamente, quedan definidas k m categoras. El
valor ni j representa el nmero de datos que pertenecen a la clase isima de la primera
variable y a la categora jsima de la segunda, recibe el nombre de frecuencia absoluta
conjunta de la clase i j.
Se llama tabla de contingencia a un cuadro de doble entrada en el que se clasifican los
elementos de una poblacin segn dos atributos; es decir, dos caracteres cualitativos. Son
de importancia para poner de manifiesto si existe o no relacin entre dos o ms fenmenos.
A esta posible relacin se le da el nombre de asociacin entre caracteres.
Se utilizan con mucha frecuencia para el anlisis de cuestionarios, porque generalmente las preguntas se refieren a caracteres cualitativos. Un trabajo de este tipo puede verse
en [3], dnde el autor toma como variable dependiente el fenmeno suicidio y va estableciendo distintas clasificaciones atendiendo a sta y otras variables como por ejemplo: el
tipo de religin, zonas geogrficas, estado civil, etc. De esta forma pretende descubrir las


58

Distribuciones Bidimensionales

posibles asociaciones entre estos caracteres y el suicidio. En la seccin 4.7 profundizaremos en el estudio de las tablas de contingencia.
Y

x1
x2
x3
..
.

y1
n1 1
n2 1
n3 1
..
.

y2
n1 2
n2 2
n3 2
..
.

y3
n1 3
n2 3
n3 3
..
.

..
.

ym1
n1 m1
n2 m1
n3 m1
..
.

ym
n1 m
n2 m
n3 m
..
.

xk1
xk

nk1 1
nk 1

nk1 2
nk 2

nk1 3
nk 3

nk1 m1
nk m1

nk1 m
nk m
N

Tabla 4.1: Distribucin conjunta de frecuencias absolutas

El objetivo bsico de la utilizacin de tablas es resumir la informacin contenida en


los datos; adems, es importante construirlas de forma que comuniquen fcilmente esta
informacin. Recomendamos elegir adecuadamente las unidades, ordenando las clases y
etiquetando adecuadamente las diferentes clases.
ni j
es la frecuencia relativa conjunta de la clase i j, y se representa por
La proporcin
N
fi j . La tabla 4.2 es la distribucin conjunta de frecuencias relativas de las dos variables y se
obtiene dividiendo por N los valores de la distribucin conjunta de frecuencias absolutas
de la tabla 4.1.
Y

x1
x2
x3
..
.

y1
f1 1
f2 1
f3 1
..
.

y2
f1 2
f2 2
f3 2
..
.

y3
f1 3
f2 3
f3 3
..
.

..
.

ym1
f1 m1
f2 m1
f3 m1
..
.

ym
f1 m
f2 m
f3 m
..
.

xk1
xk

fk1 1
fk 1

fk1 2
fk 2

fk1 3
fk 3

fk1 m1
fk m1

fk1 m
fk m
1

Tabla 4.2: Distribucin conjunta de frecuencias relativas

Igual que ocurra en la distribucin de frecuencias para una sola variable, las frecuencias conjuntas son nmeros no negativos, la suma de las frecuencias absolutas conjuntas
es el nmero total N de observaciones, la suma de las frecuencias relativas conjuntas es
igual a uno, como puede comprobar el lector.
El ejemplo siguiente trata de dos variables cualitativas, las tablas muestran la informacin que representa la situacin profesional y el nivel de educativo de una pedana de


59

4.2 Distribuciones Marginales

Torre Pacheco. El conjunto de datos de las dos variables est formado por setenta y cinco
pares de datos. Las tablas representan la distribucin absoluta y relativa.
Ejemplo de Distribucin Bidimensional

La primera tabla es de frecuencias absolutas:


Nivel Educativo
Situacin
Profesional
Patrono
Autnomo
Asalariado
Eventual

Sin Estudios

Primaria

ESO

Bachillerato

Universidad

4
11
1
1

17
31
0
1

1
1
0
1

1
5
0
0

0
0
0
0
75

Esta tabla es de frecuencia relativas:


Nivel Educativo
Situacin
Profesional
Patrono
Autnomo
Asalariado
Eventual

Sin Estudios

Primaria

ESO

Bachillerato

Universidad

0.054
0.147
0.013
0.013

0.227
0.414
0
0.013

0.013
0.013
0
0.013

0.013
0.067
0
0

0
0
0
0
1

4.2. Distribuciones Marginales


Adems de la distribucin conjunta, cada una de las dos variables estadsticas tiene
su propia distribucin. Estas dos distribuciones pueden calcularse de manera sencilla a
partir de la tabla que contiene la distribucin conjunta, sin ms que sumar por filas y
columnas. Si en la tabla 4.1 (4.2) sumamos las frecuencias por filas y escribimos los
m
totales en el margen vertical derecho, denotado ni = m
l=1 nil ( f i = l=1 f il ) , obtenemos
la distribucin de frecuencias de la variable unidimensional X. Si sumamos ahora por
columnas y escribimos los totales en el margen inferior de la tabla, denotado n j = kl=1 nl j

f j = kl=1 fl j , obtenemos la distribucin de frecuencias de la variable Y.
A estas distribuciones, que nos indican cmo se distribuye una variable independientemente de los valores que tome la otra, se les denomina distribuciones marginales, ya
que toma sus valores de los mrgenes de la tabla.
Es evidente que la suma de todas las casillas ni j es igual al total de elementos de la
poblacin N. Por tanto, la suma de la ltima columna de la tabla ser tambin N, ya que
cada casilla de la ltima columna se ha obtenido sumando todas las frecuencias de la fila


60

Distribuciones Bidimensionales

x1
x2
x3
..
.
xk1
xk

y1
n1 1
n2 1
n3 1
..
.

y2
n1 2
n2 2
n3 2
..
.

y3
n1 3
n2 3
n3 3
..
.

..
.

ym1
n1 m1
n2 m1
n3 m1
..
.

ym
n1 m
n2 m
n3 m
..
.

nk1 1
nk 1
n1

nk1 2
nk 2
n2

nk1 3
nk 3
n3

nk1 m1
nk m1
nm1

nk1 m
nk m
nm

n1
n2
n3
..
.
nk1
nk
N

Tabla 4.3: Distribucin conjunta de frecuencias absolutas y marginales

a que corresponde:
k

N = ni
i=1

De manera anloga, si sumamos todas las casillas de la ltima fila, razonando de modo
anlogo, obtendremos el total de elementos de la poblacin:
m

N=

n j

j=1

x1
x2
x3
..
.
xk1
xk

y1
f1 1
f2 1
f3 1
..
.

y2
f1 2
f2 2
f3 2
..
.

y3
f1 3
f2 3
f3 3
..
.

..
.

ym1
f1 m1
f2 m1
f3 m1
..
.

ym
f1 m
f2 m
f3 m
..
.

fk1 1
fk 1
f1

fk1 2
fk 2
f2

fk1 3
fk 3
f3

fk1 m1
fk m1
fm1

fk1 m
fk m
fm

f1
f2
f3
..
.
fk1
fk
1

Tabla 4.4: Distribucin conjunta de frecuencias relativas y marginales

Si dividimos cada casilla de la tabla bidimensional por el total de elementos de la


poblacin N, obtendramos la unidad en las sumas anteriores:
k

1 = fi =
i=1

f j

j=1

La distribucin conjunta contiene ms informacin sobre las dos variables que la que
pueden proporcionar ambas distribuciones marginales. Dicho de otra forma, la relacin
entre las variables no puede deducirse slo de las marginales; es necesario conocer la


61

4.2 Distribuciones Marginales

Distribucin Marginal X
X ni
fi
x1 n1
f1
x2 n2
f2
..
..
..
.
.
.

Distribucin Marginal Y
Y n j
f j
y1 n1
f1
y2 n2
f2
..
..
..
.
.
.

xp
..
.

n p
..
.

f p
..
.

yq
..
.

nq
..
.

fq
..
.

xk

nk

fk

ym

nm

fm

Tabla 4.5: Distribuciones marginales

distribucin conjunta. Las distribuciones marginales son fciles de calcular conociendo


la distribucin conjunta, en cambio, si se conocen las dos distribuciones marginales no
es posible reconstruir la distribucin conjunta sin informacin adicional sobre la relacin
que existe entra las dos variables.
Ejemplo de Distribuciones Marginales

Edad X

Un organismo municipal est interesado en estudiar el nmero de desplazamientos


mensuales que realizan los conductores al centro de poblacin y la edad de los mismos. Por ello, ha clasificado un grupo de 120 conductores segn su edad y el nmero
de desplazamientos que realiza, en la siguiente tabla:

18-25
25-45
45-75
n j

Desplazamientos Y
0-10 10-25 25-40 n j
20
13
7
40
6
22
10
38
5
18
19
42
31
53
36
120

Las distribuciones marginales son:


Distribucin Marginal X
X
ci
ni
fi
18-25 21.5 40 0.33
25-45 35
38 0.32
45-75 60
42 0.35
120
1

Distribucin Marginal Y
Y
ci
n j
f j
0-10
5
31 0.26
10-25 17.5 53 0.44
25-40 32.5 36 0.30
120
1

Por ejemplo, podemos observar que el porcentaje de individuos de X , sin tener en


cuenta los desplazamientos, en cada grupo es muy similar: 33 %, 32 % y 33 %. En la
distribucin Y podemos observar, por ejemplo, que un 44 % de los conductores (de
cualquier) realizan entre 10 y 25 desplazamientos.


62

Distribuciones Bidimensionales

Con la distribucin marginal de cualquier variable se puede obtener cualquiera de las


medidas o representaciones grficas que se estudiaron con distribuciones unidimensionales.

4.3. Distribuciones Condicionadas


Las distribuciones condicionadas son distribuciones unidimensionales obtenidas a partir de la bidimensionales, manteniendo fijo un valor en una de las variables y considerando
los valores que toma la otra con sus respectivas frecuencias.
Cuando medimos conjuntamente sobre cada elemento de la poblacin, dos caracteres
o ms, por lo general, se quiere poner de manifiesto si existe o no relacin entre ellos. Las
distribuciones condicionadas arrojan cierta luz para encontrar esas posibles relaciones.

4.3.1. Distribucin Condicionada de X respecto de Y = y j


La distribucin condicionada de X respecto de Y = y j , denotada por X |Y = y j , se
obtiene a partir de la tabla bidimensional, tomando la primera columna de valores de la
variable X y la columna j-sima de frecuencias absolutas:
Distribucin
Condicionada de X respecto Y = y j
X |Y = y j
x1
x2
x3
..
.

ni| j
n1| j
n2| j
n3| j
..
.

fi| j
f1| j = n1 j /n j
f2| j = n2 j /n j
f3| j = n3 j /n j
..
.

xi
..
.

ni| j
..
.

fi| j = ni j /n j
..
.

xk

nk| j

fk| j = nk j /n j

Tabla 4.6: Distribucin condicionada de X repestecto Y = y j

Veamos cmo se construye e interpretan las distribuciones condicionadas. Las frecuencias relativas se obtienen dividiendo las absolutas entre el total de elementos de la
distribucin. En este caso, el total de elementos de la distribucin condicionada ser la
suma de la segunda columna, es decir:
k

n j =

nl j

l=1

La frecuencia relativa correspondiente a la i-sima modalidad es:


ni j
=
fi| j =
n j

ni j
N
n j
N

fi j
f j


63

4.3 Distribuciones Condicionadas

Es evidente que la suma de todas la frecuencias relativas valdr la unidad, como podr comprobar el lector. Tambin resulta claro que se puede obtener tantas distribuciones
condicionadas de X como modalidades de Y , es decir, como columnas de la tabla bidimensional, m.

4.3.2. Distribucin Condicionada de Y respecto de X = xi


De manera anloga, se construye la distribucin condicionada de Y respecto de X = xi ,
denotada Y |X = xi :
Distribucin
Condicionada de Y respecto x = xi
Y |X = xi n j|i
f j|i
y1
ni|1
fi|1 = ni1 /ni
y2
ni|2
fi|2 = ni2 /ni
y3
ni|3
fi|3 = ni3 /ni
..
..
..
.
.
.
yj
..
.

n j|i
..
.

f j|i = ni j /ni
..
.

ym

nm|i

fm|i = nim /ni

Tabla 4.7: Distribucin condicionada de Y repestecto X = xi

El total de elementos de la distribucin condicionada ser la suma de la segunda columna, es decir:


k

ni =

nil

l=1

La frecuencia relativa correspondiente a la i-sima modalidad es:


ni j
=
f j|i =
ni

ni j
N
ni
N

fi j
fi

Tendremos tantas distribuciones condicionadas del carcter Y como filas tiene la tabla,
es decir, k.
Aunque la distribucin conjunta es la que contiene toda la informacin sobre las dos
variables, veremos en el siguiente apartado, que las distribuciones condicionadas resultan
muy tiles para estudiar la relacin entre las variables.
Un caso muy importante es aqul en que las distribuciones de una variable condicionada por los diferentes valores de la otra, son iguales y coincidentes con los de la
distribucin marginal. Esto refleja la ausencia de relacin entre las variables y, en ese
caso, se dice que las variables son independientes.


64

Distribuciones Bidimensionales

Ejemplo de Distribucin Condicionada

Edad X

Un gabinete de apoyo ha estado trabajando con un grupo de 80 nios con deficiencias auditivas por lo que han hecho un anlisis de los avances conseguidos. Para ello
han puntuado este avance en cada uno mediante una escala de 0 a 10. Los resultados
estn reflejados en la tabla:

2-5
6-8
9-12
n j

Puntuacin Y
0-3 4-7 8-10
7
11
14
2
12
10
10 10
4
19 33
28

ni
32
24
24
80

La distribucin de Y condicionada a X = 2 5 aos es:


Y |X = 2 5
0-3
4-7
8-10

n1| j
7
11
14
32

f j|1
0.21875
0.34375
0.43750
1

De este grupo de nios, casi la mitad, 43,75 %, han hecho grandes progresos ya que
tienen una puntuacin entre 8 y 10.
La distribucin de X condicionada a Y = 0 3 es la siguiente:
X |Y = 0 3
2-5
6-8
9-12

ni|1
7
2
10
19

fi|1
0.3684
0.1053
0.5263
1

Hay que destacar el grupo de edad 9-12, ya que cuenta con un mayor porcentaje,
52,63 %, dentro del grupo de nios con menor puntuacin.

4.4. Dependencia o Independencia Estadstica


Las variables X e Y se dicen dependientes estadsticamente cuando la variacin de
una influye en la distribucin de la otra. Cuando las distribuciones condicionadas, por
ejemplo de Y a X , sean independientes de la variacin de X , es decir, cuando todas las
distribuciones de Y condicionadas por cualquiera de los valores de X sean iguales, diremos
que las variables son estadsticamente independientes.
Teorema 4.4.1. La condicin necesaria y suficiente para que dos variables estadsticas
sean independientes es que la frecuencia relativa conjunta sea igual al producto de las
marginales. Es decir, diremos que las variables X e Y son independientes si para todo


65

4.4 Dependencia o Independencia Estadstica

(i, j) se verifica:
fi j = fi f j

Demostracin. Supongamos primero que las variables X e Y son independientes. La definicin de independencia estadstica significa que todas distribuciones condicionadas, por
ejemplo, de la variable Y a los posibles valores de la variable X , coinciden. La tabla 4.8
muestra todas las distribuciones condicionadas de la variable Y a los valores de la variable
X:
Y |X
x1
x2
x3
..
.

y1
f11 / f1
f21 / f2
f31 / f3
..
.

y2
f12 / f1
f22 / f2
f32 / f3
..
.

..
.

yj
f1 j / f1
f2 j / f2
f3 j / f3
..
.

..
.

ym
f1m / f1
f2m / f2
f3m / f3
..
.

xi
..
.

fi1 / fi
..
.

fi2 / fi
..
.

..
.

fi j / fi
..
.

..
.

fim / fi
..
.

xk

fk1 / fk

fk2 / fk

fk j / fk

fkm / fk

1
1
1
1
1
1
1

Tabla 4.8: Independencia Estadstica

Si existe independencia estadstica, todas las filas que representan las frecuencias condicionadas, han de ser iguales, es decir, para cualquier (i, j) se debe verificar:
fi j / fi = fh j / fh para i 6= h
Por una propiedad de las proporciones:
fh j h fh j
fi j
f j
=
=
= f j
=
fi
fh
1
h fh
se ha obtenido que para cualquier i, j se verifica que
fi j = fi f j para todo i, j
en trminos de frecuencias absolutas:
ni n j
ni j ni n j
=

ni j =
para todo i, j
N
N N
N
Veamos que el recproco tambin es cierto; supongamos que se da la igualdad anterior
para cualquier i, j. Despejando:
fi j
= fi
f j

El primer miembro de esa igualdad representa la frecuencia condicionada al valor j-simo,


y el segundo miembro fi no depende de j. Por consiguiente, las variables son independientes estadsticamente. Observa que la independencia, si se da, la hace en dos sentidos,
y que las condicionadas coinciden con las marginales.


66

Distribuciones Bidimensionales

Ejemplo de Independencia Estadstica

Dada la tabla bidimensional siguiente, comprobemos que las variables X e Y son


estadsticamente independiente:
x1
x2
x3
n j

y1
3
6
12
21

y2
5
10
20
35

y3
2
4
8
14

y4
4
8
16
28

ni
14
28
56
98

Las distribuciones condicionadas de X a los distintos valores de Y vienen dadas en


la siguiente tabla:
X |Y = y j
x1
x2
x3

y1
3/21 = 1/7
6/21 = 2/7
12/21 = 4/7
1

y2
5/35 = 1/7
10/35 = 2/7
20/35 = 4/7
1

y3
2/14 = 1/7
4/14 = 2/7
8/14 = 4/7
1

y4
4/28 = 1/7
8/28 = 2/7
16/28=4/7
1

4.5. Parmetros de las distribuciones condicionadas y marginales


De manera anloga a como determinados estadsticos de posicin, tendencia central y
de dispersin en las distribuciones unidimensionales, podemos ahora calcular stos para
cada una de las distribuciones unidimensionales (condicionales o marginales) que derivan
de la distribucin bidimensional.
Sin entrar en detalles (el lector podr comprobarlo por si mismo), nos limitaremos a
exponer los clculos de medias y varianzas para distribuciones condicionadas y marginales, y las relaciones entre ellas.

4.5.1. Media
La media para la distribucin condicionada de Y a xi viene dada por:
m

y j ni j
Yi =

= y j f j|i

ni

La relacin entre la media de la distribucin marginal y Y y las medias de las distribuciones condicionadas:
k

Y = fiYi
i


67

4.6 Nube de puntos

Ha resultado que la distribucin de frecuencias generada por la variable estadstica


construida en las media del carcter Y , condicionadas por los xi con i = 1, 2, . . ., k y las
frecuencias absolutas marginales ni , es decir, la distribucin de frecuencias unidimensional:


Yi ; ni i=1,2,...,k

tiene por media precisamente a Y , es decir la media de la distribucin marginal del carcter
Y.
De modo anlogo obtendramos que la distribucin de frecuencias generadas por la
variable estadstica construida con las medias del carcter X , condicionadas por los y j con
j = 1, 2, . . ., m y las frecuencias marginales n j , es decir, la distribucin de frecuencias
unidimensional:


X j ; n j j=1,2,...,m
tiene por media precisamente a X, es decir la media de la distribucin marginal del carcter X .

4.5.2. Varianza
La varianza de la variable Y condicionada a xi , que notaremos con Vari (Y ) viene dada
por:
k

Vari (Y ) =

(y j Yi )2ni j
j

ni

= (y j Yi )2 f j|i
j

La relacin entre la varianza de la distribucin marginal de Y y las varianzas de las


distribuciones condicionadas es:
m

Var(Y ) = Vari fi + Yi Y
i

2

fi

Es decir, la varianza marginal se descompone en dos sumandos:


m

1.

Vari(Y ) fi que es la media de la distribucin {(Vari(Y ); ni)}i=1,2,...,m


i
m

2.

Yi Y

2



fi que es la varianza de la distribucin (Yi ; ni ) i=1,2,...,m

De manera anloga obtendramos para la variable X que la varianza marginal se puede


descomponer en dos sumandos:
k


1. Var j (X ) f j que es la media de la distribucin Var j (X ); n j j=1,2,...,k
j
k

2.

Xj X

2



f j que es la varianza de la distribucin (X j ; n j ) j=1,2,...,k

4.6. Nube de puntos


Cuando los caracteres X e Y que conforman la distribucin bidimensional, son ambos
cuantitativos, lo que denominaremos propiamente variable estadstica bidimensional, sus


68

Distribuciones Bidimensionales

valores son pares de nmeros reales de la forma (xi , y j ) pudiendo representar estos pares
ordenados sobre un sistema de ejes cartesianos, con lo que se obtiene un conjunto de
puntos en el plano. A este conjunto de puntos se le denomina diagrama de dispersin o
nube de puntos.
Hemos de tener en cuenta que como el par (xi , y j ) tiene una frecuencia ni j, que en
muchos casos superar la unidad, entonces un punto puede ser la concentracin de ni j
puntos. Cuando las frecuencias no son muy altas, se suele representar todos los ni j puntos
alrededor del punto (xi , y j ). A veces, lo que se hace es representar pequeos crculos cuyas
reas, ms o menos grandes, reflejan las frecuencias correspondientes, ms o menos altas.
En Anlisis Exploratorio de Datos, recive el nombre de scattergram y a veces utiliza
un procedimiento mixto, con el que se seala con puntos los pares de valores bidimensionales cuyas frecuencias son iguales a 1, y cuando stas son distintas de uno, se representa
el par ordenado en el plano, en lugar de con un punto, con un nmero que coincide con la
frecuencia correspondiente.
y
7
6
5
4
3
2
1
0

b
b

x
0 1 2 3 4 5 6 7
Figura 4.1: Nube de Puntos

4.7. Asociacin
El estudio de las tablas de contingencia (ver seccin 4.1) se centra fundamentalmente
en la bsqueda de asociaciones. Un libro muy interesante es [9], donde el autor expone
una serie de reglas y orientaciones metodolgicas para el anlisis de las tablas. Seala
algunas recomendaciones para efectuar el clculo de los porcentajes:
Si suponemos que podemos distinguir en los caracteres entre el factor influyente y el influido, es decir, entre la variable independiente y la dependiente,
debemos computar los porcentajes en la direccin del factor influyente.
Esto equivale a decir que la lgica a seguir es determinar siempre las condicionadas
de la variable dependiente por los distintos valores de la variable independiente.
Normalmente, empezaremos por interesarnos por un carcter cualquiera al que llamaremos variable dependiente en nuestro estudio, e intentaremos ir explicndolo, teniendo
en cuenta las relaciones que se establecen entre sta y otras variables, que podemos llamar
independientes.
Hay que tener en cuenta que las variables independientes, en cuyas asociaciones estamos interesados, son seleccionadas de forma que tenga algn sentido, desde el punto de
vista terico, considerarlas conjuntamente con la variable dependiente. No existe ninguna


69

4.7 Asociacin

regla o criterio objetivo invariable que nos indique qu variables debemos seleccionar;
el mejor o peor resultado del anlisis que llevemos a cabo vendr dado en funcin de la
mejor o peor seleccin que hagamos de dichos factores.
La independencia estadstica se deduca cuando las distribuciones condicionadas coincidan. Pero en la prctica es una situacin que raramente se da. Nos conformamos con
algn criterio que nos diga si las distribuciones se acercan o se diferencian entre s, para
poder hablar de dependencia o no de las variables.
Una respuesta objetiva la tiene la estadstica inferencial que establece si son o no
significativas las diferencias halladas entre las distribuciones condicionadas.
Existe un gran nmero de coeficientes o indicadores que nos proporcionan medidas
de la asociacin, sealaremos los ms simples.

4.7.1. Coeficiente Chi-Cuadrado


Proporciona una medida de la asociacin entre dos variables. Se denota 2 , su expresin es:
2
t

n
i
j
i
j
2 =
ti j
i, j
Para su clculo se determinan la frecuencias tericas de cada casilla de la tabla, que son
los valores que hubiramos obtenido para cada una de las modalidades de la distribucin
bidimensional, si los caracteres fuesen independientes. En este caso el valor que toman
es:
ni n j
ti j =
para todo valor de i, j
N
En la medida en que los valores frecuenciales observados en la tabla (ni j ) se alejen o
acerquen a esos valores tericos, estaremos en condiciones de admitir o no, que existe
asociacin entre las variables. En el caso de que las variables sean independientes, las
frecuencias ni j coincidirn con las tericas ti j y el coeficiente ser cero.
El inconveniente es que ste coeficiente depende del tamao de la poblacin y que si
multiplicamos por una constante las casillas de la tabla, el coeficiente queda multiplicado
por la misma constante.

4.7.2. Coeficiente Contingencia de Pearson


Este coeficiente mide tambin la asociacin entre dos variables y est construido a
partir del anterior. Su expresin es:

C=

2
N + 2

Tambin se anula si las variables son independientes. El valor mximo que alcanza, la
mxima asociacin es:
r
c1
donde c = min{k, m}
c


70

Distribuciones Bidimensionales

4.7.3. Coeficiente T de Tschuprow


Se define como:
T=

2
(k 1)(m 1)

Este coeficiente tiene la ventaja respecto de los dos anteriores de que vara entre 0 y
1, aunque alcanza el valor mximo 1 slo en tablas cuadradas (k = m); cunto ms se
acerque a 1, mayor es la asociacin.

Ahorro Y

Por ejemplo: Se ha realizado un estudio sobre el ahorro mensual, en cientos de euros,


de un grupo de 50 individuos en edad de trabajar, con resultados en la tabla:

10-40
40-70
70-100
Totales

Edad X
18-30 30-50 50-65
10
1
2
3
7
8
2
2
15
15
10
25

Totales
13
18
19
50

Ahorro Y

Comprobemos la asociacin entre la edad y el ahorro mensual mediante los tres coeficientes de asociacin:
Coeficiente Chi-Cuadrado: Realizamos la tabla de frecuencias tericas ti j :
ti j
10-40
40-70
70-100

Edad X
18-30 30-50
3.9
2.6
5.4
3.6
5.7
3.8

50-65
6.5
9.0
9.5

Por la definicin de 2 tenemos que:

2 =
ij

(ti j ni j )2
= 24,4685
ti j

Coeficiente de contingencia de Pearson: El valor mnimo que puede tomar c es


c = min{3, 3} = 3 por lo tanto:
s
s
2
24,4685
C=
0,5732
=
N + 2
50 + 24,4685
r

31
= 0,8165 podemos concluir que existe alguna asociacin
3
entre edad y ahorro.
Coeficiente T de Tschuprow:
Como 0 C

T=

24,4685
2
= p
0,2447
(k 1)(m 1) 50 (3 1)(3 1)

Captulo

Regresin y Correlacin

la lnea del libro, el objetivo de este captulo ser el estudio de dos caracteres simultneamente. Analizamos el comportamiento conjunto de dos variables y las
relaciones entre ellas desde una nueva perspectiva. Anteriormente nos interesbamos por
el manejo e interpretacin de las frecuencias, ahora nuestro inters se centra en el hecho
de ser numricas las modalidades que presentan los caracteres; es decir, por el tratamiento
estadstico descriptivo de caracteres. [6]
IGUIENDO

5.1. Concepto de Regresin


De forma breve, la regresin consiste en la bsqueda de una funcin que exprese lo
mejor posible la relacin existente entre dos o ms variables. El bilogo britnico Galton,
a finales del siglo XIX, en un estudio sobre la descendencia, observa que existe una tendencia de los hijos a alcanzar unas tallas que se sitan alrededor de las tallas medias en el
conjunto de los padres. A partir de este trabajo se desarroll la lgica de las tcnicas de
regresin, cuyo trmino utiliz en dicho estudio. Son muchos los fenmenos corrientes
en que tiene sentido buscar esta relacin:
1. Los pesos y las tallas de un grupo de personas.
2. La tasa de consumo de energa per cpita y la renta per cpita en un conjunto de
pases.
3. Las puntuaciones de un test y la edad de un grupo de nios.
4. Los ingresos y los gastos en un grupo de familias.
5. La altura y el nmero de monedas en el bolsillo en un grupo de estudiantes.
6. La velocidad y el espacio recorrido en 60 minutos por un conjunto de vehculos.
7. Las medidas del lado y el rea de un conjunto de cuadrados.
Todos estos ejemplos, de manera intuitiva, nos hacen pensar en la existencia de alguna
relacin que ligue las dos variables a que aluden. Lo que queremos expresar es que las
pautas de comportamiento de cada una de esas variables suministran informacin sobre
el comportamiento de la otra con la que va aparejada. Ello significa, que si se ha de
predecir el valor de una de ellas para un valor dado de la otra, el conocimiento del valor
que presenta puede servirnos de gua, reduciendo el error que podamos cometer en dicha
prediccin.
As, si se ha de buscar el valor del consumo energtico per cpita para un pas de un
grupo dado, es ms fcil pensar que el error que cometa puede ser mayor si no conozco
su renta, que si la conozco, dado que la experiencia y la intuicin me dicen que los pases con niveles de renta ms altos suelen ser pases ms industrializados, con niveles de


72

Regresin y Correlacin

produccin ms altos, por lo que esperamos que el consumo energtico sea tambin ms
alto. Ahora bien, no existe una funcin matemtica que de forma exacta nos diga que a
una renta dada corresponde de un modo unvoco una tasa de consumo energtico, pero s
podemos observar una relacin entre ellas.
De forma genrica, si llamamos X a una de las variables e Y a la otra, buscamos una
funcin f que nos permita expresar los valores de Y en funcin de los de X (o viceversa):
Y = f (X )
Si nos fijamos en los ejemplos citados con anterioridad, observamos que los dos ltimos
presentan una relacin de naturaleza especial. Los valores obtenidos para una de las variables quedan perfectamente determinados al conocer los valores en al otra. Podramos
denominar a esta relacin determinista. Aqu s podemos encontrar una funcin que enlace esas variables unvocamente:
Espacio=Velocidad60
rea=ladolado

Y = 60X
Y = X2

En los dems ejemplos propuestos, no podemos afirmar que a cada valor en una de las
variables corresponde de manera unvoca uno en la otra. Por ejemplo, para un valor de
la renta dado, podemos tener un conjunto de pases con consumos de energa diferentes;
pero es fcil pensar que la distribucin de esas tasas de consumo energtico, condicionadas a la renta, diferir de la distribucin del total; pensamos que el comportamiento
de la distribucin condicionada del consumo energtico, presentar una forma particular
que diferir de la distribucin del total de pases. No podremos, por tanto, encontrar una
funcin que ligue de manera exacta esos fenmenos. En regresin sustituiremos la distribucin condicionada de una de las variables por cada valor de la otra, por su media
(u otro estadstico de posicin). Esta sustitucin ser ms razonable cuanto menor se la
variabilidad de la distribucin.

5.1.1. Lnea de regresin


Denominamos lnea o curva de regresin de Y sobre X a la representacin grfica del
conjunto de puntos:
{(xi , yi )}i=1,2,...,k

con lo que obtenemos una lnea representada en el grfico siguiente, y que nos indica las
distribuciones de la variable Y condicionadas por los valores de la variable X .
Y

b
b
b

b
b

b
b
b

b
b
b
b
b

b
b
b

b
b

b
b

b
b

b
b
b
b

b
b

b
b

b
b
b

b
b

b
b

b
b

b
b
b
b
b
b

b
b

b
b
b

b
b

b
b

b
b

b
b
b
b
b

b
b
b
b
b

X
Figura 5.1: Lnea de regresin de Y sobre X


73

5.1 Concepto de Regresin

De modo anlogo denominamos la lnea o curva de regresin de X sobre Y a la representacin grfica del conjunto de puntos
{(x j , y j )} j=1,2,...,m
Grficamente:
Y
b

b
b

b
b

b
b

b
b

b
b

b
b

b
b
b

b
b

b
b

b
b

b
b
b

b
b

b
b

X
Figura 5.2: Lnea de regresin de X sobre Y

Que se obtienen determinando para cada valor de y j de la variable Y , la media de la


distribucin condicional de X |Y = y j .
Si la variable X (o la Y ) fuese continua tendramos una infinidad de pares (xi ,Yi ) y
podramos hablar con propiedad de curva de regresin. La realidad es que tendremos que
conocimiento de un nmero finito de puntos.
Hemos optado por sustituir todos los puntos de cada distribucin condicionada por
uno solo: su media. Esa opcin puede ser discutible (como lo es que la media represente a
una distribucin unidimensional), pero a partir de ella queremos encontrar la funcin que
mejor explique una variable por el comportamiento de la otra.

5.1.2. Relacin entre Variables


Si analizamos la relacin entre dos variables, podemos encontrar:
1. Ninguna relacin (independencia)
2. Relacin total (dependencia funcional)
3. Alguna relacin (fuerte o dbil)
Independencia
Si X e Y son independientes vimos que las distribuciones condicionadas eran iguales entres s (e igual a la marginal correspondiente). En consecuencia, como estamos
manejando caracteres cuantitativos, podemos afirmar que sus medias son iguales. Por
tanto los puntos {(xi ,Yi )}i=1,2,...,k tienen la misma coordenada por ser Yi = Y para todo
i = 1, 2, . . ., k.
Grficamente la curva de regresin de Y respecto de X es una recta paralela al eje OX
que pasa por Y :


74

Regresin y Correlacin
Y
Y

X
Figura 5.3: Curva de Regresin Variables Independientes Y respecto X

Anlogamente todos los puntos {(X j , y j )} j=1,2,...,m tienen la misma abscisa por ser
X j = X para todo j = 1, 2, . . ., m.
Grficamente la curva de regresin de X respecto de Y es una recta paralela al eje OY
que pasa por X :
Y

X
X
Figura 5.4: Curva de Regresin Variables Independientes X respecto Y

Vemos en este caso como la variable Y no influye en el comportamiento de X (para


cualquier valor de la variable Y , la variable X se mantiene constante).
Dependencia Funcional
Diremos que la variable Y depende funcionalmente de X si a cada modalidad xi de X
le corresponde una y slo una modalidad y j de Y .
Pensemos en la curva de regresin de Y respecto de X en esta situacin. La distribucin
de Y |X = Xi con i = 1, 2, . . .k estar formada por el nico punto y j que corresponde a xi ,
es decir, es una distribucin degenerada a un punto. Su media Y j ser precisamente se
nico punto y j . Este razonamiento es vlido para todos los puntos xi . Consecuencia de
ello es que la nube de puntos {(xi , y j )} y la curva de regresin {(xi ,Y j )} coinciden. Por
tanto, es el mximo grado de relacin que podemos encontrar: los valores de X explican
exactamente el comportamiento de Y . Podramos expresar Y = f (X ).
Anlogamente diremos que X depende funcionalmente de Y si a cada modalidad y j de
Y le corresponde una y slo una modalidad xi de X . Los valores de Y explican exactamente
el comportamiento de X . Podramos expresar X = g(Y ).
Es importante destacar que la independencia es mutua. En cambio, la dependencia
funcional puede darse en los dos sentidos o slo en uno.


75

5.2 Curva de Mnimos Cuadrados. Residuos

5.2. Curva de Mnimos Cuadrados. Residuos

Nos planteamos ahora un problema prctico: es apropiado sustituir las distribuciones


las distribuciones condicionadas por su media? El problema real al que nos enfrentamos
es el de bsqueda de la funcin que mejor se ajuste a la nube de puntos.

5.2.1. Curva de Mnimos Cuadrados


Supongamos que la nube de puntos de la variable bidimensional (X ,Y ) con distribucin de frecuencias asociadas {(xi , y j ); ni j }i=1,2,...k; j=1,2,...,m es la siguiente:
Y

(xi , y j )

yj

b
b

b
b

xi

Figura 5.5: Curva de Mnimos Cuadrados

cuyo punto genrico (xi , y j ) tiene asociado una frecuencia ni j . En Anlisis Matemtico
nuestro problema se traduce en la bsqueda de la funcin que mejor se adapte a la nube
de puntos aceptando algn criterio. Es evidente que son infinitas las funciones que se
adapten a dicha nube de puntos.
Adoptemos, para elegir slo una de esas funciones, el llamado criterio de mnimos
cuadrados de Y respecto de X , que toma aquella funcin y = h(x) que haba mnima la
media de la variable estadstica:
[Y h(X )]2

Determinemos la media de esa distribucin que denotamos por :


= fi j [y j h(xi )]2 = fi
ij

ij
2

fi j
[y j h(xi )]2 = fi f j|i [y j h(xi )]2 =
fi
ij

= fi f j|i [y j h(xi )] = fi f j|i [y j Yi +Yi h(xi )]2 =


i



= fi f j|i (y j Yi ) + 2(y j Yi )(Yi h(xi )) + (Yi h(xi ))2 =
i

= fi f j|i (y j Yi )2 + 2 fi (Yi h(xi )) f j|i (y j Yi ) + fi f j|i (Yi h(xi ))2 =


i

= fiVari (Y ) + 0 + fi (Yi h(xi ))


i

Para que tome el menor valor posible ha de ser cero el segundo sumando de la
expresin anterior, dado que el primer sumando depende de la distribucin de frecuencias


76

Regresin y Correlacin

que estemos observando pero no de la funcin que buscamos:

fi(Yi h(xi))2 = 0
i

Para que esa expresin sea cero, ha de ocurrir que Yi = h(xi ) para todo i = 1, 2, . . ., k. Por
tanto la funcin h de mnimos cuadrados es precisamente la CURVA DE REGRESIN. Este
resultado, es desde luego muy interesante, pero nada prctico. La curva de regresin es la
mejor funcin que podemos elegir (desde el punto de vista de los mnimos cuadrados) para
representar el comportamiento de la relacin de Y respecto de X . Seguimos disponiendo
en la prctica de un nmero infinito de puntos. De paso hemos encontrado que:
min() = fiVari (Y )
i

5.2.2. Residuos
A las diferencias entre ordenadas de los puntos (xi , y j ) de la nube y las ordenadas sobre
la curva de regresin las vamos a llamar residuos. Los denotaremos de modo general por:
ei j = y j h(xi )
y su interpretacin grfica: La curva de regresin o curva de mnimos cuadrados es por
Y
h(xi )

(xi , h(xi ))
b

ei j
yj

(xi , y j )

xi

Figura 5.6: Residuos

tanto la que hace mnima la media de los cuadrados de los residuos.

5.3. Recta de Mnimos Cuadrados


5.3.1. Recta de Mnimos Cuadrados de Y respecto de X
En muchos casos reales, la relacin funcional que liga Y con X , desde el criterio de los
mnimos cuadrados, es una recta; en otros casos, la recta no es la curva de mnimos cuadrados pero la nube de puntos que representa la variable observada (X ,Y ) nos inspira una
relacin de tipo lineal. Por ejemplo, la siguiente nube de puntos nos indica una relacin
de tipo lineal entre X e Y :


77

5.3 Recta de Mnimos Cuadrados


Y
b

b
b

b
b

X
Figura 5.7: Relacin Lineal entre X e Y

Sea por una u otra causa, es sumamente interesante determinar la recta de mnimos
cuadrados o recta de regresin mnimo-cuadrada.
En otras ocasiones, la nube de puntos no nos inspira una relacin de tipo lineal, sino
otras relaciones funcionales que podemos determinar directamente o bien por procesos de
clculo que permiten linealizar dicha relacin:
b

Figura 5.8: Relacin no Lineal entre X e Y

Determinemos dicha recta de mnimos-cuadrados o recta de regresin lineal. Teniendo


en cuenta la definicin dada para la curva de mnimos cuadrados, la recta de mnimos
cuadrados ser aquella de expresin analtica:
Y = a + bX
que haga mnima la media de los cuadrados de los residuos. Se dice en este caso que la la
variable X explica linealmente el comportamiento de la variable Y.
Por convenio a la variable Y se le denomina variable dependiente y a la variable X
variable independiente. Eso no significa que Y sea obligatoriamente efecto de X , o que
X cause Y sino desde el punto de vista formal, vamos a intentar encontrar los valores de
Y a partir de los de X . El coeficiente b representa el incremento que se establece en Y al
aumentar X en una unidad.


78

Regresin y Correlacin

Con objeto de simplificar las notaciones, supongamos que la distribucin asociada a


la variable (X ,Y ) la podemos denotar por {(xi , yi ); ni }i=1,2,...,k tal que:
k

ni = N

i=1

Con esta notacin yi sera la ordenada de xi en la nube de puntos e yi la ordenada correspondiente a xi sobre la recta de mnimos cuadrados, supuesta conocida:
yi = a + b xi
Y
b

yj

yi
b

Y=a+bX

b
b

xi
Figura 5.9: Recta de Mnimos Cuadrados

Nuestro problema se reduce ahora a encontrar los valores de a (ordenada en el origen)


y b (pendiente de la recta) que cumplen la condicin de mnimos cuadrados. Llamemos a
a la media de los residuos al cuadrado:
1 k
1 k
1 k
2
2
= ni ei = ni (yi yi ) = ni (yi (a + bxi ))2
N i=1
N i=1
N i=1
Se trata, en definitiva, de la determinacin del mnimo de la funcin que depende
de las variables a y b. Se sabe que la condicin necesaria para que dicha funcin tenga un
mnimo es que se anulen las derivadas parciales respecto de a y b:
!

2 k
1

=
n
(y

(a
+
bx
))
(ni yi ni a ni bxi )
i
i
i

N i=1

a a N i=1

b = b

1
ni (yi (a + bxi ))2

N i=1

2 k
i=1 (ni xi yi ni xi a ni bx2i )
N

Igualando a cero las dos expresiones anteriores:

k
k
k
k

n
y

a
n
=
b
(n
y

n
a

n
bx
)
=
0

i i i nixi
ii i i i

i=1
N i=1
i=1
i=1
=

k
k
k
k

(n
x
y

n
x
a

n
bx
)
=
0
n
x
y

a
n
x
=
b
i
i
i
i
i
i
i
i
i
i
i

nix2i
i

N
i=1
i=1
i=1
i=1


79

5.3 Recta de Mnimos Cuadrados

Aparece un sistema lineal de dos ecuaciones con dos incgnitas a y b que nos proporciona la solucin que hace mnima . La solucin del sistema anterior la podemos
determinar, por ejemplo, despejando a en la primera ecuacin y sustituyendo su valor en
la segunda:
k

niyi a ni = b nixi
i=1

i=1

i=1

Dividiendo por N:
Y a = bX = Y = a + bX

Vemos que el punto (X,Y ) verifica la ecuacin de la recta Y = a + bX , y de aqu despejamos a, que es el valor de la ordenada en el origen:
a = Y bX
Sustituimos el valor de a en la segunda ecuacin:
k

nixiyi

i=1

Y bX

Dividiendo por N:

i=1

i=1

nixi b nix2i = 0

#
"
k

1 k
1
1 k
nixiyi Y X b N nix2i X N nixi = 0
N i=1
i=1
i=1

1 k
ni xi yi Y X la notaremos con el smbolo Cov(XY), que representa

N i=1
un estadstico denominado covarianza, que se desarrollar ms adelante; lo que aparece
entre corchetes es la varianza de la variable X .
Por tanto: Cov(XY ) = bVar(X ) y podemos despejar el valor de la pendiente b, llamado
tambin coeficiente de regresin de Y sobre X:

A la expresin

b=

Cov(XY )
Var(X )

Conocidos a y b, tenemos perfectamente determinada la recta de regresin de Y sobre X .

5.3.2. Recta de Mnimos Cuadrados de X respecto de Y


El estudio de la regresin lineal de X respecto de Y es simtrico del anterior, sin ms
que cambiar el papel de las variables. Llamemos X = a + bY a la recta de regresin
mnimo-cuadrtica de X respecto de Y . Realizando idnticas operaciones que en el punto
anterior, que dejamos al lector, se obtiene:
a = X bY
Cov(XY )
b =
Var(Y )
Ejemplo de Recta de Regresin


80

Regresin y Correlacin

La siguiente tabla representa la renta mensual de un grupo de 5 familias junto con el


gasto de cada una en actividades de tipo cultural y deportivo, junto con el diagrama
de dispersin de esta variable bidimesional:
120
Renta (X) Gasto (Y)
90
600
30
870
48
60
960
60
1260
90
30
1500
120
0
600 800 1000 1200
Se puede apreciar que la grfica est bien hecha, por supuesto la he hecho yo
b

Parte II
Probabilidad

Captulo

Combinatoria

el clculo de Probabilidades se requiere frecuentemente el uso de resultados procedentes de otros campos de la Matemtica. La Combinatoria puede ser un auxiliar til
para resolver problemas que plantea la definicin clsica de Probabilidad.
El anlisis combinatorio o Combinatoria se puede considerar fundado por Jacobo Bernuilli en su Ars Conjectandi (1713), aunque con anterioridad Tartaglia (1500-1557) ya
haba esforzado la frmula del binomio que, ms tarde, fue generalizado por Newton
(1642-1727) para exponentes no enteros. Tambin Pascal (1623-1662) y Leibniz (16461726) tuvieron aportaciones importantes al Anlisis Combinatorio, con el tringulo de
Pascal y la Frmula de Leibniz para potencias de un polinomio.
En los primeros aos del siglo XIX adquiere gran preponderancia con Hindenburg,
Kramp, Ettinghausen y modernamente, han reanudado estos estudios la escuela inglesa,
teniendo como principales representantes a Muir y Mac Mahon.
El anlisis combinatorio se ocupa de la ordenacin de los objetos dentro de un conjunto. En este sentido nos facilitar mtodos que sern tiles para determinar el nmero de
resultados posibles de un experimento. Veamos brevemente las frmulas combinatorias.
N

6.1. Variaciones sin repeticin


Supongamos un conjunto formado por n elementos; denominamos variaciones sin
repeticin de los n elementos tomados en grupos de m a cada uno de los subconjuntos de
m elementos distintos que pueden formarse de entre los n elementos, de manera que se
tenga en cuenta el orden. El nmero de variaciones sin repeticin se calcula:
Vnm = n (n 1) (n 2) . . . (n m + 1)
Ejemplo Variacin sin Repeticin

Supongamos el conjunto formado por los tres elementos siguientes: {a, b, c}. Las
variaciones sin repeticin de los tres elementos (n = 3) tomados de dos en dos (m = 2)
sern: ab, ba, ac, ca, bc, cb. Es decir, tenemos 6 formas de combinar estos elementos.
Si aplicamos la expresin para calcular el nmero de variaciones sin repeticin:
V32 = 3 2 = 6


84

Combinatoria

6.2. Variaciones con Repeticin


Le daremos el nombre de variaciones con repeticin cuando en las listas ordenadas de
elementos puedan repetirse stos. Se calculan:
m
V Rm
n =n

Ejemplo Variacin con Repeticin

Tomando el conjunto de elementos del conjunto anterior aparecern las siguientes


variaciones con repeticin tomadas de dos en dos: aa, ab, ba, bb, bc, cb, cc, ca, ac Si
aplicamos la expresin vemos que efectivamente el nmero de variaciones con repeticin es 9:
V R23 = 32 = 9

6.3. Permutaciones sin Repeticin


Una permutacin es una variacin en las que n = m, es decir, se han tomado todos los
elementos del conjunto para efectuar listas de todos ellos atendiendo al orden. El nmero
de permutaciones posibles se obtiene:
Pn = n (n 1) (n 2) . . .2 1
Matemticamente, a este nmero se le llama, factorial de n y se denota como n! es decir
n! = n (n 1) (n 2) . . . 2 1
Por tanto, el nmero de permutaciones se escribe:
Pn = n (n 1) (n 2) . . .2 1 = n!
Ejemplo Permutacin sin Repeticin

Las permutaciones que se pueden formar con los elementos a, b, c sern:


abc, acb, bca, bac, cba, cab. Utilizando la frmula, debemos obtener como nmero de
permutaciones:
P3 = 3 2 1 = 6

6.4. Permutaciones con Repeticin


Llamaremos Permutaciones Con Repeticin de m elementos entre los que hay a iguales entre s, otros b iguales entre s, otros c iguales entre s,. . . y finalmente r iguales entre
s, siendo a + b + c + . . . r = m, a las distintas agrupaciones que se pueden formar con
los m elementos, entre los que aparecen repetidos a, b, c, . . ., r elementos. El nmero de
permutaciones con repeticin se obtiene:
Pma,b,,r =

m!
a! b! . . .r!


85

6.5 Combinaciones sin Repeticin

Ejemplo Permutaciones con Repeticin

Las permutaciones con repeticin que se pueden formar con los elementos a, a, b, b
sern: aabb, abab, abba, baba, bbaa, baab. Aplicando la frmula:
P42,2 =

4!
24 24
=
=6
2! 2! 2 2 4

Estos nmeros intervienen en la frmula de Leibniz para el desarrollo de una potencia de una suma:
(a1 + a2 + + am )n =

n!
a1 1 a2 2 amm
1 +2 ++m =n 1 !2 ! m !

6.5. Combinaciones sin Repeticin


Una combinacin sin repeticin de m elementos tomados de los n de un conjunto,
representa un subconjunto de m elementos en que no se tiene en cuenta el orden. El
nmero de combinaciones sin repeticin de n elementos tomados de m en m se calcula:
Cnm =

n!
m! (n m)!

 
n
es
Matemticamente, a este nmero se le llama n sobre m y se representa como
m
decir
 
n!
n
=
m
m! (n m)!
Por tanto, el nmero de combinaciones sin repeticin se escribe:
 
n!
n
m
=
Cn =
m! (n m)!
m

Ejemplo Combinaciones sin Repeticin

En el ejemplo que venimos estudiando, las combinaciones si repeticin de los 3 elementos tomados de dos en dos sern: ab, bc, ac (en este caso no se tiene en cuenta el
orden por lo que ab = ba). Aplicando la frmula:
 
6
6
3!
3
2
=
= =3
=
C3 =
2! 1! 2 1 2
2
Estos nmeros combinatorios intervienen en la frmula de Newton para el desarrollo
de una potencia de un binomio:
n  
n nk k
n
(a + b) =
a b
k=0 k


86

Combinatoria

6.6. Combinaciones con Repeticin


Llamaremos combinaciones con repeticin de m elementos tomados de entre n a cada
uno de los subconjuntos de m elementos que se pueden formar de manera que pueden
repetirse, pero sin que el orden se tenga en cuenta.


(n + m 1)!
n+m1
m
=
CRn =
m! (n 1)!
m
Ejemplo Combinaciones con Repeticin

Veamos cuntas combinaciones con repeticin obtenemos con los tres elementos tomados en subconjuntos de dos: aa, bb, cc, ab, bc, ac. Utilicemos la frmula:
  

24
24
4!
4
2+31
2
=
=
=6
=
=
CR3 =
2! 2! 2 2
4
2
2

6.7. Cuadro Resumen


El siguiente cuadro, ayuda a decidir qu herramienta combinatoria es necesaria para
cada ocasin:

No Combinaciones
Importa

No
el

Orden? S Variaciones

Se

puede

repetir

No Combinaciones con Repeticin

los

elementos?

Importa

S
el

Se repiten No Permutaciones con Repeticin

Orden?

todos

los elementos

S Variaciones con Repeticin


por igual?

Ejercicios

6.1

Comprueba la frmula

6.2

Comprueba la frmula


  
n
n
=
nm
m

 
  
m+1
m
m
=
+
n
n1
n


6.3

Establece la frmula

 


  
n+k
n+k1
n+1
n
=
++
+
n+1
n
n
n

6.4

Establece las frmulas

6.5

87

6.7 Cuadro Resumen

 
   
n
n
n
= 2n
++
+
n
1
0
 
   
n
n
n n
=0
+ + (1)

n
1
0
Demuestra que


 
m1
m
Si 0 n m
= m
(m n)
n
n

6.6

6.7

Cuntos equipos de 3 personas se pueden formar a partir de un grupo de 5 personas?


Cuntas iniciales posibles (dos letras) hay para una persona?
6.8 Tenemos un lote con 6 piezas, de la cuales 3 son buenas y 3 son defectuosas.
1. Cuntas muestras diferentes se pueden realizar con 3 piezas?
2. Cuntas, entres esas piezas, contienen 3 piezas buenas?
3. Cuntas, por lo menos, contienen una pieza buena?

6.9 Dos amigos estn en al cola de entrada de una restaurante autoservicio. Sabiendo
que la cola comprende n personas alineadas, cuntos casos posibles hay? Cuntos
casos hay exactamente de que estn separados por r personas? (se admite para que
cada uno de ellos, todas las posiciones son igualmente probables).

6.10

Los doce tomos de una enciclopedia estn colocados al azar:


1. Cuntas maneras hay de clasificarlos?
2. Entre estas clasificaciones, cuntas hay en que los tomos 1 y 2 estn al lado
uno del otro en ese orden?

6.11 En una empresa hay un comit de empresa que tiene 5 delegados de personal y
4 personas de la direccin. De cuntas maneras se puede formar un subcomit que
tenga 3 delegados de personal y 2 miembros de la direccin?

6.12

Un representante est a punto de visitar a 5 de sus clientes. De cuntas maneras


puede hacer esa serie de visitas:
1. si las hace todas el mismo da?
2. si hace 3 un da y 2 al siguiente?

6.13 Se compran 6 piezas mecnicas. Cmo se pueden repartir:


1. si tienen que estar colocadas cada una en un taller diferente?
2. si estn colocadas de 2 en 2 en 3 talleres diferentes?
3. si hay 4 talleres, recibiendo 2 de ellos 2 piezas y los otros una sola?

6.14 Un taller tiene 15 obreros, 8 mujeres y 7 hombres. Se escogen, en dicho taller,


equipos de 5 obreros:
1. Cuntos equipos diferentes se pueden formar?


88

Combinatoria

2. Cuntos equipos que tengan 3 hombres, y slo 3, se pueden formar?


Una cerradura de combinacin se abre dando una vuelta a la derecha y parando
en una marca A, a continuacin una vuelta a la izquierda y parando en una marca B
y finalmente, otra vuelta a la derecha parndose en una marca C.
Las marcas A, B y C no son, necesariamente, diferentes. Cuntas cerraduras diferentes se pueden fabricar si las marcas A, B, C estn seleccionadas entre los nmeros
0,1,2,3,4,5,6,7,8,9.?

6.16 Se dispone de 5 herramientas y 7 casilleros capaces de alojarlas. Se supone que


cada casillero, en rigor, puede contener las 5 herramientas. Determina:
1. El nmero de formas de colocar las 5 herramientas en los 7 casilleros de cualquier manera.
2. El nmero de formas de colocar las 5 herramientas en los 7 casilleros sin que
haya 2 de ellas en el mismo casillero.

6.17 17 caballos estn en la salida de un gran premio. Cuntas formas hay de apostar
a los 3 primeros caballos?

6.18 Se dispone de 3 caracteres de imprenta: 2,5,7.


1. Cuntos nmeros de 2 cifras se pueden formar?
2. Cul es la suma de esos nmeros?
3. Cuntos nmeros pares hay entre ellos?

6.19 Considerando las letras del alfabeto:


1. Cuntas palabras de 2 letras se pueden formar?
2. Cuntas de ellas hay constituidas por:
una consonante y una vocal?
dos consonantes?
dos vocales?

6.20 Sobre 20 personas, 10 leen una revista A, 8 leen una revista B y 3 leen las dos
revistas. De cuntas maneras se pueden elegir 5 personas entre las 20 si:
1. Cada una de las 5 personas lee por lo menos una revista?
2. 3 de entre ellas leen la revista A, los otras 2 leen la revista B, leyendo cada una
de ellas una sola revista?
3. 3 de entre ellas, por lo menos, leen la revista A?

6.21 Una asociacin con 20 socios, de los cuales 12 son hombres y 8 mujeres, desea
formar un comit de 5 personas, en el que debe haber al menos 2 hombres y 2
mujeres. Calcula de cuntas maneras se puede formar el comit en cada uno de los
casos siguientes:
1. Cada miembro de la asociacin acepta formar parte del comit.
2. Dos de los hombres se niegan a formar parte de l.

6.22 El entrenador de un equipo de baloncesto dispone de 11 jugadores de los cuales


cuatro juegan de pvot, cuatro son alero y tres bases. Cuntos equipos distintos se
pueden alinear?

6.23

Una caja contiene tres bolas blancas, dos negras y una roja. De cuntas formas
se pueden elegir cinco bolas, con la condicin de que haya bolas de los tres colores?

6.15

Captulo

Probabilidad

a la introduccin del concepto de probabilidad, ser necesario aludir a algunos


trminos en cuyo contexto tiene su origen y significado.
Un fenmeno determinista describe una situacin en la que se puede determinar de
manera exacta la forma en que se ha de manifestar. Es decir, se conoce con certeza el
resultado al que va a llegar.
Por ejemplo, el experimento consistente en calcular el tiempo que tarda en caer un
cuerpo en el vaco desde cierta altura:
REVIA

t=

2h
s
g

O la cantidad de agua que se obtiene al mezclar oxgeno e hidrgeno y hacer saltar una
chispa elctrica:
2H2 + O2 2H2 O
Ahora bien, el concepto de probabilidad tiene que ver con los diferentes resultados que
podran ocurrir al observar un fenmeno. El Azar juega un papel importante en nuestra
vidas y todos tenemos una idea ms o menos vaga o intuitiva de sus caractersticas. Generalmente, hemos adquirido esta intuicin a travs de experiencias como las apuestas, las
loteras, la respuesta de una persona encuestada sobre su opinin en cierto asunto, o el posible grupo sanguneo del futuro descendiente de una pareja. Nuestro objetivo es estudiar
de manera cientfica el azar a partir de los fenmenos aleatorios, de estudiar los diferentes
resultados que podran ocurrir. Diremos que un fenmeno es aleatorio si sus resultados
son impredecibles, en el sentido de que no podemos conocer de antemano cul ser el
resultado concreto que tendr lugar en la realizacin del mismo. Un ejemplo lo tenemos
al observar la cara que resulta de lanzar una moneda: cara o cruz. Esta imprecisin de
los resultados nos lleva a plantearnos el problema de la medida de la incertidumbre que
encierran estos fenmenos y al inters en evaluarla numricamente.
Con el trmino probabilidad pretendemos resolver estas deficiencias mediante un intento de expresar de manera objetiva y precisa el grado de ocurrencia de ciertos resultados
de un fenmeno aleatorio. A partir de aqu, se intenta buscar unas reglas que describan
el comportamiento de las realizaciones o resultados ligados a un fenmeno aleatorio, que
veremos ms adelante.


90

Probabilidad

7.1. Experimentos Aleatorios


Consideremos el experimento consistente en lanzar un dado y observar la puntuacin
que aparece en la cara superior: se trata de un experimento aleatorio.
Un experimento es aleatorio(de azar o estocstico) si:
1. Es posible repetirlo indefinidamente (al menos en teora, ya que la mano se cansa)
sin cambiar de forma esencial las condiciones de realizacin.
2. Aunque en general no podemos predecir cul ser el resultado de una prueba particular, podemos describir el conjunto de todos los resultados posibles.
3. A medida que el experimento se repite, los resultados individuales parecen ocurrir
de forma caprichosa; sin embargo, cuando el experimento se repite un gran nmero
de veces, aparece un modelo definido de regularidad. Esta regularidad hace posible
la construccin de un modelo matemtico: el modelo probabilstico.

7.2. Conceptos Bsicos


Supongamos que se efecta un experimento aleatorio:
1. Un suceso elemental es cada uno de los resultados posibles, considerados indivisibles. Por ejemplo, en el experimento lanzamiento de una moneda al aire, los dos
sucesos elementales seran A1 =salir cara y A2 =salir cruz
2. El espacio muestral es el conjunto formado por todos los posibles resultados
o sucesos elementales de un experimento aleatorio. En el experimento anterior, el
espacio muestral es = {A1 , A2 }
3. Un suceso cualquiera est compuesto por uno o ms sucesos elementales, es decir,
es un conjunto de sucesos simples o elementales. En el experimento lanzamiento
de un dado al aire, el espacio muestral ser = {1, 2, 3, 4, 5, 6}; podramos considerar el suceso A=Obtener un resultado inferior a 4. Este suceso estar formado
por tres sucesos elementales: A = {1, 2, 3}.
4. El suceso seguro () es el formado por todos los resultados posibles del experimento (ocurre siempre). Por ejemplo, en el lanzamiento del dado, el suceso que va
a ocurrir siempre ser: B=obtener un 1 2 3 4 5 6, es decir B = .
5. El suceso imposible (0)
/ es aquel que no contiene ningn resultado del espacio
muestral (nunca se va a realizar). Por ejemplo, el suceso no obtener un 1 2 3
4 5 6, nunca va a ocurrir, por ello, al suceso imposible se le denota con el
smbolo de conjunto vaco 0.
/
=Espacio Muestral
f

a
b
g

Suceso A = {a, b, d}
d

c Suceso Elemental
B = {c}

7.3 Operaciones con Sucesos

7.3. Operaciones con Sucesos

91

Con la terminologa de la teora de conjuntos, podemos considerar un suceso como un


conjunto del espacio muestral . Al conjunto
P() = {A : A } = {Todos los subconjuntos de }

(7.1)

lase partes de , se le llama espacio de sucesos del experimento aleatorio. Escribir


A equivale a escribir A P().
Por ejemplo, si = {a, b, c}, entonces:
P() = {0,
/ {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, }

(7.2)

NOTA: Si tiene N elementos, entonces P() tiene 2N elementos, entre los que se
contabilizan el conjunto vaco (0)
/ y el suceso seguro ().

7.3.1. Realizacin de un suceso


Sea r el resultado (suceso elemental) de una prueba de un experimento aleatorio,
y sea A P() un suceso, se dice que en dicha prueba
se ha realizado A si r A
no se ha realizado A si r
/A

7.3.2. Igualdad de Sucesos


Un suceso A est incluido en un suceso B, A B, si siempre que se realiza A se realiza
B. En nuestra notacin:
A B si para todo r A entonces r B

(7.3)

Dos sucesos A y B se dicen iguales si siempre que se realiza A se realiza B y viceversa.


si para todo r , r A, si y slo si r B

(7.4)

O equivalentemente:
A = B si y slo si A B y B A

7.3.3. Operaciones con sucesos


1. Unin (A B)
Si A y B son dos sucesos, el suceso A B es el conjunto de todos los sucesos elementales de A y B. Es decir, incluye tanto a los sucesos A como a lo de B, o de
ambos a la vez.
A B = {x : x A x B ( ambos) }

(7.5)

Por ejemplo, en el lanzamiento del dado consideramos dos sucesos A=obtener un


nmero par={2, 4, 6} y B=obtener un nmero menor a 4={1, 2, 3}. El suceso
unin A B=obtener un nmero par o inferior a 4={1,2,3,4,6}


92

Probabilidad

=Espacio Muestral
f

a
b

Suceso A = {a, b, d}
d

c Suceso Elemental
B = {c}

A B={a,b,d,c}

2. Interseccin(A B)
Definimos el suceso interseccin de los sucesos A y B como un nuevo suceso que
notaremos A B formado por los sucesos elementales que estn a la vez en A y en
B. Ocurre por la realizacin simultnea de A y B.
A B = {x : x A y x B}

(7.6)

Por ejemplo, obtengamos la interseccin de los sucesos A y B anteriormente definidos; A B=obtener un nmero par y que sea menor que 4={2}.
=Espacio Muestral
Suceso A
f
a
g

Suceso B
e

c
b

A B = {c}

3. Complementacin (A)
Dado un suceso A, definimos el complementario o contrario de dicho suceso, como
el formado por todos los sucesos elementales del espacio muestral que no estn en
A. Dos sucesos se denominan contrarios si siempre que se realiza uno de ellos, no
se realiza el otro y recprocamente.
A = {x : x
/ A}

(7.7)

Por ejemplo, en el fenmeno de lanzar un dado, si consideramos A=obtener un nmero par, el suceso complementario de A ser A=obtener un nmero impar={1,3,5}


93

7.3 Operaciones con Sucesos

=Espacio Muestral
f

Suceso A

e
c

g
b

A = {d, e, f , g}
4. Diferencia de sucesos (A B)
Dado dos sucesos A Y B, definimos la diferencia de los sucesos A y B, A B, como
un nuevo suceso formado por los sucesos elementales de A que no estn en B. Se
denomina diferencia de sucesos cuando al realizar uno de ellos, no se realiza el otro.

A B = {x : x A y x
/ B} = A B

=Espacio Muestral
Suceso A
f
a
g

(7.8)

Suceso B
e

c
b

A B = {a, b}
5. Diferencia simtrica (A B)
Dados dos sucesos A y B, definimos la diferencia simtrica de los sucesos A y B,
A B, como un nuevo suceso formado por la unin de los sucesos elementales de
A que no estn en B y los sucesos elementales de B que no estn en A. Se denomina
diferencia simtrica de dos sucesos cuando al ocurrir uno de ellos no ocurre el otro
y viceversa.

A B = (A B) (B A) = {x : x A y x
/ B xB y x
/ A}

(7.9)


94

Probabilidad

=Espacio Muestral
Suceso A
f
a

Suceso B
e

g
b

A B = {a, b, e, d}

6. Sucesos mutuamente excluyentes (A B = 0)


/
En teora de conjuntos, si AB = 0,
/ se dice que A y B son disjuntos, incompatibles o
mutuamente excluyentes. Mirados como sucesos del espacio P() estos significa
que es imposible que A y B se realizan simultneamente.
=Espacio Muestral
Suceso A
f
Suceso B
e

a
c

g
b

A B = 0/

7.4. lgebra de Sucesos


Puede demostrarse que las operaciones de unin, interseccin y complementacin gozan de las siguientes propiedades:
1. A A = A
8. A A = A
2. A B = B A
9. A B = B A
3. (A B) C = A (B C)
10. (A B) C = A (B C)
4. 0/ =
11. = 0/
5. A A =
12. A A = 0/
6. (A B) C = (A C) (B C)
13. (A B) C = (A C) (B C)
7. A B = A B
14. A B = A B

Ejercicios

7.1

Propn tres ejemplos de experimento aleatorio. Escribe los correspondientes espacios muestrales y enuncia dos sucesos que correspondan a cada uno de los experimentos.

7.4 lgebra de Sucesos

7.2

7.3

7.4

7.5

7.6

7.7

7.8

95

Se lanza cuatro veces una moneda.


1. Cul es el espacio muestral para este experimento? Cuntos elementos tiene?
2. Escribe los elementos del suceso A =salen al menos dos caras.
3. Halla los elementos del suceso B =aparecen exactamente tres cruces. Qu
relacin existe entre el suceso A y el suceso B?
4. Son incompatibles los sucesos A y B? Da dos ejemplos de sucesos C y D que
sean incompatibles con B.
5. Escribe los elementos de los sucesos A y B; A o B y no ocurre A
Se lanzan tres monedas al aire y se consideran los sucesos A =obtener tres cruces, B =obtener al menos una cara y C =obtener dos caras y una cruz. Construye el espacio muestral asociado.
En una fbrica se inspeccionan los objetos producidos y se clasifican como defectuosos (D) y no defectuosos (N). La inspeccin de objetos contina hasta
llegar al primero que es defectuoso.
1. Cmo es el espacio muestral correspondiente a este experimento? Cuntos
elementos tiene?
2. Escribe los elementos de suceso A =el primer defectuoso aparece antes de la
dcima inspeccin.
3. Sea B =el primer defectuoso aparece en una inspeccin cuyo orden de numeracin es par. Escribe los elementos del suceso A y B
En la interseccin de una autova, los automviles pueden girar a la derecha (D)
o a la izquierda (I). Desde un puesto de observacin se registra el sentido de la
maniobra de los tres primeros vehculos.
1. Cul es el espacio muestral del experimento?
2. Sea A el suceso a lo ms uno de los coches gira a la derecha, sea B =todos
los vehculos giran en la misma direccin y C =exactamente uno de los
coches gira a la derecha . Qu relacin existe entre los sucesos B y C?
3. Enuncia y halla los elementos de los sucesos no B, B o C y A y B
Se lanza una moneda hasta que aparece la primera cara.
1. Cmo son los elementos del espacio muestral?
2. Escribe los elementos del suceso A definido por la primera cara aparece en
los tres primeros lanzamientos. Escribe los elementos del suceso B dado por
la primera cara sale en un lanzamiento par.
3. Halla los elementos de los sucesos A y B, no A y no B.
Se observan los tres hijos de una familia segn sean hombre o mujer y se anotan
los resultados.
1. Construye el espacio muestral asociado.
2. Describe los sucesos A =el hijo menor es hombre y B =el mediano es
mujer
Una urna contiene 3 bolas blancas y 2 bolas rojas; otra urna contiene 2 bolas
blancas y 2 rojas. Se extrae una bola de cada urna y se observa su color.
1. Construye el espacio muestral asociado.
2. Escribe los elementos de los sucesos A = las dos son del mismo color;
B =las dos son rojas y C =las dos bolas tienen distinto color


96

Probabilidad

7.9

Se lanzan dos dados. Construye el espacio muestral asociado y escribe los elementos de los sucesos A =obtener un cinco slo en uno de los dados, B =la suma de
las puntuaciones es a lo sumo 3, C =obtener a lo sumo un cinco y D =obtener
al
menos un cinco

7.10 Se lanzan simultneamente un dado y una moneda. Construye el espacio muestral asociado y escribe los elementos de los sucesos A =el nmero del dado es
mayor que 3 y la moneda es cara y B =en la moneda sale cruz

7.5. Frecuencias Relativas y Sucesos


Una de las caractersticas bsicas del concepto de experimento aleatorio es que no
sabemos qu resultado particular se obtendr al efectuar una prueba del mismo. En otras
palabras, si A es un suceso asociado a un experimento aleatorio no podemos indicar con
certeza si A ocurrir o no. Por tanto, es importante intentar asignar al suceso A un nmero que mida, de alguna manera, la posibilidad de que el suceso ocurra. Esta tarea nos
conduce a la Teora de Probabilidades.
Supongamos que se realizan N pruebas del experimento aleatorio E, con espacio
muestral , y sean A, B P(), dos sucesos asociados a E. Sean nA y nB el nmero
de veces que ocurre A y B, respectivamente en las N pruebas (sus frecuencias absolutas).
nA
El nmero fA =
es la frecuencia relativa del suceso A en las N pruebas.
N
De las frecuencias relativas destacamos, entre otras, las siguientes propiedades:
nA N
=1
1. 0 fA 1 ya que 0 nA N 0
N
N
2. fA = 1 si, y slo si, A ocurre en cada una de las pruebas (nA = N).
En particular f = 1
3. A B = 0/ (incompatibles) entonces fAB = fA + fB , pues nAB = nA + nB
4. La frecuencia relativa de cada suceso no vara bruscamente, sino que tiende a estabilizarse alrededor de un nmero fijo. Esta estabilidad es tanto ms acusada cuanto
mayor sea el nmero de pruebas efectuadas. Ley de los Grandes Nmeros.
Ejemplo Lanzamiento de un Dado

Un ejemplo clsico es el lanzamiento de un dado, ya que por su simpleza sirve


para comprender muchos conceptos de la probabilidad.
Sea E el experimento el lanzamiento de un dado y la notacin de los puntos de la
cara superior, entonces el espacio muestral asociado es
= {1, 2, 3, 4, 5, 6}
Si efectuamos un gran nmero de pruebas, se constata empiricamente, que la fre1
cuencia relativa de cada cara del dado es sensiblemente aproxima a .
6
Esta ser la probabilidad terica que asignaremos.


97

7.5 Frecuencias Relativas y Sucesos

Ejemplo Lanzamiento de una moneda

Al realizar el experimento de lanzar sucesivamente una moneda equilibrada un nmero grande de veces, puede verse empricamente que la frecuencia de aparicin del
suceso salir cara tiende a estabilizarse alrededor del valor 0, 5. En la figura aparecen los diagramas de barras de la distribucin de frecuencias correspondientes a la
repeticin del experimento 50 (a), 100 (b), 500 (c) y 2000 (d) veces, respectivamente.
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0

0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0

(a)

(c)

0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0

0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0

(b)

(d)

Es claro que, tanto la frecuencia relativa del suceso sale cara como la frecuencia
relativa del suceso sale cruz, se acercan al valor 0, 5. Por lo tanto, es razonable
asignar la probabilidad 0, 5 a cada uno de los sucesos.


98

Probabilidad

7.6. Axiomtica de Probabilidad


Estamos interesados en tratar de medir de alguna forma el grado de ocurrencia de
ciertos sucesos; por consiguiente, el objetivo es asignar valores a los sucesos, de modo
que representen sus posibilidades de realizarse. Para poder definir o asignar estos nmeros a los sucesos es preciso dotar al conjunto de todos los sucesos de una estructura
denominada lgebra de sucesos.
Definicin 7.6.1. Dado un experimento aleatorio y su espacio muestral , un lgebra de
sucesos, que notaremos A , es una clase formada por subconjuntos de denominados
sucesos del espacio muestral que verifica:
1. Si un suceso pertenece a A , tambin pertenece el suceso complementario:
AA AA
2. Sea la serie de sucesos (finita o infinita numerable) de A :
A1 , A2 , . . ., An , . . .
tambin pertenece a A la unin (finita o infinita numerable) de ellos.
A1 A2 . . . An . . . =

+
[

i=1

Ai A

3. 0/ A

7.6.1. Concepto de Probabilidad


Dado un experimento aleatorio y su espacio muestral asociado , una aplicacin P,
que asocia a cada suceso un nmero real:
P:A R
definida como:
A A P(A) R

es una probabilidad si se verifica los siguientes axiomas:


1. Para cualquier suceso A se verifica que su probabilidad es un nmero real no negativo:
A A P(A) 0
2. La probabilidad del suceso seguro vale 1:

P() = 1
3. Dados A1 , A2 , . . . , An , . . . sucesos incompatibles, se verifica que la probabilidad de
la unin es igual a la suma de las probabilidades de los sucesos:
P(

+
[

i=1

A1 ) = P(Ai )
i=1


99

7.6 Axiomtica de Probabilidad

Toda aplicacin que cumpla esos axiomas (propiedades que se admiten por definicin, y
por tanto, no necesitan demostracin), es una probabilidad definida sobre el lgebra de
sucesos A . Se denomina espacio de probabilidad a la terna (, A , P)
Ejemplo Espacio de Probabilidad

Se lanza al aire un dado cargado, de tal forma que las probabilidades de aparicin
de un resultado no son iguales, sino que:
P(1)=0,2
P(2)=0,05

P(3)=0,3
P(4)=0,15

P(5)=0,2
P(6)=0,1

1. El espacio muestral es = {1, 2, 3, 4, 5, 6}


2. Vemos que la probabilidad as definida sobre el anterior espacio muestral verifica todos los axiomas y por tanto es una probabilidad
3. Si lanzamos al aire este dado, calculemos la probabilidad del suceso
A =salir par:
A = {2, 4, 6} P(A) = P(2) + P(4) + P(6) = 0, 05 + 0, 15 + 0, 1 = 0, 3
4. Calculemos la probabilidad del suceso B =salir impar:
B = {1, 3, 4} P(B) = P(1) + P(3) + P(5) = 0, 7
5. Calculemos la probabilidad de C =salir mayor que 3:
C = {4, 5, 6} = P(4) + P(5) + P(6) = 0, 45
6. P(A B C)?
P(A B C) = P(1, 2, 3, 4, 5, 6) = P() = 1
7. P(A C)?
8. P(A)?

P(A C) = P(4, 6) = 0, 25
P(A) = P(1, 3, 5) = P(B) = 0, 7

Distinguiremos tres formas de evaluar numricamente las posibilidades de ocurrencia de


los distintos sucesos asociados a un experimento.

7.6.2. Concepto Clsico de probabilidad o de Laplace


Mediante este mtodo asignamos a todos los resultados posibles ligados a un experimento, la misma oportunidad de aparecer, y definimos la probabilidad de un suceso
determinado, como el cociente entre el nmero de casos favorables a la realizacin del
suceso y el nmero de casos posible. La probabilidad clsica nos dice, por consiguiente,
que dado un suceso A, su probabilidad se obtiene dividiendo el nmero de veces NA , en
que se presenta dicho suceso, entre el nmero de resultados posibles N, del experimento


100

Probabilidad

aleatorio:
P(A) =

No de casos favorables NA
=
No de casos posibles
N
Ejemplo Probabilidad Clsica

Supongamos el experimento aleatorio consistente en lanzar un dado no cargado y el


suceso A =obtener un 5={5}. La probabilidad de obtener el valor 5 ser el nmero
de sucesos elementales de A entre el nmero de sucesos elementales del espacio
muestral:
No de casos favorables 1
P(A) = o
=
N de casos posibles
6
Calculando ahora la probabilidad del suceso B =obtener un nmero par={2,4,6
}, siguiendo la misma lgica:
3 1
P(B) = =
6 2
NOTA: Se consideran todos los suceso elementales igual de posibles: equiprobables.

7.6.3. Concepto Frecuentista de Probabilidad


Esta aproximacin al concepto de probabilidad resalta por su utilidad prctica; es una
manera emprica de asignar probabilidades a sucesos. Consiste en realizar el experimento
un nmero elevado de veces y observar las frecuencias relativas con que aparecen los
sucesos. En este caso la evaluacin de las probabilidades se efecta asignando a cada
suceso, la frecuencia relativa correspondiente.
Ejemplo Probabilidad Frecuentista

Observamos que la frecuencia relativa correspondiente al nacimiento de nios y nias tiende a estabilizarse hacia un valor fijo; se observa empricamente (observando
las estadsticas de nacimientos) que nacen 105 nios por cada 100 nias aproximadamente. Tomamos como probabilidad de nacimiento de una nia la frecuencia de
nias respecto del total:
P(nia) =

100
0,4878
205

7.6.4. Concepto Subjetivo de Probabilidad


Este concepto se utiliza ante la imposibilidad de aplicar los anteriores. Es evidente la
existencia de fenmenos que no se prestan a asignar a los sucesos la misma oportunidad
de aparecer (como en el caso primero del concepto clsico), o bien no es posible realizar el experimento un nmero elevado de veces (como exige el caso segundo, concepto
frecuencialista), por lo que nos vemos obligados a asignar las probabilidades segn un
criterio intuitivo, haciendo un juicio razonado, pero totalmente arbitrario y subjetivo del
grado de incertidumbre de un determinado suceso.
Por ejemplo, un economista, a la vista de los ltimos acontecimientos polticos y econmicos, prev una disminucin del paro, con una probabilidad , casi segura, de 0,99.


101

7.7 Elecciones al Azar

7.6.5. Propiedades de la Definicin de Probabilidad

A partir de los axiomas pueden deducirse otras propiedades, que se deja la demostracin al lector:
1. P(A) = 1 P(A)
2. P(0)
/ =0
3. P(A B) = P(A) + P(B) P(A B)
4. Si A B entonces P(A) P(B)
5. P(A) 1

7.7. Elecciones al Azar


Muchos experimentos consisten en la eleccin al azar (eleccin aleatoria) de uno o
ms objetos de una coleccin dada. Definamos ms precisamente esta cuestin:
Supongamos que tenemos N objetos que constituyen el conjunto
A = {a1 , a2 , . . . aN }

7.7.1. Elegir al azar un objeto de entre los N


Significa que todos los objetos tienen la misma probabilidad de ser elegidos; es decir
P({ai }) =

1
Para i = 1, 2, 3, . . .N
N
Ejemplo Elegir un objeto

En una baraja espaola, la probabilidad de que al extraer una carta al azar resulte
as de oros es
1
P(as de oros) =
40

7.7.2. Elegir al azar, y simultneamente, dos objetos de entre los N


Significa que cada uno de los subconjuntos de dos elementos de A, {ai , a j }, no se considera
el orden, tiene la misma probabilidad de ser escogido que cualquier otro. Habiendo
N
2 de tales subconjuntos binarios, la probabilidad de cada uno de ellos es
1
P({ai , a j }) =  
N
2


102

Probabilidad

Ejemplo Elegir dos objetos

En una baraja espaola, la probabilidad de que al extraer al azar dos cartas simultneamente resulte as de oros y rey de bastos es:
P(as de oros y rey de bastos) = 

1
1
1
=
=
40 39
40
780
21
2

7.7.3. Elegir al azar, y simultneamente, k objetos de entre los N


Significa que cada uno de los subconjuntos de k elementos de A, {ai1 , ai2 , . . . aik }, no
se considerael orden, tiene la misma probabilidad de ser escogido que cualquier otro.
Habiendo Nk de tales subconjuntos k-arios, la probabilidad de cada uno de ellos es
1
P({ai1 , ai2 , . . . aik }) =  
N
k

Ejemplo Elegir k objetos

En una baraja espaola, la probabilidad de que al extraer al azar cuatro cartas


simultneamente resulten los cuatro ases es
P(as copa, as bastos, as espadas, as oros) = 

1
4321
1
=
=
40
40 39 38 37 91390
4

7.7.4. Elegir al azar, y sucesivamente, dos objetos entre los N


Se puede hacer de dos formas:
Con reemplazamiento
Se elige un objeto, se anota, y se devuelve a la coleccin; a continuacin se elige el
segundo objeto.
Se estn formando pares ordenados (ai , a j ) (variaciones con repeticin de orden dos)
de elementos del conjunto A, en los que la segunda componente puede ser igual o distinta
a la primera. El nmero de tales pares es V RN,2 = N 2 .
Supuesto elegido al azar, la probabilidad de cada uno de esos pares ordenados es
P((ai , a j )) =

1
N2


103

7.7 Elecciones al Azar

Ejemplo Eleccin con reemplazamiento

De una baraja espaola se extrae una carta, se anota y se devuelve a la baraja. A


continuacin se extrae otra carta. La probabilidad de que salgan (as de oros, sota de
bastos), en ese orden, es
P((as de oros, sota de bastos)) =

1
1
=
2
40
1600

Sin reemplazamiento
Se elige un objeto, se anota, y no se devuelve a la coleccin; a continuacin se elige
el segundo objeto.
Se estn formando pares ordenados (ai , a j ) (variaciones sin repeticin) de elementos
del conjunto A en los que la segunda componente ha de ser distinta de la primera. El
nmero de tales pares es VN,2 = N (N 1).
Supuesto elegido al azar, la probabilidad de cada uno de esos pares ordenados es
P((ai , a j )) =

1
N (N 1)
Ejemplo Eleccin sin reemplazamiento

De una baraja espaola se extrae una carta, se anota y no se devuelve a la baraja.


A continuacin se extrae otra carta. La probabilidad de que salgan (as de oros, sota
de bastos), en ese orden, es
P((as de oros, sota de bastos)) =

1
1
=
40 39 1560

Tiene sentido preguntarse por P((as de oros, as de oros)) = P(0)


/ =0

7.7.5. Elegir al azar, y sucesivamente, k objetos de entre los N


Se puede hacer de dos formas:
Con reemplazamiento
Se elige un objeto, se anota, y se devuelve a la coleccin; a continuacin se elige el
segundo objeto, se anota y se devuelve a la coleccin, y as hasta tener los k objetos.
Se estn formando k-plas ordenadas (ai1 , ai2 , . . . , aik ) (variaciones con repeticin de
orden k) de elemento de A en las que las componentes pueden ser todas distintas o pueden
haber repetidas. El nmero de tales k-plas es V RN,k = N k .
Supuesto cogido al azar, la probabilidad de cada una de esas k-plas ordenadas es
P((ai1 , ai2 , . . ., aik )) =

1
Nk


104

Probabilidad

Ejemplo k-eleccin con reemplazamiento

De una baraja espaola se extrae una carta, se anota y se devuelve a la baraja. A


continuacin se extrae otra carta, se anota y se devuelve a la baraja. Por ltimo, se
extrae otra carta. La probabilidad de que salgan (as de oros, sota de bastos, as de
oros), en ese orden, es
P((as de oros, sota de bastos, as de oros)) =

1
1
=
403 64000

Sin reemplazamiento
Se elige un objeto, se anota, y no se devuelve a la coleccin; a continuacin se elige
el segundo objeto, se anota y no se devuelve a la coleccin, y as hasta tener los k objetos.
Se estn formando k-plas ordenadas (ai1 , ai2 , . . ., aik ) (variaciones sin repeticin de
orden k) de elemento de A en las que las componentes son todas distintas. El nmero de
k f actores

}|
{
z
tales k-plas es VN,k = N (N 1) . . . (N k + 1).
Supuesto cogido al azar, la probabilidad de cada una de esas k-plas ordenadas es
P((ai1 , ai2 , . . . , aik )) =

1
N (N 1) . . . (N k + 1)

Ejemplo k-eleccin sin reemplazamiento

De una baraja espaola se extrae una carta, se anota y no se devuelve a la baraja. A


continuacin se extrae otra carta, se anota y no se devuelve a la baraja. Por ltimo,
se extrae otra carta. La probabilidad de que salgan (as de oros, sota de bastos, rey
de espadas), en ese orden, es
P((as de oros, sota de bastos, rey de espadas)) =

1
1
=
40 39 38 59280

Tiene sentido preguntarse por P((as de oros, as de oros, rey de espadas)) = P(0)
/ =0

Ejercicios

7.11

Sea = {a, b, c, d} un espacio muestral y P una funcin de probabilidad sobre


. Halla P(a) en los siguientes casos:
1. P(b) = P(c) = 0, 1, P(d) = 0, 5
2. P((b, c)) = 21 , P(d) = 14
3. P(b) = P(c) = P(d) = 2P(a)

7.12

Dado el espacio muestral = {1, 2, 3, 4} y la aplicacin P del conjunto P()


en R+ , tal que P(1) = 0, 2; P(2) = 0, 3; P(3) = 0, 25 y P(4) = 0, 25,comprueba que
P, as definida, es una probabilidad.

7.13

Calcula la probabilidad de un suceso A sabiendo que, la suma del cuadrado de su


probabilidad y del cuadrado de la probabilidad del suceso contrario es 95 .

7.7 Elecciones al Azar

7.14

105

Se lanzan simultneamente dos dados, con las caras numeradas del 1 al 6. Describe el espacio muestral y la probabilidad de los sucesos elementales. Si la letra
representa la suma de los puntos obtenidos en un lanzamiento, calcula la probabilidad de que sea menor que 7.

7.15 Sean A, B y C tres sucesos y P una probabilidad tal que P(A) = 0, 4, P(B) = 0, 5,
P(C) = 0, 7, P(A B) = 0, 2, P(A C) = 0, 2, P(B C) = 0, 3, P(A B C) = 0, 1.
Determina la probabilidad de que se realicen al menos dos de ellos.

7.16

Sean A y B dos sucesos correspondientes a un experimento aleatorio, tales que


A B = , P(A) = 0, 8 y P(B) = 0, 5, calcula:
1.
2.
3.
4.

7.17

P(A B)
P(A B)
P(A B)
P(A B)

Se considera un dado cargado. Las probabilidades de cada cara en un lanzamiento son inversamente proporcionales al nmero que aparece. Se pide:
1. Probabilidad de que en un lanzamiento salga impar.
2. Probabilidad de que salga inferior a cuatro.

7.18

Halla la probabilidad de que al tirar 3 monedas, sucesivamente al azar, en la


primera tirada salga cruz y entre las dos ltimas salga una cara y una cruz.

7.19 En una urna hay 4 monedas de 1 euro y 3 monedas de 2 euros. Se sacan al azar
dos monedas sucesivamente y sin devolucin.
1. Describe el espacio muestral correspondiente.
2. Calcula la probabilidad de que se obtengan en total 4 euros al sacar dichas dos
monedas.

7.20

Se realiza un experimento consistente en sacar dos bolas de una urna que contiene 5 bolas blancas, 3 bolas verdes y 4 bolas negras. Escribe el espacio muestral
asociado a esta experiencia y define una probabilidad asociada. Calcula la probabilidad de los siguientes sucesos:
1. Obtener dos bolas del mismo color.
2. Obtener al menos una bola blanca.

7.21

Tres manuales cientficos constan de 3, 5 y 2 volmenes. Colocados al azar los


diez tomos en una estantera, cul es la probabilidad de que los volmenes de cada
tratado estn juntos?

7.22 Se consideran todos los nmeros de tres cifras del sistema de numeracin decimal. Cul es la probabilidad de que al elegir uno de ellos, sus tres cifras sean un
tro pitagrico?

7.23 Un pirata informtico intenta romper la contrasea de un ordenador, de la cual


sabe que se compone de las letras DGJLRUAAAA. Determina la probabilidad de
que la contrasea sea GUADALAJARA. Cul es la probabilidad de que la contrasea comience por ADULA?

7.24 Se propone un mismo problema a dos alumnos incomunicados. La probabilidad


de que lo resuelva el primero es 21 , la probabilidad de que lo resuelva el segundo es
1
1
4 y la probabilidad de que lo resuelvan ambos es 8 . Halla la probabilidad de que el
problema no sea resuelto y la probabilidad de que lo resuelva slo un alumno.


106

Probabilidad

7.25

La probabilidad de que un alumno matriculado en primer curso termine Bachillerato es 0, 4. Halla la probabilidad de que, de cuatro amigos que estn en primer
curso:
1. Al menos uno termine Bachillerato.
2. A lo ms dos terminen Bachillerato.
3. Slo termine uno.
4. Terminen todos

7.26 Qu es ms probable, apostar a obtener un seis doble en veinticuatro lanzamientos de dos dados o hacerlo a obtener un seis en cuatro lanzamientos de un dado?
(Problema del Caballero de Mr)

7.27 En una centralita telefnica hay preprogramados cincuenta nmeros de telfono


de cinco empresas diferentes, habiendo diez de cada una de ellas. Cul es la probabilidad de que cinco llamadas realizadas al azar sean todas a empresas diferentes?
Y cul para que sean dos a una empresa y tres a otra?

7.28 Una persona recibe al azar 5 cartas de una baraja espaola de 40. Escribe de
modo abreviado, un espacio muestral asociado a esta experiencia y define una probabilidad asociada. Halla las probabilidades de los siguientes sucesos:
1. Obtener al menos un rey y una sota.
2. Obtener 3 cartas de bastos y el rey de copas.

7.29 Se reparten 10 cartas de una baraja espaola de 40 cartas a un jugador. Determina


la probabilidad de que se obtengan:
1. Dos ases.
2. Ningn as.
3. Al menos dos ases.

7.30 Se considera el espacio muestral N = {1, 2, 3, . . .} y se define la probabilidad de


los sucesos elementales por:
P(n) =

q
con n N y q R
5n

Determina el valor se q para que P sea una probabilidad en P(N) y halla la probabilidad del suceso A = {n N : n impar }

7.31 El intervalo real [1, +) se considera como espacio muestral y se define la funcin
Z x
1
dt con x [1, +)
P([1, x]) =
2
1 t
Es una funcin de probabilidad en ese intervalo?

7.32

La aguja del Conde de Buffon:


Se construye una red de 10 segmentos de recta paralelos, equidistantes en una unidad D. Tomando una aguja cuya longitud l sea menor que D. Calcula la probabilidad
de que la aguja corte o toque a una paralela de la red, si es arrojada al azar.

Captulo

Probabilidad Condicionada

idea de probabilidad condicionada permite incorporar informacin relevante para


hallar la probabilidad de un suceso. Supongamos que en una poblacin de N mujeres
y hombres, se sabe que NC personas y que, entre ellas NNC mujeres,consumen cierto
producto. Se se elige al azar una persona entre todas ellas y se le pregunta si consumen el
producto, la probabilidad de que la respuesta sea afirmativa es, segn hemos visto
A

P(C) =

NC
N

En cambio, una vez que se sabe, por ejemplo, que la persona seleccionada es mujer, la
probabilidad de que consuman el producto condicionada a que es mujer, se obtiene como
P(C|M) =

NCM
NM

es decir, como el cociente entre los casos favorables NCM (mujeres que consumen el producto) y NM , que es, ahora, el nmero de casos posibles, una vez que hemos incorporado
la informacin de que la persona encuestada es mujer. Si dividimos por N en el numerador
y denominador, queda:
P(C/M) =

NCM
=
NM

NCM
N
NM
N

P(C N)
P(M)

Este razonamiento nos da la definicin de probabilidad condicionada.

8.1. Probabilidad Condicionada


Definicin 8.1.1. La probabilidad de un suceso A condicionado por otro suceso B (que
tenga probabilidad mayor que cero), denotado P(A/B), se divide la probabilidad del
suceso A y B por la probabilidad de B.
P(A/B) =

P(A B)
P(B)

Este concepto indica, que la probabilidad de un suceso A, se puede ver modificada


cuando establecemos alguna informacin adicional (la ocurrencia de otro suceso B).
De modo anlogo, si P(A) > 0, la probabilidad de que se realice B, dado que se ha
realizado A es:
P(B A)
P(B/A) =
P(A)


108

Probabilidad Condicionada

Estas igualdades nos permiten expresar la probabilidad del suceso A B en funcin de las
probabilidades condicionadas:
P(A B) = P(A) P(B/A) = P(B) P(A/B)

sin ms que despejar en las expresiones anteriores.


Ejemplo Probabilidad Condicionada (I)

Se sabe por experiencia, que la probabilidad de que un individuo contraiga la enfermedad A es de 0, 08, de que contraiga B es 0, 04 y de que sufra ambas enfermedades
es 0, 01. Veamos cul es la probabilidad de que cualquier individuo elegido al azar,
contraiga la enfermedad B si ya ha padecido anteriormente la A:
P(B/A) =

P(A B) 0, 01 1
=
=
P(A)
0, 08 8

Teorema 8.1.2. Si A es un suceso con P(A) > 0, en el espacio de probabilidad (, A , P),


entonces la aplicacin
PA : A R
definida como

PA (B) = P(B/A)
es una probabilidad sobre .
Demostracin.
1. Para todo suceso B se tiene que P(B A) 0 y por tanto
PA = P(B/A) =

P(B A)
0
P(A)

P(( A) P(A)
=
= 1.
P(A)
P(A)
3. Sean B y C dos sucesos incompatibles (B C = 0)
/ se tiene
2. PA () = P(/A) =

PA (BC) =

P((B C) A) P((B A) (C A)) P(B A) P(C A)


=
=
+
= PA (B)+PA (C)
P(A)
P(A)
P(A)
P(A)

Por tanto (, A , PA ) es un espacio de probabilidad.


109

8.2 Sucesos independientes

Ejemplo Probabilidad Condicionada ( y II)

De una baraja espaola se extraen dos cartas al azar. Cul es la probabilidad del
suceso A =las dos cartas son ases?
Se puede enfocar de varias maneras:
1. Si las dos cartas se extraen simultneamente. Se est extrayendo un subconjunto {ci , c j } con ci6=c j de dos elementos del espacio muestral = {c1 , c2 , . . . , c40 }
de las cuarenta cartas de la baraja espaola. Como hay cuatro ases, los casos
favorables al suceso A son combinaciones de cuatro elementos cogidos de dos
en dos: C24 , mientras que el nmero de casos posibles es C240 de este modo se
obtiene:
C24
43
P(A) = 40
=
40 39
C2
2. Si las dos cartas se extraen sucesivamente y sin reemplazamiento, se esta extrayendo un par ordenado {ci , c j } con ci6=c j de dos elementos del espacio muestral
= {c1 , c2 , . . . , c40 } de las cuarenta cartas de la baraja espaola. Como hay
cuatro ases, los casos favorables al suceso A son variaciones de cuatro elementos cogidos de dos en dos: V42 , mientras que el nmero de casos posibles
2 . De este modo:
es V40
V2
43
P(A) = 42 =
V40 40 39

Vemos que las dos formas de extraccin son equivalentes.


3. Podemos plantearnos la extraccin sucesiva sin reemplazamiento desde el punto de vista de la probabilidad compuesta. Consideramos ahora los sucesos
M =la primera carta es un as y N =la segunda carta es un as, entonces:
P(A) = P(N M) = P(M) P(N/M) =

43
4 3

=
40 39 40 39

8.2. Sucesos independientes


Desde un punto de vista intuitivo, dos sucesos son independientes cuando la aparicin
de uno de ellos no modifica la probabilidad de que ocurra el otro. Esto se precisa diciendo
Definicin 8.2.1. Dos sucesos Ay B, con probabilidades distintas de cero, son independientes (en probabilidad) si
P(A/B) = P(A) y P(B/A) = P(B)
Usando la definicin de probabilidad condicionada se obtiene, que dos sucesos A y B son
independientes (en probabilidad) si:
P(A B) = P(A) P(B)
En el caso de ms de dos sucesos, se dir que son independientes (en probabilidad) si la
interseccin de un nmero cualquiera de ellos tiene una probabilidad igual al producto


110

Probabilidad Condicionada

de las probabilidades:

P(A B) = P(A) P(B)

P(A C) = P(A) P(B)


A, B y C independientes (en probabilidad)

P(B C) = P(B) P(C)

P(A B C) = P(A) P(B) P(C)

Ejemplo Independencia

Supongamos que la probabilidad de que un individuo supere la segunda parte de


una prueba habiendo superado la primera es 0, 5. La probabilidad de aprobar la
segunda prueba es 0, 4. Son independientes los sucesos A =aprobar la primera y
B =aprobar la segunda?
P(B/A) = 0, 5 6= 0, 4 = P(B)
por lo tanto, no son independientes.

8.3. Teorema de la Probabilidad Total


Se presenta en Clculo de Probabilidades situaciones en que existen n sucesos incompatibles cuya unin es :
A1 , A2 , . . . , An ; Ai A j = 0;
/ ni=1 Ai =

Estos sucesos poseen probabilidades conocidas P(Ai ) y que para cada suceso A resultan
tambin conocidas las probabilidades condicionadas P(A/Ai ). En esta situacin se puede calcular la probabilidad de A a travs de las probabilidades anteriores mediante una
frmula que constituye el llamado teorema de la probabilidad total.
Teorema 8.3.1. Sean Ai n sucesos incompatibles de probabilidades no nulas y cuya unin
es . Entonces para cualquier suceso A se tiene:
n

P(A) = P(Ai ) P(A/Ai)


i=1

Demostracin.
Sabemos que
A = A = A (A1 A2 An ) = (A A1 ) (A A2 ) (A An )

Como tenemos una unin de sucesos incompatibles, la probabilidad se su unin ser la


suma de las probabilidades:
P(A) = P(A A1 ) + P(A A2) + + P(A An )

Si expresamos cada sumando P(A Ai ) = P(Ai ) P(A/Ai), queda:

P(A) = P(A1 ) P(A/A1) + P(A2) P(A/A2) + + P(An ) P(A/An) = P(Ai ) P(A/Ai)


i=1


111

8.3 Teorema de la Probabilidad Total

Ejemplo Probabilidad Total

Una empresa que consta de tres secciones, A, B y C, va a seleccionar como representante de empresa a un miembro de entre sus trabajadores. La persona encargada
de la seleccin, desea que tenga doble probabilidad de eleccin la seccin C, que las
secciones A y B (a las que asigna la misma probabilidad), dado el mayor volumen
de sta. Se sabe que estn sindicados el 20 % de los trabajadores de la seccin A; el
50 % de los de la seccin B y el 70 % de la C. Determina la probabilidad de que la
persona elegida pertenezca a un sindicato.
Llamemos:
1. S =pertenecer a un sindicato
2. A =seleccionar la seccin A
3. B =seleccionar la seccin B
4. C =seleccionar la seccin C
Los sucesos A, B y C son incompatibles. Su unin es el suceso seguro, la persona
seleccionada estar en A, en B o en C, no hay ms secciones de donde pueda proceder
el elegido. Estamos en la condiciones del teorema de la probabilidad total, por tanto:
P(S) = P(A) P(S/A) + P(B) P(S/B) + P(C) P(S/C)
Sabemos que P(A) + P(B) + P(C) = 1, llamando p=P(A)=P(B):
p + p + 2p = 1 p =

1
1
1
P(A) = P(B) = ; P(C) =
4
4
2

Por otro lado tenemos:


P(S/A) = 0, 20 P(S/B) = 0, 50 P(S/C) = 0, 70
sustituyendo:
P(S) = 0, 25 0, 20 + 0, 25 0, 50 + 0, 5 0, 70 = 0, 525
Generalmente, estos problemas se plantean con un diagrama en rbol:
0,20 Sindicado
A
0,25
No Sindicado
0,25
b

0,50

0,50 Sindicado
B
No Sindicado
0,70 Sindicado
C
No Sindicado


112

Probabilidad Condicionada

En esta situacin, suele utilizarse la siguiente nomenclatura. Los sucesos Ai se llaman hiptesis o causas; las probabilidades P(Ai ) se llaman probabilidades a priori de las
hiptesis; la probabilidad condicionada P(A/Ai ) es la probabilidad de A en la hiptesis
Ai .

8.4. Teorema de Bayes


Una vez ocurrido A, nos preguntamos cul es la probabilidad de que haya sido la
causa Ai la que ha motivado que suceda. Lo que buscamos es P(Ai /A) que en la nomenclatura utilizada se llama probabilidad a posteriori de la hiptesis Ai cuando se sabe
que ha ocurrido A.
Para calcularla, tenemos el siguiente resultado:
Teorema 8.4.1 (Teorema de Bayes). Dados A1 , A2 , . . . , An sucesos incompatibles, tales
que su unin es , se tiene que:
P(Ai ) P(Ai /A)

P(Ai /A) =

P(Ai) P(A/Ai)

i=1

Demostracin.
Por la definicin de probabilidad condicionada tenemos
P(Ai /A) =

P(Ai A)
y P(Ai A) = P(Ai ) P(A/Ai)
P(A)

por el teorema de la probabilidad total, tenemos:


n

P(A) = P(Ai ) P(A/Ai)


i=1

sustituyendo las dos ltimas expresiones en la primera, queda:


P(Ai /A) =

P(Ai ) P(Ai /A)

P(Ai) P(A/Ai)

i=1

Observaciones:
Para poder aplicar este teorema es necesario conocer los valores de las P(Ai ) 6= 0.
Es frecuente que estos valores no sean conocidos, lo que limita el uso del teorema.
La asignacin incorrecta de las probabilidades a priori es a menudo fuente de errores, una solucin parcial al problema es reemplazarlas, cuando se desconocen, por
estimaciones verosmiles.
Desde el punto de vista matemtico, el teorema de Bayes es perfectamente correcto;
nicamente la eleccin impropia de las P(Ai ) hara objetable el resultado.
El teorema de Bayes establece la relacin existente entre la probabilidad a priori y
la probabilidad a posteriori, de ah la relevancia del teorema.

8.4 Teorema de Bayes

113

Ejemplo Bayes

Vamos a determinar en el ejemplo anterior, la probabilidad de que el trabajador


seleccionado proceda de la seccin C, sabiendo que est sindicado.
Estamos en las condiciones del teorema de Bayes, as que la probabilidad de que
proceda de la seccin C, dado que est sindicado es:
P(C/S) =

P(C) P(S/C)
0, 50 0, 70 2
=
=
P(A) P(S/A) + P(B) P(S/B) + P(C) P(S/C)
0, 525
3

Ejercicios

8.1

8.2

8.3

8.4

8.5

8.6

8.7

Un dado se lanza dos veces. Sea A =en el primer lanzamiento el nmero obtenido
es menor o igual que 2. Sea B =en el segundo lanzamiento el nmero obtenido
es al menos 5
1. Cul es P(A B)?
2. Cul es P(A/B)?
3. Son sucesos independientes?
Sean A, B, y C tres sucesos mutuamente independientes con P(A) = P(B) =
P(C) = p, con 0 < p < 1. Calcula la probabilidad de que ocurra exactamente dos
de los tres sucesos considerados.
En una fbrica se ha recibido una caja que contiene 5 piezas: 3 defectuosas y
2 buenas. Se extraen al azar y sin reposicin una pieza cada vez, hasta que son
extradas las dos buenas. Halla la probabilidad de que sean necesarias 4 extracciones
o menos.
Dos jugadores A y B juegan 24 partidas de ajedrez, de las que A gana 12, B gana
8 y 4 terminan en tablas. Posteriormente deciden jugar un torneo a tres partidas.
Determina la probabilidad de que B gane al menos una partida y la probabilidad de
que gane cada uno una partida alternativamente.
La probabilidad de que nazca un varn es 0, 5 y es independiente del sexo del
hermano anterior.
1. Halla la probabilidad de que en una familia de 5 hermanos, dos sean varones
y de que al menos dos sean varones.
2. Repite el apartado anterior, sabiendo que el menor de los 5 es varn.
Una bolsa contiene dos fichas marcadas con un 10, tres fichas marcadas con un 5
y cinco fichas marcadas con un 1. Se extraen simultneamente dos fichas y se pide:
1. La probabilidad de que se obtenga una suma de 6 puntos.
2. Generalizando el caso anterior, se considera la variable aleatoria que a cada
extraccin de dos fichas asocia la suma de los puntos de las fichas. Halla los
valores que puede tomar y su ley de probabilidad.
Al controlar la calidad de un producto envasado, se eligen al azar tres envases de
una caja que contiene 100. Por trmino medio, sabemos que en cada caja hay 10
cuya calidad es deficiente. Halla las probabilidades siguientes:
1. De que entre los tres no haya ninguno, uno, dos o tres deficientes.


114

8.8

8.9

Probabilidad Condicionada

2. Si al tomar el primero resulta ser deficiente, cules son las probabilidades de


que entre los tres haya uno, dos o tres deficientes?
Determina la probabilidad de que se acepte uno o ms pedidos en m intentos de
ventas independientes, si la probabilidad de que se acepte un pedido cualquiera de
ellos es p. Calcula el valor de p para que la probabilidad hallada sea 1 21m
Tres amigos juegan a los chinos ocultando, en una mano cerrada, de cero a
tres monedas cada uno. Se consideran los sucesos S1 =obtener una suma de seis
monedas y S2 = cada mano tiene alguna moneda:
1. Obtn P(S1 ) y P(S2 ).
2. Son incompatibles? Calcula P(S1 S2 ).
3. Son independientes? Calcula P(S2 /S1 )

8.10

Se consideran dos urnas numeradas, la urna nmero 1 contiene tres bolas blancas
y tres roja, la urna nmero 2 contiene cuatro bolas blancas y dos rojas. Se lanza una
moneda y si sale cara se hace la extraccin de la urna nmero 1, si sale cruz de la
urna nmero 2. Se pide la probabilidad de extraer una bola roja.

8.11 Una urna contiene dos bolas, que pueden ser blancas, negras o una bola blanca y
otra negra. Se aade una bola blanca a la urna y despus se extrae una bola al azar.
Cul es la probabilidad de que sea blanca?

8.12 Una caja A contiene dos bolas blancas y dos rojas, otra caja B contiene tres
blancas y dos rojas. Se pasa una bola de A a B y despus se extrae una bola de B,
que resulta ser blanca. Determina la probabilidad de que la bola trasladada haya
sido blanca.

8.13 Se tienen tres cartas A, B y C tales que A tiene dos caras rojas, B tiene una cara
roja y otra blanca, C tiene las dos blancas.
Se elige una carta al azar y no se ve ms que una de las caras, que resulta ser roja.
Cul es la probabilidad de que sea la carta A?

8.14

Una urna contiene tres bolas blancas y cuatro azules. Tres bolas son transferidas
a una segunda urna. Una bola es seleccionada a continuacin de la segunda urna y
resulta ser blanca. Encuentra la probabilidad de extraer una bola azul entre las otras
dos restantes.

8.15 Una caja contiene 2 tornillos buenos y 3 defectuosos y otra caja contiene 4 buenos y 2 defectuosos. Se trasladan dos tornillos de la primera caja a la segunda y a
continuacin se extrae un tornillo de la segunda caja, que result ser bueno. Cul es
la probabilidad de que los tornillos trasladados fueran uno bueno y otro defectuoso?

8.16

Tres mquinas producen respectivamente el 50 %, el 40 % y 10 % de los artculos


de una fbrica, siendo defectuosos el 1 %, el 2 % y el 6 % respectivamente. Elegimos
al azar un artculo y resulta ser defectuoso. Cul es la probabilidad de que haya
sido producido por la primera mquina?

8.17 En un programa de televisin el concursante debe elegir entre tres puertas, una
de las cuales contiene el premio. Una vez hecha la eleccin, el presentador muestra
que en una de las otras dos puertas no est el premio, ofreciendo al concursante la
posibilidad de cambiar su eleccin. Qu es mejor para el concursante, cambiar o
mantenerse con la que eligi?

Captulo

Variables Aleatorias

cosa es poder definir las variables aleatorias y poder dibujarlas. Ahora me molestar
en pintar las distintas variables aleatorias, discretas y continuas, y ver como quedan
con los distintos paquetes. El resto ya se ver.
Para dibujar usar los paquetes de PsTricks adeacuados.
A

9.1. Variable Aleatoria Discreta


Es la variable que pega saltos
Vamos a dibujar algunas distribuciones, por si queda bien o mal

9.1.1. Distribucin Binomial

No se ven los valores.


Otro ejemplo por si se ve mejor:

0.13824

0.004096

0.036864

0.27648

0.2

0.046656

0.4

0.186624

P(X = k)

0.31104

Es muy chula, pero no s qu va a salir:


116

Variables Aleatorias

0.0279936

0.130637

0.0774144

0.0172032

0.0016384

0.2

0.193536

0.4

0.261274

0.290304

P(X = k)

La distribucin normalizada tambin se puede representar:


P(Z = z)
0.4
0.2
3

Tambin se puede realizar una representacin de la normalizada de manera continua,


til para compararla con la distribucin normal. . . en su momento.
P(Z = z)
0.4
b

b
b

0.2
b

b
b

9.1.2. Distribucin de Poisson


Es una distribucin de las buenas buenas. Su representacin tambin:

10

10

11

11

0.0112645

0.022529

0.0413031

0.0688385

0.103258

0.137677

0.160623

0.160623

0.133853

0.0892351

0.160623

0.0446175

0.160623

-1

0.0148725

0.1

0.00247875

P(X = k)

12

12

0.00519899

117

9.2 Variable Aleatoria Continua

13

13

14

-1
0

0.0413031

0.103258

0.133853
4

0.0688385

0.0892351

0.0446175

0.0148725

0.1

0.00247875

P(X = k)

0.137677

Sigue sin salir los valores


Otro ejemplo:

10

10

Hay algunas ms, las intentar representar yo mismo. . . eso espero

9.2. Variable Aleatoria Continua


Es la variable que no pega saltos

9.2.1. Distribucin Gamma


Una de las primeras continuas y raras

11

12

13

14


118

Variables Aleatorias

0.5
0.4
0.3
0.2
0.1
0
0

ahora cambiando y

0.5
0.4
0.3
0.2
0.1
0

9.2.2. Distribucin 2
S existe , se pensaba que no iba a salir. . . jaja
Su representacin es la siguiente:

0.5
0.4
0.3
0.2
0.1
0


119

9.2 Variable Aleatoria Continua

9.2.3. Distribucin t de Student

La distribucin t de Student es una de las mejores que hay en el mundo mundial.

0.4
0.3
0.2
0.1
4

9.2.4. Distribucin F de Snedecor


Otra de la buenas, buensimas

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

9.2.5. Distribucin
Vamos a ver cmo queda dibujada


120

Variables Aleatorias

1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Bibliografa
[1] J. Romo D. Pea, Introduccin a la estadstica para las ciencias sociales, Estadstica,
McGraw-Hill, 1997. MR 84-481-1617-8
[2] J. Lpez de la Manzanara, Problemas de estadstica, Estadstica, Pirmide, 2005. MR 84-3680064-8
[3] Emilie Durkheim, Suicidio, Sociologa, Editirial Akal, 1989. MR 978-84-460-0191-1
[4] M. Vargas F. Abad, MD. Huete, Estadstica para las ciencias sociales, Estadstica, Jos Carlos
Urbano Delgado S.L., 2001. MR 84-87662-20-X
[5] U. Faura J. Aranda, J. Gmez, Introduccin a la estadstica econmica y empresarial. ejercicios, Estadstica, DM-PPU, 1994. MR 84-477-367-3
[6] ngel Muoz Julin Santos, Fundamentos de estadstica aplicados al turismo, Centro de
Estudios Ramn Areces. S.A., 2002. MR 84-8004-541-8
[7] JM. Montero, Problemas resueltos de estadstica descriptiva para ciencias sociales, Estadstica, Thompson Editores Spain, 2007. MR 978-84-9732-659-9
[8] R. Snchez, Estadstica, Estadstica, Rafael Snchez Porcel, 2005. MR 84-609-5262-2
[9] Hans Zeisel, Dgalo con nmeros, Sociologa, Editirial FCE, 1990. MR 9-681-624-696

Glosario
B
Binomio de Newton

(a + b)n = ki=0

D
Desigualdad de Cauchy-Schwarz

n i ni
,
i ab

pg. 52.

| h~x,~yi |2 h~x,~xi h~y,~yi, pg. 55.

P
Dados dos vectores en R2 (x1 , y1 ) y (x2 , y2 ), se define el producto
escalar como h(x1 , y1 ), (x2, y2 )i = x1 x2 + y1 y2 , pg. 55.

Producto Escalar

Smbolos
1
2
r
x
x
Ap
C
C( )
DMe
G
H
IG
Me
Mo
mr
mr (a)
Re
RI
Rr
Rs
S
S2
V

Coeficiente de Fisher, pg. 53.


Coeficiente de Apuntamiento o Curtosis, pg. 54.
Momento de orden r centrado, pg. 52.
Media Aritmtica, pg. 31.
Media Ponderada, pg. 36.
Coeficiente de Apertura, pg. 47.
Media Cuadrtica, pg. 38.
Cuantil , pg. 41.
Desviacin Media respecto a la Mediana, pg. 44.
Media Geomtrica, pg. 38.
Media Armnica, pg. 37.
Indice de Gini, pg. 50.
Mediana, pg. 25.
Moda, pg. 30.
Momento de orden r no centrado, pg. 52.
Momento de orden r respecto de a, pg. 51.
Recorrido, pg. 43.
Recorrido Intercuartlico, pg. 43.
Recorrido Relativo, pg. 47.
Recorrido Semi-InterCuartlico, pg. 47.
Desviacin Tpica, pg. 46.
Varianza, pg. 44.
Coeficiente de Variacin de Pearson, pg. 47.


124

VMe

Glosario

Indice de Dispersin respecto la Mediana, pg. 47.

ndice alfabtico
C
Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . 14
Coeficiente de
Apertura . . . . . . . . . . . . . . . . . . . . . . . . 47
Apuntamiento . . . . . . . . . . . . . . . . . . . 54
Asimetra . . . . . . . . . . . . . . . . . . . . . . . 53
Pearson . . . . . . . . . . . . . . . . . . . . . . . . . 47
Comparaciones . . . . . . . . . . . . . . . . . . . . . . 15
Cuantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Cuartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Curva de
Distribucin . . . . . . . . . . . . . . . . . 16, 19
Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . 50
D
Decil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Desviacin
Tpica . . . . . . . . . . . . . . . . . . . . . . . . . . 46
DesviacinMediana . . . . . . . . . . . . . . . . . . 44
DesviacionAritmtica . . . . . . . . . . . . . . . . 43
Diagrama
de Barras . . . . . . . . . . . . . . . . . . . . 11, 16
de Pareto . . . . . . . . . . . . . . . . . . . . . . . 12
de Sectores . . . . . . . . . . . . . . . . . . . . . . 13
Dispersin
Mediana . . . . . . . . . . . . . . . . . . . . . . . . 47
Relativa . . . . . . . . . . . . . . . . . . . . . . . . . 46
Distribucin
de Frecuencias . . . . . . . . . . . . . . . . . . 10
Simtrica . . . . . . . . . . . . . . . . . . . . . . . 52
E
Escala
de Intervalo . . . . . . . . . . . . . . . . . . . . . . 5
de Razn . . . . . . . . . . . . . . . . . . . . . . . . . 5
Nominal . . . . . . . . . . . . . . . . . . . . . . . . . 5
Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Estadstica
Descriptiva . . . . . . . . . . . . . . . . . . . . . . . 4

F
Formas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Frecuencia
Absoluta . . . . . . . . . . . . . . . . . . . . . . . . . 9
Acumulada . . . . . . . . . . . . . . . . . . . . 9
Relativa . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Acumulada . . . . . . . . . . . . . . . . . . . . 9
H
Histograma . . . . . . . . . . . . . . . . . . . . . . . . . 18
I
Indice de
Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
M
Marca de Clase . . . . . . . . . . . . . . . . . . . . . . 10
Media
Aritmtica . . . . . . . . . . . . . . . . . . . . . . 31
Continua . . . . . . . . . . . . . . . . . . . . . 33
Discreta . . . . . . . . . . . . . . . . . . . . . . 32
Armnica . . . . . . . . . . . . . . . . . . . . . . . 37
Cuadrtica . . . . . . . . . . . . . . . . . . . . . . 38
Geomtrica . . . . . . . . . . . . . . . . . . . . . 38
Ponderada . . . . . . . . . . . . . . . . . . . . . . 36
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Caso
Continuo . . . . . . . . . . . . . . . . . . . . . 27
Discreto . . . . . . . . . . . . . . . . . . . . . . 25
Medidas de
Concentracin . . . . . . . . . . . . . . . . . . 48
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Caso
Continuo . . . . . . . . . . . . . . . . . . . . . 30
Discreto . . . . . . . . . . . . . . . . . . . . . . 30
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
P
Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Pictograma . . . . . . . . . . . . . . . . . . . . . . . . . . 13


126

Pirmide de Poblacin . . . . . . . . . . . . . . . 15
Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Polgono
de Frecuencias . . . . . . . . . . . . . . . . . . 18

R
Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Relativo . . . . . . . . . . . . . . . . . . . . . . . . . 47
Semi-InterCuartlico . . . . . . . . . . . . 47

ndice alfabtico

RecorridoIntercuartlico . . . . . . . . . . . . . 43
V
Variable
Continua . . . . . . . . . . . . . . . . . . . . . . . . . 6
Cuantitativa . . . . . . . . . . . . . . . . . . . . . . 6
Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

You might also like