Professional Documents
Culture Documents
borrador,portada provisional
Introduccin
trabajo est pensado con los pes, as que no me hago una gran ilusin para poder
escribiri cuatro cosas que todos sabemos pero que no s si me va a salir bien. La
verdad es que como tenga que cambiar todas la tildes me da algo.
STE
ndice general
Introduccin
III
ndice de figuras
IX
ndice de Tablas
XI
I Estadstica
1. Estadstica Descriptiva
1.1. Breve Introduccin Histrica . . . . . . . . . . . . .
1.2. Estadstica Descriptiva . . . . . . . . . . . . . . . .
1.2.1. Definiciones Bsicas . . . . . . . . . . . . .
1.2.2. Medicin de un carcter . . . . . . . . . . .
1.3. Variable Estadstica . . . . . . . . . . . . . . . . . .
1.3.1. Variables Estadsticas Cuantitativas Discretas
1.3.2. Variables Estadsticas Cuantitativas Continua
1.3.3. Variables Estadsticas Cualitativas . . . . . .
.
.
.
.
.
.
.
.
3
3
4
4
5
6
6
6
6
.
.
.
.
.
9
9
11
16
16
18
.
.
.
.
.
.
.
.
.
.
.
25
25
25
30
31
33
36
36
37
38
38
40
2. Representaciones Grficas
2.1. Distribucin de frecuencias . . . . . . . . . . .
2.2. Representacin grfica de variable cualitativa .
2.3. Representacin grfica de variable cuantitativa .
2.3.1. Variable Estadstica Discreta: . . . . .
2.3.2. Variable Estadstica Continua: . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ndice general
VI
3.3.1. Cuartiles . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3. Percentiles . . . . . . . . . . . . . . . . . . . . . .
3.3.4. Clculo de un cuantil . . . . . . . . . . . . . . . . .
Medidas de Dispersin Absolutas . . . . . . . . . . . . . .
3.4.1. Recorrido . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Recorrido Intercuartlico . . . . . . . . . . . . . . .
3.4.3. La Desviacin Media . . . . . . . . . . . . . . . . .
3.4.4. La Varianza . . . . . . . . . . . . . . . . . . . . . .
3.4.5. Propiedades de la varianza . . . . . . . . . . . . . .
3.4.6. Desviacin Tpica . . . . . . . . . . . . . . . . . .
3.4.7. Propiedades de la Desviacin Tpica . . . . . . . . .
Medidas de Dispersin Relativas . . . . . . . . . . . . . . .
3.5.1. Coeficiente de Apertura . . . . . . . . . . . . . . .
3.5.2. Recorrido Relativo . . . . . . . . . . . . . . . . . .
3.5.3. Recorrido Semi-InterCuartlico . . . . . . . . . . .
3.5.4. Coeficiente de variacin de Pearson . . . . . . . . .
3.5.5. Indice de Dispersin Respecto a la Mediana . . . . .
Medidas de Concentracin . . . . . . . . . . . . . . . . . .
3.6.1. El ndice de concentracin de Gini . . . . . . . . . .
3.6.2. La curva de Lorenz. Propiedades. . . . . . . . . . .
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.1. Momentos no Centrados . . . . . . . . . . . . . . .
3.7.2. Momentos Centrados . . . . . . . . . . . . . . . . .
3.7.3. Relacin entre Momentos Centrados y no Centrados
Medidas de Forma . . . . . . . . . . . . . . . . . . . . . .
3.8.1. Simetra . . . . . . . . . . . . . . . . . . . . . . . .
3.8.2. Apuntamiento o Curtosis . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
41
41
41
42
43
43
43
44
44
46
46
46
47
47
47
47
47
48
48
50
51
52
52
52
52
52
54
4. Distribuciones Bidimensionales
4.1. Tablas de Doble Entrada. Tablas de Contingencia . . . . . .
4.2. Distribuciones Marginales . . . . . . . . . . . . . . . . . .
4.3. Distribuciones Condicionadas . . . . . . . . . . . . . . . .
4.3.1. Distribucin Condicionada de X respecto de Y = y j .
4.3.2. Distribucin Condicionada de Y respecto de X = xi .
4.4. Dependencia o Independencia Estadstica . . . . . . . . . .
4.5. Parmetros de las distribuciones condicionadas y marginales
4.5.1. Media . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Nube de puntos . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Asociacin . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7.1. Coeficiente Chi-Cuadrado . . . . . . . . . . . . . .
4.7.2. Coeficiente Contingencia de Pearson . . . . . . . . .
4.7.3. Coeficiente T de Tschuprow . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
57
59
62
62
63
64
66
66
67
67
68
69
69
70
5. Regresin y Correlacin
5.1. Concepto de Regresin . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1. Lnea de regresin . . . . . . . . . . . . . . . . . . . . . . . . .
71
71
72
3.4.
3.5.
3.6.
3.7.
3.8.
ndice general
V II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
75
75
76
76
76
79
II Probabilidad
81
6. Combinatoria
6.1. Variaciones sin repeticin . . .
6.2. Variaciones con Repeticin . .
6.3. Permutaciones sin Repeticin .
6.4. Permutaciones con Repeticin
6.5. Combinaciones sin Repeticin
6.6. Combinaciones con Repeticin
6.7. Cuadro Resumen . . . . . . .
.
.
.
.
.
.
.
83
83
84
84
84
85
86
86
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
90
90
91
91
91
91
94
96
98
98
99
100
100
101
101
101
101
102
102
103
.
.
.
.
107
107
109
110
112
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7. Probabilidad
7.1. Experimentos Aleatorios . . . . . . . . . . . . . . . . . . . . . . .
7.2. Conceptos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3. Operaciones con Sucesos . . . . . . . . . . . . . . . . . . . . . . .
7.3.1. Realizacin de un suceso . . . . . . . . . . . . . . . . . . .
7.3.2. Igualdad de Sucesos . . . . . . . . . . . . . . . . . . . . .
7.3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . .
7.4. lgebra de Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . .
7.5. Frecuencias Relativas y Sucesos . . . . . . . . . . . . . . . . . . .
7.6. Axiomtica de Probabilidad . . . . . . . . . . . . . . . . . . . . .
7.6.1. Concepto de Probabilidad . . . . . . . . . . . . . . . . . .
7.6.2. Concepto Clsico de probabilidad o de Laplace . . . . . . .
7.6.3. Concepto Frecuentista de Probabilidad . . . . . . . . . . .
7.6.4. Concepto Subjetivo de Probabilidad . . . . . . . . . . . . .
7.6.5. Propiedades de la Definicin de Probabilidad . . . . . . . .
7.7. Elecciones al Azar . . . . . . . . . . . . . . . . . . . . . . . . . .
7.7.1. Elegir al azar un objeto de entre los N . . . . . . . . . . . .
7.7.2. Elegir al azar, y simultneamente, dos objetos de entre los N
7.7.3. Elegir al azar, y simultneamente, k objetos de entre los N .
7.7.4. Elegir al azar, y sucesivamente, dos objetos entre los N . . .
7.7.5. Elegir al azar, y sucesivamente, k objetos de entre los N . .
8. Probabilidad Condicionada
8.1. Probabilidad Condicionada . . .
8.2. Sucesos independientes . . . . .
8.3. Teorema de la Probabilidad Total
8.4. Teorema de Bayes . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ndice general
V III
9. Variables Aleatorias
9.1. Variable Aleatoria Discreta . . . . .
9.1.1. Distribucin Binomial . . .
9.1.2. Distribucin de Poisson . .
9.2. Variable Aleatoria Continua . . . .
9.2.1. Distribucin Gamma . . . .
9.2.2. Distribucin 2 . . . . . . .
9.2.3. Distribucin t de Student . .
9.2.4. Distribucin F de Snedecor
9.2.5. Distribucin . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
115
115
115
116
117
117
118
119
119
119
Bibliografa
121
Glosario
123
ndice alfabtico
125
ndice de figuras
1.1.
1.2.
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
2.10.
2.11.
2.12.
2.13.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
4.1.
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
5.7.
5.8.
5.9.
Caracteres Estadsticos . . . . . . . . . . . . . . . . . . .
Cuadro de Caracteres Estadsticos . . . . . . . . . . . . .
Diagrama de Barras . . . . . . . . . . . . . . . . . . . . .
Diagrama de Pareto . . . . . . . . . . . . . . . . . . . . .
Diagrama de Sectores . . . . . . . . . . . . . . . . . . . .
Pictograma . . . . . . . . . . . . . . . . . . . . . . . . .
Cartograma . . . . . . . . . . . . . . . . . . . . . . . . .
Pirmide de Poblacin . . . . . . . . . . . . . . . . . . .
Comparaciones . . . . . . . . . . . . . . . . . . . . . . .
Diagrama de Barras . . . . . . . . . . . . . . . . . . . . .
Curva de Distribucin . . . . . . . . . . . . . . . . . . . .
Histograma y Polgono de Frecuencias . . . . . . . . . . .
Curva de Distribucin . . . . . . . . . . . . . . . . . . . .
Formas Caractersticas de Curvas de Frecuencias . . . . .
Diagrama de Tallos . . . . . . . . . . . . . . . . . . . . .
Mediana Variable Discreta Impar . . . . . . . . . . . . . .
Mediana Variable Discreta Par . . . . . . . . . . . . . . .
Mediana Variable Continua . . . . . . . . . . . . . . . . .
Mediana Variable Continua II . . . . . . . . . . . . . . . .
Moda Variable Continua . . . . . . . . . . . . . . . . . .
Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . .
Curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . .
Comparacin Curva de Lorenz . . . . . . . . . . . . . . .
Distribucin Simtrica . . . . . . . . . . . . . . . . . . .
Nube de Puntos . . . . . . . . . . . . . . . . . . . . . . .
Lnea de regresin de Y sobre X . . . . . . . . . . . . . .
Lnea de regresin de X sobre Y . . . . . . . . . . . . . .
Curva de Regresin Variables Independientes Y respecto X
Curva de Regresin Variables Independientes X respecto Y
Curva de Mnimos Cuadrados . . . . . . . . . . . . . . .
Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . .
Relacin Lineal entre X e Y . . . . . . . . . . . . . . . . .
Relacin no Lineal entre X e Y . . . . . . . . . . . . . . .
Recta de Mnimos Cuadrados . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
7
12
12
13
14
14
15
15
16
17
18
19
20
21
26
27
28
29
31
40
51
51
53
68
72
73
74
74
75
76
77
77
78
ndice de Tablas
1.1.
2.1.
2.2.
2.3.
2.4.
2.5.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
Alumnos Centro . . . . . . . . . . . . . . . . . . . . . . . .
Tabla Simple de Modalidades . . . . . . . . . . . . . . . . .
ngulos de Sectores . . . . . . . . . . . . . . . . . . . . . .
Piezas Defectuosas . . . . . . . . . . . . . . . . . . . . . .
Kilmetros Recorridos . . . . . . . . . . . . . . . . . . . .
Diagrama de Tallos . . . . . . . . . . . . . . . . . . . . . .
Mediana Variable Discreta Impar . . . . . . . . . . . . . . .
Mediana Variable Discreta Par . . . . . . . . . . . . . . . .
Mediana Variable Continua . . . . . . . . . . . . . . . . . .
Media Variable Discreta Frecuencias Absolutas . . . . . . .
Media Variable Discreta Frecuencias Relativas . . . . . . . .
Media Variable Continua . . . . . . . . . . . . . . . . . . .
ndice Gini . . . . . . . . . . . . . . . . . . . . . . . . . .
ndice de Gini II . . . . . . . . . . . . . . . . . . . . . . . .
Distribucin conjunta de frecuencias absolutas . . . . . . . .
Distribucin conjunta de frecuencias relativas . . . . . . . .
Distribucin conjunta de frecuencias absolutas y marginales
Distribucin conjunta de frecuencias relativas y marginales .
Distribuciones marginales . . . . . . . . . . . . . . . . . . .
Distribucin condicionada de X repestecto Y = y j . . . . . .
Distribucin condicionada de Y repestecto X = xi . . . . . .
Independencia Estadstica . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
10
13
16
18
21
26
27
28
32
33
33
48
49
58
58
60
60
61
62
63
65
Parte I
Estadstica
Captulo
Estadstica Descriptiva
Estadstica Descriptiva
M1
M3
Mk1
k
[
Mi = Poblacin
i=1
M2
Mi
Mk
Mi
M j = 0/
Modalidades
{Hombre, Mujer}
{12, 13, 14, 15, 16, 17, 18}
o
{ 1 E, 2o E, 3o E, 4o E, 1o B, 2o B,. . . }
Tabla 1.1: Alumnos Centro
Estadstica Descriptiva
1.
2.
3.
4.
1.
2.
3.
4.
1.
2.
3.
4.
Atendiendo al nmero de caracteres que presenta cada unidad observada, las variables
se dividen en unidimensionales, bidimensionales, tridimensionales, . . . , segn se estudie
uno, dos, tres, . . . , caracteres respectivamente.
Cualitativos (atributos)
Figura 1.2: Cuadro de Caracteres Estadsticos
Ejercicios
1.1
1.2
1.3
1.4
1.5
1.6
Captulo
Representaciones Grficas
objetivo fundamental de una representacin grfica de una distribucin de frecuencias es proporcionar una visin del comportamiento de un fenmeno. Hay distintos tipos de representaciones segn si el carcter es cualitativo o cuantitativo. La representacin
de los datos consiste en mostrarlos clasificados y ordenados para poder dar mayor claridad y ofrecer una visin global del conjunto, que pueda ser interpretable. La bibliografa
para este captulo es [1], [2], [4], [5],[7] y [8].
L
ni = N
i=1
ni
; Se tiene: 0 fi 1 y
N
fi = 1
i=1
3. Frecuencia Absoluta Acumulada Ni de la modalidad Mi a la suma de las frecuencias absolutas hasta la i-sima modalidad:
i
Ni = n1 + n2 + + ni =
nj
j=1
4. Frecuencia Relativa Acumulada Fi de la modalidad Mi a la suma de las frecuencias relativas hasta la i-sima modalidad:
i
Fi = f1 + f2 + + fi =
fj
j=1
10
Representaciones Grficas
El aspecto general de una tabla simple, para un carcter con k modalidades, es la siguiente:
Modalidades
F. Absolutas
Ordinaria ni
F. Absolutas
Acumuladas Ni
F. Relativas
Ordinarias fi
F. Relativas
Acumuladas Fi
M1
M2
..
.
n1
n2
..
.
N1
N2
..
.
f1
f2
..
.
F1
F2
..
.
Mi
..
.
ni
..
.
Ni
..
.
fi
..
.
Fi
..
.
Mk
Sumas
nk
N
Nk = N
fk
1
Fk = 1
(e1 , e2 ],
Clase 2a
...
(ei1 , ei ],
...
Clase i-sima
(ek1 , ek ],
Clase k-sima
Extremos de Clases: ei1 y ei son los extremos inferior y superior de la clase isima (ei1 , ei ]
Amplitud de Clase: ai = ei ei1 es la amplitud de la clase i-sima.
Marca de Clase: Son los puntos medios de las clases.
xi =
ei1 + ei
marca de clase de la clase i-sima
2
Las amplitudes de las clases no tienen porqu ser iguales, pero es ms cmodo,
sobre todo a la hora de la representacin grfica.
Las clases primera y ltima pueden ser intervalos no acotados, de amplitud infinita.
Lo que se pretende es recoger casos muy extremos
11
Las calificaciones obtenidas por 32 alumnos de Matemticas han sido las siguientes:
Mi
MDF
INS
SUF
BIEN
NOT
SOB
ni
0
5
6
4
12
5
N=32
Ni
0
5
11
15
27
322
fi
0/32
5/32
6/32
4/32
12/32
5/32
32/32=1
Fi
0/32
5/32
11/32
15/32
27/32
32/32=1
Se trata de un carcter cualitativo discreto medido en un nivel ordinal (las calificaciones tiene un orden)
Ejemplo de Distribucin de Variable Estadstica Discreto con paso a Continua
Las edades de las personas que acuden a un mdico a lo largo de un mes son:
3 2 11
4 5 3
3 6 29
13 4 3
3 5 6
13 6 17
2 4 5
27 15 4
6 13 6
6
7 3
21 14 4
5 12 26
Marcas xi
2,5
7,5
12,5
17,5
22,5
27,5
ni
17
7
7
1
1
3
N=36
Ni
17
24
31
32
33
36
fi
17/36
7/36
7/36
1/36
1/36
3/36
36/36=1
Fi
17/36
24/36
31/36
32/36
33/36
36/36=1
Se trata de una variable estadstica discreta a la que, por haber un nmero grande de
datos, se trata de forma continua.
12
Representaciones Grficas
barra (o rectngulo) cuya altura coincida con la frecuencia (absoluta o relativa, esto no
modifica la forma) de dicha clase.
Tomemos el primer ejemplo del punto anterior, su representacin grfica sera:
12
11
10
9
8
7
6
5
4
3
2
1
0
12
6
5
B
SO
OT
BI
EN
F
SU
IN
Diagrama de Pareto:
Si se ordenan las clases de mayor a menor frecuencia y se dibujan los rectngulos, se
tiene el diagrama de Pareto. En la parte superior se suele trazar una lnea que expresa la
frecuencia total de cada clase y la que la precede.
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
12
BI
EN
5
IN
5
SO
F
SU
OT
13
Diagrama de Sectores:
El diagrama de sectores consiste en un crculo en el que se representan sectores (o porciones) con reas proporcionales a las frecuencias de cada una de las clases. Se construye
tomando ngulos proporcionales a las frecuencias para cada una de las clases:
i =
ni
360o = fi 360o
N
ni
0
5
6
4
12
5
32
fi
0/32
5/32
6/32
4/32
12/32
5/32
i (o )
0
56,25
67,5
45
135
56,25
360
INS
MDF
SOB
NOT
Pictogramas:
Los pictogramas consisten en la representacin de figuras alusivas al carcter en estudio de forma tal que el rea resultante sea proporcional a la frecuencia de cada modalidad.
Unas veces se presentan dibujos de ancho constante y altura proporcional a la frecuencia
de cada modalidad o atributo (pictograma de ampliacin). Otras se suele tomar un dibujo como unidad y se repite tantas veces como corresponde a la frecuencia (pictograma
de repeticin).
14
Representaciones Grficas
Lneas
50.000
60.000
100.000
Cartograma:
Los cartogramas son mapas que representan zonas en estudio, sobre las cuales, por
medio de colores y otras marcas, se destacan las intensidades de un cierto carcter. Por
ejemplo, la produccin de hierro en distintas zonas de Murcia. Est especialmente indicado cuando las modalidades hacen referencia de manera directa o indirecta a situaciones
geogrficas.
Por ejemplo, el siguiente cartograma representa la urbanizacin en el mundo atendiendo a la industrializacin:
15
Pirmides de Poblacin:
Las pirmides de poblacin se utilizan para estudiar conjuntamente el carcter cuantitativo edad y el carcter cualitativo sexo.
El diagrama se obtiene representando en la abscisa el sexo y en la ordenada el grupo
de edad. En la pirmide de poblacin, se puede analizar la distribucin de la poblacin
por edad y sexo, deducir vicisitudes (guerras, catstrofes, etc.) conocer el comportamiento
demogrfico, conocer el desarrollo de la poblacin, etc.
EDAD
70
60
50
40
30
20
10
0
Hombres
Mujeres
Comparaciones:
A veces se desea comparar varias poblaciones respecto de un mismo carcter. Para
ello, se superponen los grficos. Es conveniente usar las frecuencias relativas, ya que de
esta forma, se elimina el factor tamao. Por ejemplo:
40
35
30
1o A
40
37
35
30
25
20
15
10
1o B
34
26
25
20
20
15
15
28
1o D
20
15
16
12
8 7 7
6
5
0
1o C
INS
SUF
BIEN
NOT
SOB
16
Representaciones Grficas
xi
ni
300
365
214
83
23
15
Ni
300
665
879
962
985
985
1000
1000
400
350
300
ni
250
365
300
200
214
150
100
83
50
0
xi
Figura 2.8: Diagrama de Barras
17
siendo F(x) la proporcin de individuos de la poblacin cuyo carcter sea menor o igual
a x (x C):
F1
F(x) = F2
..
Si x < x1
Si x1 x < x2
Si x2 x < x3
..
.
Si xk x
Esta funcin verifica: Es no decreciente, es continua por la derecha de cada xi , es escalonada, F(+) = 1 y F() = 0. La curva de distribucin no es ms que la representacin
grfica de la funcin de distribucin.
Para el ejemplo anterior, se tiene la siguiente funcin y curva acumulativa o de distribucin:
0
Si x < 0
0, 300 Si 0 x < 1
0, 665 Si 1 x < 2
0, 897 Si 2 x < 3
F(x) = 0, 962 Si 3 x < 4
0, 985 Si 4 x < 5
0, 985 Si 5 x < 6
1
Si 6 x < 7
1
Si x 7
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0
Fi
xi
0 1 2 3 4 5 6 7 8
Figura 2.9: Curva de Distribucin
18
Representaciones Grficas
Nmero de vehculos
ni
228
634
821
475
233
87
1000
800
600
400
200
Fi
xi
4 0 4 8 12 16 20 24
19
Para obtener la curva de distribucin es necesario primero conocer la funcin de distribucin de la variable continua. La funcin de distribucin en el caso continuo es anloga
al discreto, hay que tener en cuenta que trabajamos con intervalos. Se define
F : R = R
x R = F(x)
Siendo F(x) la proporcin de individuos de la poblacin cuyo carcter sea menor o igual
a x (x C):
F1
F(x) = F2
..
Si x < e0
Si e0 x < e1
Si e1 x < e2
..
.
Si ek x
Nota: Como no se conoce el comportamiento de la funcin de distribucin en cada intervalo, se supone que la funcin aumenta de forma lineal.
Siguiendo con el ejemplo, se tiene:
0, 092
0, 348
F(x) = 0, 679
0, 871
0, 965
1
1.000
Si x < 0
Si 0 < x 4
Si 4 < x 8
Si 8 < x 3
Si 12 < x 16
Si 16 < x 20
Si 20 < x
0.800
b
0.600
0.400
b
0.200
b
b
4 0
x
12 16 20 24 28
20
S ESGADA
Representaciones Grficas
A LA I ZQUIERDA
U NIMODAL
S IMTRICA
F ORMA
DE
B IMODAL
S ESGADA
A LA
F ORMA
D ERECHA
DE
M ULTIMODAL
47 70
88 06
84 60 89 34
61 31 87 58
59 75 58 92
57 32 48 85
21
88 80 19 81
69 17 90 85
98
92
Tallo
0
1
2
3
4
5
6
7
8
9
Hoja
6
9
4
7
9
0
0
4
2
1
8
8
1
5
9
8
2
8
9
8
0
0 1 8
2
7 5
Ejercicios
2.1
7
4
1
12
6
5
3
10
3
1
2
4
2
2
3
4
4
5
2
15
5
3
2
5
16
6
4
2
4
6
4
3
5
1
7
7
2
3
5
12
3
4
3
8
3
22
Representaciones Grficas
2.3 Las siguientes observaciones expresan el nmero de veces que veintids consumidores compraron una determinada marca de un producto en los dos ltimos meses.
0 2 5 0 3 1 8 0 3 1 1
9 2 4 0 2 9 3 0 1 9 8
1. Construir la distribucin de frecuencias relativas y la de frecuencias relativas
acumuladas.
2. Representar ambas distribuciones.
3. Qu proporcin de personas no compraron nunca dicha marca?
4. Qu porcentaje de consumidores adquirieron dicha marca menos de cinco
veces?
5. Se puede obtener alguna conclusin del estudio?
2.6
Miles
De 16
a 19 aos
23
De 20
a 24 aos
De 25
a 54 aos
De 55
en adelante
Varones
Agricultura
1.3
2.5
29.4
5.3
Industria
10.0
17.5
50.5
6.4
Construccin
11.0
21.7
107.7
10.4
Servicios
20.9
36.4
173.1
11.7
Parados que buscan su primer
empleo o han dejado su lti35.7
34.2
145.7
32.3
mo empleo hace ms de un
ao
Mujeres
Agricultura
1.4
7
32.8
1.7
Industria
3.0
10.9
41
3.8
Construccin
0.0
1.4
3.9
0.2
Servicios
34.7
77.7
335.3
15.1
Parados que buscan su primer
empleo o han dejado su lti45.6
61.2
331.6
38.5
mo empleo hace ms de un
ao
1. Construye la distribucin de frecuencias del nmero de parados segn el sexo
y elabora los correspondientes diagramas de sectores y de barras.
2. Construye la distribucin de frecuencias del nmero de parados segn actividad econmica y elabora los correspondientes diagramas de sectores y de
barras.
3. Construye la distribucin de frecuencias del nmero de parados segn estratos
de edad y elabora los correspondientes diagramas de sectores e histograma.
Captulo
3.1.1. La Mediana
Matemticamente, se define la mediana como la solucin de la ecuacin
1
2
Siendo F(x) la funcin de distribucin. Pero esta es una definicin formal, pero no la ms
prctica.
F(x) =
Definicin 3.1.1. Sea X una variable estadstica (carcter cuantitativo) de una poblacin
o muestra con N individuos. Se llama mediana a un valor, representado por Me , tal que,
ordenados los N valores de X en orden creciente, el 50 % de ellos son menores que Me y
el 50 % restante son mayores que Me .
Estudiemos la forma de calcular la mediana en los distintos casos:
Caso Discreto:
1. Si N es impar. Sea X una variable estadstica discreta, con distribucin de frecuencias: Para calcular la mediana de esta distribucin podemos proceder de varias for-
26
Xi
3
4
5
6
7
8
9
10
ni
1
2
1
1
3
0
0
1
Ni
1
3
4
5
8
8
8
9
fi
1/9
2/9
1/9
1/9
3/9
0
0
1/9
Fi
1/9
3/9
4/9
5/9
8/9
8/9
8/9
1
mas:
a) Directamente sobre los datos. Ordenamos los datos sin agrupar, es decir, repitiendo cada uno tantas veces como indique su frecuencia absoluta, en este
caso:
3 4 4 5 6 7 7 7 10
En este caso, N=9, la mediana es el valor central: Me =6, ya que deja la mitad
de los datos por encima y la otra mitad por debajo.
b) A partir de la funcin de distribucin de frecuencias absolutas (o relativas).
Dibujamos la funcin de distribucin de frecuencias absolutas, basada en las
frecuencias absolutas acumuladas. A continuacin dibujamos la recta horizontal de ecuacin y = N2 , en nuestro ejemplo y = 92 = 4, 5, mitad del tamao de
la poblacin. Observamos que la primera vertical que corta es la recta x = 6.
Este es el valor de la mediana: Me =6.
9
8
7
6
5
4
3
2
1
0
10
6+7
= 6, 5
2
27
Xi
3
4
5
6
7
8
9
10
ni
1
2
1
1
3
0
0
2
Ni
1
3
4
5
8
8
8
10
fi
1/10
2/10
1/10
1/10
3/10
0
0
2/10
Fi
1/10
3/10
4/10
5/10
8/10
8/10
8/10
1
10
Caso Continuo:
Tomemos el siguiente ejemplo, visto ya en la pgina 18 punto 2.3.2: Un parque automovilstico de 2478 coches clasificados segn el nmero de kilmetros recorridos en un
N 2478
ao: La mitad de datos es: =
= 1239. La primera clase cuya frecuencia absoluta
2
2
acumulada es mayor o igual a N/2 es el intervalo (8, 12]. Este es el intervalo mediano o
clase mediana de la distribucin.
La mediana, Me pertenece a dicho intervalo, y se determinar por interpolacin lineal.
Sobre la grfica de la funcin de distribucin de frecuencias absolutas, tracemos la recta
28
ni
228
634
821
475
233
87
(ei1 , ei ]
(0,4]
(4,8]
(8,12]
(12,16]
(16,20]
(20,24]
Ni
228
862
1683
2158
2391
2478
fi
228/2478
634/2478
821/2478
475/2478
233/2478
87/2478
hi = fi /4
228/9912
634/9912
821/9912
475/9912
233/9912
87/9912
Fi
228/2478
862/2478
1683/2478
2158/2478
2391/2478
1
2500
24
28
2250
b
2000
B
1750
1500
C
1250
1000
A
750
500
250
0
12
16
20
y = N2 , en nuestro caso y = 1239. Tal recta corta al segmento de extremos A(8, 862) y
B(12, 1683) en un punto C(x, 1239). La abscisa del punto de corte es la que tomamos
como mediana (a este proceso lo llamamos interpolacin lineal).
Para hallar la abscisa x = Me :
yB yA 1683 862
=
xB xA
12 8
29
1683 862
(x 8)
12 8
1683 862
(Me 8)
12 8
1239 862
(12 8) 9,84
1683 862
De esta manera, una vez determinado el intervalo mediano Ii = (ei1 , ei ], de frecuencia
absoluta acumulada Ni , se puede deducir la frmula de la mediana:
Me = 8 +
N
Ni1
Me = ei1 + 2
(ei ei1 )
Ni Ni1
A travs de tringulos semejantes
Fijmonos en el siguiente grfico: Los tringulos ACC y ABB son semejantes,
B
Ni
C
N
2
Ni1
A
ei1
bc
Me
bc
ei
por tanto:
Sustituyendo, se tiene:
Despejando Me :
AC AB
=
CC B B
Me ei1
ei ei1
=
N
Ni Ni1
Ni1
2
N
Ni1
(ei ei1 )
Me = ei1 + 2
Ni Ni1
~ y AB
~ son proporcionales.
Vectorialmente equivale a decir que los vectores AC
Observaciones:
El tratamiento es idntico en el caso de intervalos de amplitudes desiguales.
30
Si trabajamos con frecuencias relativas en vez de absolutas, se obtiene grficas semejantes y el rea encerrada por los rectngulos o bajo el polgono de frecuencias
es igual a 1, y la mediana se calcula a travs de la frmula:
1
Fi1
Me = ei1 + 2
(ei ei1 )
Fi Fi1
3.1.2. La Moda
Definicin 3.1.2. Dada un distribucin de frecuencias, se define la moda como el valor
ms frecuente de la distribucin. Se denota Mo .
Caso Discreto.
Dada una distribucin estadstica discreta X con distribucin de frecuencias
{(x1 , n1 ), (x2 , n2 ), . . ., (xi , ni ), . . ., (xk , nk )}
se llama moda a la modalidad que presenta una frecuencia mxima. Es decir, llamaremos
moda, al valor x j de manera que n j = max{ni : i = 1, 2, . . ., k} En el diagrama de barras
es la modalidad a la que corresponde la barra ms alta.
Para el ejemplo de la pgina 16, se tiene que su moda es el valor m0 = 1 ya que su
frecuencia es la mxima (365).
Caso continuo.
Dada una variable estadstica continua X con distribucin de frecuencias
{(I1, n1 ), (I2 , n2 ), . . ., (Ii , ni ), . . . , (Ik , nk )}
se llama clase modal a la clase a la que le corresponde el rectngulo de mayor altura en el
histograma de frecuencias (que no tiene por qu ser necesariamente el de mayor rea). Si
deseamos especificar ms concretamente a qu valor de la variable le atribuimos el papel
de moda, tendremos que proceder de manera anloga a como lo hicimos con la mediana,
por interpolacin. La semejanza de los tringulos AFD y CFB hace que:
hi
D
F
G
B
hi+1
hi1
31
ei1
M0
ei
FG HF
=
CB
AD
de donde:
FG + HF
HF
=
CB + AD
AD
Despejando:
HF = M0 ei1 =
AD
(FG + HF)
CB + AD
Y por lo tanto:
M0 = ei1 +
hi hi1
(ei ei1 )
(hi hi1 ) + (hi hi+1 )
187
4 9, 403
187 + 346
Observaciones:
En el caso de distribuciones de intervalos de amplitudes desiguales, el tratamiento
es anlogo a lo ya descrito.
Cuando una distribucin presenta varios mximos locales, bien en el diagrama de
barras (caso discreto), o bien en el histograma (caso continuo), se habla de una
distribucin multimodal.
32
Caso Discreto.
Sea X una variable estadstica discreta de una poblacin finita de tamao N, sean
x1 , x2 , . . . , xN los N valores observados de X . Su media es:
N
xi
x1 + x2 + + xN
i=1
=
x=
N
N
N
nixi
x=
i=1
x = f1 x1 + f2 x2 + + fk xk = fi xi
i=1
ni
1
2
1
1
3
0
0
2
ni = 10
ni xi
3
8
5
6
21
0
0
20
ni xi = 63
xi ni
x=
i=1
63
= 6,3
10
x = fi xi =
i=1
63
= 6,3
10
xi
3
4
5
6
7
8
9
10
33
ni
1
2
1
1
3
0
0
2
ni = 10
fi
1/10
2/10
1/10
1/10
3/10
0
0
2/10
fi = 1
fi xi
3/10
8/10
5/10
6/10
21/10
0
0
20/10
fi xi = 63/10
Caso Continuo.
En este caso sustituimos las clases por sus marcas (suponemos que todos los puntos
del intervalo estn concentrados en el punto medio de dicho intervalo), definiendo de
modo anlogo, sin ms que sustituir por las marcas de clase xi , los valores de la variable.
k
nixi
x = xi fi =
i=1
i=1
Por ejemplo:
(ei1 , ei ]
(40,50]
(50,70]
(70,90]
(90,100]
(100,105]
xi
45
60
80
95
102,5
ni
6
12
16
14
2
ni = 50
xi ni
270
720
1280
1330
205
xi ni = 3805
nixi
x=
i=1
3805
= 76, 1
50
34
xi ,
La nueva variable ser de la misma naturaleza que X y con modalidades que notaremos
constituyendo la distribucin de frecuencias {xi , fi }i=1,2,...,k .
i=1
i=1
i=1
x = xi fi = (axi + b) fi = a xi fi + b = ax + b
Por tanto se puede decir que la media conserva las transformaciones lineales.
El multiplicar xi por a equivale a multiplicar la unidad de medida tomada para representar X por a, y el sumar b equivale a efectuar una traslacin, por lo que el origen
inicial (cero) pasara a ser el punto b. Esta es la razn por la que se suele decir que se ha
efectuado un cambio de origen y un cambio de escala o de unidad de medida.
En la prctica, esta transformacin est justificada por querer reducir las modalidades
a otros nmeros ms manejables para el clculo.
Proposicin 3.1.5. La suma de las desviaciones de los valores de la variable respecto a
su media aritmtica es cero.
k
(xi x)ni = 0
i=1
(xi x)ni = xi ni x ni = xi ni x ni = N x x ni = N x x N = 0
i=1
i=1
i=1
i=1
i=1
Por Ejemplo: Se ha realizado un estudio en una zona marginada de una ciudad para
comprobar cul es el salario medio mensual (en euros) que perciben las 500 familias que
conviven en esa zona. Los datos que se han recogido se muestran en la siguiente tabla:
(ei1 , ei ]
(180,300]
(30,360]
(360,420]
(420,540]
(540,660]
(660,780]
Sumas
Su media sera:
xi
240
330
390
480
600
720
ni
21
84
136
215
32
12
500
xi ni
5040
27720
53040
103200
19200
8640
216840
216840
= e 433,68
500
Efectuemos la transformacin lineal para encontrar valores menores en la variable estadstica y simplificar los clculos.
x=
Llamamos a la variable X =
35
Se han tomado estos valores de manera que la marca del intervalo (420,540] se anule
(se puede elegir el que se quiera). Este es, en general, un buen mtodo para la transformacin lineal.
Efectuando la tabla de X sera:
(ei1 , ei ]
(180,300]
(30,360]
(360,420]
(420,540]
(540,660]
(660,780]
Sumas
xi
-4
-2.5
-1.5
0
2
4
ni
21
84
136
215
32
12
500
xi ni
-84
-210
-204
0
64
48
-386
Y su media sera:
x =
386
= 0,772
500
Vemos que los valores se han simplificado mucho. Para la media aritmtica de X , deshacemos el cambio:
x b 0,772 + 8
=
= e 433.68
x=
a
1/60
Proposicin 3.1.6. La suma de las desviaciones al cuadrado de los valores de la variable
respecto a una constante K cualquiera, se hace mnima cuando K = x (Teorema de Knig).
Demostracin. Consideremos la expresin D(K) =
Entonces, desarrollando, se tiene:
D(K) =
=
1 k
(xi K)2 ni
N i=1
1 k
1 k
(xi K + x x)2 ni = [(xi x) (K x)]2 ni =
N i=1
N i=1
2
1 k
(xi x)2 + (K x)2 2(xi x) (K x) ni =
N i=1
1 k
1 k
2 k
2
2
= (xi x) ni + (K x) ni (xi x) (K x)ni =
N i=1
N i=1
N i=1
=
k
1 k
2
2
2
(x
(K
x)
n
+
(K
x)
x)
i
i
(xi x)2ni =
N i=1
N
i=1
1 k
= (xi x)2 ni + (K x)2 = D(x) + (K x)
N i=1
De donde deducimos que el mnimo se obtiene cuando K = x
36
xw =
n1 1 x1 + n2 2 x2 + + nk k xk
=
n1 1 + n2 2 + + nk k
niixi
i=1
k
nii
i=1
Un hotel para contratar a un recepcionista de entre dos aspirantes, A y B, los somete a cuatro pruebas: Idiomas, Informtica, Contabilidad y Cultura general. Las
calificaciones y pesos se dan en la siguiente tabla:
Prueba
Idiomas
Informtica
Contabilidad
Cultura
Totales
Peso i
10
8
7
5
30
Calif. A (ai )
6
7
8
9
30
Calif. B (bi )
10
8
6
5
29
ai i
60
56
56
45
217
bi i
100
64
42
25
231
37
Sea X una variable estadstica discreta que toma los valores x1 , x2 , . . .xk , con frecuencias absolutas n1 , n2 , . . ., nk . Se define media armnica, denotada H como:
H=
n1 x11
+ n2 x12
1
=
+ + nk x1k
1
=
1
1
ni xi
X
i=1
k
ni
i=1
t = ni
i=1
1
40
50
10 43
=
+
+
=
xi 90 120 30 36
e = ni = 40 + 50 + 10 = 100
i=1
100 3600
=
83, 72 Km/h
43
43
36
38
Donde N = n1 + n2 + + nk
Usando logaritmos y sus propiedades tenemos:
q
n1 ln x1 + n2 ln x2 + + nk ln xk
n
ln G = ln N xn11 xn22 xk k =
= ln X
N
Es decir, el logaritmo neperiano de la media geomtrica de X es la media aritmtica de la
variable estadstica ln X :
G = eln X
La media geomtrica es menos sensible a los valores extremos, aunque puede estar
indeterminada si existen valores negativos de X . Se emplea para promediar variables estadsticas cuyos valores presentan alteraciones en un perodo de tiempo dado: rendimientos
de capital, tasas de crecimiento, nmeros ndices como el IPC.
Ejemplo de Media Geomtrica
39
Proposicin 3.2.1. Entre las distintas medias, se verifica las siguientes desigualdades:
H GxC
a
1
b
1
( a b)2 0
a+b
ab
a + b 2 ab 0 a + b 2 ab
2
Es decir:
xG
2
a+b
1
ab
ab
=
2
a+b
ab
ab
Operando se tiene:
2
2
2ab
ab
ab
ab
1 1
a+b
a+b
+
a b
ab
Es decir:
HG
=
=
= C2
22
4
4
4
2
de donde se deduce:
xC
(x)2 =
H GxC
40
3.3.1. Cuartiles
Son puntos de la distribucin que la dividen en cuatro partes, cada una de la cuales
engloban el 25 % de ella, por lo que podemos obtener tres cuartiles:
Q1 : primer cuartil, o cuartil inferior es la solucin de la ecuacin: F(x) = 0,25
Q2 : segundo cuartil o mediana es la solucin de la ecuacin: F(x) = 0,50
Q3 : tercer cuartil, o cuartil superior es la solucin de la ecuacin: F(x) = 0,75
Grficamente:
Q1
Q2
25 %
Q3
25 %
25 %
25 %
NOTA:
Se observa que los cuartiles no tienen por qu estar a la misma distancia unos de
otros. Lo nico que deben verificar es que entre uno y otro est un 25 % de la
poblacin.
El cuartil de orden 2 es la mediana, ya que divide a la distribucin en dos partes; por
ello, es lgico que el clculo de cualquier cuartil sea muy similar al de la mediana.
41
3.3.2. Deciles
Son puntos que dividen a la distribucin en diez partes cada una de las cuales engloban
el 10 %. Notaremos con Di al i-simo decil donde i = 1, 2, 3, . . ., 9, se deduce D5 = Q2 =
Me . El decil de orden i es la solucin de la ecuacin:
F(x) =
i
10
3.3.3. Percentiles
Son puntos que dividen a la distribucin en cien partes, cada una de las cuales engloban el 1 %.Se deduce que P50 = D5 = Q2 = Me . Los notaremos con Pi con i = 1, 2, . . ., 99
y son solucin de la ecuacin
i
F(x) =
100
N Ni1
(ei ei1 )
Ni Ni1
ni
21
84
136
215
32
12
500
Ni
21
105
241
456
488
500
125 105
60 368, 82
136
42
250 241
120 425, 02
215
375 241
120 494, 79
215
100 21
60 356, 43
84
490 488
120 = 680
12
43
Ejemplo de Dispersin
12
12 18 540 600 900
345 346 347 347 347 348 349
3.4.1. Recorrido
Una primera medida que puede informar del grado de dispersin de una distribucin
es el recorrido de la variable, denotado Re
Re = max{xi } min{xi }
Efectivamente, a mayor recorrido existir mayor dispersin en la variable. Ahora bien,
como se puede observar, esta medida tiene poca fiabilidad pues no se preocupa de como
se encuentren distribuidas las observaciones dentro del intervalo marcado por los valores
mximo y mnimo de la variable. El recorrido como medida de dispersin carece de sentido cuando se observa que la distribucin de frecuencias presenta valores atpicos, tanto
por exceso como por defecto, que perturbarn la calidad de esta medida de dispersin.
44
3.4.4. La Varianza
Cuando se intentaba medir la representatividad de la media aritmtica mediante la suma de las desviaciones de cada observacin respecto a x se ha observado que esta suma
vale cero porque existen diferencias positivas y negativas que se compensan. Como alternativa se ha tomado el valor absoluto de las diferencias, pero otra alternativa a la hora
de eliminar los signos es la de elevar estas diferencias a una potencia par, se elige la ms
simple de todas, esto es, elevar al cuadrado. As aparece otra medida de representatividad
de la x , la varianza:
1 k
S2 = (xi x)2 ni
N i=1
Si el valor de S2 es grande, la media aritmtica ser poco representativa y viceversa. El
mejor de los casos es aqul en que la varianza toma el valor cero ya que esto indica que
todos los sumandos son cero y por tanto cada uno de ellos, de donde se deduce que todos
los valores de la variable coinciden con el valor medio.
1 k
1 k
2
x)
n
(x
i
i
(xi K)2ni
N i=1
N i=1
45
1 k
(xi K)2 ni
N i=1
k
2 k
(x
K)n
i
i
(xi K)ni = 0
N i=1
i=1
Despejando K:
K=
1 k
xini = x
N i=1
1 k 2
1 k
2
(x
x)
n
=
i
i
xi ni (x)2
N i=1
N i=1
1 k 2
1 k
1 k 2
1 k 2
2
x
2x
x)n
=
x
n
2x
(x
+
x
n
+
i
i
i
i i N i N xi ni =
N i=1
N i=1
i=1
i=1
1 k 2
1 k 2
2
2
= xi ni + x 2x = xi ni x2
N i=1
N i=1
Proposicin 3.4.4. Si en una distribucin de frecuencias se le suma a todos los valores
de la variable una constante, la varianza no vara.
Demostracin. Sea {(xi , ni )}ki=1 una distribucin de frecuencias, y tomemos yi = xi + K,
obteniendo la distribucin {(yi , ni )}, entonces la varianza de la nueva variable estadstica
Y = X + K es:
SY2 =
1 k
1 k
1 k
2
2
(y
(x
+
K
(x
y)
n
=
+
K))
=
i
i
i
(xi x)2 = SX2
N i=1
N i=1
N i=1
Proposicin 3.4.5. Al multiplicar los valores de la variable por una constate K, la varianza queda multiplicada por el cuadrado de dicha constante.
Demostracin. Demostracin anloga a la anterior, queda al cuidado del lector.
46
S = + S2
con lo que se obtiene una medida de dispersin con propiedades semejantes a la varianza
pero cuyas unidades de medida son las mismas que las de la variable en origen.
47
xn
x1
de tal forma que cuanto mayor sea Ap mayor ser la dispersin. Este coeficiente tiene
el problema de ser sensible a los valores atpicos de la distribucin y no tener en cuenta
como se encuentran distribuidos los valores de la variable entre el mximo y el mnimo.
Re
x
Rr basado en el recorrido como medida de dispersin absoluta, y tiene los mismos problemas que sta.
C3 C1
C3 +C1
S
x
Est basado en la desviacin tpica y por tanto es el que mejores resultados ofrece. Este
coeficiente indica el nmero de veces que la desviacin tpica contiene a la media aritmtica. Puede ofrecer valores positivos o negativos dependiendo del signo de la media.
Si el valor de V es prximo a cero indicar una alta concentracin de los valores de la
variable en torno al valor medio, esto es poca dispersin, por el contrario, cuanto mayor
sea su valor ms dispersas estarn las observaciones.
El coeficiente de variacin de Pearson tiene el problema de que no es calculable cuando la media es cero, incluso la informacin que suministra queda deformada cuando el
valor de la media es un nmero prximo a cero.
DMe
Me
48
salarial
i=1
Existen dos casos extremos, por un lado la equidistribucin, esto es, todos cobran la
misma cantidad (x1 = x2 = = xk ).
El otro extremo se representa cuando un solo trabajador percibe el total de la masa
salarial y los restantes no perciben nada, es decir x1 6= 0, x2 = x3 = = xn = 0
Entre estos dos extremos se pueden encontrar infinitas situaciones intermedias. Por
tanto el objetivo de este apartado ser buscar un coeficiente que mida el grado de equidistribucin de la variable. Este coeficiente ser el llamado Indice de Concentracin de
Gini.
No de Empresas
5
15
30
50
20
10
49
1. Los productos xi ni , que indicarn la venta total percibida por los ni individuos de la
clase (volumen de ventas por clase)
2. Frecuencias absolutas acumuladas Ni
3. Los totales acumulados:
j
u j = xi ni
i=1
Ni
100
N
ui
100
un
El clculo de estas expresiones para el ejemplo de las empresas del sector textil da como
resultado los siguientes valores: Si se ponen en relacin las dos ltimas columnas se
xi
1500
4200
9000
21000
45000
90000
ni
5
15
30
50
20
10
xi ni
7500
63000
270000
1050000
900000
900000
Ni
5
20
50
100
120
130
ui
7500
70500
340500
1390500
2290500
3190500
pi
3.85
15.38
38.46
76.92
92.31
100
qi
0.24
2.21
10.67
43.58
71.79
100
50
i=1
diferencias (pi 1i ) se obtendran cuando los valores qi fuesen cero. A partir de este
razonamiento se puede considerar el cociente:
n1
(pi qi )
i=1
n1
pi
i=1
de tal forma que por un lado se crea una medida adimensional y por otro se consigue
que su cota superior sea 1 obteniendo as un indicador cuyo campo de variacin est
comprendido entre 0 y 1. Ser cero cuando la distribucin sea equitativa y 1 cuando una
parte reciba el total y la restante nada.
Este cociente que puede expresarse en tanto por cien, que es el llamado ndice de Gini,
IG :
n1
IG =
(pi qi )
i=1
n1
pi
100
i=1
i=1
n1
pi = 98,43
i=1
IG =
226,92
0,43
98,43
51
3.7 Momentos
120
qi
100
b
80
b
60
b
40
20
b
pi
20 40 60 80 100 120
b
pi
20 40 60 80 100 120
3.7. Momentos
Dada una variable X discreta con distribucin de frecuencias asociada {xi , ni } en la
que:
1. x es su media.
2. a R
3. r N {0}
52
r =
1 k
ni(xi x)r
N i=1
Siendo 0 = 1, 1 = 0 y 2 = S2
3.8.1. Simetra
Definicin 3.8.1. Diremos que una distribucin es simtrica si la perpendicular que pasa
por la media divide al diagrama diferencial en dos partes iguales.
Esto equivale a decir que a ambos lados de ese eje y equidistantes de l, hay pares de
valores con la misma frecuencia. De lo contrario diremos que es asimtrica.
En nuestro caso diremos:
Definicin 3.8.2. Una distribucin es simtrica cuando x = Me = M0 .
53
Dado que en una distribucin simtrica los momentos de orden impar respecto de la media son nulos (demostracin que har amablemente el lector), podramos pensar que el
indicador ms adecuado, en lo que se refiere al clculo de la simetra, es 1 . Pero tal
como hemos venido repitiendo, la particularidad de la media hace que se anule siempre.
Podramos tomar 3 , como medida, pero tiene el inconveniente de que si bien, es invariante frente a cambios de origen, le afecta los cambios de escala. Por ello se divide por el
cubo de la desviacin tpica con lo que se obtiene el llamado coeficiente de asimetra de
Fisher
Definicin 3.8.3. Se define el coeficiente de asimetra de Fisher, 1 , como:
1 =
3
S3
Es una cantidad sin unidades, que vale cero si la distribucin es simtrica alrededor de
la media.
A pesar de sus buenas propiedades, una transformacin lineal no es suficiente para
modificar rasgos ms complejos de una distribucin, como su asimetra. Se puede comprobar que una transformacin lineal de datos traslada y dilata o contrae la distribucin,
pero no cambia su asimetra.
Para hacer ms simtrica una distribucin es necesario utilizar transformaciones ms
complicadas que las lineales. Las operaciones matemticas ms frecuentemente utilizadas
son:
La raz cuadrada
El logaritmo
La inversa
La potenciacin
54
2 =
4
3
S4
Ejercicios
3.1
3.2 En una ciudad existen tres grandes plantas de fabricacin de automviles, que llamaremos A, B y C. La primera emplea a 542 personas y su salario medio es de
55
3.3
3.4
e 1080. En la segunda trabajan 843 empleados y su ingreso medio es de e 861. Finalmente, la paga media de los 1538 trabajadores de C es e 813.47. Cmo podras
calcular el salario medio de los empleados en la industria del automvil?
Se sabe que la media de las calificaciones de una prueba es 5.2 y la mediana es 6.3.
Dibuja un esquema aproximado de la forma del histograma que se puede deducir
del conocimiento de estos valores.
Se han contabilizado el nmero de das que durante un ao han faltado al trabajo, por baja laboral, los trabajadores de una empresa, obteniendose los siguientes
resultados:
Nmero de das
1 2 3 4 5 6 7 8
Nmero de obreros 2 6 10 5 10 3 2 2
3.6
3.7
Nmero de trabajadores
10
17
12
11
Nmero de trabajadores
10
25
46
30
9
3.8
r
Demuestra que mr =
k x(rk)
k
k=0
r
Captulo
Distribuciones Bidimensionales
58
Distribuciones Bidimensionales
posibles asociaciones entre estos caracteres y el suicidio. En la seccin 4.7 profundizaremos en el estudio de las tablas de contingencia.
Y
x1
x2
x3
..
.
y1
n1 1
n2 1
n3 1
..
.
y2
n1 2
n2 2
n3 2
..
.
y3
n1 3
n2 3
n3 3
..
.
..
.
ym1
n1 m1
n2 m1
n3 m1
..
.
ym
n1 m
n2 m
n3 m
..
.
xk1
xk
nk1 1
nk 1
nk1 2
nk 2
nk1 3
nk 3
nk1 m1
nk m1
nk1 m
nk m
N
x1
x2
x3
..
.
y1
f1 1
f2 1
f3 1
..
.
y2
f1 2
f2 2
f3 2
..
.
y3
f1 3
f2 3
f3 3
..
.
..
.
ym1
f1 m1
f2 m1
f3 m1
..
.
ym
f1 m
f2 m
f3 m
..
.
xk1
xk
fk1 1
fk 1
fk1 2
fk 2
fk1 3
fk 3
fk1 m1
fk m1
fk1 m
fk m
1
Igual que ocurra en la distribucin de frecuencias para una sola variable, las frecuencias conjuntas son nmeros no negativos, la suma de las frecuencias absolutas conjuntas
es el nmero total N de observaciones, la suma de las frecuencias relativas conjuntas es
igual a uno, como puede comprobar el lector.
El ejemplo siguiente trata de dos variables cualitativas, las tablas muestran la informacin que representa la situacin profesional y el nivel de educativo de una pedana de
59
Torre Pacheco. El conjunto de datos de las dos variables est formado por setenta y cinco
pares de datos. Las tablas representan la distribucin absoluta y relativa.
Ejemplo de Distribucin Bidimensional
Sin Estudios
Primaria
ESO
Bachillerato
Universidad
4
11
1
1
17
31
0
1
1
1
0
1
1
5
0
0
0
0
0
0
75
Sin Estudios
Primaria
ESO
Bachillerato
Universidad
0.054
0.147
0.013
0.013
0.227
0.414
0
0.013
0.013
0.013
0
0.013
0.013
0.067
0
0
0
0
0
0
1
60
Distribuciones Bidimensionales
x1
x2
x3
..
.
xk1
xk
y1
n1 1
n2 1
n3 1
..
.
y2
n1 2
n2 2
n3 2
..
.
y3
n1 3
n2 3
n3 3
..
.
..
.
ym1
n1 m1
n2 m1
n3 m1
..
.
ym
n1 m
n2 m
n3 m
..
.
nk1 1
nk 1
n1
nk1 2
nk 2
n2
nk1 3
nk 3
n3
nk1 m1
nk m1
nm1
nk1 m
nk m
nm
n1
n2
n3
..
.
nk1
nk
N
a que corresponde:
k
N = ni
i=1
De manera anloga, si sumamos todas las casillas de la ltima fila, razonando de modo
anlogo, obtendremos el total de elementos de la poblacin:
m
N=
n j
j=1
x1
x2
x3
..
.
xk1
xk
y1
f1 1
f2 1
f3 1
..
.
y2
f1 2
f2 2
f3 2
..
.
y3
f1 3
f2 3
f3 3
..
.
..
.
ym1
f1 m1
f2 m1
f3 m1
..
.
ym
f1 m
f2 m
f3 m
..
.
fk1 1
fk 1
f1
fk1 2
fk 2
f2
fk1 3
fk 3
f3
fk1 m1
fk m1
fm1
fk1 m
fk m
fm
f1
f2
f3
..
.
fk1
fk
1
1 = fi =
i=1
f j
j=1
La distribucin conjunta contiene ms informacin sobre las dos variables que la que
pueden proporcionar ambas distribuciones marginales. Dicho de otra forma, la relacin
entre las variables no puede deducirse slo de las marginales; es necesario conocer la
61
Distribucin Marginal X
X ni
fi
x1 n1
f1
x2 n2
f2
..
..
..
.
.
.
Distribucin Marginal Y
Y n j
f j
y1 n1
f1
y2 n2
f2
..
..
..
.
.
.
xp
..
.
n p
..
.
f p
..
.
yq
..
.
nq
..
.
fq
..
.
xk
nk
fk
ym
nm
fm
Edad X
18-25
25-45
45-75
n j
Desplazamientos Y
0-10 10-25 25-40 n j
20
13
7
40
6
22
10
38
5
18
19
42
31
53
36
120
Distribucin Marginal Y
Y
ci
n j
f j
0-10
5
31 0.26
10-25 17.5 53 0.44
25-40 32.5 36 0.30
120
1
62
Distribuciones Bidimensionales
ni| j
n1| j
n2| j
n3| j
..
.
fi| j
f1| j = n1 j /n j
f2| j = n2 j /n j
f3| j = n3 j /n j
..
.
xi
..
.
ni| j
..
.
fi| j = ni j /n j
..
.
xk
nk| j
fk| j = nk j /n j
Veamos cmo se construye e interpretan las distribuciones condicionadas. Las frecuencias relativas se obtienen dividiendo las absolutas entre el total de elementos de la
distribucin. En este caso, el total de elementos de la distribucin condicionada ser la
suma de la segunda columna, es decir:
k
n j =
nl j
l=1
ni j
N
n j
N
fi j
f j
63
Es evidente que la suma de todas la frecuencias relativas valdr la unidad, como podr comprobar el lector. Tambin resulta claro que se puede obtener tantas distribuciones
condicionadas de X como modalidades de Y , es decir, como columnas de la tabla bidimensional, m.
n j|i
..
.
f j|i = ni j /ni
..
.
ym
nm|i
ni =
nil
l=1
ni j
N
ni
N
fi j
fi
Tendremos tantas distribuciones condicionadas del carcter Y como filas tiene la tabla,
es decir, k.
Aunque la distribucin conjunta es la que contiene toda la informacin sobre las dos
variables, veremos en el siguiente apartado, que las distribuciones condicionadas resultan
muy tiles para estudiar la relacin entre las variables.
Un caso muy importante es aqul en que las distribuciones de una variable condicionada por los diferentes valores de la otra, son iguales y coincidentes con los de la
distribucin marginal. Esto refleja la ausencia de relacin entre las variables y, en ese
caso, se dice que las variables son independientes.
64
Distribuciones Bidimensionales
Edad X
Un gabinete de apoyo ha estado trabajando con un grupo de 80 nios con deficiencias auditivas por lo que han hecho un anlisis de los avances conseguidos. Para ello
han puntuado este avance en cada uno mediante una escala de 0 a 10. Los resultados
estn reflejados en la tabla:
2-5
6-8
9-12
n j
Puntuacin Y
0-3 4-7 8-10
7
11
14
2
12
10
10 10
4
19 33
28
ni
32
24
24
80
n1| j
7
11
14
32
f j|1
0.21875
0.34375
0.43750
1
De este grupo de nios, casi la mitad, 43,75 %, han hecho grandes progresos ya que
tienen una puntuacin entre 8 y 10.
La distribucin de X condicionada a Y = 0 3 es la siguiente:
X |Y = 0 3
2-5
6-8
9-12
ni|1
7
2
10
19
fi|1
0.3684
0.1053
0.5263
1
Hay que destacar el grupo de edad 9-12, ya que cuenta con un mayor porcentaje,
52,63 %, dentro del grupo de nios con menor puntuacin.
65
(i, j) se verifica:
fi j = fi f j
Demostracin. Supongamos primero que las variables X e Y son independientes. La definicin de independencia estadstica significa que todas distribuciones condicionadas, por
ejemplo, de la variable Y a los posibles valores de la variable X , coinciden. La tabla 4.8
muestra todas las distribuciones condicionadas de la variable Y a los valores de la variable
X:
Y |X
x1
x2
x3
..
.
y1
f11 / f1
f21 / f2
f31 / f3
..
.
y2
f12 / f1
f22 / f2
f32 / f3
..
.
..
.
yj
f1 j / f1
f2 j / f2
f3 j / f3
..
.
..
.
ym
f1m / f1
f2m / f2
f3m / f3
..
.
xi
..
.
fi1 / fi
..
.
fi2 / fi
..
.
..
.
fi j / fi
..
.
..
.
fim / fi
..
.
xk
fk1 / fk
fk2 / fk
fk j / fk
fkm / fk
1
1
1
1
1
1
1
Si existe independencia estadstica, todas las filas que representan las frecuencias condicionadas, han de ser iguales, es decir, para cualquier (i, j) se debe verificar:
fi j / fi = fh j / fh para i 6= h
Por una propiedad de las proporciones:
fh j h fh j
fi j
f j
=
=
= f j
=
fi
fh
1
h fh
se ha obtenido que para cualquier i, j se verifica que
fi j = fi f j para todo i, j
en trminos de frecuencias absolutas:
ni n j
ni j ni n j
=
ni j =
para todo i, j
N
N N
N
Veamos que el recproco tambin es cierto; supongamos que se da la igualdad anterior
para cualquier i, j. Despejando:
fi j
= fi
f j
66
Distribuciones Bidimensionales
y1
3
6
12
21
y2
5
10
20
35
y3
2
4
8
14
y4
4
8
16
28
ni
14
28
56
98
y1
3/21 = 1/7
6/21 = 2/7
12/21 = 4/7
1
y2
5/35 = 1/7
10/35 = 2/7
20/35 = 4/7
1
y3
2/14 = 1/7
4/14 = 2/7
8/14 = 4/7
1
y4
4/28 = 1/7
8/28 = 2/7
16/28=4/7
1
4.5.1. Media
La media para la distribucin condicionada de Y a xi viene dada por:
m
y j ni j
Yi =
= y j f j|i
ni
La relacin entre la media de la distribucin marginal y Y y las medias de las distribuciones condicionadas:
k
Y = fiYi
i
67
tiene por media precisamente a Y , es decir la media de la distribucin marginal del carcter
Y.
De modo anlogo obtendramos que la distribucin de frecuencias generadas por la
variable estadstica construida con las medias del carcter X , condicionadas por los y j con
j = 1, 2, . . ., m y las frecuencias marginales n j , es decir, la distribucin de frecuencias
unidimensional:
X j ; n j j=1,2,...,m
tiene por media precisamente a X, es decir la media de la distribucin marginal del carcter X .
4.5.2. Varianza
La varianza de la variable Y condicionada a xi , que notaremos con Vari (Y ) viene dada
por:
k
Vari (Y ) =
(y j Yi )2ni j
j
ni
= (y j Yi )2 f j|i
j
Var(Y ) = Vari fi + Yi Y
i
2
fi
1.
2.
Yi Y
2
fi que es la varianza de la distribucin (Yi ; ni ) i=1,2,...,m
2.
Xj X
2
f j que es la varianza de la distribucin (X j ; n j ) j=1,2,...,k
68
Distribuciones Bidimensionales
valores son pares de nmeros reales de la forma (xi , y j ) pudiendo representar estos pares
ordenados sobre un sistema de ejes cartesianos, con lo que se obtiene un conjunto de
puntos en el plano. A este conjunto de puntos se le denomina diagrama de dispersin o
nube de puntos.
Hemos de tener en cuenta que como el par (xi , y j ) tiene una frecuencia ni j, que en
muchos casos superar la unidad, entonces un punto puede ser la concentracin de ni j
puntos. Cuando las frecuencias no son muy altas, se suele representar todos los ni j puntos
alrededor del punto (xi , y j ). A veces, lo que se hace es representar pequeos crculos cuyas
reas, ms o menos grandes, reflejan las frecuencias correspondientes, ms o menos altas.
En Anlisis Exploratorio de Datos, recive el nombre de scattergram y a veces utiliza
un procedimiento mixto, con el que se seala con puntos los pares de valores bidimensionales cuyas frecuencias son iguales a 1, y cuando stas son distintas de uno, se representa
el par ordenado en el plano, en lugar de con un punto, con un nmero que coincide con la
frecuencia correspondiente.
y
7
6
5
4
3
2
1
0
b
b
x
0 1 2 3 4 5 6 7
Figura 4.1: Nube de Puntos
4.7. Asociacin
El estudio de las tablas de contingencia (ver seccin 4.1) se centra fundamentalmente
en la bsqueda de asociaciones. Un libro muy interesante es [9], donde el autor expone
una serie de reglas y orientaciones metodolgicas para el anlisis de las tablas. Seala
algunas recomendaciones para efectuar el clculo de los porcentajes:
Si suponemos que podemos distinguir en los caracteres entre el factor influyente y el influido, es decir, entre la variable independiente y la dependiente,
debemos computar los porcentajes en la direccin del factor influyente.
Esto equivale a decir que la lgica a seguir es determinar siempre las condicionadas
de la variable dependiente por los distintos valores de la variable independiente.
Normalmente, empezaremos por interesarnos por un carcter cualquiera al que llamaremos variable dependiente en nuestro estudio, e intentaremos ir explicndolo, teniendo
en cuenta las relaciones que se establecen entre sta y otras variables, que podemos llamar
independientes.
Hay que tener en cuenta que las variables independientes, en cuyas asociaciones estamos interesados, son seleccionadas de forma que tenga algn sentido, desde el punto de
vista terico, considerarlas conjuntamente con la variable dependiente. No existe ninguna
69
4.7 Asociacin
regla o criterio objetivo invariable que nos indique qu variables debemos seleccionar;
el mejor o peor resultado del anlisis que llevemos a cabo vendr dado en funcin de la
mejor o peor seleccin que hagamos de dichos factores.
La independencia estadstica se deduca cuando las distribuciones condicionadas coincidan. Pero en la prctica es una situacin que raramente se da. Nos conformamos con
algn criterio que nos diga si las distribuciones se acercan o se diferencian entre s, para
poder hablar de dependencia o no de las variables.
Una respuesta objetiva la tiene la estadstica inferencial que establece si son o no
significativas las diferencias halladas entre las distribuciones condicionadas.
Existe un gran nmero de coeficientes o indicadores que nos proporcionan medidas
de la asociacin, sealaremos los ms simples.
n
i
j
i
j
2 =
ti j
i, j
Para su clculo se determinan la frecuencias tericas de cada casilla de la tabla, que son
los valores que hubiramos obtenido para cada una de las modalidades de la distribucin
bidimensional, si los caracteres fuesen independientes. En este caso el valor que toman
es:
ni n j
ti j =
para todo valor de i, j
N
En la medida en que los valores frecuenciales observados en la tabla (ni j ) se alejen o
acerquen a esos valores tericos, estaremos en condiciones de admitir o no, que existe
asociacin entre las variables. En el caso de que las variables sean independientes, las
frecuencias ni j coincidirn con las tericas ti j y el coeficiente ser cero.
El inconveniente es que ste coeficiente depende del tamao de la poblacin y que si
multiplicamos por una constante las casillas de la tabla, el coeficiente queda multiplicado
por la misma constante.
C=
2
N + 2
Tambin se anula si las variables son independientes. El valor mximo que alcanza, la
mxima asociacin es:
r
c1
donde c = min{k, m}
c
70
Distribuciones Bidimensionales
2
(k 1)(m 1)
Este coeficiente tiene la ventaja respecto de los dos anteriores de que vara entre 0 y
1, aunque alcanza el valor mximo 1 slo en tablas cuadradas (k = m); cunto ms se
acerque a 1, mayor es la asociacin.
Ahorro Y
10-40
40-70
70-100
Totales
Edad X
18-30 30-50 50-65
10
1
2
3
7
8
2
2
15
15
10
25
Totales
13
18
19
50
Ahorro Y
Comprobemos la asociacin entre la edad y el ahorro mensual mediante los tres coeficientes de asociacin:
Coeficiente Chi-Cuadrado: Realizamos la tabla de frecuencias tericas ti j :
ti j
10-40
40-70
70-100
Edad X
18-30 30-50
3.9
2.6
5.4
3.6
5.7
3.8
50-65
6.5
9.0
9.5
2 =
ij
(ti j ni j )2
= 24,4685
ti j
31
= 0,8165 podemos concluir que existe alguna asociacin
3
entre edad y ahorro.
Coeficiente T de Tschuprow:
Como 0 C
T=
24,4685
2
= p
0,2447
(k 1)(m 1) 50 (3 1)(3 1)
Captulo
Regresin y Correlacin
la lnea del libro, el objetivo de este captulo ser el estudio de dos caracteres simultneamente. Analizamos el comportamiento conjunto de dos variables y las
relaciones entre ellas desde una nueva perspectiva. Anteriormente nos interesbamos por
el manejo e interpretacin de las frecuencias, ahora nuestro inters se centra en el hecho
de ser numricas las modalidades que presentan los caracteres; es decir, por el tratamiento
estadstico descriptivo de caracteres. [6]
IGUIENDO
72
Regresin y Correlacin
produccin ms altos, por lo que esperamos que el consumo energtico sea tambin ms
alto. Ahora bien, no existe una funcin matemtica que de forma exacta nos diga que a
una renta dada corresponde de un modo unvoco una tasa de consumo energtico, pero s
podemos observar una relacin entre ellas.
De forma genrica, si llamamos X a una de las variables e Y a la otra, buscamos una
funcin f que nos permita expresar los valores de Y en funcin de los de X (o viceversa):
Y = f (X )
Si nos fijamos en los ejemplos citados con anterioridad, observamos que los dos ltimos
presentan una relacin de naturaleza especial. Los valores obtenidos para una de las variables quedan perfectamente determinados al conocer los valores en al otra. Podramos
denominar a esta relacin determinista. Aqu s podemos encontrar una funcin que enlace esas variables unvocamente:
Espacio=Velocidad60
rea=ladolado
Y = 60X
Y = X2
En los dems ejemplos propuestos, no podemos afirmar que a cada valor en una de las
variables corresponde de manera unvoca uno en la otra. Por ejemplo, para un valor de
la renta dado, podemos tener un conjunto de pases con consumos de energa diferentes;
pero es fcil pensar que la distribucin de esas tasas de consumo energtico, condicionadas a la renta, diferir de la distribucin del total; pensamos que el comportamiento
de la distribucin condicionada del consumo energtico, presentar una forma particular
que diferir de la distribucin del total de pases. No podremos, por tanto, encontrar una
funcin que ligue de manera exacta esos fenmenos. En regresin sustituiremos la distribucin condicionada de una de las variables por cada valor de la otra, por su media
(u otro estadstico de posicin). Esta sustitucin ser ms razonable cuanto menor se la
variabilidad de la distribucin.
con lo que obtenemos una lnea representada en el grfico siguiente, y que nos indica las
distribuciones de la variable Y condicionadas por los valores de la variable X .
Y
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
X
Figura 5.1: Lnea de regresin de Y sobre X
73
De modo anlogo denominamos la lnea o curva de regresin de X sobre Y a la representacin grfica del conjunto de puntos
{(x j , y j )} j=1,2,...,m
Grficamente:
Y
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
X
Figura 5.2: Lnea de regresin de X sobre Y
74
Regresin y Correlacin
Y
Y
X
Figura 5.3: Curva de Regresin Variables Independientes Y respecto X
Anlogamente todos los puntos {(X j , y j )} j=1,2,...,m tienen la misma abscisa por ser
X j = X para todo j = 1, 2, . . ., m.
Grficamente la curva de regresin de X respecto de Y es una recta paralela al eje OY
que pasa por X :
Y
X
X
Figura 5.4: Curva de Regresin Variables Independientes X respecto Y
75
(xi , y j )
yj
b
b
b
b
xi
cuyo punto genrico (xi , y j ) tiene asociado una frecuencia ni j . En Anlisis Matemtico
nuestro problema se traduce en la bsqueda de la funcin que mejor se adapte a la nube
de puntos aceptando algn criterio. Es evidente que son infinitas las funciones que se
adapten a dicha nube de puntos.
Adoptemos, para elegir slo una de esas funciones, el llamado criterio de mnimos
cuadrados de Y respecto de X , que toma aquella funcin y = h(x) que haba mnima la
media de la variable estadstica:
[Y h(X )]2
ij
2
fi j
[y j h(xi )]2 = fi f j|i [y j h(xi )]2 =
fi
ij
= fi f j|i (y j Yi ) + 2(y j Yi )(Yi h(xi )) + (Yi h(xi ))2 =
i
Para que tome el menor valor posible ha de ser cero el segundo sumando de la
expresin anterior, dado que el primer sumando depende de la distribucin de frecuencias
76
Regresin y Correlacin
fi(Yi h(xi))2 = 0
i
Para que esa expresin sea cero, ha de ocurrir que Yi = h(xi ) para todo i = 1, 2, . . ., k. Por
tanto la funcin h de mnimos cuadrados es precisamente la CURVA DE REGRESIN. Este
resultado, es desde luego muy interesante, pero nada prctico. La curva de regresin es la
mejor funcin que podemos elegir (desde el punto de vista de los mnimos cuadrados) para
representar el comportamiento de la relacin de Y respecto de X . Seguimos disponiendo
en la prctica de un nmero infinito de puntos. De paso hemos encontrado que:
min() = fiVari (Y )
i
5.2.2. Residuos
A las diferencias entre ordenadas de los puntos (xi , y j ) de la nube y las ordenadas sobre
la curva de regresin las vamos a llamar residuos. Los denotaremos de modo general por:
ei j = y j h(xi )
y su interpretacin grfica: La curva de regresin o curva de mnimos cuadrados es por
Y
h(xi )
(xi , h(xi ))
b
ei j
yj
(xi , y j )
xi
77
b
b
b
b
X
Figura 5.7: Relacin Lineal entre X e Y
Sea por una u otra causa, es sumamente interesante determinar la recta de mnimos
cuadrados o recta de regresin mnimo-cuadrada.
En otras ocasiones, la nube de puntos no nos inspira una relacin de tipo lineal, sino
otras relaciones funcionales que podemos determinar directamente o bien por procesos de
clculo que permiten linealizar dicha relacin:
b
78
Regresin y Correlacin
ni = N
i=1
Con esta notacin yi sera la ordenada de xi en la nube de puntos e yi la ordenada correspondiente a xi sobre la recta de mnimos cuadrados, supuesta conocida:
yi = a + b xi
Y
b
yj
yi
b
Y=a+bX
b
b
xi
Figura 5.9: Recta de Mnimos Cuadrados
2 k
1
=
n
(y
(a
+
bx
))
(ni yi ni a ni bxi )
i
i
i
N i=1
a a N i=1
b = b
1
ni (yi (a + bxi ))2
N i=1
2 k
i=1 (ni xi yi ni xi a ni bx2i )
N
k
k
k
k
n
y
a
n
=
b
(n
y
n
a
n
bx
)
=
0
i i i nixi
ii i i i
i=1
N i=1
i=1
i=1
=
k
k
k
k
(n
x
y
n
x
a
n
bx
)
=
0
n
x
y
a
n
x
=
b
i
i
i
i
i
i
i
i
i
i
i
nix2i
i
N
i=1
i=1
i=1
i=1
79
Aparece un sistema lineal de dos ecuaciones con dos incgnitas a y b que nos proporciona la solucin que hace mnima . La solucin del sistema anterior la podemos
determinar, por ejemplo, despejando a en la primera ecuacin y sustituyendo su valor en
la segunda:
k
niyi a ni = b nixi
i=1
i=1
i=1
Dividiendo por N:
Y a = bX = Y = a + bX
Vemos que el punto (X,Y ) verifica la ecuacin de la recta Y = a + bX , y de aqu despejamos a, que es el valor de la ordenada en el origen:
a = Y bX
Sustituimos el valor de a en la segunda ecuacin:
k
nixiyi
i=1
Y bX
Dividiendo por N:
i=1
i=1
nixi b nix2i = 0
#
"
k
1 k
1
1 k
nixiyi Y X b N nix2i X N nixi = 0
N i=1
i=1
i=1
1 k
ni xi yi Y X la notaremos con el smbolo Cov(XY), que representa
N i=1
un estadstico denominado covarianza, que se desarrollar ms adelante; lo que aparece
entre corchetes es la varianza de la variable X .
Por tanto: Cov(XY ) = bVar(X ) y podemos despejar el valor de la pendiente b, llamado
tambin coeficiente de regresin de Y sobre X:
A la expresin
b=
Cov(XY )
Var(X )
80
Regresin y Correlacin
Parte II
Probabilidad
Captulo
Combinatoria
el clculo de Probabilidades se requiere frecuentemente el uso de resultados procedentes de otros campos de la Matemtica. La Combinatoria puede ser un auxiliar til
para resolver problemas que plantea la definicin clsica de Probabilidad.
El anlisis combinatorio o Combinatoria se puede considerar fundado por Jacobo Bernuilli en su Ars Conjectandi (1713), aunque con anterioridad Tartaglia (1500-1557) ya
haba esforzado la frmula del binomio que, ms tarde, fue generalizado por Newton
(1642-1727) para exponentes no enteros. Tambin Pascal (1623-1662) y Leibniz (16461726) tuvieron aportaciones importantes al Anlisis Combinatorio, con el tringulo de
Pascal y la Frmula de Leibniz para potencias de un polinomio.
En los primeros aos del siglo XIX adquiere gran preponderancia con Hindenburg,
Kramp, Ettinghausen y modernamente, han reanudado estos estudios la escuela inglesa,
teniendo como principales representantes a Muir y Mac Mahon.
El anlisis combinatorio se ocupa de la ordenacin de los objetos dentro de un conjunto. En este sentido nos facilitar mtodos que sern tiles para determinar el nmero de
resultados posibles de un experimento. Veamos brevemente las frmulas combinatorias.
N
Supongamos el conjunto formado por los tres elementos siguientes: {a, b, c}. Las
variaciones sin repeticin de los tres elementos (n = 3) tomados de dos en dos (m = 2)
sern: ab, ba, ac, ca, bc, cb. Es decir, tenemos 6 formas de combinar estos elementos.
Si aplicamos la expresin para calcular el nmero de variaciones sin repeticin:
V32 = 3 2 = 6
84
Combinatoria
m!
a! b! . . .r!
85
Las permutaciones con repeticin que se pueden formar con los elementos a, a, b, b
sern: aabb, abab, abba, baba, bbaa, baab. Aplicando la frmula:
P42,2 =
4!
24 24
=
=6
2! 2! 2 2 4
Estos nmeros intervienen en la frmula de Leibniz para el desarrollo de una potencia de una suma:
(a1 + a2 + + am )n =
n!
a1 1 a2 2 amm
1 +2 ++m =n 1 !2 ! m !
n!
m! (n m)!
n
es
Matemticamente, a este nmero se le llama n sobre m y se representa como
m
decir
n!
n
=
m
m! (n m)!
Por tanto, el nmero de combinaciones sin repeticin se escribe:
n!
n
m
=
Cn =
m! (n m)!
m
En el ejemplo que venimos estudiando, las combinaciones si repeticin de los 3 elementos tomados de dos en dos sern: ab, bc, ac (en este caso no se tiene en cuenta el
orden por lo que ab = ba). Aplicando la frmula:
6
6
3!
3
2
=
= =3
=
C3 =
2! 1! 2 1 2
2
Estos nmeros combinatorios intervienen en la frmula de Newton para el desarrollo
de una potencia de un binomio:
n
n nk k
n
(a + b) =
a b
k=0 k
86
Combinatoria
Veamos cuntas combinaciones con repeticin obtenemos con los tres elementos tomados en subconjuntos de dos: aa, bb, cc, ab, bc, ac. Utilicemos la frmula:
24
24
4!
4
2+31
2
=
=
=6
=
=
CR3 =
2! 2! 2 2
4
2
2
No Combinaciones
Importa
No
el
Orden? S Variaciones
Se
puede
repetir
los
elementos?
Importa
S
el
Orden?
todos
los elementos
Ejercicios
6.1
Comprueba la frmula
6.2
Comprueba la frmula
n
n
=
nm
m
m+1
m
m
=
+
n
n1
n
6.3
Establece la frmula
n+k
n+k1
n+1
n
=
++
+
n+1
n
n
n
6.4
6.5
87
n
n
n
= 2n
++
+
n
1
0
n
n
n n
=0
+ + (1)
n
1
0
Demuestra que
m1
m
Si 0 n m
= m
(m n)
n
n
6.6
6.7
6.9 Dos amigos estn en al cola de entrada de una restaurante autoservicio. Sabiendo
que la cola comprende n personas alineadas, cuntos casos posibles hay? Cuntos
casos hay exactamente de que estn separados por r personas? (se admite para que
cada uno de ellos, todas las posiciones son igualmente probables).
6.10
6.11 En una empresa hay un comit de empresa que tiene 5 delegados de personal y
4 personas de la direccin. De cuntas maneras se puede formar un subcomit que
tenga 3 delegados de personal y 2 miembros de la direccin?
6.12
88
Combinatoria
6.17 17 caballos estn en la salida de un gran premio. Cuntas formas hay de apostar
a los 3 primeros caballos?
6.20 Sobre 20 personas, 10 leen una revista A, 8 leen una revista B y 3 leen las dos
revistas. De cuntas maneras se pueden elegir 5 personas entre las 20 si:
1. Cada una de las 5 personas lee por lo menos una revista?
2. 3 de entre ellas leen la revista A, los otras 2 leen la revista B, leyendo cada una
de ellas una sola revista?
3. 3 de entre ellas, por lo menos, leen la revista A?
6.21 Una asociacin con 20 socios, de los cuales 12 son hombres y 8 mujeres, desea
formar un comit de 5 personas, en el que debe haber al menos 2 hombres y 2
mujeres. Calcula de cuntas maneras se puede formar el comit en cada uno de los
casos siguientes:
1. Cada miembro de la asociacin acepta formar parte del comit.
2. Dos de los hombres se niegan a formar parte de l.
6.23
Una caja contiene tres bolas blancas, dos negras y una roja. De cuntas formas
se pueden elegir cinco bolas, con la condicin de que haya bolas de los tres colores?
6.15
Captulo
Probabilidad
t=
2h
s
g
O la cantidad de agua que se obtiene al mezclar oxgeno e hidrgeno y hacer saltar una
chispa elctrica:
2H2 + O2 2H2 O
Ahora bien, el concepto de probabilidad tiene que ver con los diferentes resultados que
podran ocurrir al observar un fenmeno. El Azar juega un papel importante en nuestra
vidas y todos tenemos una idea ms o menos vaga o intuitiva de sus caractersticas. Generalmente, hemos adquirido esta intuicin a travs de experiencias como las apuestas, las
loteras, la respuesta de una persona encuestada sobre su opinin en cierto asunto, o el posible grupo sanguneo del futuro descendiente de una pareja. Nuestro objetivo es estudiar
de manera cientfica el azar a partir de los fenmenos aleatorios, de estudiar los diferentes
resultados que podran ocurrir. Diremos que un fenmeno es aleatorio si sus resultados
son impredecibles, en el sentido de que no podemos conocer de antemano cul ser el
resultado concreto que tendr lugar en la realizacin del mismo. Un ejemplo lo tenemos
al observar la cara que resulta de lanzar una moneda: cara o cruz. Esta imprecisin de
los resultados nos lleva a plantearnos el problema de la medida de la incertidumbre que
encierran estos fenmenos y al inters en evaluarla numricamente.
Con el trmino probabilidad pretendemos resolver estas deficiencias mediante un intento de expresar de manera objetiva y precisa el grado de ocurrencia de ciertos resultados
de un fenmeno aleatorio. A partir de aqu, se intenta buscar unas reglas que describan
el comportamiento de las realizaciones o resultados ligados a un fenmeno aleatorio, que
veremos ms adelante.
90
Probabilidad
a
b
g
Suceso A = {a, b, d}
d
c Suceso Elemental
B = {c}
91
(7.1)
(7.2)
NOTA: Si tiene N elementos, entonces P() tiene 2N elementos, entre los que se
contabilizan el conjunto vaco (0)
/ y el suceso seguro ().
(7.3)
(7.4)
O equivalentemente:
A = B si y slo si A B y B A
(7.5)
92
Probabilidad
=Espacio Muestral
f
a
b
Suceso A = {a, b, d}
d
c Suceso Elemental
B = {c}
A B={a,b,d,c}
2. Interseccin(A B)
Definimos el suceso interseccin de los sucesos A y B como un nuevo suceso que
notaremos A B formado por los sucesos elementales que estn a la vez en A y en
B. Ocurre por la realizacin simultnea de A y B.
A B = {x : x A y x B}
(7.6)
Por ejemplo, obtengamos la interseccin de los sucesos A y B anteriormente definidos; A B=obtener un nmero par y que sea menor que 4={2}.
=Espacio Muestral
Suceso A
f
a
g
Suceso B
e
c
b
A B = {c}
3. Complementacin (A)
Dado un suceso A, definimos el complementario o contrario de dicho suceso, como
el formado por todos los sucesos elementales del espacio muestral que no estn en
A. Dos sucesos se denominan contrarios si siempre que se realiza uno de ellos, no
se realiza el otro y recprocamente.
A = {x : x
/ A}
(7.7)
Por ejemplo, en el fenmeno de lanzar un dado, si consideramos A=obtener un nmero par, el suceso complementario de A ser A=obtener un nmero impar={1,3,5}
93
=Espacio Muestral
f
Suceso A
e
c
g
b
A = {d, e, f , g}
4. Diferencia de sucesos (A B)
Dado dos sucesos A Y B, definimos la diferencia de los sucesos A y B, A B, como
un nuevo suceso formado por los sucesos elementales de A que no estn en B. Se
denomina diferencia de sucesos cuando al realizar uno de ellos, no se realiza el otro.
A B = {x : x A y x
/ B} = A B
=Espacio Muestral
Suceso A
f
a
g
(7.8)
Suceso B
e
c
b
A B = {a, b}
5. Diferencia simtrica (A B)
Dados dos sucesos A y B, definimos la diferencia simtrica de los sucesos A y B,
A B, como un nuevo suceso formado por la unin de los sucesos elementales de
A que no estn en B y los sucesos elementales de B que no estn en A. Se denomina
diferencia simtrica de dos sucesos cuando al ocurrir uno de ellos no ocurre el otro
y viceversa.
A B = (A B) (B A) = {x : x A y x
/ B xB y x
/ A}
(7.9)
94
Probabilidad
=Espacio Muestral
Suceso A
f
a
Suceso B
e
g
b
A B = {a, b, e, d}
a
c
g
b
A B = 0/
Ejercicios
7.1
Propn tres ejemplos de experimento aleatorio. Escribe los correspondientes espacios muestrales y enuncia dos sucesos que correspondan a cada uno de los experimentos.
7.2
7.3
7.4
7.5
7.6
7.7
7.8
95
96
Probabilidad
7.9
Se lanzan dos dados. Construye el espacio muestral asociado y escribe los elementos de los sucesos A =obtener un cinco slo en uno de los dados, B =la suma de
las puntuaciones es a lo sumo 3, C =obtener a lo sumo un cinco y D =obtener
al
menos un cinco
7.10 Se lanzan simultneamente un dado y una moneda. Construye el espacio muestral asociado y escribe los elementos de los sucesos A =el nmero del dado es
mayor que 3 y la moneda es cara y B =en la moneda sale cruz
97
Al realizar el experimento de lanzar sucesivamente una moneda equilibrada un nmero grande de veces, puede verse empricamente que la frecuencia de aparicin del
suceso salir cara tiende a estabilizarse alrededor del valor 0, 5. En la figura aparecen los diagramas de barras de la distribucin de frecuencias correspondientes a la
repeticin del experimento 50 (a), 100 (b), 500 (c) y 2000 (d) veces, respectivamente.
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0
(a)
(c)
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0
(b)
(d)
Es claro que, tanto la frecuencia relativa del suceso sale cara como la frecuencia
relativa del suceso sale cruz, se acercan al valor 0, 5. Por lo tanto, es razonable
asignar la probabilidad 0, 5 a cada uno de los sucesos.
98
Probabilidad
+
[
i=1
Ai A
3. 0/ A
P() = 1
3. Dados A1 , A2 , . . . , An , . . . sucesos incompatibles, se verifica que la probabilidad de
la unin es igual a la suma de las probabilidades de los sucesos:
P(
+
[
i=1
A1 ) = P(Ai )
i=1
99
Toda aplicacin que cumpla esos axiomas (propiedades que se admiten por definicin, y
por tanto, no necesitan demostracin), es una probabilidad definida sobre el lgebra de
sucesos A . Se denomina espacio de probabilidad a la terna (, A , P)
Ejemplo Espacio de Probabilidad
Se lanza al aire un dado cargado, de tal forma que las probabilidades de aparicin
de un resultado no son iguales, sino que:
P(1)=0,2
P(2)=0,05
P(3)=0,3
P(4)=0,15
P(5)=0,2
P(6)=0,1
P(A C) = P(4, 6) = 0, 25
P(A) = P(1, 3, 5) = P(B) = 0, 7
100
Probabilidad
aleatorio:
P(A) =
No de casos favorables NA
=
No de casos posibles
N
Ejemplo Probabilidad Clsica
Observamos que la frecuencia relativa correspondiente al nacimiento de nios y nias tiende a estabilizarse hacia un valor fijo; se observa empricamente (observando
las estadsticas de nacimientos) que nacen 105 nios por cada 100 nias aproximadamente. Tomamos como probabilidad de nacimiento de una nia la frecuencia de
nias respecto del total:
P(nia) =
100
0,4878
205
101
A partir de los axiomas pueden deducirse otras propiedades, que se deja la demostracin al lector:
1. P(A) = 1 P(A)
2. P(0)
/ =0
3. P(A B) = P(A) + P(B) P(A B)
4. Si A B entonces P(A) P(B)
5. P(A) 1
1
Para i = 1, 2, 3, . . .N
N
Ejemplo Elegir un objeto
En una baraja espaola, la probabilidad de que al extraer una carta al azar resulte
as de oros es
1
P(as de oros) =
40
102
Probabilidad
En una baraja espaola, la probabilidad de que al extraer al azar dos cartas simultneamente resulte as de oros y rey de bastos es:
P(as de oros y rey de bastos) =
1
1
1
=
=
40 39
40
780
21
2
1
4321
1
=
=
40
40 39 38 37 91390
4
1
N2
103
1
1
=
2
40
1600
Sin reemplazamiento
Se elige un objeto, se anota, y no se devuelve a la coleccin; a continuacin se elige
el segundo objeto.
Se estn formando pares ordenados (ai , a j ) (variaciones sin repeticin) de elementos
del conjunto A en los que la segunda componente ha de ser distinta de la primera. El
nmero de tales pares es VN,2 = N (N 1).
Supuesto elegido al azar, la probabilidad de cada uno de esos pares ordenados es
P((ai , a j )) =
1
N (N 1)
Ejemplo Eleccin sin reemplazamiento
1
1
=
40 39 1560
1
Nk
104
Probabilidad
1
1
=
403 64000
Sin reemplazamiento
Se elige un objeto, se anota, y no se devuelve a la coleccin; a continuacin se elige
el segundo objeto, se anota y no se devuelve a la coleccin, y as hasta tener los k objetos.
Se estn formando k-plas ordenadas (ai1 , ai2 , . . ., aik ) (variaciones sin repeticin de
orden k) de elemento de A en las que las componentes son todas distintas. El nmero de
k f actores
}|
{
z
tales k-plas es VN,k = N (N 1) . . . (N k + 1).
Supuesto cogido al azar, la probabilidad de cada una de esas k-plas ordenadas es
P((ai1 , ai2 , . . . , aik )) =
1
N (N 1) . . . (N k + 1)
1
1
=
40 39 38 59280
Tiene sentido preguntarse por P((as de oros, as de oros, rey de espadas)) = P(0)
/ =0
Ejercicios
7.11
7.12
7.13
7.14
105
Se lanzan simultneamente dos dados, con las caras numeradas del 1 al 6. Describe el espacio muestral y la probabilidad de los sucesos elementales. Si la letra
representa la suma de los puntos obtenidos en un lanzamiento, calcula la probabilidad de que sea menor que 7.
7.15 Sean A, B y C tres sucesos y P una probabilidad tal que P(A) = 0, 4, P(B) = 0, 5,
P(C) = 0, 7, P(A B) = 0, 2, P(A C) = 0, 2, P(B C) = 0, 3, P(A B C) = 0, 1.
Determina la probabilidad de que se realicen al menos dos de ellos.
7.16
7.17
P(A B)
P(A B)
P(A B)
P(A B)
Se considera un dado cargado. Las probabilidades de cada cara en un lanzamiento son inversamente proporcionales al nmero que aparece. Se pide:
1. Probabilidad de que en un lanzamiento salga impar.
2. Probabilidad de que salga inferior a cuatro.
7.18
7.19 En una urna hay 4 monedas de 1 euro y 3 monedas de 2 euros. Se sacan al azar
dos monedas sucesivamente y sin devolucin.
1. Describe el espacio muestral correspondiente.
2. Calcula la probabilidad de que se obtengan en total 4 euros al sacar dichas dos
monedas.
7.20
Se realiza un experimento consistente en sacar dos bolas de una urna que contiene 5 bolas blancas, 3 bolas verdes y 4 bolas negras. Escribe el espacio muestral
asociado a esta experiencia y define una probabilidad asociada. Calcula la probabilidad de los siguientes sucesos:
1. Obtener dos bolas del mismo color.
2. Obtener al menos una bola blanca.
7.21
7.22 Se consideran todos los nmeros de tres cifras del sistema de numeracin decimal. Cul es la probabilidad de que al elegir uno de ellos, sus tres cifras sean un
tro pitagrico?
106
Probabilidad
7.25
La probabilidad de que un alumno matriculado en primer curso termine Bachillerato es 0, 4. Halla la probabilidad de que, de cuatro amigos que estn en primer
curso:
1. Al menos uno termine Bachillerato.
2. A lo ms dos terminen Bachillerato.
3. Slo termine uno.
4. Terminen todos
7.26 Qu es ms probable, apostar a obtener un seis doble en veinticuatro lanzamientos de dos dados o hacerlo a obtener un seis en cuatro lanzamientos de un dado?
(Problema del Caballero de Mr)
7.28 Una persona recibe al azar 5 cartas de una baraja espaola de 40. Escribe de
modo abreviado, un espacio muestral asociado a esta experiencia y define una probabilidad asociada. Halla las probabilidades de los siguientes sucesos:
1. Obtener al menos un rey y una sota.
2. Obtener 3 cartas de bastos y el rey de copas.
q
con n N y q R
5n
Determina el valor se q para que P sea una probabilidad en P(N) y halla la probabilidad del suceso A = {n N : n impar }
7.31 El intervalo real [1, +) se considera como espacio muestral y se define la funcin
Z x
1
dt con x [1, +)
P([1, x]) =
2
1 t
Es una funcin de probabilidad en ese intervalo?
7.32
Captulo
Probabilidad Condicionada
P(C) =
NC
N
En cambio, una vez que se sabe, por ejemplo, que la persona seleccionada es mujer, la
probabilidad de que consuman el producto condicionada a que es mujer, se obtiene como
P(C|M) =
NCM
NM
es decir, como el cociente entre los casos favorables NCM (mujeres que consumen el producto) y NM , que es, ahora, el nmero de casos posibles, una vez que hemos incorporado
la informacin de que la persona encuestada es mujer. Si dividimos por N en el numerador
y denominador, queda:
P(C/M) =
NCM
=
NM
NCM
N
NM
N
P(C N)
P(M)
P(A B)
P(B)
108
Probabilidad Condicionada
Estas igualdades nos permiten expresar la probabilidad del suceso A B en funcin de las
probabilidades condicionadas:
P(A B) = P(A) P(B/A) = P(B) P(A/B)
Se sabe por experiencia, que la probabilidad de que un individuo contraiga la enfermedad A es de 0, 08, de que contraiga B es 0, 04 y de que sufra ambas enfermedades
es 0, 01. Veamos cul es la probabilidad de que cualquier individuo elegido al azar,
contraiga la enfermedad B si ya ha padecido anteriormente la A:
P(B/A) =
P(A B) 0, 01 1
=
=
P(A)
0, 08 8
PA (B) = P(B/A)
es una probabilidad sobre .
Demostracin.
1. Para todo suceso B se tiene que P(B A) 0 y por tanto
PA = P(B/A) =
P(B A)
0
P(A)
P(( A) P(A)
=
= 1.
P(A)
P(A)
3. Sean B y C dos sucesos incompatibles (B C = 0)
/ se tiene
2. PA () = P(/A) =
PA (BC) =
109
De una baraja espaola se extraen dos cartas al azar. Cul es la probabilidad del
suceso A =las dos cartas son ases?
Se puede enfocar de varias maneras:
1. Si las dos cartas se extraen simultneamente. Se est extrayendo un subconjunto {ci , c j } con ci6=c j de dos elementos del espacio muestral = {c1 , c2 , . . . , c40 }
de las cuarenta cartas de la baraja espaola. Como hay cuatro ases, los casos
favorables al suceso A son combinaciones de cuatro elementos cogidos de dos
en dos: C24 , mientras que el nmero de casos posibles es C240 de este modo se
obtiene:
C24
43
P(A) = 40
=
40 39
C2
2. Si las dos cartas se extraen sucesivamente y sin reemplazamiento, se esta extrayendo un par ordenado {ci , c j } con ci6=c j de dos elementos del espacio muestral
= {c1 , c2 , . . . , c40 } de las cuarenta cartas de la baraja espaola. Como hay
cuatro ases, los casos favorables al suceso A son variaciones de cuatro elementos cogidos de dos en dos: V42 , mientras que el nmero de casos posibles
2 . De este modo:
es V40
V2
43
P(A) = 42 =
V40 40 39
43
4 3
=
40 39 40 39
110
Probabilidad Condicionada
de las probabilidades:
Ejemplo Independencia
Estos sucesos poseen probabilidades conocidas P(Ai ) y que para cada suceso A resultan
tambin conocidas las probabilidades condicionadas P(A/Ai ). En esta situacin se puede calcular la probabilidad de A a travs de las probabilidades anteriores mediante una
frmula que constituye el llamado teorema de la probabilidad total.
Teorema 8.3.1. Sean Ai n sucesos incompatibles de probabilidades no nulas y cuya unin
es . Entonces para cualquier suceso A se tiene:
n
Demostracin.
Sabemos que
A = A = A (A1 A2 An ) = (A A1 ) (A A2 ) (A An )
111
Una empresa que consta de tres secciones, A, B y C, va a seleccionar como representante de empresa a un miembro de entre sus trabajadores. La persona encargada
de la seleccin, desea que tenga doble probabilidad de eleccin la seccin C, que las
secciones A y B (a las que asigna la misma probabilidad), dado el mayor volumen
de sta. Se sabe que estn sindicados el 20 % de los trabajadores de la seccin A; el
50 % de los de la seccin B y el 70 % de la C. Determina la probabilidad de que la
persona elegida pertenezca a un sindicato.
Llamemos:
1. S =pertenecer a un sindicato
2. A =seleccionar la seccin A
3. B =seleccionar la seccin B
4. C =seleccionar la seccin C
Los sucesos A, B y C son incompatibles. Su unin es el suceso seguro, la persona
seleccionada estar en A, en B o en C, no hay ms secciones de donde pueda proceder
el elegido. Estamos en la condiciones del teorema de la probabilidad total, por tanto:
P(S) = P(A) P(S/A) + P(B) P(S/B) + P(C) P(S/C)
Sabemos que P(A) + P(B) + P(C) = 1, llamando p=P(A)=P(B):
p + p + 2p = 1 p =
1
1
1
P(A) = P(B) = ; P(C) =
4
4
2
0,50
0,50 Sindicado
B
No Sindicado
0,70 Sindicado
C
No Sindicado
112
Probabilidad Condicionada
En esta situacin, suele utilizarse la siguiente nomenclatura. Los sucesos Ai se llaman hiptesis o causas; las probabilidades P(Ai ) se llaman probabilidades a priori de las
hiptesis; la probabilidad condicionada P(A/Ai ) es la probabilidad de A en la hiptesis
Ai .
P(Ai /A) =
P(Ai) P(A/Ai)
i=1
Demostracin.
Por la definicin de probabilidad condicionada tenemos
P(Ai /A) =
P(Ai A)
y P(Ai A) = P(Ai ) P(A/Ai)
P(A)
P(Ai) P(A/Ai)
i=1
Observaciones:
Para poder aplicar este teorema es necesario conocer los valores de las P(Ai ) 6= 0.
Es frecuente que estos valores no sean conocidos, lo que limita el uso del teorema.
La asignacin incorrecta de las probabilidades a priori es a menudo fuente de errores, una solucin parcial al problema es reemplazarlas, cuando se desconocen, por
estimaciones verosmiles.
Desde el punto de vista matemtico, el teorema de Bayes es perfectamente correcto;
nicamente la eleccin impropia de las P(Ai ) hara objetable el resultado.
El teorema de Bayes establece la relacin existente entre la probabilidad a priori y
la probabilidad a posteriori, de ah la relevancia del teorema.
113
Ejemplo Bayes
P(C) P(S/C)
0, 50 0, 70 2
=
=
P(A) P(S/A) + P(B) P(S/B) + P(C) P(S/C)
0, 525
3
Ejercicios
8.1
8.2
8.3
8.4
8.5
8.6
8.7
Un dado se lanza dos veces. Sea A =en el primer lanzamiento el nmero obtenido
es menor o igual que 2. Sea B =en el segundo lanzamiento el nmero obtenido
es al menos 5
1. Cul es P(A B)?
2. Cul es P(A/B)?
3. Son sucesos independientes?
Sean A, B, y C tres sucesos mutuamente independientes con P(A) = P(B) =
P(C) = p, con 0 < p < 1. Calcula la probabilidad de que ocurra exactamente dos
de los tres sucesos considerados.
En una fbrica se ha recibido una caja que contiene 5 piezas: 3 defectuosas y
2 buenas. Se extraen al azar y sin reposicin una pieza cada vez, hasta que son
extradas las dos buenas. Halla la probabilidad de que sean necesarias 4 extracciones
o menos.
Dos jugadores A y B juegan 24 partidas de ajedrez, de las que A gana 12, B gana
8 y 4 terminan en tablas. Posteriormente deciden jugar un torneo a tres partidas.
Determina la probabilidad de que B gane al menos una partida y la probabilidad de
que gane cada uno una partida alternativamente.
La probabilidad de que nazca un varn es 0, 5 y es independiente del sexo del
hermano anterior.
1. Halla la probabilidad de que en una familia de 5 hermanos, dos sean varones
y de que al menos dos sean varones.
2. Repite el apartado anterior, sabiendo que el menor de los 5 es varn.
Una bolsa contiene dos fichas marcadas con un 10, tres fichas marcadas con un 5
y cinco fichas marcadas con un 1. Se extraen simultneamente dos fichas y se pide:
1. La probabilidad de que se obtenga una suma de 6 puntos.
2. Generalizando el caso anterior, se considera la variable aleatoria que a cada
extraccin de dos fichas asocia la suma de los puntos de las fichas. Halla los
valores que puede tomar y su ley de probabilidad.
Al controlar la calidad de un producto envasado, se eligen al azar tres envases de
una caja que contiene 100. Por trmino medio, sabemos que en cada caja hay 10
cuya calidad es deficiente. Halla las probabilidades siguientes:
1. De que entre los tres no haya ninguno, uno, dos o tres deficientes.
114
8.8
8.9
Probabilidad Condicionada
8.10
Se consideran dos urnas numeradas, la urna nmero 1 contiene tres bolas blancas
y tres roja, la urna nmero 2 contiene cuatro bolas blancas y dos rojas. Se lanza una
moneda y si sale cara se hace la extraccin de la urna nmero 1, si sale cruz de la
urna nmero 2. Se pide la probabilidad de extraer una bola roja.
8.11 Una urna contiene dos bolas, que pueden ser blancas, negras o una bola blanca y
otra negra. Se aade una bola blanca a la urna y despus se extrae una bola al azar.
Cul es la probabilidad de que sea blanca?
8.12 Una caja A contiene dos bolas blancas y dos rojas, otra caja B contiene tres
blancas y dos rojas. Se pasa una bola de A a B y despus se extrae una bola de B,
que resulta ser blanca. Determina la probabilidad de que la bola trasladada haya
sido blanca.
8.13 Se tienen tres cartas A, B y C tales que A tiene dos caras rojas, B tiene una cara
roja y otra blanca, C tiene las dos blancas.
Se elige una carta al azar y no se ve ms que una de las caras, que resulta ser roja.
Cul es la probabilidad de que sea la carta A?
8.14
Una urna contiene tres bolas blancas y cuatro azules. Tres bolas son transferidas
a una segunda urna. Una bola es seleccionada a continuacin de la segunda urna y
resulta ser blanca. Encuentra la probabilidad de extraer una bola azul entre las otras
dos restantes.
8.15 Una caja contiene 2 tornillos buenos y 3 defectuosos y otra caja contiene 4 buenos y 2 defectuosos. Se trasladan dos tornillos de la primera caja a la segunda y a
continuacin se extrae un tornillo de la segunda caja, que result ser bueno. Cul es
la probabilidad de que los tornillos trasladados fueran uno bueno y otro defectuoso?
8.16
8.17 En un programa de televisin el concursante debe elegir entre tres puertas, una
de las cuales contiene el premio. Una vez hecha la eleccin, el presentador muestra
que en una de las otras dos puertas no est el premio, ofreciendo al concursante la
posibilidad de cambiar su eleccin. Qu es mejor para el concursante, cambiar o
mantenerse con la que eligi?
Captulo
Variables Aleatorias
cosa es poder definir las variables aleatorias y poder dibujarlas. Ahora me molestar
en pintar las distintas variables aleatorias, discretas y continuas, y ver como quedan
con los distintos paquetes. El resto ya se ver.
Para dibujar usar los paquetes de PsTricks adeacuados.
A
0.13824
0.004096
0.036864
0.27648
0.2
0.046656
0.4
0.186624
P(X = k)
0.31104
116
Variables Aleatorias
0.0279936
0.130637
0.0774144
0.0172032
0.0016384
0.2
0.193536
0.4
0.261274
0.290304
P(X = k)
b
b
0.2
b
b
b
10
10
11
11
0.0112645
0.022529
0.0413031
0.0688385
0.103258
0.137677
0.160623
0.160623
0.133853
0.0892351
0.160623
0.0446175
0.160623
-1
0.0148725
0.1
0.00247875
P(X = k)
12
12
0.00519899
117
13
13
14
-1
0
0.0413031
0.103258
0.133853
4
0.0688385
0.0892351
0.0446175
0.0148725
0.1
0.00247875
P(X = k)
0.137677
10
10
11
12
13
14
118
Variables Aleatorias
0.5
0.4
0.3
0.2
0.1
0
0
ahora cambiando y
0.5
0.4
0.3
0.2
0.1
0
9.2.2. Distribucin 2
S existe , se pensaba que no iba a salir. . . jaja
Su representacin es la siguiente:
0.5
0.4
0.3
0.2
0.1
0
119
0.4
0.3
0.2
0.1
4
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
9.2.5. Distribucin
Vamos a ver cmo queda dibujada
120
Variables Aleatorias
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Bibliografa
[1] J. Romo D. Pea, Introduccin a la estadstica para las ciencias sociales, Estadstica,
McGraw-Hill, 1997. MR 84-481-1617-8
[2] J. Lpez de la Manzanara, Problemas de estadstica, Estadstica, Pirmide, 2005. MR 84-3680064-8
[3] Emilie Durkheim, Suicidio, Sociologa, Editirial Akal, 1989. MR 978-84-460-0191-1
[4] M. Vargas F. Abad, MD. Huete, Estadstica para las ciencias sociales, Estadstica, Jos Carlos
Urbano Delgado S.L., 2001. MR 84-87662-20-X
[5] U. Faura J. Aranda, J. Gmez, Introduccin a la estadstica econmica y empresarial. ejercicios, Estadstica, DM-PPU, 1994. MR 84-477-367-3
[6] ngel Muoz Julin Santos, Fundamentos de estadstica aplicados al turismo, Centro de
Estudios Ramn Areces. S.A., 2002. MR 84-8004-541-8
[7] JM. Montero, Problemas resueltos de estadstica descriptiva para ciencias sociales, Estadstica, Thompson Editores Spain, 2007. MR 978-84-9732-659-9
[8] R. Snchez, Estadstica, Estadstica, Rafael Snchez Porcel, 2005. MR 84-609-5262-2
[9] Hans Zeisel, Dgalo con nmeros, Sociologa, Editirial FCE, 1990. MR 9-681-624-696
Glosario
B
Binomio de Newton
(a + b)n = ki=0
D
Desigualdad de Cauchy-Schwarz
n i ni
,
i ab
pg. 52.
P
Dados dos vectores en R2 (x1 , y1 ) y (x2 , y2 ), se define el producto
escalar como h(x1 , y1 ), (x2, y2 )i = x1 x2 + y1 y2 , pg. 55.
Producto Escalar
Smbolos
1
2
r
x
x
Ap
C
C( )
DMe
G
H
IG
Me
Mo
mr
mr (a)
Re
RI
Rr
Rs
S
S2
V
124
VMe
Glosario
ndice alfabtico
C
Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . 14
Coeficiente de
Apertura . . . . . . . . . . . . . . . . . . . . . . . . 47
Apuntamiento . . . . . . . . . . . . . . . . . . . 54
Asimetra . . . . . . . . . . . . . . . . . . . . . . . 53
Pearson . . . . . . . . . . . . . . . . . . . . . . . . . 47
Comparaciones . . . . . . . . . . . . . . . . . . . . . . 15
Cuantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Cuartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Curva de
Distribucin . . . . . . . . . . . . . . . . . 16, 19
Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . 50
D
Decil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Desviacin
Tpica . . . . . . . . . . . . . . . . . . . . . . . . . . 46
DesviacinMediana . . . . . . . . . . . . . . . . . . 44
DesviacionAritmtica . . . . . . . . . . . . . . . . 43
Diagrama
de Barras . . . . . . . . . . . . . . . . . . . . 11, 16
de Pareto . . . . . . . . . . . . . . . . . . . . . . . 12
de Sectores . . . . . . . . . . . . . . . . . . . . . . 13
Dispersin
Mediana . . . . . . . . . . . . . . . . . . . . . . . . 47
Relativa . . . . . . . . . . . . . . . . . . . . . . . . . 46
Distribucin
de Frecuencias . . . . . . . . . . . . . . . . . . 10
Simtrica . . . . . . . . . . . . . . . . . . . . . . . 52
E
Escala
de Intervalo . . . . . . . . . . . . . . . . . . . . . . 5
de Razn . . . . . . . . . . . . . . . . . . . . . . . . . 5
Nominal . . . . . . . . . . . . . . . . . . . . . . . . . 5
Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Estadstica
Descriptiva . . . . . . . . . . . . . . . . . . . . . . . 4
F
Formas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Frecuencia
Absoluta . . . . . . . . . . . . . . . . . . . . . . . . . 9
Acumulada . . . . . . . . . . . . . . . . . . . . 9
Relativa . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Acumulada . . . . . . . . . . . . . . . . . . . . 9
H
Histograma . . . . . . . . . . . . . . . . . . . . . . . . . 18
I
Indice de
Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
M
Marca de Clase . . . . . . . . . . . . . . . . . . . . . . 10
Media
Aritmtica . . . . . . . . . . . . . . . . . . . . . . 31
Continua . . . . . . . . . . . . . . . . . . . . . 33
Discreta . . . . . . . . . . . . . . . . . . . . . . 32
Armnica . . . . . . . . . . . . . . . . . . . . . . . 37
Cuadrtica . . . . . . . . . . . . . . . . . . . . . . 38
Geomtrica . . . . . . . . . . . . . . . . . . . . . 38
Ponderada . . . . . . . . . . . . . . . . . . . . . . 36
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Caso
Continuo . . . . . . . . . . . . . . . . . . . . . 27
Discreto . . . . . . . . . . . . . . . . . . . . . . 25
Medidas de
Concentracin . . . . . . . . . . . . . . . . . . 48
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Caso
Continuo . . . . . . . . . . . . . . . . . . . . . 30
Discreto . . . . . . . . . . . . . . . . . . . . . . 30
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
P
Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Pictograma . . . . . . . . . . . . . . . . . . . . . . . . . . 13
126
Pirmide de Poblacin . . . . . . . . . . . . . . . 15
Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Polgono
de Frecuencias . . . . . . . . . . . . . . . . . . 18
R
Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Relativo . . . . . . . . . . . . . . . . . . . . . . . . . 47
Semi-InterCuartlico . . . . . . . . . . . . 47
ndice alfabtico
RecorridoIntercuartlico . . . . . . . . . . . . . 43
V
Variable
Continua . . . . . . . . . . . . . . . . . . . . . . . . . 6
Cuantitativa . . . . . . . . . . . . . . . . . . . . . . 6
Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44