Professional Documents
Culture Documents
Noviembre-Diciembre 2009
La Estadística
Ciencia que se ocupa del estudio de
fenómenos de tipo genérico, normalmente
complejos y enmarcados en un universo
variable, mediante el empleo de modelos de
reducción de la información y de análisis de
validación de los resultados en términos de
representatividad.
Gonzalo Sánchez-Crespo Benitez y Vicente Manzano Arrondo
40
35
30
.
25
15
10
0
Negro Azul Verde Marrón
Gráficos
Diagrama de barras
0,3500
0,3000
0,2500
.
0,2000
Frecuencia Relativa (fi)
0,1500
0,1000
0,0500
0,0000
Negro Azul Verde Marrón
Polígono de frecuencias
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000
0,0500
0,0000
Negro Azul Verde Marrón
0.000 0.002 0.004 0.006 0.008 0.010 0.012
Histograma
100
150
Altura
200
250
0.000 0.002 0.004 0.006 0.008 0.010 0.012
0
50
Histograma
100
150
Altura
200
250
300
Frecuencias acumuladas
Función de Distribución empírica
1.0
0.8
Frecuencia Relativa Acumulada
0.6
0.4
0.2
0.0
Altura
Gráficos
Pictograma
40
35
30
.
25
15
10
0
Negro Azul Verde Marrón
Gráficos
Pictograma
40
35
30
. 25
15
10
0
Negro Azul Verde Marrón
Gráficos
Pictograma
.
Gráficos
Diagrama de sectores
24,22%
29,69%
. Negro
Azul
Verde
Marrón
25,78%
20,31%
Cartograma o mapa temático
Medidas de posición
Dan una idea de alrededor de donde se mueven
los datos
k
Medidas de posición Datos sin agrupar Datos agrupados n=∑ ni
i=1
n k
1 1
Media aritmética X = ∑ x i X = ∑ ni⋅xi
n i =1 n i =1
Me= el primer x tal que el 50% de N
−N i−1
Mediana los valores de la variable son 2
Me=M m−1 ⋅a i
menores o iguales que x ni
n
Media Geométrica G=n x 1⋅x 2⋅...⋅x n G= x n1 ⋅x n2 ⋅...⋅x nk
1 2 k
1 1
H= H= k
Media Armónica 1
n
1 1 ni
∑
n i =1 x i
∑
k i=1 x i
n k
1 1
Media ponderada
X w = n ∑ w i⋅x i X w = k ∑ w i⋅n i⋅x i
∑ w i i=1 ∑ w i⋅ni i=1
i=1 i=1
Tercer cuartil
6.0
Mediana
5.5
Primer cuartil
5.0
4.5
Mínimo
Boxplot
Es útil para comparar la distribución de distintas
variables
8
6
4
2
0
-2 | 443110
-1 | 8755
-1 | 33333221
-0 | 999888877766666
-0 | 4444433333222222111100
0 | 111112244444
0 | 55567777788
1 | 0111112234444
1 | 5557
2 | 03334
Boxplot
Tomando los cuartiles, en particular en primero,
segundo (la mediana) y tercero, se hace un
gráfico que permite ver la distribución de los
datos:El Boxplot o Diagrama de Cajas
Máximo
8.0
7.5
7.0
6.5
Tercer cuartil
6.0
Mediana
5.5
Primer cuartil
5.0
4.5
Mínimo
Medidas de dispersión
Dan una idea de la variabilidad de los datos
Medidas de dispersión
n n
1 1
Varianza = ∑ x i− X 2
2 2
=
n−1 ∑ x − X 2
n i=1 n−1 i =1 i
Desviación típica =
2
n−1= 2n−1
n n
1 1
Desviación media da= ∑
n i=1
∣xi −Me∣ da= ∑
n i=1
∣xi − X∣
1
∑ f i≤ 2
k
i /∣xi − x∣k
Asimetria
n
1
∑
n i=1
xi −x3
x−Mo
A Fisher = A Pearson =
3
Histogram of x
Histogram of x
600
Histogram of x
500
500
80
400
400
60
Frequency
Frequency
Frequency
300
300
40
200
200
20
100
100
0
0
0 5 10 15 20 25
-3 -2 -1 0 1 2 3
-5 0 5 10 15 20
x
x
x
Apuntamiento o Kurtosis
n n
1 4 1
∑
n i=1
x i −x ∑
n i=1
x i −x4
K= 4 K= 4
−3
0.6
leptocúrtica
dcauchy(x, scale = 0.5)
0.5
0.4
mesocúrtica
0.3
0.2
0.1
platocúrtica
0.0
-3 -2 -1 0 1 2 3
x
Momentos respecto de la media
de una distribución
n
1
mk = ∑ x i − x k
n i=1
● Media: m1 respecto del 0
● Varianza: m2
m3
● Apuntamiento: 1,5
m 2
m4
● Kurtosis: 2
−3
m 2
Índice de concentración de Gini
Las medidas de concentración tratan de poner de
relieve el mayor o menor grado de igualdad en el
reparto del total de los valores de la variable.
∑ pi −qi
i=1
I G= k−1
∑ pi
i=1
Ni ui
xi ni xini Ni ui pi = ⋅100 qi = ⋅100 pi-qi
n uk
xi ni xi·ni Ni ui pi qi Pi-qi
3,5 10 35 10 35 25 14,17 10,83
4,5 12 54 22 89 55 36,03 18,97
6 8 48 30 137 75 55,47 19,53
8 5 40 35 177 87,5 71,66 15,84
10 3 30 38 207 95 83,81 11,19
15 1 15 39 222 97,5 89,88 7,62
25 1 25 40 247 100 100 0
Curva de Lorentz
Curva de Lorentz
100
80
60
q
40
20
0
0 20 40 60 80 100
p
Curva de Lorentz
Curva de Lorentz
100
80
El Índice de
60
Gini es
proporcional
q
a este área
40
20
0
0 20 40 60 80 100
p
Curva de Lorentz
Curva de Lorentz Curva de Lorentz
100
100
80
80
60
60
q
q
40
40
20
20
0
0
0 20 40 60 80 100 0 20 40 60 80 100
p p
Más de una variable
y1 y2 … yj … yk
x1 n11 n12 n1j n1k n1·
x2 n21 n22 n2j n2k n2·
…
xi ni1 ni2 nij nik ni·
…
xl nl1 nl2 nlj nlk nl·
n·1 n·2 n·j n·k n··
Diagrama de puntos
6
0
0 20 40 60 80 100 120 140 160
Barras
140
120
100
80
M
60 V
40 Total general
20
0
Azul Marrón Negro Verde Total
general
Barras
140
120
100
80 M
60 V
40 Total general
20
0 M
Azul Negro Total
general
Barras
100%
90%
80%
70%
60% Total general
50% V
40% M
30%
20%
10%
0%
Azul Marrón Negro Verde Total
general
Burbujas
6
0
-20 0 20 40 60 80 100 120 140
-1
Distribuciones Marginales
Son las distribuciones de cada una de las variables
por separado.
M V Total general
Azul 13 20 33
Marrón 16 22 38
Negro 15 16 31
Verde 16 10 26
Total general 60 68 128
Distribuciones condicionadas
La distribución condicionada de una variable
respecto a un valor fijo de la otra se representa
por X/y=y
Corresponde a una fila o una columna de la tabla
original
Sexo/Color=Azul
M V Total general M V Total general
Azul 13 20 33 Azul 0,394 0,606 1
Marrón 16 22 38 Marrón 0,421 0,579 1
Negro 15 16 31 Negro 0,484 0,516 1
Verde 16 10 26 Verde 0,615 0,385 1
Total general 60 68 128 Total general 0,469 0,531 1
Covarianza y Correlación
Cuando se tienen dos o más variables una pregunta
habitual es ¿Tienen relación entre ellas?
Covarianza Correlación
n XY
XY =∑ x i −x ⋅ yi − y XY =
X⋅ Y
i=1
3 3
2 2
1 1
0 0
-3 -2 -1 0 1 2 3 -2 -1 0 1 2 3 4
-1 -1
-2 -2
~-1 -3 -3 ~1
4
-4 -3 -2 -1
0
0 1 2 3 ~0
-1
-2
-3
-4
Recta de regresión
La recta de regresión de Y sobre X es la recta
y=ax+b que hace mínimo
n
2
d =∑ y i −a⋅x i b
i=1
0
-3 -2 -1 0 1 2 3
-1
-2
-3
Recta de regresión
2
1
0
-1
Y
-2
-3
-4
-1 0 1 2 3
X
Números índice
Podemos definir un numero índice como una
medida estadística (o indicador) de la
variación de una magnitud a lo largo del
tiempo (o en el espacio) con respecto a un
momento dado del mismo(o punto de
referencia) que se toma como base.
∑ wi⋅I i , t
i=1
Índices complejos I t= n
∑ wi
i=1
Propiedades Ideales de los Números
Índice
Suponiendo los índices en tanto por 1
● Identidad: I0 ha de ser 1
● Inversión: si It0 es el índice en el periodo t con base el
0 entonces It0 =1/I0t
● Transitividad: It0 =Itt' It'0 (cambio de base)
● Homogeneidad: El índice no ha de depender de las
unidades de medida
Algunos índices
Índice de Laspeyres n n
pit
∑ p i0
p i0⋅qi0 ∑ pit⋅qi0
i=1 i=1
Lt = n
⋅100= n
⋅100
∑ pi0⋅qi0 ∑ pi0⋅qi0
i=1 i=1
Índice de Paasche n n
pit
∑ p i0
p i0⋅qit ∑ pit⋅qit
i=1 i=1
Pt= n
⋅100= n
⋅100
∑ pi0⋅qit ∑ pi0⋅qit
i=1 i=1