Professional Documents
Culture Documents
Septiembre 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Medidas de Posicion 3
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Media Aritmetica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Media Aritmetica con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Media Ponderada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Media Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Media Armonica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Percentiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Medidas de Posicion con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Medidas de Dispersion 16
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Momentos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Varianza y Desviacion Tpica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Varianza con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Coeficiente de Variacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Medidas de Forma 24
Asimetra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Curtosis, Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Asimetra y Curtosis con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1
Contenidos
Medidas de Posicion
Medidas de Dispersion.
Absoluta y Relativa.
Medidas de Forma.
Asimetra y Curtosis.
Las Medidas Estadsticas tienen como objetivo sustituir toda la informacion, por
unos pocos valores que la caractericen.
Medidas de Posicion 3 / 29
Introduccion
Las Medidas de Posicion tienen por objetivo proporcionar valores en torno al los cuales se
encuentran las observaciones.
Algunas de ellas se denominan Medidas de Tendencia Central, porque suelen situarse en torno
al centro de los datos.
Mediana.
Moda.
Cuartiles y Percentiles.
2
Media Aritmetica
Se define como la suma de los datos dividida por el numero de ellos.
Pn m m
i xi 1X X
x= = ni xi = fi xi
n n
i i
Histograma de Ingresos
2.0e05
Densidad de Frecuencia
1.0e05
0.0e+00
ingresos
3
Media Ponderada
La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma
importancia.
Pn
i wi xi
xw = P n
i wi
Media Geometrica
Cuando trabajamos con valores observados positivos:
v
u n
uY
xG = t n
xi
i
Tiene una aplicacion menos frecuente que la Media Aritmetica, pero importante:
4
Media Armonica
Se define:
1
xA = 1 Pm ni
n i xi
Se toman los inversos de los datos, se promedian y por ultimo se toma el inverso de ese promedio.
Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h,
la velocidad media a la que ha realizado el viaje es:
1
velocidadA = 1 1 1 = 109.1km/h
2 ( 100 + 120 )
Distancia Recorrida 2d
velocidad media = = d d
Tiempo Empleado 100 + 120
5
Mediana
Es el valor de la variable estadstica que deja igual numero de observaciones a su derecha que a su
izquierda. Ordenando los datos de menor a mayor, la mediana sera el dato central o el promedio
de los centrales (tamano par).
1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
1.0
0.8
Frecuencia Acumulada
0.6
1/2
0.4
0.2
0.0
0 2 4 6 8
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
1.0
0.8
Frecuencia Acumulada
0.6
1/2
0.4
0.2
0.0
0 2 4 6 8
En el caso de datos agrupados, lo mas adecuado es hablar del intervalo mediano. Graficamente la
mediana se obtendra:
1.0
0.8
Fi+1
Frecuencia Acumulada
0.6
1/2
0.4
Fi
0.2
0.0
bi Me bi+1
0 2 4 6 8 10
1/2 Fi
Me = bi + (bi+1 bi ).
Fi+1 Fi
6
Moda
Es el valor de la variable estadstica que se presenta con mayor frecuencia. No tiene por que ser
unica y puede no poderse calcular.
Ejemplo:
1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2 y 6
En el caso de datos agrupados, se suele hablar de intervalo modal, aquel de mayor frecuencia.
Histograma de Ingresos
1.5e05
Densidad de Frecuencia
1.0e05
5.0e06
Md
0.0e+00
Ingresos
Cuartiles
Qk para k = 1, 2, 3, se define Cuartil kesimo como el valor de la variable que deja inferiores o
iguales a el las k/4 partes de las observaciones.
Q2 = Me
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4,4, 5, 5, 5, 6, 6, 6, 8
n = 16
7
Percentiles
El kesimo Percentil Pk , se define como el valor de la variable estadstica que deja inferiores o
iguales a el las k/100 observaciones.
Observaciones
La Mediana es un estadstico basado en propiedades ordinales. Valor de la variable que
ocupa el orden (n + 1)/2.
Cuando trabajemos con distribuciones con valores atpicos o asimetricas, trabajaremos con
la Mediana en lugar de con la Media. Los valores extremos influyen gravemente en la Media.
8
Medidas de Posicion con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> summary(ingresos)
> quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90))
> X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8)
> summary(X)
Medidas de Dispersion 16 / 29
Introduccion
Las Medidas de Dispersion tienen como objetivo cuantificar la variabilidad de los datos.
Coeficiente de Variacion.
9
Recorrido
Recorrido: es la diferencia entre el maximo y el mnimo de los valores de la variable
aleatoria.
R = max(X) mn(X).
RI = Q3 Q1 .
RSI = RI /2.
Momentos
Definiremos la expresion general de un Momento respecto del punto v y de orden r:
m
1X
Mr (v) = ni (xi v)r
n
i
Casos particulares:
m
1X
a1 = ni xi = x Media Muestral.
n
i
m
1 X
a2 = ni x2i = x2 Media Muestral de Cuadrados.
n
i
Casos particulares:
m
1X
m1 = ni (xi x) = 0
n
i
m
1 X
m2 = ni (xi x)2 = s2 Varianza.
n
i
10
Momentos con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> sum(ingresos)/length(ingresos)
[1] 35127.13
> mean(ingresos)
[1] 35127.13
> library(e1071)
> moment(ingresos,order=1,center=FALSE)
[1] 35127.13
> moment(ingresos,order=1,center=TRUE)
[1] 3.395447e-12
El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso
habitualmente se trabaja con su raz cuadrada, la Desviacion Tpica:
s = s2 .
11
Varianza con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME[1:15]
> sum((ingresos-mean(ingresos))^2)/length(ingresos)
[1] 456585857
> moment(ingresos,order=2,center=TRUE)
[1] 456585857
> var(ingresos)
[1] 489199132
> var(ingresos)*(length(ingresos)-1)/length(ingresos)
[1] 456585857
Coeficiente de Variacion
Las medidas de dispersion que hemos visto hasta ahora dependen de las unidades de medida de la
variable.
Coeficiente de Variacion:
s
CV = .
|x|
Es una cantidad adimensional que mide la dispersion respecto a la media.
12
Medidas de Forma 24 / 29
Asimetra
Definiremos Asimetra Positiva cuando MdMe x.
g1 =1.85 g1=1.66
Simtrica
g1 = 0.028
13
Curtosis, Kurtosis
Tomando como origen de coordenadas la media x, y como unidad de medida la desviacion tpica,
aparecen diferentes tipos de distribuciones de frecuencias de los datos.
Mesocurtica g2 = 0.
Leptocurtica g2 > 0.
Platicurtica Leptocurtica
0.25
0.25
g2 =1.06 g2 =2.32
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
10 5 0 5 10 10 5 0 5 10
Mesocurtica
0.25
g2 =0.056
0.20
0.15
0.10
0.05
0.00
10 5 0 5 10
14
Asimetra y Curtosis con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME
> moment(ingresos,order=3,center=TRUE)/moment(ingresos,
+ order=2,center=TRUE)^(3/2)
[1] 8.083549
> skewness(ingresos,type=1)
[1] 8.083549
> help(skewness)
> kurtosis(ingresos,type=1)
[1] 82.83009
Histograma de Ingresos
Histograma de Ingresos
1.2e05
Densidad de Frecuencia
8.0e06
4.0e06
0.0e+00
ingresos
15
Histograma de Ingresos
> library(UsingR)
> edad<-cfb$AGE
> skewness(edad)
[1] 0.3639585
> kurtosis(edad)
[1] -0.6366239
Histograma de Edades
0 20 40 60 80 100
edad
16