You are on page 1of 16

Estadstica

Tema 1: Estadstica Descriptiva Unidimensional


Unidad 2: Medidas de Posicion,
Dispersion y de Forma

Area de Estadstica e Investigacion Operativa


Licesio J. Rodrguez-Aragon

Septiembre 2010

Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Medidas de Posicion 3
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Media Aritmetica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Media Aritmetica con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Media Ponderada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Media Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Media Armonica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Percentiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Medidas de Posicion con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Medidas de Dispersion 16
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Momentos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Varianza y Desviacion Tpica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Varianza con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Coeficiente de Variacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Medidas de Forma 24
Asimetra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Curtosis, Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Asimetra y Curtosis con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1
Contenidos
 Medidas de Posicion

Medias, Mediana, Moda, Cuartiles y Percentiles.

 Medidas de Dispersion.

Absoluta y Relativa.

 Medidas de Forma.

Asimetra y Curtosis.

Las Medidas Estadsticas tienen como objetivo sustituir toda la informacion, por
unos pocos valores que la caractericen.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 2 / 29

Medidas de Posicion 3 / 29

Introduccion
Las Medidas de Posicion tienen por objetivo proporcionar valores en torno al los cuales se
encuentran las observaciones.

Algunas de ellas se denominan Medidas de Tendencia Central, porque suelen situarse en torno
al centro de los datos.

 Media: Aritmetica, Ponderada, Geometrica, Armonica.

 Mediana.

 Moda.

 Cuartiles y Percentiles.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 4 / 29

2
Media Aritmetica
Se define como la suma de los datos dividida por el numero de ellos.
Pn m m
i xi 1X X
x= = ni xi = fi xi
n n
i i

 La media es muy sensible a los valores extremos.

 Es la medida mas utilizada, muchos procedimientos estadsticos se basan en ella.

 La Media Aritmetica representa el centro de gravedad del histograma.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 5 / 29

Media Aritmetica con R


> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> mean(ingresos)
> hist(ingresos,breaks=seq(0,100000,by=10000),freq=FALSE,
+ main="Histograma de Ingresos",ylab="Densidad de Frecuencia")
> points(mean(ingresos),-0.0000005,pch=24,cex=2.8)

Histograma de Ingresos
2.0e05
Densidad de Frecuencia

1.0e05
0.0e+00

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

ingresos

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 6 / 29

3
Media Ponderada
La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma
importancia.

Para tener en cuenta la importancia se asigna a cada observacion un peso, wi .

Pn
i wi xi
xw = P n
i wi

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 7 / 29

Media Geometrica
Cuando trabajamos con valores observados positivos:
v
u n
uY
xG = t n
xi
i

Tiene una aplicacion menos frecuente que la Media Aritmetica, pero importante:

Ano Capital Tasa de Factor de Capital


Inicial Crecimiento Expansion Final
1 10000 0.05 1.05 10500
2 10500 0.20 1.20 12600
3 12600 0.50 1.50 18900

Factor de Expansion = 1, 25 Factor de ExpansionG = 1, 2364

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 8 / 29

4
Media Armonica
Se define:
1
xA = 1 Pm ni
n i xi

Se toman los inversos de los datos, se promedian y por ultimo se toma el inverso de ese promedio.

Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h,
la velocidad media a la que ha realizado el viaje es:
1
velocidadA = 1 1 1 = 109.1km/h
2 ( 100 + 120 )

Distancia Recorrida 2d
velocidad media = = d d
Tiempo Empleado 100 + 120

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 9 / 29

5
Mediana
Es el valor de la variable estadstica que deja igual numero de observaciones a su derecha que a su
izquierda. Ordenando los datos de menor a mayor, la mediana sera el dato central o el promedio
de los centrales (tamano par).

1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8

1.0
0.8
Frecuencia Acumulada

0.6
1/2

0.4
0.2
0.0

0 2 4 6 8

1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
1.0
0.8
Frecuencia Acumulada

0.6

1/2
0.4
0.2
0.0

0 2 4 6 8

En el caso de datos agrupados, lo mas adecuado es hablar del intervalo mediano. Graficamente la
mediana se obtendra:
1.0
0.8

Fi+1
Frecuencia Acumulada

0.6

1/2
0.4

Fi
0.2
0.0

bi Me bi+1

0 2 4 6 8 10

Mediante semejanza de triangulos:

1/2 Fi
Me = bi + (bi+1 bi ).
Fi+1 Fi

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 10 / 29

6
Moda
Es el valor de la variable estadstica que se presenta con mayor frecuencia. No tiene por que ser
unica y puede no poderse calcular.

Ejemplo:
1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2 y 6
En el caso de datos agrupados, se suele hablar de intervalo modal, aquel de mayor frecuencia.
Histograma de Ingresos
1.5e05
Densidad de Frecuencia

1.0e05
5.0e06

Md
0.0e+00

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

Ingresos

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 11 / 29

Cuartiles
Qk para k = 1, 2, 3, se define Cuartil kesimo como el valor de la variable que deja inferiores o
iguales a el las k/4 partes de las observaciones.

Q2 = Me
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4,4, 5, 5, 5, 6, 6, 6, 8
n = 16

Q1 deja inferiores o iguales a el, 1/4 de las observaciones, 4.


Q2 deja inferiores o iguales a el, 1/2 de las observaciones, 8.
Q3 deja inferiores o iguales a el, 3/4 de las observaciones,12.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 12 / 29

7
Percentiles
El kesimo Percentil Pk , se define como el valor de la variable estadstica que deja inferiores o
iguales a el las k/100 observaciones.

P25 = Q1 , P50 = Q2 = Me, P75 = Q3 .


Para datos agrupados el calculo es analogo al de la mediana:
nk
k/100 Fi Ni
Pk = bi + (bi+1 bi ) = bi + 100 (bi+1 bi ).
Fi+1 Fi Ni+1 Ni

Siendo (bi , bi+1 ) el intervalo de clase que contiene Pk .


nk
The kth percentile is that value of X, say xk , which corresponds to a cumulative frequency of 100 ,
where n is the sample size.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 13 / 29

Observaciones
 La Mediana es un estadstico basado en propiedades ordinales. Valor de la variable que
ocupa el orden (n + 1)/2.

 La Mediana divide al histograma en dos partes de areas iguales.

 La Moda es el valor con mayor frecuencia de aparicion.

 La Moda corresponde a la mayor altura del histograma.

 Cuando trabajemos con distribuciones con valores atpicos o asimetricas, trabajaremos con
la Mediana en lugar de con la Media. Los valores extremos influyen gravemente en la Media.

 Si la distribucion es simetrica y unimodal, los tres puntos coinciden, Media, Mediana y


Moda.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 14 / 29

8
Medidas de Posicion con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> summary(ingresos)

Min. 1st Qu. Median Mean 3rd Qu. Max.


7195 14900 35980 35130 47800 78120

> quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90))

10% 25% 50% 60% 75% 90%


10854.74 14904.70 35976.87 37210.37 47797.85 64758.37

> X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8)
> summary(X)

Min. 1st Qu. Median Mean 3rd Qu. Max.


1.000 2.000 3.500 3.857 5.750 8.000

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 15 / 29

Medidas de Dispersion 16 / 29

Introduccion
Las Medidas de Dispersion tienen como objetivo cuantificar la variabilidad de los datos.

 Recorrido, Recorrido Intercuartlico, Recorrido Semiintercuartilico.

 Varianza, Desviacion Tpica, Cuasivarianza.

 Coeficiente de Variacion.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 17 / 29

9
Recorrido
 Recorrido: es la diferencia entre el maximo y el mnimo de los valores de la variable
aleatoria.
R = max(X) mn(X).

 Recorrido Intercuartlico: Longitud de un intervalo central que contiene el 50% de las


observaciones. Anchura de la caja en un diagrama Box Plot.

RI = Q3 Q1 .

 Recorrido Semiintercuartlico: Corresponde con la mitad del anterior.

RSI = RI /2.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 18 / 29

Momentos
Definiremos la expresion general de un Momento respecto del punto v y de orden r:
m
1X
Mr (v) = ni (xi v)r
n
i

Momentos Respecto al Origen, Raw Moment, v = 0:


m
1X
ar = ni xri
n
i

Casos particulares:
m
1X
a1 = ni xi = x Media Muestral.
n
i
m
1 X
a2 = ni x2i = x2 Media Muestral de Cuadrados.
n
i

Momentos Centrales, Central Moment,v = x:


m
1X
mr = ni (xi x)r
n
i

Casos particulares:
m
1X
m1 = ni (xi x) = 0
n
i
m
1 X
m2 = ni (xi x)2 = s2 Varianza.
n
i

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 19 / 29

10
Momentos con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> sum(ingresos)/length(ingresos)

[1] 35127.13

> mean(ingresos)

[1] 35127.13

> library(e1071)
> moment(ingresos,order=1,center=FALSE)

[1] 35127.13

> moment(ingresos,order=1,center=TRUE)

[1] 3.395447e-12

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 20 / 29

Varianza y Desviacion Tpica


La Varianza, es una de las medidas de dispersion mas usadas.
m
1X
2
s = ni (xi x)2 = x2 x2 = a2 a21 .
n
i

El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso
habitualmente se trabaja con su raz cuadrada, la Desviacion Tpica:

s = s2 .

En estadstica se usa con frecuencia la Cuasivarianza muestral:


m
1 X n 2
s2c = ni (xi x)2 = s .
n1 n1
i

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 21 / 29

11
Varianza con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME[1:15]
> sum((ingresos-mean(ingresos))^2)/length(ingresos)

[1] 456585857

> moment(ingresos,order=2,center=TRUE)

[1] 456585857

> var(ingresos)

[1] 489199132

> var(ingresos)*(length(ingresos)-1)/length(ingresos)

[1] 456585857

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 22 / 29

Coeficiente de Variacion
Las medidas de dispersion que hemos visto hasta ahora dependen de las unidades de medida de la
variable.

Para comparar la variabilidad de grupos o de valores de una misma variable en conjuntos


diferentes se utilizan medidas de dispersion relativas.

Coeficiente de Variacion:
s
CV = .
|x|
Es una cantidad adimensional que mide la dispersion respecto a la media.

Tambien se denomina Variabilidad Relativa y puede expresarse en porcentaje.

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 23 / 29

12
Medidas de Forma 24 / 29

Asimetra
Definiremos Asimetra Positiva cuando MdMe x.

Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribucion de


los datos una cola a la derecha.

Definiremos Asimetra Negativa cuando x MeMd.

Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribucion de


los datos una cola a la izquierda.

El coeficiente de Asimetra (de Fisher) se define:


1 Pm 3
m3 n i ni (xi x)
g1 = 3 = .
s s3

Asimetra Positiva Asimetra Negativa

g1 =1.85 g1=1.66

Simtrica

g1 = 0.028

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 25 / 29

13
Curtosis, Kurtosis
Tomando como origen de coordenadas la media x, y como unidad de medida la desviacion tpica,
aparecen diferentes tipos de distribuciones de frecuencias de los datos.

Definiendo el coeficiente muestral de exceso:


1 Pm
m4 n i ni (xi x)4
g2 = 4 3 = 3.
s s4
 Platicurtica g2 < 0.

 Mesocurtica g2 = 0.

 Leptocurtica g2 > 0.
Platicurtica Leptocurtica
0.25

0.25
g2 =1.06 g2 =2.32
0.20

0.20
0.15

0.15
0.10

0.10
0.05

0.05
0.00

0.00

10 5 0 5 10 10 5 0 5 10

Mesocurtica
0.25

g2 =0.056
0.20
0.15
0.10
0.05
0.00

10 5 0 5 10

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 26 / 29

14
Asimetra y Curtosis con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME
> moment(ingresos,order=3,center=TRUE)/moment(ingresos,
+ order=2,center=TRUE)^(3/2)

[1] 8.083549

> skewness(ingresos,type=1)

[1] 8.083549

> help(skewness)
> kurtosis(ingresos,type=1)

[1] 82.83009

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 27 / 29

Histograma de Ingresos

Histograma de Ingresos
1.2e05
Densidad de Frecuencia

8.0e06
4.0e06
0.0e+00

0 500000 1000000 1500000

ingresos

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 28 / 29

15
Histograma de Ingresos
> library(UsingR)
> edad<-cfb$AGE
> skewness(edad)

[1] 0.3639585

> kurtosis(edad)

[1] -0.6366239

Histograma de Edades

0.000 0.005 0.010 0.015 0.020 0.025


Densidad de Frecuencia

0 20 40 60 80 100

edad

Licesio J. Rodrguez-Aragon Tema 1, Unidad 2. 29 / 29

16

You might also like