You are on page 1of 21

Estadstica

VDPM
Marzo 2003 1

Tema II. Estadstica Descriptiva

Representacin de los datos de una muestra: tablas de
frecuencias, frecuencias relativas y frecuencias relativas
acumuladas.

Representacin grfica de dichas tablas: Histogramas y polgonos
de frecuencias. Analogas de estos polgonos con las funciones
de probabilidad segn el concepto frecuentista de la
probabilidad: distribuciones empricas de probabilidad.

Medidas de tendencia central, de dispersin de la muestra, de
sesgo y aplanamiento de la muestra, cuando los datos de ella
estn o no agrupados. Analoga de estas medidas con las
correspondientes a la funcin de probabilidad de la variable
aleatoria discreta.


Representacin de los datos de una muestra. Como se ha mencionado,
la Estadstica Descriptiva se encarga de la obtencin, organizacin,
representacin y descripcin de los datos.

La obtencin de los datos se logra a travs de las tcnicas de muestreo,
conforme al diseo del experimento seleccionado.

Como se podr observar ms adelante, existen expresiones que
permiten trabajar con la totalidad de los datos de la muestra; al arreglo
que utiliza la totalidad de los datos se le conoce como datos no
agrupados.

Antes de la evolucin tecnolgica o bien, cuando los recursos de
cmputo son limitados, trabajar con un nmero alto de datos resulta
complicado. Por tal motivo, se conform un arreglo de datos basado en
intervalos conocido como tabla de frecuencias. Cuando se utiliza la
tabla de frecuencias se dice que se trabaja con datos agrupados.

Ahora bien, con el avance en los recursos de cmputo resulta ahora de
lo ms sencillo trabajar con datos no agrupados, lo que evita errores
numricos y los propios ocasionados por el agrupamiento de los datos
en las tablas de frecuencia. No obstante, las tablas de frecuencias son
necesarias para construir las representaciones grficas de las muestras.

Intervalos de clase. Se refiere a los intervalos en los cuales sern
agrupados los n datos obtenidos en el muestreo. Una tabla de
frecuencias se compone de un nmero finito de intervalos continuos,
todos del mismo ancho. El nmero de intervalos es variable y su eleccin
depende de la experiencia de quin construye la tabla. No existe
consenso por parte de los autores para determinar el nmero ptimo de
intervalos, pero en lo general se coincide que no sean tan pocos que no
resulte apropiada la agrupacin de datos ni tantos que la haga poco
Estadstica

VDPM
Marzo 2003 2

prctica. En general, se recomienda que el nmero de intervalos no sea
ni menor de cinco ni mayor a quince.

Por otra parte, ciertos autores han establecido algunas reglas
matemticas para determinar el nmero de intervalos. Dos de ellas son:

Ley de Sturges: # intervalos =1 +3.322 Log (n)
# intervalos = n

En ambos casos, n es el nmero total de datos.

Lo que resulta importante, ms que determinar el nmero de intervalos,
es que estos cumplan con una serie de caractersticas:

1. Todos los intervalos deben tener el mismo ancho.
2. Un dato slo puede pertenecer a un solo intervalo.
3. No debe haber intervalos vacos.

Ilustremos lo anterior con un ejemplo.

Ejemplo. Los siguientes datos corresponden a 80 mediciones de la
longitud de un travesao parte de un chasis. Sus dimensiones son en
centmetros.



El primer paso para construir los intervalos de clase consiste en ordenar
los datos de menor a mayor, sin eliminar ninguno de ellos.


50.1 50.6 51.1 50.8 52.2 51.9 51.2 52.0
50.6 49.1 51.8 51.0 50.8 51.8 51.1 49.7
50.7 51.4 51.9 50.4 51.7 51.0 49.5 52.0
51.1 51.8 50.3 51.5 51.7 50.3 49.9 49.7
52.0 51.3 51.1 50.8 49.4 50.3 51.1 51.2
50.8 51.5 51.1 51.2 50.3 51.3 51.7 51.8
51.4 51.0 51.7 50.1 52.1 51.0 52.8 51.1
49.9 50.9 50.2 51.5 51.0 50.2 49.6 51.3
51.8 50.3 50.5 51.7 51.7 50.4 49.6 51.2
51.3 51.2 51.6 51.9 51.9 51.6 53.1 51.8
49.1 50.1 50.5 51.0 51.1 51.4 51.7 51.9
49.4 50.2 50.6 51.0 51.2 51.4 51.7 51.9
49.5 50.2 50.6 51.0 51.2 51.5 51.7 51.9
49.6 50.3 50.7 51.0 51.2 51.5 51.8 52.0
49.6 50.3 50.8 51.1 51.2 51.5 51.8 52.0
49.7 50.3 50.8 51.1 51.2 51.6 51.8 52.0
49.7 50.3 50.8 51.1 51.3 51.6 51.8 52.1
49.9 50.3 50.8 51.1 51.3 51.7 51.8 52.2
49.9 50.4 50.9 51.1 51.3 51.7 51.8 52.8
50.1 50.4 51.0 51.1 51.3 51.7 51.9 53.1
Estadstica

VDPM
Marzo 2003 3

Rango. Es la diferencia entre el dato mayor y el menor.

Rango =53.1 49.1 =4.0

Nmero de intervalos. Es atribucin del diseador del experimento definir
el nmero de intervalos con la recomendacin de que no sean ni menos
de cinco ni ms de quince. No obstante, es posible utilizar como gua las
siguientes expresiones:

# intervalos =1 +3.322 Log (80) =7.32

# intervalos = n = 80 =8.94

Se conviene en establecer ocho intervalos

Ancho del intervalo. Se define como:

W : Ancho del Intervalo
intervalos #
Rango
W =

Para nuestro ejemplo: 5 . 0
8
0 . 4
= = W

Todos los intervalos medirn 0.5 cm de ancho. Ahora bien, el primer
intervalo puede comenzar justo en el dato ms pequeo, aunque esto
no es regla general; si al diseador le conviene, puede empezar con un
lmite inferior menor al dato menor. Para motivos de nuestro ejemplo,
comenzaremos en el dato menor.


Puede observarse que tanto el dato menor como el mayor son incluidos
en algn intervalo; sin embargo, se produce un conflicto ya que algunos
datos coinciden con las fronteras compartidas de los intervalos, lo cual
no satisface la segunda caracterstica de los intervalos de clase.

A este respecto, algunos autores en apego fiel a la definicin de
intervalos expresan a los intervalos de clase en forma de intervalos
abiertos por un extremo y cerrados por el otro (el extremo cerrado o
abierto es decisin del diseador)
1
. Sin embargo, por usos y costumbres y

1
Se les denomina Lmites Reales de Clase.
Clase
Lmite
Inferior
Lmite
Superior
1 49.1 49.6
2 49.6 50.1
3 50.1 50.6
4 50.6 51.1
5 51.1 51.6
6 51.6 52.1
7 52.1 52.6
8 52.6 53.1
Intervalos de Clase
Estadstica

VDPM
Marzo 2003 4

pensando en las representaciones grficas de los datos, se utilizan
algunos recursos para evitar esta eventualidad.

Uno de estos recursos consiste en aprovechar la uniformidad de los
datos producto del diseo del experimento. En nuestro caso, el muestreo
arroj datos uniformes en el sentido de que todos ellos son compuestos
por dos cifras enteras y una cifra decimal. Se puede proceder de dos
formas:

1. Iniciar los intervalos un poco antes que el dato menor, por
ejemplo en 49.05. Al establecer un lmite de intervalos con una
cifra decimal ms, se minimiza la probabilidad de que algn
dato coincida con alguna frontera. Sin embargo, el dato mayor
quedar excluido del ltimo intervalo, por lo que se deber
aumentar el ancho del intervalo.

2. Aumentar el ancho de intervalo en una cifra decimal ms que la
que contienen los datos, por ejemplo, 0.55. Debe tomarse en
cuenta que en determinado momento, la suma de los anchos de
intervalo pueden hacer coincidir un dato. Resulta ms
conveniente utilizar 0.51


Este ltimo arreglo garantiza el cumplimiento de las tres caractersticas
de los intervalos de clase.

Marcas de clase. Son los puntos intermedios de cada intervalo de clase.

i
T : Marca de Clase
2
inf sup
L L
T
i

=


Clase
Lmite
Inferior
Lmite
Superior
1 49.10 49.61
2 49.61 50.12
3 50.12 50.63
4 50.63 51.14
5 51.14 51.65
6 51.65 52.16
7 52.16 52.67
8 52.67 53.18
Intervalos de Clase
Clase
Lmite
Inferior
Lmite
Superior
1 49.10 49.61 49.36
2 49.61 50.12 49.87
3 50.12 50.63 50.38
4 50.63 51.14 50.89
5 51.14 51.65 51.40
6 51.65 52.16 51.91
7 52.16 52.67 52.42
8 52.67 53.18 52.93
Intervalos de Clase
Marcas de
Clase
Estadstica

VDPM
Marzo 2003 5

Frecuencia. Es el nmero de datos que pertenece a cada intervalo de
clase.

i
F : Frecuencia de la i-sima clase



Naturalmente, la suma de todas las frecuencias debe coincidir con el
nmero total de datos (n).

Frecuencia Relativa. Se refiere a la frecuencia de cada una de las clases
dividida entre el nmero total de datos (n). De aqu se deriva la
interpretacin frecuentista de la probabilidad.

i
F' : Frecuencia relativa de la i-sima clase
n
F
F
i
i
= '

Comprobando el axioma de la probabilidad para variables aleatorias
discretas: 1 ) ( =

X
x P , la suma de todas las frecuencias relativas debe
ser la unidad.


Frecuencia Acumulada. Son los datos acumulados desde el primer dato
hasta la i-sima clase.

i
Fac : Frecuencia Acumulada de la i-sima clase.

Este concepto coincide con el particular de Funcin de Distribucin o
Funcin de Probabilidad Acumulada. Debe destacarse que la
Frecuencia Acumulada de la ltima clase debe coincidir con el nmero
total de datos (n).

Frecuencia Acumulada Relativa. En la frecuencia acumulada de la
clase i-sima entre el numero total de datos (n).

i
ac F' : Frecuencia Acumulada Relativa
n
Fac
ac F
i
i
= '
49.1 50.1 50.5 51.0 51.1 51.4 51.7 51.9
49.4 50.2 50.6 51.0 51.2 51.4 51.7 51.9
49.5 50.2 50.6 51.0 51.2 51.5 51.7 51.9
49.6 50.3 50.7 51.0 51.2 51.5 51.8 52.0
49.6 50.3 50.8 51.1 51.2 51.5 51.8 52.0
49.7 50.3 50.8 51.1 51.2 51.6 51.8 52.0
49.7 50.3 50.8 51.1 51.3 51.6 51.8 52.1
49.9 50.3 50.8 51.1 51.3 51.7 51.8 52.2
49.9 50.4 50.9 51.1 51.3 51.7 51.8 52.8
50.1 50.4 51.0 51.1 51.3 51.7 51.9 53.1
Estadstica

VDPM
Marzo 2003 6


De la misma forma, se comprueba que 1 ) ( =

X
x P ya que la frecuencia
relativa de la ltima clase, debe ser la unidad.

La tabla completa queda de la siguiente forma:


Esta tabla se conoce como Distribucin de Frecuencias.

Representacin grfica de la distribucin de frecuencias. Una forma muy
rpida y efectiva de interpretar la informacin contenida en una
distribucin de frecuencias consiste en graficar sus elementos.

Bsicamente existen tres tipos de representaciones:

Histograma
Representaciones
Grficas

Polgono de frecuencias

Ojiva de frecuencias


El Histograma en una grfica de barras o columnas que se construye en
un sistema coordenado en cuyo eje horizontal o de abscisas se detallan
los intervalos de clase y en el eje vertical o de ordenadas se ubican las
frecuencias o las frecuencias relativas.

El polgono de frecuencias es una lnea quebrada que une los puntos de
interseccin de la abscisa que corresponde a la marca de clase con la
ordenada que puede ser la frecuencia o la frecuencia relativa. El
polgono se cierra con el eje horizontal al iniciarlo en el lmite inferior del
primer intervalo de clase y concluirlo en el lmite superior del ltima
intervalo de clase. Cuando un polgono se dibuja sobre un histograma
de la misma distribucin, la lnea quebrada une los centros de las bases
superiores de los rectngulos del histograma.

Las ojivas de frecuencias son lneas quebradas que se trazan por los
puntos de interseccin de las coordenadas que corresponden a las
marcas de clase y sus respectivas frecuencias acumuladas o frecuencias
acumuladas relativas.
Lmite
Inferior
Lmite
Superior
1 49.10 49.61 49.36 5 0.06 5 0.06
2 49.61 50.12 49.87 6 0.08 11 0.14
3 50.12 50.63 50.38 12 0.15 23 0.29
4 50.63 51.14 50.89 18 0.23 41 0.51
5 51.14 51.65 51.40 16 0.20 57 0.71
6 51.65 52.16 51.91 20 0.25 77 0.96
7 52.16 52.67 52.42 2 0.03 79 0.99
8 52.67 53.18 52.93 1 0.01 80 1.00
E 80 1.00
Frecuencia
Relativa
Frecuencia
Acumulada
Frecuencia
Acumulada
Relativa
Clase
Intervalos de Clase
Marcas de
Clase
Frecuencia
Estadstica

VDPM
Marzo 2003 7
















5
6
12
18
16
20
2
1
0
5
10
15
20
49. 10 49. 61 50. 12 50. 63 51. 14 51. 65 52. 16 52. 67 53. 18
Histograma
5
6
12
18
16
20
2
1
0
5
10
15
20
Polgono de frecuencias
49.36 49.87 50.38 50.89 51.40 51.91 52.42 52.93
5
11
23
41
57
77
79
80
0
20
40
60
80
100
49.36 49.87 50.38 50.89 51.40 51.91 52.42 52.93
Ojiva de frecuencias
Estadstica

VDPM
Marzo 2003 8

Medidas descriptivas. Estos ndices permiten caracterizar a las
distribuciones de frecuencias para poder hacer una interpretacin
acertada de la misma.

Aritmtica
Media Ponderada
Geomtrica
De tendencia central Mediana Armnica

Moda

Varianza

Medidas
Descriptivas
De Dispersin
Desviacin
Estndar



Desviacin
Media



De Asimetra

Coeficiente de
Asimetra



De Apuntamiento

Coeficiente de
Apuntamiento


En lo general, todas estas medidas pueden ser calculadas para datos no
agrupados y para datos agrupados.

Cuando se datos agrupados se trata, se utiliza la informacin contenida
en la distribucin de frecuencias lo que realmente implica una
simplificacin, ya que se considera que todos los datos que se ubican en
un mismo intervalo de clase (frecuencia) son iguales y se ubican sobre la
marca de clase respectiva. Naturalmente, esta simplificacin origina un
error en los clculos, mismo que no se considera significativo y que
puede reducirse utilizando intervalos de confianza angostos.

Medidas de Tendencia Central. Son aquellas medidas que nos
proporcionan un dato que, con ciertos matices, puede considerarse
representante de los n datos obtenidos del muestreo.

Media. Tradicionalmente se considera a la media como un promedio
aritmtico de n datos. En realidad es ms que esto. La media pretende
representar de la mejor forma a los datos de los cuales proviene. Esta
representacin puede lograrse de varias formas.

Media Aritmtica
Para datos no agrupados:
n
X
X
n
i
i
=
=
1


donde n es el nmero total de datos.
Para datos agrupados:

=
=
= =
k
i
i i
k
i
i i
T F
n
T F
X
1
1
'
Estadstica

VDPM
Marzo 2003 9

Donde:
i
F es la frecuencia de la i-sima clase

i
T es la marca de clase de la i-sima clase

i
F' es la frecuencia relativa de la i-sima clase
k representa el total de clases de la distribucin

Como dato representante de una muestra, la media aritmtica presenta
el problema de los datos ubicados en los extremos de la muestra, los mas
pequeos y los ms grandes, que en la generalidad suelen ser pocos,
sesgan o inducen un error en el resultado. La media aritmtica nunca
debe utilizarse por s sola para hacer alguna conclusin sobre la muestra,
resulta conveniente acompaarla de alguna medida de dispersin
como se ver ms adelante.

Media Ponderada. A diferencia del promedio aritmtico, el promedio
ponderado toma en cuenta la existencia de los elementos adems de
su valor a promediar. Es decir, al tomar en cuenta el nmero de
elementos repetidos minimiza la posibilidad de uno o dos datos extremos
modifiquen dramticamente el resultado. La media ponderada
corresponde directamente al valor esperado o esperanza matemtica
estudiado en Probabilidad.

Para calcular la media ponderada de n datos (datos no agrupados) es
necesario contar todos ellos para establecer cuantos de ellos se repiten.
En la prctica, esto implica ordenarlos, motivo por el cual no se
acostumbra su clculo en esta modalidad. Por otra parte, como puede
observarse, la media ponderada para datos agrupados coincide con la
media aritmtica para datos agrupados, si consideramos un punto de
vista frecuentista de la probabilidad, ya que la frecuencia de la clase i-
sima dividida entre el nmero total de datos es la probabilidad de que
un dato pertenezca a la clase respectiva, mientras que la marca de
clase representa el valor especfico del dato.

=
=
= =
k
i
i i
k
i
i i
T F
n
T F
X
1
1
'

Media geomtrica.

n
n
X X X X X = ...
3 2 1


En la prctica suele obtenerse a travs de logaritmos.

( ) ( ) ( ) ( ) ( ) | |
n
X Log X Log X Log X Log
n
G Log + + + + = ...
1
3 2 1






Estadstica

VDPM
Marzo 2003 10

Media armnica. La media armnica de una serie de nmeros es el
recproco de la media artmtica de los recprocos de los nmeros.


= =
= =
n
i
n
i i
n
n
X n
X
1 1
1 1 1
1


en la prctica se utiliza:

n
X
X
n
i i

=
=
1
1
1


Mediana. Es el dato que divide exactamente a la mitad a la muestra.








Se muestran los dos posibles casos de la mediana con datos no
agrupados, en el primer caso la muestra est compuesta por un nmero
non de observaciones. La mediana es el dato que se encuentra
exactamente a la mitad de la muestra ordenada. (de menor a mayor
por ejemplo); esto se puede entender considerando una balanza que
contiene los datos; para que est equilibrada debe existir el mismo
nmero de datos de cada lado, por lo que la mediana ser la que
quede situada en el centro de la balanza.

El segundo caso cuando la muestra est compuesta por un nmero par
de observaciones. En este caso, la mediana es el promedio de los dos
valores centrales.

Para su clculo como dato no agrupado es necesario ordenar los datos
en forma descendente o ascendente y atender la siguiente regla, de
acuerdo a la naturaleza del nmero total de datos n:

Si n es impar:
2
1 +
=
n
X med


Si n es par:
2
1
2 2
+
+
=
n n
X X
med


Como puede observarse, cuando el nmero de elementos es par no hay
un valor que se encuentre exactamente a la mitad de la muestra; en
este caso se pueden promediar los dos valores ms cercanos a la mitad.
n impar n par
Estadstica

VDPM
Marzo 2003 11

Para nuestro caso, n es par e igual a 80. De tal forma:

1 . 51
2
1 . 51 1 . 51
2 2
41 40
1
2
80
2
80
=
+
=
+
=
+
=
+
X X
X X
med


Para su clculo como dato agrupado, la mediana se obtiene
determinando cual es la clase que incluye a la mediana, la cual se
distingue porque tiene una frecuencia acumulada relativa mayor o igual
a 0.5 (50% de los datos).

Para obtener una expresin que permita su clculo, a partir de la ojiva
de frecuencias acumuladas relativas se puede aproximar su mediana
trazando una lnea horizontal a partir de la ordenada 0.5 (o 50%) hasta
cortar la grfica y en dicho punto localizar el correspondiente en el eje
de las abscisas.























A partir de una interpolacin lineal, se utiliza la ecuacin de la recta:

( )
0 0
x x m y y + =

de acuerdo con la anterior figura:

5 . 0 = y
1
'

=
k
ac F y
w
f
m
k
'
= med x =
inf 0
Lim x =




Fac
2
n
n
Linf
k
Lsup
k

Med
Fk
Fack-1
w
Estadstica

VDPM
Marzo 2003 12



donde: k : Clase donde se ubica a la mediana
k
ac F' : Frecuencia acumulada relativa de la clase
anterior a la en que se encuentra la mediana
k
f ' : frecuencia de la clase donde se ubica la median
w: ancho del intervalo
inf
Lim : Lmite inferior de la clase donde se ubica la
mediana.

Sustituyendo los valores:

( )
inf 1
'
' 5 . 0 Lm me
w
f
ac F
k
k
+ =




despejando:
( )
1 inf
' 5 . 0
'

+ =
k
k
ac F
f
w
Lim med

No obstante, por motivos generalistas, resulta mejor expresar a la
mediana en funcin de frecuencias absolutas en lugar de relativas:
w
F
Fac
n
Lim med
k
k
|
|
|
|
.
|

\
|

+ =
1
inf
2


para nuestro ejemplo, la clase mediana (o la que incluye a la mediana)
es la clase 4, ya que su frecuencia acumulada relativa es de 0.51. De tal
forma:
( ) 11 . 51 51 . 0
18
23
2
80
63 . 50 =
|
|
|
|
.
|

\
|

+ = med

Moda. Es el elemento de la muestra que ms se repite. Una muestra
puede tener una o ms modas. Cuando todos los elementos de la
muestra son diferentes, no tiene sentido hablar de ella.

Para datos no agrupados, la moda se determina por inspeccin,
mientras que para datos agrupados se puede aproximar con la marca
de clase del intervalo de la clase modal, que es la que tenga la mayor
frecuencia.

En algunos casos se puede mejorar la aproximacin considerando que
la moda es la abscisa del mximo de una curva hipottica que pasa por
las marcas de clase, como se observa:
Estadstica

VDPM
Marzo 2003 13


















De acuerdo con lo anterior, se puede considerar que la moda debe
pertenecer al intervalo de clase con mxima frecuencia, pero
proporcionalmente ms cercano al intervalo adyacente que le siga en
frecuencia, de esta manera se puede plantear la proporcin (tringulos
semejantes):

2
sup
1
inf
D
Mod L
D
L Mod
ST
PF
RQ
EP

=

=

( ) ( )
1 sup 2 inf
D Mod L D L Mod =
( )
1 sup 2 inf 2 1
D L D L D D Mod + =
Si: w L L L L w + = =
inf sup inf sup
sustituyendo
( ) ( )
1 inf 2 inf 2 1
D w L D L D D Mod + + =
( )
2 1
1 2 1 inf
D D
wD D D L
Mod
+
+ +
=
w
D D
D
L Mod
|
|
.
|

\
|
+
+ =
2 1
1
inf


donde:
inf
L : Lmite inferior de la clase modal
w: ancho del intervalo
1
D :diferencia de las frecuencias de la clase modal y la
premodal
2
D : diferencia de las frecuencias de la clase modal y la
postmodal

para nuestro ejemplo, la clase modal es la nmero 6. Dado lo anterior:
Linf Lsup
R S
T
Q
E F
P
mod
X
D1
D2
Estadstica

VDPM
Marzo 2003 14


( ) 7 . 51 51 . 0
18 4
4
65 . 51 mod = |
.
|

\
|
+
+ =

A partir de la inspeccin de la muestra, el dato que ms se repite es 51.1
con siete repeticiones.

Medidas de dispersin. Estas medidas reflejan la separacin o
alejamiento de los elementos de una muestra. Estas medidas deben
acompaar a las medidas de tendencia central, particularmente a la
media, para evitar los efectos que los datos extremos tienen sobre ellas.

La medida de dispersin ms sencilla es el Rango, amplitud o recorrido,
que como ya se mencion es la diferencia entre el dato mayor y del
menor.

Varianza. Tal y como la define la probabilidad, la varianza de una
variable aleatoria es el segundo momento de la misma con respecto a
la media. Asimismo, se interpreta de la misma forma, como un promedio
de las distancias de cada dato hacia la media.

Momentos para datos no agrupados: ( )
k
n
i
i k
X X
n
m

=
=
1
1

Momentos para datos agrupados: ( )

=
=
r
i
k
i i k
X T F
n
m
1
1
2


Para datos no agrupados la varianza se define como:
( )
n
X X
n
i
i
2
1 2

=

= o
Esta frmula puede expresarse de una forma ms sencilla a partir del
desarrollo del binomio al cuadrado:

( ) ( )
n
X X X X
n
X X
n
i
i i
n
i
i
= =
+
=

=
1
2
2
2
1 2
2
o


=
= = =
+ =
+
=
n
i
n
i
i
i
n
i
n
i
i i
X
n
X
X X
n n
X n X X X
1
2
1 2 1 1
2
2
2
2
1
2
o
ya que
n
X
X
n
i
i
=
=
1
sustituyendo

=
2 2
2 2
2
1
X X X
n
i
o

2
En este caso r representa el total de clases, haciendo una distincin con k, que es el
orden del momento.
Estadstica

VDPM
Marzo 2003 15

2
1
2 2
1
X X
n
n
i
i
=

=
o

Para datos agrupados: ( ) ( )

= =
= =
r
i
i i
r
i
i i
X T F X T F
n
1
2
1
2
2
'
1
o

Utilizando esta ltima expresin, para nuestro ejemplo la varianza es de:

6564 . 0
2
= o


Por otra parte, utilizando la frmula para datos no agrupados:

6308 . 0
2
= o

Desviacin estndar. Es fcil de percibir, a partir de un anlisis
dimensional, que la varianza posee las unidades de la variable
muestreada elevada al cuadrado. Esta situacin no permite una rpida
visualizacin o interpretacin de la dispersin de los datos.

En virtud de lo anterior, la desviacin estndar es la raz cuadrada de la
varianza:
2
o o =
La desviacin estndar tambin es conocida como desviacin tpica o
error estndar.

Desviacin media. Ciertos autores opinan que para obtener el promedio
de las distancias de cada dato con respecto a la media debe obtenerse
el valor absoluto de la distancia entre ambos puntos y despus
obtenerse su promedio. De tal forma, la desviacin media (para datos
no agrupados) se define como:

n
X X
Media Desviacin
n
i
i
=

=
1


Asimismo, alguno autores utilizan como referencia a la mediana en lugar
de la media.

n
med X
Media Desviacin
n
i
i
=

=
1


Es necesario comentar que debido a las complejidades que implica el
manejo del valor absoluto, estos conceptos no son muy socorridos.

Estadstica

VDPM
Marzo 2003 16

Asimetra. Esta medida, tambin llamada sesgo, tiene como finalidad
mostrar hacia qu lado de le media se ubican ms datos. Corresponde
al tercer momento con respecto a la media determinar esta situacin.
No obstante, en situacin similar a lo que ocurre con la varianza, el
tercer momento posee las unidades de la variable muestreada elevada
al cubo.

Con el fin de volver adimensional al tercer momento, se define al
coeficiente de asimetra de la siguiente forma:

( )
( )
2
3
2
3
3
2
3
3
o
o
m
m
m
= =

Este coeficiente tiene como referencia al valor cero.

Si: 0
3
= o La distribucin es simtrica, es decir, existe la misma
cantidad de datos a ambos lados de la media.

Esto implica que debe cumplirse la siguiente relacin:

mod = = med X

Si: 0
3
< o La distribucin es asimtrica negativa, es decir, existen
ms datos a derecha de la media.

Esto implica que debe cumplirse la siguiente relacin:

mod med X < <

Si: 0
3
> o La distribucin es asimtrica positiva, es decir, existen
ms datos a izquierda de la media.

Esto implica que debe cumplirse la siguiente relacin:

mod X med > >














Estadstica

VDPM
Marzo 2003 17




























Para nuestro ejemplo:

Datos no agrupados: 28 . 0
3
= o

Datos agrupados: 2382 . 0
3
= o

Implica que se trata de una curva asimtrica negativa. Comprobando lo
anterior:

0571 . 51 = X 1117 . 51 = med 7423 . 51 mod=

X med = = mod

Apuntamiento. Corresponde al cuarto momento con respecto a la
media identificar a una medida que auxiliar directamente a las medidas
de dispersin. El apuntamiento o curtosis
3
detalla lo puntiagudo o
aplastado de una distribucin.

Una distribucin puntiaguda implica que los datos estn ms cercanos a
la media lo que a su vez arroja una varianza pequea. En caso contrario,
una distribucin aplastada implica que los datos se alejan de la media,
lo que implica una varianza grande.

3
Kurtosis en Ingls
0
3
> o
0
3
= o
0
3
< o
Estadstica

VDPM
Marzo 2003 18


El cuarto momento con respecto a la media posee las unidades de la
variable muestreada elevadas a la cuarta potencia. Para mejorar una
posible interpretacin, se define al coeficiente de apuntamiento o
coeficiente de curtosis:

( )
( )
2
2
4
2
2
4 4
o
o
m
m
m
= =

El valor de referencia de este coeficiente es tres. Algunos autores, para
homologar el uso de este coeficiente con el de simetra, disminuyen en
tres unidades el valor obtenido y as logran que el valor de referencia sea
cero.
( )
( )
3 3
2
2
4
2
2
4 4
= =
o
o
m
m
m


El lector deber estar atento a esta situacin, ya que la gran mayora de
los programas de computadoras realizan su comparacin contra el
cero.

La interpretacin es la siguiente:

Si 0
4
= o (o tres), se trata de una distribucin mesocrtica.
Si 0
4
> o (o tres), se trata de una distribucin Leptocrtica (o
puntiaguda).
Si 0
4
< o (o tres), se trata de una distribucin Platicrtica (o
aplastada).


Estadstica

VDPM
Marzo 2003 19


Para nuestro ejemplo:

Para datos no agrupados: 1121 . 0
4
= o
Para datos agrupados: 4986 . 0
4
= o

Fractiles. Si una serie de datos que se colocan en orden de magnitud, el
valor medio (o la media aritmtica de los dos valores medios) que divide
al conjunto de datos en dos partes iguales es la mediana. Por extensin,
de esta idea se puede pensar en aquellos valores que dividen a los
datos en cuatro partes iguales. Estos valores se llaman primero, segundo
y tercer cuartil, respectivamente; el segundo cuartil corresponde a la
mediana de la distribucin.

Anlogamente, los valores que dividen a la distribucin en diez partes
iguales se denominan deciles, mientras que aquellos que lo hacen en
cien partes iguales se llaman percentiles. El quinto decil y el
quincuagsimo percentil corresponden a la mediana.

El clculo de los fractiles es bajo el mismo procedimiento utilizado para la
mediana.

w
F
Fac fraccin n
Lim Fractil
k
k
|
|
.
|

\
|
+ =
1
inf


donde:

inf
Lim : Lmite inferior de la clase en que se ubica el fractil
buscado.
n : Total de datos de la distribucin.
fraccin : Porcentaje de la muestra buscado.
:
1 k
Fac Frecuencia acumulada de la clase anterior a aquella en
que se ubica el fractil buscado.
k
F : Frecuencia de la clase en la cual se ubica el fractil
buscado.
w: Ancho del intervalo.


El procedimiento es anlogo al utilizado para calcular la mediana. Con
auxilio de la frecuencia acumulada relativa debe ubicarse la clase en la
cual se ubica el fractil buscado.

Por ejemplo, si de desea calcular el primer cuartil debe ubicarse la clase
que incluye a la frecuencia acumulada relativa al 0.25 o 25%; para el
tercer cuartil corresponde al 0.75 o 75% de la distribucin; para noveno
decil ocurre a .90 o 90%.

La fraccin corresponde a la parte de la distribucin en la que se desea
dividir, por ejemplo, para la mediana o mitad de la distribucin la
Estadstica

VDPM
Marzo 2003 20

fraccin fue
2
1
o 0.5, para el primer cuartil ser
4
1
o 0.25 y as
consecutivamente.

Una forma de interpretar la informacin que nos entregan los fractiles
consiste en ubicar los lmites que comprenden las fronteras mismas que
son los fractiles.

Por ejemplo, la mediana nos ubica a la frontera que divide en dos partes
iguales a la muestra. Pero adems implica que la primer parte de la
muestra inicia en el lmite inferior de la primera clase y concluye en la
mediana, as como que la segunda parte inicia en la mediana y
concluye en el lmite superior del ltimo intervalo de clase.

Asimismo, si se restan el tercer y primer cuartil estaremos acotando el 50%
de la distribucin, pero centrada en torno a la mediana. A esta distancia
se le conoce como distancia intercuartlica.

Anlogamente, a la diferencia entre el noveno y el primer decil se le
conoce como distancia interdeclica y acta al 80% de la poblacin
centrada en torno a la mediana.

Para el ejemplo desarrollado, los clculos son los siguientes:

Primer cuartil (ubicado en la tercera clase)

( )( )
( ) 5025 . 50 51 . 0
12
11 25 . 80
12 . 50
1
=
(


+ = Q

Tercer cuartil (ubicado en la sexta clase)

( )( )
( ) 7265 . 51 51 . 0
20
57 75 . 80
65 . 51
3
=
(


+ = Q

Distancia intercuartlica: 51.7265 50.5025 =1.224

Primer decil (ubicado en la segunda clase)

( ) ( )
( ) 8650 . 49 51 . 0
6
5 1 . 0 80
61 . 49
1
=
(


+ = D

Noveno decil (ubicado en la sexta clase)

( )( )
( ) 0325 . 52 51 . 0
20
57 9 . 0 80
56 . 51
9
=
(


+ = D

Distancia interdeclica: 52.0325 49.8650 =2.1675

Estadstica

VDPM
Marzo 2003 21

Como conclusin de este captulo, se muestra una tabla resumen con
las medidas descriptivas del ejemplo que se ha desarrollado a lo largo
del mismo.




















Bibliografa

Taro Yamane, Estadstica, Editorial Harla, Mxico 1999.

Spiegel, Estadstica Serie Schaum, Edit. Mc. Graw Hill, Mxico 1999.

Frontana et al, Apuntes de Probabilidad y Estadstica, Facultad
de Ingeniera, Mxico 1985

Berk & Carey, Anlisis de datos con Microsoft Excel, Edit.
Thompson Learning, Mxico 2001

Canavos, Probabilidad y Estadstica, Mc. Graw Hill, Mxico 1994



n 80
Rango 4.0
Sturges 7.32
8.94
media= 51.0625 media= 51.0571
mediana= mediana= 51.1117
moda= moda= 51.7427
Varianza= 0.6308 Varianza= 0.6564
Desv. Est.= 0.7943 Desv. Est.= 0.8102
Asimetra= -0.2800 Asimetra= -0.2382
Apuntamiento= -0.1121 Apuntamiento= -0.4986
Primer cuartil= 50.4750 Primer cuartil= 50.5025
Tercer cuartil= 51.7000 Tercer cuartil= 51.7265
Primer decil= 49.9000 Primer decil= 49.8650
Noveno decil= 51.9 Noveno decil= 52.0325
Datos
no agrupados
Datos
Agrupados
n

You might also like