You are on page 1of 37

MEDIDAS DE POSICIN Y DISPERSIN

La precisin que es deseable obtener al describir el conjunto de datos numricos se


refiere a dos aspectos, cada uno de los cules se puede traducir en una pregunta:
Existe algn valor de la variable que represente a la mayora de los valores del
conjunto de datos?.
Qu tan separados estn entre si, los diferentes valores que asume la variable respecto
al valor de la variable que representa a los datos?.
La primera pregunta se refiere a las medidas de posicin y la segunda, a las llamadas
medidas de dispersin.
As tambin, un investigador del campo de la educacin puede realizar una
investigacin para determinar si las aptitudes matemticas son diferentes segn el sexo
de los estudiantes. Este investigador tendr dos conjuntos de calificaciones, luego
obtendr la calificacin promedio de cada grupo y har la comparacin de los
promedios. La variabilidad de los datos es otro aspecto importante que el investigador
debe de considerar, as, necesita saber si las calificaciones son uniformes o vara entre
los estudiantes del sexo femenino y del sexo masculino.

MEDIDAS DE POSICIN
o MEDIA ARITMTICA
o MEDIANA
o MODA
o CUARTILES
o PERCENTILES
o MEDIA GEOMTRICA
o MEDIA ARMONICA

MEDIA ARITMTICA
Definicin
Si x1 ,...., xn son los valores observados de una variable, la media aritmtica o
simplemente media o promedio de estos datos se define como el cociente de la suma de
todos los valores observados entre el nmero de datos o tamao de la muestra. Su
expresin matemtica es:

x1 x 2 ... x n 1 n
X xi ,
n n i 1
donde n es el nmero total de observaciones .
Media aritmtica ponderada

Nos permite calcular un promedio tomando en cuenta la importancia o peso de cada


valor observado de la variable con respecto al total. Su expresin matemtica es:
k

x w i i
Xw i 1
k donde,
w
i 1
i

wi , es la importancia o peso que se asigna a cada valor de la variable.


Si los datos se presentan en una distribucin de frecuencias donde, los valores x i de la
variable se repiten f i veces, la frmula (3.1) quedar expresada en la siguiente forma:
1 k
X xi f i
n i 1
Si los datos se presentan en una distribucin de frecuencias agrupados en intervalos de
clase, los valores x i de la expresin (3.3) sern reemplazados por la marca de clase de
cada intervalo y el valor de la media aritmtica se obtiene de la siguiente manera:

1 k '
X xi f i , xi' es la i - sima marca de clase
n i 1

MEDIANA

Definicin
Dado x1 ,...., xn observaciones de la variable X, la mediana es el valor o punto medio
que supera al 50 por ciento de los valores observados de la variable y es superado por el
restante 50 por ciento. La forma de obtener el valor de la mediana depende del nmero
de observaciones. As si el nmero de observaciones es impar, la mediana es el valor de
la variable que ocupa la posicin central de los datos ordenados y si el nmero de
observaciones es par, la mediana es la media aritmtica de los dos valores que ocupan la
posicin central de los datos ordenados. Esta definicin se puede plasmar mediante la
siguiente expresin matemtica.

Si n es impar :
Me x n 1

2

Si n es par : (3.5)
x n x n
1
2 2
Me

2
donde el subndice indica la posicin o lugar que ocupa el valor de la variable ordenada
.
Si la muestra es de tamao impar, como por ejemplo: 13 11 19 20 18 21 23,
donde
n 1
n = 7, entonces 4 , por lo que la mediana es el valor de la variable que ocupa la
2
posicin 4 de las observaciones ordenadas: 11 13 18 19 20 21 23 . Me x 4 =
19.
Si el tamao de la muestra es par, como por ejemplo 10 16 4 9 13 17, donde n = 6 y
ordenados son:4 9 10 13 16 17, entonces,
n n
3 , 1 4 por lo que x (3) 10 , x ( 4 ) 13 ocupan la posicin central. Luego
2 2
el valor de la mediana es la media aritmtica de 10 y 13, es decir Me
10 13
11 .5 .
2
Para obtener la mediana a partir de una distribucin de frecuencias se considera los
siguientes casos.

Datos sin agrupar en intervalos de clase y presentados en tabla de frecuencias


Si los datos estn en una distribucin de frecuencias, para calcular la mediana se
seguirn los siguientes pasos:
1) Encontrar las frecuencias absolutas acumuladas
n
2) Encontrar
2
3) En la columna de las frecuencias absolutas acumuladas ubicar el intervalo
n
Fi 1 Fi donde Fi 1 es la frecuencia absoluta acumulada inmediatamente
2
n
inferior o igual que y Fi es la frecuencia absoluta acumulada inmediatamente
2
n
superior que .
2
4) Ubicar en la columna del recorrido de la variable el valor xi asociado a Fi y
encontrar el valor de la mediana de acuerdo a la frmula siguiente:

n
Me xi si Fi 1 Fi (a)
2
o
xi 1 xi n
Me si Fi-1 Fi (b)
2 2

Datos agrupados en intervalos de clase y presentados en una tabla de frecuencia

Seguir los pasos 1), 2), 3) del caso anterior de datos sin agrupar en intervalos de clase y
como paso 4) ubicar el intervalo de clase asociado a la frecuencia absoluta acumulada
Fi y encontrar el valor de la mediana de acuerdo a la siguiente expresin:

n
Fi 1 n
Me Li 1 2 ai Si Fi 1 Fi (a)
Fi Fi 1 2


n
Me Li 1 Si Fi 1 Fi (b)
2
donde:
Li 1 es el lmite inferior del intervalo asociado a la frecuencia absoluta acumulada
Fi ai es la amplitud del intervalo asociado a la frecuencia absoluta acumulada Fi

CUARTILES
Son nmeros que dividen la distribucin de frecuencia de un conjunto de datos en
cuatro partes iguales. Ellos son:

El cuartil uno, Q1, es el punto por debajo del cul se ubica el 25% de los datos.

El cuartil dos, Q2 , es el punto por debajo del cul se ubica el 50% de los datos.

El cuartil tres, Q3, es el punto por debajo del cul se ubica el 75% de los datos.
Clculo de cuartiles en conjuntos de datos pequeos

Primero ordenamos los datos en orden de magnitud creciente. Los datos ordenados se
representan con x (1) , x ( 2) ,..., x ( n )
Luego encontramos la posicin para cada uno de los cuartiles, segn como sigue:
1
Para el cuartil uno calcular n 1 y redondear al entero ms cercano. La observacin
4
ordenada que ocupa esta posicin, representa el cuartil uno. Si la posicin se encuentra
a mitad entre dos enteros el cuartil uno es el promedio de los dos valores
correspondientes.

Para el cuartil dos (mediana)

3
Para el cuartil tres calcular n 1 y redondear al entero ms cercano. La
4
observacin ordenada que ocupa esta posicin, representa el cuartil tres. Si la posicin
se encuentra a mitad entre dos enteros el cuartil tres es el promedio de los dos valores
correspondientes.

Ejemplo 3.19
Para los siguientes conjuntos de datos
a) 13 11 19 20 18 21 23
b) 10 16 4 9 13 17
Obtendremos el cuartil uno, el cuartil tres y la mediana.

Solucin
a) Si tenemos la siguiente muestra de datos:13 11 19 20 18 21 23, donde n=7,
n 1 7 1
entonces, para encontrar el cuartil uno calculamos 2 , por lo que el cuartil
4 4
uno es el valor de la variable que ocupa la posicin 2 de las observaciones ordenadas:
11 13 18 19 20 21 23. Luego Q1 x 2 13 .
Para encontrar el cuartil dos usamos la formula de la mediana y como n es impar

Me x n 1 x 7 1 x 4 19

2 2

Para encontrar el cuartil tres calculamos


3
n 1 = 3 7 1 6 luego el cuartil tres es
4 4
Q3 x 6 21 .

b) Si tenemos otra muestra de datos, por ejemplo 10 16 4 9 13 17, donde n=6 y


ordenados son: 4 9 10 13 16 17, entonces, para encontrar el cuartil uno calculamos
n 1 6 1
1.75 , luego el entero ms cercano es 2 por lo que el cuartil uno es el
4 4
valor de la variable que ocupa la posicin 2 de las observaciones ordenadas, luego
Q1 x 2 9
Para encontrar el cuartil tres calculamos
3
n 1 = 3 6 1 5.25 luego el entero ms
4 4
cercano es 5 por lo que el cuartil tres es Q3 x 5 16
Para encontrar el cuartil dos usamos la frmula de la mediana y como n es par.

x n x n
x 6 x 6

2
1
2

2
1
2
x 3 x 4 10 13
Me 11 .5
2 2 2 2

Para obtener los cuartiles a partir de una tabla de distribucin de frecuencias, se


procede como en el caso del calculo de la mediana teniendo en cuenta que la fraccin
n n 2n 3n
ser cambiada por las fracciones , , segn se requiera calcular el
2 4 4 4
cuartil uno, cuartil dos(mediana) o cuartil tres respectivamente.

Datos sin agrupar en intervalos de clase y presentados en tabla de frecuencias

I. Para encontrar el cuartil uno, proceder de la siguiente manera:

1) Encontrar las frecuencias absolutas acumuladas


n
2) Encontrar
4
3) En la columna de las frecuencias absolutas acumuladas ubicar el intervalo
n
Fi 1 Fi donde Fi 1 es la frecuencia absoluta acumulada inmediatamente
4
n
inferior o igual que y Fi es la frecuencia absoluta acumulada inmediatamente
4
n
superior que .
4
4) Ubicar en la columna del recorrido de la variable el valor xi asociado a Fi y
encontrar el valor del cuartil uno de acuerdo a la frmula siguiente:

n
Q1 xi si Fi 1 Fi (a)
4
o
xi 1 xi n
Q1 si Fi-1 Fi (b)
2 4

II. Para encontrar el cuartil tres:

1) Encontrar las frecuencias absolutas acumuladas


3n
2) Encontrar
4
3) En la columna de las frecuencias absolutas acumuladas ubicar el intervalo
3n
Fi 1 Fi donde Fi 1 es la frecuencia absoluta acumulada inmediatamente
4
3n
anterior o igual que y Fi es la frecuencia absoluta acumulada inmediatamente
4
3n
superior que .
4
4) Ubicar en la columna del recorrido de la variable el valor xi asociado a Fi y
encontrar el valor del cuartil tres de acuerdo a la frmula siguiente:

3n
Q3 xi si Fi 1 Fi (a)
4
o
xi 1 xi 3n
Q3 si Fi-1 Fi (b)
2 4

Ejemplo 3.20
Con la distribucin del nmero de hijos de los estudiantes de maestra del ejemplo 3.3,
vamos a ilustrar la obtencin del cuartil uno y el cuartil tres.

Solucin:

a) Cuartil uno.
Primero debemos encontrar las frecuencias absolutas acumuladas como se
muestra a
continuacin:

Nmero se hijos fi Fi
x1 =0 2 2
x2 =1 11 13
x3 =2 11 24
x4 =4 3 27
x5 =5 3 30
Total 30

n n 30
y luego calcular , es decir, = 7.5 .
4 4 4
En la columna de frecuencias absolutas acumuladas ubicamos Fi y Fi 1 de
n
tal forma que, Fi 1 2 7.5 Fi 13 .Usando (3.11(a)), el valor de la
4
variable asociada a la frecuencia absoluta acumulada Fi F2 13, es x 2 1 ;
luego, el valor del cuartil uno es 1. Q1 x 2 1 . El 25% de los estudiantes tiene
a lo ms un hijo.

b) Cuartil tres.
Despus de encontrar la frecuencia absoluta acumulada como se muestra en la
tabla siguiente:
Nmero se hijos fi Fi
x1 =0 2 2
x2 =1 11 13
x3 =2 11 24
x4 =4 3 27
x5 =5 3 30
Total 30

3n 3n 3 30
Calculamos es decir = =22.5.
4 4 4
En la columna de la frecuencia absoluta acumulada ubicamos Fi y Fi 1 de tal
3n
forma que, Fi 1 13 22.5 Fi 24 .Usando (3.12(a)), el valor de la
4
variable asociada a la frecuencia absoluta acumulada Fi F3 24, es x3 2 ;
luego, el valor del cuartil tres es 2. Q3 x3 2 . El 75% de los estudiantes tiene
dos o menos hijos.

Cuartiles a partir de una distribucin de frecuencias para datos agrupados en


intervalos de clase

Para obtener los cuartiles para datos agrupados en intervalos de clase, se procede como
n
en el caso del clculo de la mediana teniendo en cuenta que la fraccin incluida en
2
n 2n 3n
la frmula (3.7) ser cambiada por las fracciones , , segn se requiera
4 4 4
obtener el cuartil uno, cuartil dos(mediana) o cuartil tres respectivamente.

PERCENTILES

Son nmeros que dividen la distribucin en 100 partes iguales, de manera semejante a la
mediana en que la distribucin de un conjunto de datos se dividi en dos partes, un 50%
inferior y otro 50% superior, o en cuartiles en donde la distribucin se dividi en cuatro
partes, cada una conteniendo un 25% de los datos
As por ejemplo el percentil 10, P10, es el valor de la variable debajo del cual se
encuentran el 10% de los datos. Es importante calcularlos en distribuciones con un gran
nmero de datos.
A continuacin se presentan los mtodos de obtencin de los percentiles para datos
tabulados.

Datos sin agrupar en intervalos de clase y presentados en una tabla de frecuencias

Se procede como en el caso del clculo de la mediana teniendo en cuenta que la fraccin
n n
ser cambiada por la fraccin k de acuerdo al percentil que sea de nuestro
2 100
inters encontrar (k =1,2,,99), y luego continuar con los pasos ya conocidos:
1) Encontrar las frecuencias absolutas acumuladas
n
2) Obtener la fraccin k donde k puede tomar los valores k = 1, 2,. . . ,99
100
3) En la columna de las frecuencias absolutas acumuladas ubicar el intervalo
kn
Fi 1 Fi donde Fi 1 es la frecuencia absoluta acumulada inmediatamente
100
kn
inferior o igual que y Fi es la frecuencia absoluta acumulada inmediatamente
100
kn
superior que .
100
4) Ubicar en la columna del recorrido de la variable el valor xi asociado a Fi y
encontrar el valor del percentil k de acuerdo a la frmula siguiente:

kn
Pk xi si Fi 1 Fi (a)
100
o
xi 1 xi kn
Pk si Fi-1 Fi (b)
2 100
(3.13)

Datos agrupados en intervalos de clase y presentados en una tabla de frecuencia

Para obtener el percentil k en el caso de una distribucin de frecuencias para datos


agrupados en intervalos de clase seguir los pasos 1), 2), 3) del caso anterior de datos sin
agrupar en intervalos de clase y como paso 4) ubicar el intervalo de clase asociado a la
frecuencia absoluta acumulada Fi y encontrar el valor del percentil k de acuerdo a la
frmula siguiente:

n
k Fi 1
100 kn
Pk Li 1 a Si Fi 1 Fi (a)
Fi Fi 1 i 100
(3.14)

kn
Pk Li 1 Si Fi 1 Fi (b)
100

donde:
Li 1 , es el lmite inferior del intervalo asociado a la frecuencia absoluta acumulada
Fi y ai es la amplitud del intervalo asociado a la frecuencia absoluta acumulada
Fi .

Ejemplo 3.21
Considerando los datos de la edad de los estudiantes de maestra del ejemplo 3.4 vamos
a obtener el percentil 75, P75.

Solucin
Previamente se calculan las frecuencias absolutas acumuladas como se muestra a
continuacin,
Edades Frecuencias Frecuencia absoluta
Li 1 , Li absoluta acumulada
fi Fi
23 - 32 6 6
32 - 41 12 18
41 - 50 8 26
50 - 59 2 28
59 - 68 2 30
Total 30

n 30 n
y al calcular k 75 22.5 , se cumple Fi 1 = 18 < k 22.5 < Fi =
100 100 100
26, en este caso el intervalo asociado a Fi F3 26 es 41, 50 , que contiene el
30
valor de la variable que ocupa la posicin 75 22.5 . La amplitud del intervalo
100
es 9 y el lmite inferior 41. Entonces, usando (3.14(a)), el valor del percentil 75 P 75, es
n
k Fi 1
100 22.5 18 4.5
a
i = 41 26 18 9 41 8 9 46.1 .
Pk Li 1 El
Fi Fi 1


75% de los estudiantes tienen edades inferiores a 46.1 aos.

Comentarios
Dependiendo de lo que se quiera representar o explicar y del tipo de variable con la que
estemos trabajando, se elegir a la estadstica de posicin ms apropiada segn el caso,
por ello hacemos la siguientes observaciones.
La media aritmtica es afectada por valores extremos de la variable.
La mediana no es afectada por valores extremos (valores inferiores o superiores
muy distantes del valor central) de la variable.
La media, mediana y moda se pueden calcular para datos cuantitativos.
La moda es la nica medida que sirve tanto para el caso de variables categricas
como para variables cuantitativas, puesto que su definicin no exige ordenar los
valores de la variable, ni hacer operaciones matemticas con ellos. Por ejemplo,
si se est trabajando la distribucin de la variable nacionalidad para un
determinado conjunto de personas, no tiene ningn sentido hablar del promedio
o de la mediana de esa distribucin; en cambio si tiene sentido hablar de la
moda.
Si se trabaja la distribucin de una variable cuantitativa, en principio tiene
sentido calcular la media, la moda y la mediana; pero para efectos prcticos,
puede no tenerlo. Entonces, hace falta desarrollar un cierto criterio para decidir
en casos particulares, cul es la mejor medida de tendencia central.
La media aritmtica es muy sensible a valores extremos. Entonces, si en una
distribucin hubiera presencia de dichos valores, la media no es la mejor de las
medidas de tendencia central. Por ejemplo en lo que sigue tenemos dos
conjuntos de datos, al triplicar el ltimo valor del conjunto2, el nico valor que
se altera es la media:
Media Mediana Moda
Conjunto1: 9,9,9,10,11,12,13,14,19 11.77 11 9
Conjunto2: 9,9,9,10,11,12,13,14,57 16 11 9
Puesto que las tres medidas de posicin tienen debilidades y fortalezas vale la
pena observarlos e interpretarlos en forma conjunta. Un forma de entender la
relacin entre estos tres es localizando los valores de cada uno de ellos en una
distribucin de frecuencias.
La siguiente figura muestra las tres formas muy comunes de distribucin de
frecuencias

Moda<Mediana< Media Media=Mediana=Moda Media<Mediana< Moda


(a) (b) (c)
En la distribucin de frecuencias (a) la posicin relativa de la media, mediana y
moda indica asimetra positiva
La distribucin de frecuencias (b) nos muestra que la media, mediana y moda de
una variable son iguales. Esta distribucin tiene forma de campana y se la
conoce como distribucin normal.(o campana de Gauss).
En la distribucin de frecuencias (c) la posicin relativa de la media, mediana y
moda indica asimetra negativa

Ejemplo.

, como se muestran en la tabla y el grfico que se presentan. Se desea conocer cul es


el porcentaje de socios cuyas edades oscilan entre 11 y 43 aos.

MEDIDAS DE DISPERSIN

En la seccin anterior se definieron medidas que permiten encontrar la ubicacin del


centro de una distribucin y que, por tanto, contribuyen a la descripcin del
correspondiente conjunto de datos mediante un valor representativo; pero para lograr
una imagen completa de cmo es la distribucin es necesario saber cmo se distribuyen
los datos alrededor de ese valor representativo. Retomemos, entonces, la segunda
pregunta formulada en la seccin 3.1. Qu tan separados estn entre s, los diferentes
valores que asume la variable?.
El objetivo del presente captulo es encontrar una manera adecuada de responder la
pregunta planteada, es decir encontrar una forma de medir la dispersin de los datos.
Entre las medidas de dispersin ms usadas estn: el rango, la varianza, la desviacin
estndar y el coeficiente de variacin.

RANGO

Es la diferencia entre los valores mximo y mnimo de un conjunto de datos.

Rango x mx x mn (3.15)
Ejemplo 3.25
Los dos conjuntos de valores que siguen corresponden a los aos de servicio en la
docencia de 14 profesionales en estadstica. Obtendremos el rango para cada conjunto
de valores.
Conjunto1: 15 15 30 30 30 30 30 30 30 30 30 30 45 45
Conjunto2: 15 15 20 30 30 30 30 30 40 40 40 40 40 45

Solucin
En el conjunto1, cuyos valores ya ordenados en forma ascendente son
15 15 30 30 30 30 30 30 30 30 30 30 45 45
el mximo valor es 45 y el mnimo valor es 15 entonces el rango es:Rango =45-
15=30 y en el conjunto2, tambin el mximo valor es 45 y el mnimo valor es 15 e
igualmente tiene Rango = 45-15 = 30; pero tenemos que aceptar que la primera
distribucin es menos dispersa que la segunda, sin embargo el rango es el mismo para
las dos distribuciones. Por tanto, en este caso el rango es una medida que no refleja las
diferencias que segn la intuicin y la observacin son evidentes entre las dos
distribuciones. Este hecho nos exige seguir buscando otras medidas de dispersin que
supere la limitacin anterior.

RANGO INTERCUARTLICO

Es la distancia entre el cuartil uno y el cuartil tres y se expresa como:

Rango intercuartlico = Q3 Q1
(3.16)

Esta medida de dispersin nos permite saber en cuanto se diferencian el mayor valor del
menor valor del 50% de los valores que se ubican en la parte central de la muestra
ordenada y desde luego no se ve influenciada por la presencia de valores extremos.

Ejemplo 3.26
Con los datos presentados en el ejemplo 3.25, encontraremos el rango intercuartlico
para cada conjunto de valores.

Solucin

a) Para el conjunto 1 cuyos valores son 15 15 30 30 30 30 30 30 30 30 30 30 45


45, encontraremos primero los cuartiles:
1
Cuartil uno: se tiene que n = 14, la posicin es n 1 = 1 14 1 3.75 y el
4 4
entero ms cercano a 3.75 es 4 luego el valor que ocupa la posicin 4 es Q1 = x 4 =30
3 3
Cuartil tres: tambin n = 14, la posicin es n 1 = 14 1 11 .25 y el entero
4 4
ms cercano a 11.25 es 11 luego el valor que ocupa la posicin11 es Q3 = x 11 =30
Luego,
Rango intercuartlico = Q3 Q1 = 30-30 =0

b) Parael conjunto2 cuyos valores son:15 15 20 30 30 30 30 30 40 40 40 40 40


45, tambin primero encontraremos los cuartiles:
1
Cuartil uno: n=14 la posic.n es n 1 = 1 14 1 3.75 , el entero ms cercano a
4 4
3. 75 es 4 luego el valor que ocupa la posicin 4 es Q1 = x 4 =30
3 3
Cuartil tres: n = 14, la posicin es n 1 = 14 1 11 .25 y el entero ms
4 4
cercano a 11.25 es 11 luego el valor que ocupa la posicin 11 es Q3 = x 11 =40
Luego,
Rango intercuartlico = Q3 Q1 = 40-30 =10
En el conjunto1 el rango intercuartlico es igual a 0, es decir no existe variabilidad en el
50% de los datos que se encuentran ubicados en la parte central. Mientras que en el
conjunto2 el rango intercuartlico es igual a 10, indicando que el menor valor y el
mayor valor del 50% de los datos que se encuentran ubicados en la parte central, estn a
una distancia de 10 unidades.

RANGO SEMIINTERCUARTLICO

Es la distancia promedio desde la mediana hacia los dos cuartiles es decir, evala, en
promedio, qu tan lejos se hallan los valores de los cuartiles Q1 y Q3 con respecto a
la mediana y se expresa mediante la frmula:
Q3 Q1
Rango semiintercuartlico =
2
(3.17)
Ejemplo 3.27
Con los dos datos presentados en el ejemplo 3.25, correspondientes a los aos de
servicio en la docencia, con rangos ambos iguales a 30, rangos intercuartlicos iguales a
cero y diez respectivamente, encontraremos el rango semiintercuartlico en cada caso.

Solucin
Q3 Q1 30 30
Para el conjunto1: Rango semiintercuartlico = = 0
2 2
Q Q1 40 30 10
Para el conjunto2: Rango semiintercuartlico = 3 = 5
2 2 2
Para el conjunto1, esta medida de dispersin nos dice que no hay dispersin en el 50%
central de los datos respecto a la mediana. Para el conjunto2, esta medida de dispersin
nos dice que tanto el valor del cuartil uno como el valor del cuartil tres distan de la
mediana en promedio en 5 unidades.

Ejemplo 3. 28
En la Escuela de Primaria Juana de Arco, los estudiantes fueron sometidos a un examen
odontolgico. Los siguientes datos corresponden al nmero de dientes extrados en una
muestra de 7 alumnos de primer ao de primaria: 6 0 10 8 2 3 1. Encontraremos:
a) El rango b) Rango intercuartlico c) Rango semiintercuartlico.

Solucin
a) El rango es:
Rango = Rango x mx x mn =10 0 =10.
b) Para encontrar el rango intercuartlico:
Ordenamos las observaciones en orden creciente: 0 1 2 3 6 8 10.
Encontramos:
n 1 7 1
Cuartil uno: calculamos la posicin 2 entonces, en la muestra
4 4
ordenada,
la observacin que ocupa la posicin 2 es Q1 x 2 1 , quiere decir que el 25%
inferior de los alumnos se han extrado menos de un diente.
3(n 1) 3(7 1)
Cuartil tres calculamos la posicin 6 entonces, en la muestra
4 4
ordenada la observacin que ocupa la posicin 6 es Q3 x 6 8 , quiere decir que
el 25% superior de los alumnos se han extrado ms de 8 dientes.
Luego,
Rango intercuartlico = Q3 Q1 = 8 1 7
Es decir, 7 es la diferencia entre el mayor nmero de dientes extrados y el menor
nmero de dientes extrados del 50% de la parte central de la muestra, a diferencia del
rango que nos indica la diferencia entre el mayor nmero de dientes extrados y el
menor nmero de dientes extrados del 100% de la muestra.
Q Q1 8 1 7
c) Rango semiintercuartlico = 3 = =3.5. Esta medida de dispersin
2 2 1 2
nos indica que tanto el valor del cuartil uno como el valor del cuartil tres de la variable
nmero de dientes extrados en el grupo de 7 alumnos, distan de la mediana en
promedio en 3.5 unidades.
Cada una de las medidas que se han presentado hasta el momento proporcionan
informacin parcial de la dispersin de la muestra. Una medida que describe la
dispersin de todos los valores que conforman la muestra, es la varianza.

VARIANZA

La varianza de un conjunto de datos numricos es una medida de dispersin y se


define como la media o promedio1 de los cuadrados de las diferencias de cada valor de
la variable con respecto a la media aritmtica, cuya expresin matemtica es:

x X
n n

x
2
i i
(3.18)
S
2 i 1
donde X i 1

n 1 n

Una frmula alternativa es la siguiente:


n

x
2
2
i nX
i 1 (3.19)
S2
n 1

Cabe indicar que la varianza tambin se puede expresar como:

x
n
2
i X
(3.20)
S2 i 1

n
pues cuando el tamao de muestra es grande las dos frmulas (3.18) y (3.20)
proporcionan resultados similares.

DESVIACIN ESTNDAR

Es la raz cuadrada de la varianza y se expresa mediante la frmula

n n

xi X x
2
i
(3.21)
S i 1
donde X i 1
,
n 1 n

Ejemplo 3.29
Los siguientes datos representan las edades de seis nios en aos cumplidos:
1 3 3 0 4 1. La media aritmtica es X 2 aos. Obtendremos la varianza.
Solucin
Los clculos auxiliares para el clculo de la varianza se muestran en la siguiente tabla:

Edades Edad Media (Edad- Media)2


0 0-2=-2 4
1 1-2=-1 1
1 1-2=-1 1
3 3-2=1 1
3 3-2=1 1
4 4-2=2 4

x
n
2
Total i X =12
i 1

Luego la varianza es:

1 n 12
xi X 5 2.4 aos 2
2
S2
n 1 i 1
Desviacin Estndar :
S 2 .4 aos 2 1.5 aos

Si resolvemos el mismo problema usando el SPSS se tienen los siguientes resultados:

N Valid 6
Mean 2.00
Std. Deviation 1.549
Variante 2.400

Para obtener la varianza a partir de una distribucin de frecuencias se considera los


siguientes casos:
Datos sin agrupar en intervalos de clase y presentados en tablas de frecuencias

Para datos sin agrupar en intervalos de clase, la frmula de la varianza (3.18) se expresa
como:

x
k
2
i X fi
(3.22)
S
2 i 1

n 1
donde
k

x i fi
X i 1
,
n
k es el nmero de valores diferentes que toma la variable,
f i es la frecuencia absoluta asociada al i - simo valor diferente que toma la variable.

La desviacin estndar
n n

xi X f i x
2
i fi
(3.23)
S i 1
donde X i 1
,
n 1 n

Otra expresin de la varianza es la siguiente:


k k

xi2 f i n X x
2
i fi
S
2 i 1
donde X i 1

n 1 n
(3.24)

Ejemplo 3.30

Los alumnos del Doctorado en Educacin matriculados el semestre 2000, en el marco


del curso de Estadstica Aplicada a la Investigacin, realizaron una investigacin con
el objetivo de establecer el perfil de los estudiantes de maestra de la UNMSM,
matriculados en el semestre acadmico 2000-I y que ingresaron a la universidad entre
1997 y el ao 1999. El estudio se llev a cabo entre abril y junio del ao 2000. Como el
nmero total de estudiantes que cursaban las diversas maestras era alrededor de 2500,
despus de grandes debates, los alumnos del Doctorado en Educacin decidieron
seleccionar una muestra de 30 estudiantes de la Maestra en Gestin Educativa. A
continuacin se presentan los datos para la variable: nmero de hijos de los 30
maestristas. Encontraremos la varianza y desviacin estndar del nmero de hijos.
Solucin
Usaremos la expresin (3.24). Los datos y los clculos auxiliares se presentan en la
siguiente tabla:

xi fi xi2 xi2 f i
x1 =0 2 0 0
x2 =1 11 1 11
x3 =2 11 4 44
x4 =4 3 16 48
x5 =5 3 25 75
Total 30 178
Reemplazando en la expresin (3.24) se encuentra

x
2
fi n X 178 30 2
2 2
i
i 1 = =2 hijos2
S2 30 1
n 1

S 2 hijos 2 1.41 hijos

La variabilidad media del nmero de hijos respecto a la media aritmtica es de 1 hijo.

Datos agrupados en intervalos de clase y presentados en una tabla de frecuencias

Para datos agrupados en intervalos de clase, la frmula de la varianza (3.18) se expresa


como:
x
k
2
'
i X fi
S
2 i 1

n 1
donde , (3.25)
k es el nmero de intervalos de clase
xi' es la marca de clase del i - simo intervalo
fi es la frecuencia absoluta asociada al i - simo intervalo

Otra expresin de la varianza para datos agrupados con intervalos de clase es la


siguiente:

k k

xi'2 f i n X x
2 '2
i fi
i 1 i 1 (3.26)
S
2
donde X
n 1 n
y la desviacin estndar es:
S S 2 en cualquiera de los dos casos.

Ejemplo 3.31
Los alumnos del Doctorado en Educacin matriculados el semestre 2000, en el marco
del curso de Estadstica Aplicada a la Investigacin, realizaron una investigacin con
el objetivo de establecer el perfil de los estudiantes de maestra de la UNMSM,
matriculados en el semestre acadmico 2000-I y que ingresaron a la universidad entre
1997 y el ao 1999. El estudio se llev a cabo entre abril y junio del ao 2000. Como el
nmero total de estudiantes que cursaban las diversas maestras era alrededor de 2500,
despus de grandes debates, los alumnos del Doctorado en Educacin decidieron
seleccionar una muestra de 30 estudiantes de la Maestra en Gestin Educativa. A
continuacin se presentan los datos para la variable: edad de los estudiantes .
Obtengamos la media aritmtica.
Solucin
Se resume los pasos para la obtencin de la varianza y se presentan en el siguiente
cuadro:
se calculan las marcas de clase, xi' ,
se genera una columna con los productos de cada marca de clase por su
'
correspondiente frecuencia. xi f i ,
la columna anterior (los resultados obtenidos en cada caso) se vuelve a
2
multiplicar por la correspondiente marca de clase, resultando xi' f i ,

Edades xi' fi xi' f i 2


xi' f i
Li 1i , Li
23 - 32 27.5 6 165.0 4537.5
32 - 41 36.5 12 438.0 15987.0
41 - 50 45.5 8 364.0 16562.0
50 - 59 54.5 2 109.0 5940.5
59 - 68 63.5 2 127.0 8064.5
TOTAL 30 1203.0 51091.5

k k

x'i2 f i 51091.5
i 1
x f
i 1
'
i i 1203 n = 30

1 n ' 1203
X
n i 1
xi f i
30
40.1 aos

51091.5 30 40.1
2

S2 98.31 aos2.
29
S 9.92 aos. La dispersin media de las edades de los estudiantes
98.31
respecto a la media es de 10 aos.

Propiedades de la varianza
Propiedad 1. La varianza debe ser siempre un valor no negativo S 2 0 .
k

x X fi
2
i
como xi X 0 y f i 0, entonces
2
En la expresin
S
2 i 1

n 1
k 2

xi X 2 f i 0 de ah que x
i 1
i X 0 por tanto S 2 siempre es no negativo.

Propiedad 2. La varianza de una constante es igual a cero. Esto es V C 0 , donde C


es cualquier constante (Convenimos que S 2 V (.) )
Supongamos que las observaciones x i = C para i , entonces X C y xi X 0
2

, pues las observaciones toman un nico valor, por lo tanto V( C )=0


Propiedad 3. La varianza de una constante ms una variable es igual a la varianza de la
variable. Estoes si y i C xi , i =1,,n entonces V (Y ) V C X V ( X ) .

Ejemplo 3.32
El Director del Colegio Guadalupe esta preocupado porque durante el ao acadmico
2004, algunos alumnos han faltado frecuentemente a clases. Con la finalidad de
verificar su percepcin solicita al Director Acadmico que tome una muestra de 20
estudiantes que en ao 2004 cursaron el cuarto ao de secundaria y obtenga para dichos
estudiantes:
a) La varianza de la variable X, nmero de inasistencias de los alumnos del cuarto
ao en el mes de noviembre.
b) Si en el mes de diciembre cada uno de los 20 estudiantes faltaron a clase 2 das
ms que en noviembre, cunto ser la varianza de la variable Y, nmero de
inasistencias de los estudiantes de cuarto ao durante el mes de diciembre? Los
datos de la muestra son:
c)
Nmero de inasistencias 1 3 6 7 8
en el mes de noviembre
fi 3 4 8 3 2

Solucin
a) Usando la expresin (3.24), el valor de la varianza para la variable X, nmero de
inasistencias de los alumnos de cuarto ao en el mes de noviembre es::
602 - 20(5) 2
y S2 5.37 , sabiendo que X 5,2
19
b) Si a cada observacin le sumamos la constante C = 2, inasistencias del mes de
diciembre, obtendremos yi 2 xi , i = 1,,5 . Para calcular la varianza de la variable
Y aplicamos la propiedad V Y V C X V X y se tiene: V(Y)=
V 2 X V X 5.37 . Vemos pues que la varianza no se modific a pesar de haber
sumado una constante a todas las observaciones.

Propiedad 4. La varianza de una constante por una variable, es igual al producto de la


constante al cuadrado por la varianza de la variable. Esto es si y i Cxi , i =1,,n
entonces V (Y ) V CX C 2V ( X )

Ejemplo 3.33
Con los mismos datos del problema anterior aplicaremos la propiedad 4.

Solucin
Ya se encontr que el valor de la media aritmtica es X 5 y el valor de la varianza
S 2 5.37 .
Supongamos que el nmero de inasistencias de cada alumno se duplica, esto es
y i 2 xi .
Entonces la constante es C = 2 y aplicando la propiedad se tiene que, V Y C 2V X =
2 2 (5.37) 21.48 ; vemos en este caso que la varianza s sufri un cambio al haber
multiplicado por una constante a todas las observaciones.
Propiedad 5. Dados dos conjuntos de datos de tamaos, medias y varianzas respectivas:
n1 , n 2 ; X 1 , X 2 ; S12 , S 22 y si se desea calcular la varianza global de las dos muestras se
aplica la siguiente frmula:
S 2 (n ) S 22 (n 2 ) X 1 X (n1 ) X 2 X (n2 )
2 2

S2 1 1
n1 n2 n1 n2
donde:
S12 (n1 ) S 22 (n 2 )
el primer trmino : representa la variabilidad dentro de cada muestra
n1 n 2
y se le denomina intravaria nza.

el segundo trmino :
X 1 X 2 (n1 ) X 2 X 2 (n2 ) sabiendo que X
X 1 n1 X 2 n2
n1 n 2 n1 n2
representa la variabilidad entre las dos muestras y se le denomina intervarianza. Por tanto la varianza
global de las dos muestra es,
S 2 intravarianza intervarianza
Esta propiedad se puede generalizar para ms de dos muestras.

Ejemplo 3.34
En el Colegio San Carlos, en un concurso de lgebra, tres alumnos por cada seccin
de quinto ao de secundaria, obtuvieron las calificaciones siguientes:

Seccin A: 7, 9,11 X 1 9 S12 2,7


Seccin B: 11,14,17 X 1 14 S 22 6,0
Encontraremos la varianza global de las calificaciones de los 6 alumnos, aplicando la
propiedad 5.

Solucin

Sea la muestra 1 la seccin A y la muestra 2 la seccin B, entonces se tiene:


Muestra 1
n1 3 X 1 9 S12 2,7
Muestra 2:
n2 3 X 2 14 S 22 6,0

El valor de la intravarianza es:


S12 ( n1 ) S 22 ( n 2 ) 2.7( 2) 6(2) 8 18
4,35
n1 n2 33 6

El valor de la media global es:


n X 1 n 2 X 2 3(9) 3(14) 27 42 69
X global 1 11,5
n1 n2 33 6 6

El valor de la intervarianza:
X 1 X 2 (n1 ) X 2 X 2 (n2 ) (9 11 .5) 2 3 (14 11 .5) 2 3 12.5 12.5 6,25
n1 n2 33 4
Finalmente, el valor de la varianza global es:
S 2 intravarianza intervarianza = 4,35 + 6,25 = 10,6

Ejemplo 3.35
Con los datos presentados en el ejemplo 32 aplicaremos la propiedad 5.

Solucin

Al dividir la muestra total en las siguientes dos sub muestras se obtiene:

Muestra 1:
xi fi xi f i
1 3 1 *3=3
3 4 3 *4=12
6 8 6 *8= 48
Total 15 63

Muestra 2:
xi fi xi f i
7 3 7 *3=21
8 2 8 *2=16
Total 5 37

Para la muestra 1 se tiene:


63
n1=15 X1 =4.2
15
3

x X
2
i
(1 4.2) 2 3 (3 4.2) 2 4 (6 4.2) 2 8
S12 i 1
4.16
n 15
Para la muestra 2 se tiene:
37
n2 =5 X2 7 .4
5

x X
2
i
(7 7.4) 2 3 (8 7.4) 2 2
S
2
2
i 1
0.24
n 5

El valor de la intravarianza es:


S 12 (n 1 ) S 22 (n 2 ) 4,16(15) 0,24(5)
3,18
n1 n 2 15 5

El valor de la media global es:


n X 1 n2 X 2 15( 4.2) 5(7.4) 63 37 100
X global 1 5
n1 n2 15 5 20 20

El valor de la intervarianza:
X 1 X (n1 ) X 2 X (n2 ) (4,2 5) 2 15 (7,4 5) 2 5
2 2

1,92
n1 n2 15 5

Finalmente, el valor de la varianza global es:


S 2 intravarianza intervarianza = 3,18 +1,92= 5,1. Este resultado coincide con el
valor de la varianza encontrado en el problema32.

Relacin entre la desviacin estndar y la proporcin de las observaciones en una


distribucin de frecuencia

Teorema de Chebyshev
Para cualquier conjunto de observaciones (poblacin o muestra) y cualquier constante k
mayor o igual que 1, la proporcin de las observaciones que se encuentran dentro de k
desviaciones estndar de ambos lados de la media es de por lo menos
1
1 2 (3.27)
k
En otras palabras el teorema nos dice que en el intervalo X kS se encuentra al menos
1 1
1 2 o 1 2 % del total de las observaciones.
k k
1 3
As, si k = 2, como mnimo 1 2 0.75 , 75% de los valores de cualquier
2 4
conjunto de datos se encuentra dentro de las dos desviaciones estndar de ambos lados
de la media.
1 8
Si k = 3, por lo menos 1 2 0.889 , 88.9% de los valores de cualquier conjunto
3 9
de datos se encuentra dentro de las tres desviaciones estndar de ambos lados de la
media.

Ejemplo 3.36
Si la media y varianza de un conjunto de n = 30 observaciones son X 50 S2 4 .
Describiremos la distribucin usando el Teorema de Chebyshev.

Solucin
La distribucin del conjunto de observaciones est centrada alrededor de X 50 con
una desviacin estndar S 2 .
El teorema establece que:
Al menos 3/4 o el 75% central de las observaciones se encuentran en el intervalo
( X 2 S ) (50 2( 2), 50 2(2)) ( 46,54) .
Al menos 8/9 o 88.9% central de las observaciones se encuentran en el intervalo
( X 3S ) (50 3(2), 50 3(2)) (44,56) .
El teorema se aplica a cualquier distribucin. En muchos casos la fraccin de las
1
observaciones que caen en el intervalo especificado excede a 1 2 .
k
Ejemplo 3.37
Si todos los solicitantes interesados en trabajar para un programa de asistencia social ,
en un examen de aptitud obtienen una calificacin media de 75 puntos con una
desviacin estndar de 6 puntos qu porcentaje de los solicitantes como mnimo, debe
tener un promedio en el examen de aptitud entre 57 y 93 puntos?.

Solucin
Como datos tenemos que X 75 y S 6 . Puesto que k desviaciones estndar,
18
k (6) es equivalente a la magnitud 93-75 = 75-57=18, entonces k 3 . De
6
acuerdo con el teorema de chebychev la fraccin mnima de solicitantes que cumplen
1 1 8
con tener un promedio entre 57 y 93 es 1 2 = 1 2 o 88.9%.
k 3 9

Si la distribucin de frecuencias se asemeja grficamente a una forma de campana,


como en la siguiente figura:

-3S -2S -1S 0 +1s +2S +3S

en este caso se le suele llamar curva normal y la relacin entre la desviacin estndar(
S ) y la proporcin de observaciones es:

Lmites dentro de los cules Porcentaje


se ubican las observaciones de
observaciones
Entre 1S y 1S 68.2
Entre 2 S y 2 S 95.4
Entre 3S y 3S 99.8
Entre X y 1S 34.1
Entre X y 1S 34.1
Entre X y 2 S 47.7
Entre X y 2 S 47.7
Entre X y 3S 49.9
Entre X y 3S 49.9
A esta relacin se conoce como la regla emprica, porque supuestamente los porcentajes
de observaciones establecidos se observan en la prctica.

Ejemplo 3.38
Un club deportivo tiene como propsito planear las actividades recreativas. La
distribucin de frecuencias de las edades tiene forma acampanada (normal), con media
y desviacin estndar iguales a 27 aos y 8 aos respectivamente
Li 1 Li xi
' Frecuencia
5-9 7 2
9-13 11 3
13-17 15 7
17-21 19 12
21-25 23 15
25-29 27 23
29-33 31 16
33-37 35 12
37-41 39 7
41-45 43 2
45-49 47 1

25

20
F re q u e n c y

15

10

Mean = 26,68
Std. Dev. = 8,11394
0 N = 100
0,00 10,00 20,00 30,00 40,00 50,00

edad de socios

Solucin
La distribucin de la variable edad tiene forma normal, como tambin se puede observar
en el grfico de la figura anterior, X 27aos y S 8 aos .
Si k S k(8) y la proporcin de edades debe oscilar entre 11 y 43, entonces X k (8)
=43 y X k (8) = 11, luego k (8) 43-27=27-11=16 y por tanto k 2 y el porcentaje
de personas cuyas edades oscilan entre 11 y 43 es el 95 % como establece la relacin.

A esta relacin se la conoce como la regla emprica, porque los porcentajes se observan
en la prctica. Si observamos la tabla de distribucin de frecuencias, y contamos las
observaciones comprendidas desde la edad 11 hasta 43 aos se tiene:
En el intervalo 9,13 la amplitud es igual 4 y tiene 3 observaciones. Pero necesitamos
contar las frecuencias exactamente desde 11, entonces tenemos que entre 11 y 13 hay
2(3)
una amplitud de 2 y le corresponde una frecuencia de 1.5 2 . Asimismo en el
4
intervalo 41,45 la amplitud es igual a 4 y su frecuencia es 2, entonces desde 41 hasta 43
2(2)
la amplitud es 2 y su frecuencia igual a 1.
4
Ahora ya tenemos las frecuencias que estn comprendidas en el intervalo 11 y 43 aos y
sumando tenemos: 2+7+12+15+23+16+12+7+1=95. La proporcin entonces es
95
0.95
100
o en porcentaje 95%. Luego hemos comprobado que la relacin terica se cumple en la
prctica.

Puntajes Estandarizados
Los valores originales xi de un conjunto de datos tambin se pueden expresar en
puntajes estandarizados z i , donde el puntaje estandarizado es la distancia a la que se
encuentra el valor xi , por arriba o por debajo de la media, medida en unidades de la
desviacin estndar, es decir:
xi X
zi (3.28)
S

Este puntaje estandarizado, determina la posicin de una observacin dada, en relacin


a la media y en unidades de la desviacin estndar.
Si el valor de z i es negativo indica que la observacin queda debajo (a la izquierda) de
la media; un valor de z i positivo indica que la observacin queda arriba (a la derecha)
de la media.

Ejemplo 3. 39
Los siguientes datos correspondientes al peso y altura de tres estudiantes universitarios.

Estudiante Peso (kg.) Altura (cm)


X Y
Maria 80 175
Ana 65 160
Rosa 60 172
Media aritmtica X = 70 kg Y = 164 cm.
Desviacin Estndar S x =10 kg. S y = 6 cm.

Para las tres estudiantes, encontramos los puntajes estandarizados z.


Solucin
Encontramos los respectivos valores estandarizados z para la variable X, as tenemos:

x1 X 80 70
Mara: z1 1 desviaciones estndar
S 10

x 2 X 65 70
Ana: z 2 0.5 desviaciones estndar
S 10

x3 X 60 70
Rosa: z 3 1 desviaciones estndar.
S 10
Los resultados se resumen en las siguientes tablas:

Estudiante Peso (kg.) Puntaje estandarizado


X Z
Maria 80 +1 desviacin estndar
Ana 65 -0.5 desviaciones estndar
Rosa 60 -1 desviaciones estndar

De igual manera se obtienen los valores z i para los valores observados de la variable
Y
Estudiante Altura ( cm. ) Puntaje estandarizado
Y Z
Mara 175 +1.83 desviacin estndar
Ana 160 -0.67 desviacin estndar
Rosa 172 +1.33 desviacin estndar

Como se puede distinguir en las tablas anteriores, la unidad de medida que tenga cada
variable, no importa, sus valores z se miden en desviaciones estndar, luego pueden
ser comparables. As podemos decir, respecto a, la variable peso, que Mara se
encuentra a una desviacin estndar por arriba de la media, mientras que Rosa se
encuentra a una desviacin estndar por debajo de la media. Respecto a la variable
altura, Mara se encuentra a 1.83 desviaciones estndar por arriba de la media, mientras
qu Rosa se encuentra a 1.33 desviaciones estndar, tambin arriba de la media.
.

Ejemplo 3.40
Los siguientes datos corresponden a las calificaciones de un grupo de estudiantes en el
curso de Estadstica. La media es 34.6 y la desviacin estndar 9.6 .Supngase que
Pedro tiene una calificacin de 48. Cul ser la ubicacin de Pedro en el grupo
respecto a su nota?.

Solucin
Encontraremos la nota estandarizada de Pedro, reemplazando su calificacin en la
frmula (3.28):
48 34.6
z 1.4 . Luego la nota de Pedro se ubica a 1.4 desviaciones estndar
9.6
por arriba de la media aritmtica.

Ejemplo 3.41
Dos alumnos rindieron exmenes en los cursos de razonamiento matemtico y
razonamiento verbal cuyas calificaciones y medidas importantes se presentan a
continuacin.

Individuo calificaciones originales


razonamiento razonamiento
matemtico,X verbal,Y Individuo Medidas
Manuel x1 =25 y1 =75 Razonamiento Razonamiento
Juan x 2 =32 y 2 =70 matemtico verbal
Media X =20.9 Y = 61.3
Aritmtica
a) En cul de los dos cursos Manuel obtuvo un Sx = 8 S y = 15.2
mejor rendimiento? Desviacin
b) En cul de los dos cursos Juan obtuvo un estndar
mejor rendimiento?
c) Quin de los dos alumnos y en cul de los dos cursos obtuvo una mejor ubicacin?
Solucin
Para responder las preguntas planteadas debemos estandarizar las calificaciones
originales las mismas que se presentan a continuacin.

Individuo calificaciones originales valores Z


razonamiento razonamiento razonamiento razonamiento verbal
matemtico,X verbal,Y matemtico
Manuel x1 =25 y1 =75 25 20.9 75 61.3
z1 0.51 w1 =0.
8 15.2
90
Juan x 2 =32 y 2 =70 32 20.9 70 61.3
z2 1.3 w2 =0.
8 15.2
9 57

a) Manuel obtuvo mejor rendimiento en el curso de razonamiento verbal, puesto que el


valor w1 0.90 es mayor que z1 0.51.
b) Juan obtuvo mejor rendimiento en el curso de razonamiento matemtico, puesto que
el valor z 2 1.39 es mayor que w2 0.57 .
c)Juan obtuvo la mejor ubicacin en el curso de razonamiento matemtico, puesto que
el valor z 2 1.39 es el mayor de todos los puntajes estandarizados, esto es, la nota de
Juan est a 1.39 desviaciones estndar por arriba de la media.

COEFICIENTE DE VARIACIN

El coeficiente de variacin CV se define como:


S
CV (3.28)
X
donde: X es la media aritmtica y S , la desviacin estndar
Tambin se expresa en trminos de porcentajes
S
CV (100%) . (3.29)
X
Mide la dispersin de los datos con respecto a la media. Frecuentemente se usa para
comparar la variabilidad de dos o ms conjuntos de datos que estn expresados en
diferentes unidades. El grupo de datos con mayor coeficiente de variacin, es el que
tiene mayor dispersin. Si las medias aritmticas de los dos grupos son iguales,
entonces el grupo que tenga mayor desviacin estndar ser el de mayor dispersin o
variacin.

Ejemplo 3.42
El curso de estadstica se dict a dos grupos de estudiantes. El grupo 2 realiz el curso
con el auxilio del software SPSS y las calificaciones fueron de 0 a 200; mientras que el
grupo 1 lo realiz con la metodologa tradicional y las calificaciones fueron de 0 a 100.
Grupo 1:10 20 30 40 50
Grupo 2: 60 85 110 135 160
En cul de los dos grupos la dispersin es mayor?.

Solucin
En el siguiente cuadro se muestra que las desviaciones estndar son 15.81 y 39.53
respectivamente; sin embargo, no se puede decir que en el segundo grupo existe mayor
dispersin que en el primero puesto que las calificaciones estn en diferentes escalas.
Por lo que usaremos el coeficiente de variacin.
.
Datos 1 Datos 2
Media 30.0000 110.0000
Desviacin estndar 15.81139 39.52847
Coeficiente de variacin 0.527 0.359
El coeficiente de variacin para el primer grupo es, CV1=0.527(52.7%) y para el
segundo grupo, CV2=0.359(35.9%), indicando que en el primer grupo existe mayor
dispersin relativa que en el segundo

Ejemplo 3.43
Obtendremos los coeficientes de variacin para la variable nmero de hijos del ejemplo
3.30 y para la variable edad del ejemplo 3.31.

Solucin

Variable Media aritmtica Desviacin estndar


Edad 40.1 9.91
Nmero de hijos 2 1.41

Solucin
a) Para el nmero de hijos de los estudiantes, el coeficiente de variacin toma el
1.41
valor: CV 0.705 (70.5%) .
2
b) Para la edad de los estudiantes, el coeficiente de variacin toma el valor:
9.91
CV 0.2471 ( 24.71%)
40.1
por lo que la variable nmero de hijos es relativamente ms dispersa que la
variable edad.

Ejemplo 3.44
En un colegio de educacin especial fue de inters del Director evaluar la conducta de
sus estudiantes a travs de las siguientes variables: conducta de aislamiento cuantificado
mediante el tiempo que el estudiante permanece aislado en un periodo de 2 hora,
nmero de participacin en clase, realizacin de tarea medido mediante el porcentaje
del tiempo que los nios permanecan haciendo la tareas.
Observ una muestra de 20 estudiantes de quienes se presenta la media y la desviacin
estndar de las variables evaluadas. Es nuestro inters usar dichos resultados para
evaluar la variabilidad de las mismas.

Medidas de Variables
posicin y
dispersin
Conducta de Participacin en Realizacin de
aislamiento clase tareas
Media X =56 minutos Y =7.58 Z =78.35%
participaciones
Desviacin S x =4.76 minutos S y=2.66 S z =19.35%
estndar participacines

Solucin
Observamos que las tres variables estn expresadas en diferentes unidades de medida
por tanto es pertinente hacer uso del coeficiente de variacin como medida de
dispersin para analizar la variabilidad de las tres variables.

Medidas de Variables
posicin y
dispersin
Coeficiente de CV x =8.5% CV y =35.09% CV z =24.7%
variacin

La variable con menor dispersin relativa o menor coeficiente de variacin es la


conducta de aislamiento indicando una menor heterogeneidad que las variable nmero
de participaciones en clase y realizacin de tareas.

Ejemplo 3.45
Con la base de DATOS1-maestra obtenemos la varianza y la desviacin estndar para
los coeficientes de inteligencia usando los comandos del SPSS.

Solucin
Se abre la base de DATOS1-maestra y usamos los comandos de la pgina .
Los resultados que proporciona el SPSS para la variable coeficiente de inteligencia
son:

N Range Mean Std. Deviation Variante


Inteligencia 70 27 101.79 6.282 39.464

media aritmtica 101.79 puntos, varianza 39.46puntos2, desviacin estndar 6.28 puntos
y se calcula el valor del coeficiente de variacin de la siguiente manera
6.282
CV (100%) 6.17 %.
101.79

Ejemplo 3.46
Con la base de DATOS3-educacin y para las variables: tiempo de servicio de los
docentes, edad de los docentes y rendimiento promedio de los docentes en el programa
de capacitacin, encontramos el rango, la varianza, la desviacin estndar y el
coeficiente de variacin, usando los comandos del SPSS.

Solucin
Se abre la base de DATOS3-educacin y se usan los comandos de la pgina y se
obtiene la siguiente salida.

EDAD DE LOS TIEMPO DE NOTAS


PARTICIPANTES SERVICIO PROMEDIO
N 47 47 47
Mean (media aritmtica) 34.78 13.97 11.536788
Std. Deviation (desviacin estndar) 2.264 2.080 1.3462899
Variance (varianza) 5.126 4.326 1.812
Range (rango) 9 8 5.2505

Podemos decir que la media aritmtica del tiempo de servicio es de 13.97 aos, la
varianza 4.326 aos2, la desviacin estndar 2.08 aos y el valor del coeficiente de
2.08
variacin es CV (100%) 14.89% . Si calculamos el coeficiente de variacin para
13.97
las otras variables, se tiene que el C.V. para la variable edad de los participantes es
igual a 6.5%, y el C.V. para la variable notas promedio es igual al 11.67%. Luego
decimos que la variable edad de los participantes tiene los valores ms homogneos
respecto a la media por tener menor C.V. que las otras variables, a pesar de tener la
mayor desviacin estndar.

MEDIDAS DE FORMA: ASIMETRA O SESGO Y CURTOSIS O


APUNTAMIENTO

ASIMETRA

Adems de las medidas de posicin y dispersin, es posible obtener otras medidas


respecto al grado de asimetra de la distribucin de frecuencias, porque estas medidas
constituyen una de las caractersticas de importancia de los datos. En la prctica casi
nunca se encuentran polgonos o histogramas perfectamente simtricos, por lo que el
grado en el cul la distribucin no es simtrica constituye su sesgo.
La asimetra de las distribuciones unimodales se mide con el sesgo de Pearson y se
define como la diferencia entre la media y la moda. Si la diferencia es positiva decimos
que la asimetra es positiva y grficamente la curva presenta la cola ms larga a la
derecha; si la diferencia es cero la curva es simtrica; si la diferencia es negativa
decimos que la asimetra es negativa y grficamente la curva presenta la cola ms larga
a la izquierda, como se muestra en las siguientes figuras:

Mo Me X Mo Me X X Me Mo
Asimetra positiva Simtrica Asimetra negativa

La medida obtenida depende de las unidades que en cada caso se usen, por lo que para
comparar la asimetra de dos o ms curvas es necesario estandarizar los sesgos,
obtenindose la siguiente frmula:

X Mo
Pr imer Coeficient e de asimetra a1 (3.30)
S
Este coeficiente de asimetra se compara con el valor cero que corresponde a la
distribucin normal ( a1 0) . As tenemos si:

a1 0 la asimetra de la distribucin de frecuencias es positiva

a1 0 la asimetra de la distribucin de frecuencias es negativa


a1 0 la distribucin de frecuencias es simtrica.

En distribuciones que no son muy asimtricas se cumple la siguiente relacin emprica


moda X 3 media - mediana . (3.31)

Usando esta relacin, el sesgo de Pearson se aproxima con la siguiente frmula:

3 X Me
Segundo Coeficiente de asimetra a 2
S
(3.32)

Este coeficiente de asimetra se compara con el valor cero que corresponde a la


distribucin normal ( a 2 0) . As tenemos si:

a2 0 la asimetra de la distribucin de frecuencias es positiva

a2 0 la asimetra de la distribucin de frecuencias es negativa


a2 0 la distribucin de frecuencias es simtrica.

x X /n
3
i
Coeficiente de asimetra de tercer orden a3
S3
Este coeficiente de asimetra se compara con el valor cero que corresponde a la
distribucin normal (a3 0) . As tenemos si:
a3 0 la asimetra de la distribucin de frecuencias es positiva

a3 0 la asimetra de la distribucin de frecuencias es negativa


a3 0 la distribucin de frecuencias es simtrica.

Ejemplo 3.47
Para la variable edad de los estudiantes de maestra del ejemplo 3.4, se obtuvieron los
valores de las siguientes medidas: media = 40.1, mediana = 38.75 y moda = 37.4 y
desviacin estndar = 9.915. Obtendremos el coeficiente de asimetra.
Solucin
3 X Me 3 40.1 38.75
Segundo Coeficiente de Asimetra a 2 = 0.4085 ,
S 9.915
por lo tanto la distribucin de las edades es moderadamente asimtrica positiva.

CURTOSIS
El coeficiente de curtosis de un conjunto de datos unimodal, es una medida de
apuntamiento o aplastamiento de un polgono de frecuencias.
Si la curva de frecuencias es muy en punta las observaciones estn concentradas al
centro y se denomina leptocrtica y si es muy plana recibe el nombre de platicrtica.
Curvas con apuntamiento medio reciben el nombre de mesocrticas.
Pearson tuvo el mrito de formalizar el concepto de curtosis, proponiendo el
coeficiente de curtosis de cuarto orden, a 4 :
n
x X
4


i 1
i

n , (3.33)
a4 4
3
S
donde S es la desviacin estndar de los datos.

n
x X
4

Este es un coeficiente sin dimensin. En distribuciones normales ,


i 1
i

n vale
4
S
aproximadamente 3, resultando a 4 =0. Por ello, si
a 4 0 la distribucin de frecuencias es leptocrtica
a 4 0 la distribucin de frecuencias es platicrtica.
a 4 0 la distribucin de frecuencias es mesocrtica.

Otro coeficiente para medir curtosis, en funcin de los percentiles es el coeficiente de


curtosis percentlico k:

1
Q3 Q1
k 2 0.263 (3.34)
P90 P10
donde Q3 Q1 es el rango intercuartlico y P90 P10 es el rango interpercentlico.
1
Q3 Q1
En distribuciones normales , 2 vale aproximadamente 0.263, resultando
P90 P10
k 0 . Por ello, si:

k 0 la distribucin de frecuencias es leptocrtica


k0 la distribucin de frecuencias es platicrtica
k 0 la distribucin de frecuencias es mesocrtica .

En la siguiente figura prepara usando comandos del MATLAB podemos apreciar las
tres formas de distribucin de acuerdo al coeficiente de curtosis:
Ejemplo 3.48
Las siguientes medidas corresponden a las edades de un grupo de 100 estudiantes
universitarios.

Medidas
Media =26.7
Mediana =27
Moda =27
Desviacin
estndar=8.11
Cuartel uno =23
Cuartel tres=31
Percentil diez=15
Percentil
noventa=38.6

Para saber que forma tiene la distribucin, calcularemos los coeficientes de asimetra y
curtosis.

Solucin
3 X Me 3 26.68 27
a2 = 0.118
S 8.11

La distribucin tiene una ligera asimetra negativa, pero se podra decir que es casi
simtrica.

1 1
P75 P25 31 23
k 2 0.263 = 2 0.263 0.2 0.263 0.063
P90 P10 38.6 15

Los valores obtenidos nos indica que la distribucin tiene una forma casi mesocrtica,
es decir el montculo de la distribucin no es muy achatada ni muy apuntada.
Ejemplo 3.49
Con la base de DATOS1-maestra y usando los comandos del SPSS obtenemos los
coeficientes de sesgo y curtosis .
Solucin
Se abre la base de DATOS1-maestra y usando los comandos de la pgina se tiene:
inteligencia
N Valid 70
Missing 0
Skewness 1.301
Kurtosis 1.558

El coeficiente de asimetra(sesgo) toma el valor 1.3 indicando que los datos tienen
sesgo positivo, mientras que el valor 1.56 para la curtosis, nos indica que estamos frente
a una distribucin leptocrtica.

15

10

0
95 10 0 10 5 11 0 11 5

in te l ige nc ia

Aplicacin
Los siguientes datos corresponden a la edad de los pacientes operados por la
especialidad de ciruga en el hospital Angamos del 1 al 15 de agosto del 2002.

Edad x i' fi xi' f i


0-10 5 8 40
10-20 15 9 135
20-30 25 14 350
30-40 35 22 770
40-50 45 24 1080
50-60 55 20 1100
60-70 65 12 780
70-80 75 13 975
80-90 85 4 336
Total 5566
Encontrar:
a) La media aritmtica de la variable edad.
1 k 5566)
X xi' f i = 44,17aos
n i 1 126

b) La mediana
Edad fi Fi
0-10 8 8
10-20 9 17
20-30 14 31
30-40 22 53 F4
40-50 24 77 F5
50-60 20 97
60-70 12 109
70-80 13 122
80-90 4 126
Total

n 126
63
2 2
n 126 n
Al calcular 63 , se cumple Fi 1 = 53 < 63 < Fi =77, en este caso
2 2 2
el intervalo asociado a Fi F5 77 es 40 , 50 , este contiene el valor de la variable
n 126
que ocupa la posicin 63 . La amplitud del intervalo es 10 y el lmite
2 2
inferior 40. Entonces, el valor de la mediana es:
n
Fi 1
Me Li 1 2 a i 40 63 53 10 40 4,1 7 44,2 . El 50% de
Fi Fi 1 77 53


los pacientes operados tienen edades inferiores a 44,2 aos.

c) Los cuartiles
Cuartil uno:
Edad fi Fi
0-10 8 8
10-20 9 17
20-30 14 31 F3
30-40 22 53 F4
40-50 24 77
50-60 20 97
60-70 12 109
70-80 13 122
80-90 4 126
Total

n 126 n
Al calcular 31,5 se cumple Fi 1 = 31 < 31,5 < Fi = 53, en este
4 4 4
caso el intervalo asociado a Fi F4 53 es 30 , 40 , que contiene el valor de la
126
variable que ocupa la posicin 31,5 . La amplitud del intervalo es 10 y el
4
lmite inferior 30. Entonces, el valor del cuartil uno es l
n
Fi 1
4
Q1 Li 1 a
=
F F i
i 1
i


31,5 31 0.5
30 10 30 10 30 0.236 30,24 . El 25% de los pacientes
53 31 22
operados tienen edades inferiores a 30,24 aos.
Cuartil tres:

Edad fi Fi
0-10 8 8
10-20 9 17
20-30 14 31
30-40 22 53
40-50 24 77 F5
50-60 20 97 F6
60-70 12 109
70-80 13 122
80-90 4 126
Total

n 126 n
Al calcular 3 94,5 se cumple Fi 1 = 77 < 3 94,5 < Fi =97, en
4 4 4
este caso el intervalo asociado a Fi F6 97 es 50 , 60 , que contiene el valor de la
126
variable que ocupa la posicin 3 94,5 . La amplitud del intervalo es 10 y el
4
lmite inferior 50. Entonces, el valor del cuartil tres es l
n
3 Fi 1
4
Q3 Li 1 a
Fi Fi 1 i=


94,5 77 17,5
50 10 50 10 50 8,75 58,75 . El 75% de los pacientes
97 77 20
operados tienen edades inferiores a 58,75 aos.

d) El Rango
Rango x mx x mn =90-0=90

e) El Rango intercuartlico
Rango intercuartlico = Q3 Q1 = 58,75 - 30,24 = 28,51
Indica que la menor edad y la mayor edad del 50% de los datos que se encuentran
ubicados en la parte central, se diferencian en 10 aos.

f) Varianza

Edad x i' fi x '


i X x '
i X 2
fi
0-10 5 8 -39.17 12274.311
10-20 15 9 -29.17 7658.0001
20-30 25 14 -19.17 5144.8446
30-40 35 22 -9.17 1849.9558
40-50 45 24 0.83 1849.9558
50-60 55 20 10.83 16.5336
60-70 65 12 20.83 2345.778
70-80 75 13 30.83 12356.355
80-90 85 4 40.83 6668.3556
Total 53520.8005

x
k
2
'
i X fi
53520,8005
S
2 i 1
428
n 1 126 1

g) Desviacin estndar

S S2 = =20,7 aos
428
La dispersin media de las edades de los pacientes respecto a la media es de 20,7 aos.

h) El coeficiente de variacin de la edad de los pacientes segn el


sexo.

Edad de los pacientes varones operados en el Hospital Angamos del 1 al 15 de de


agosto del 2002

Edad x i' fi x '


i X 2
fi
0-10 5 6 8801,34
10-20 15 4 3203,56
20-30 25 8 2679,12
30-40 35 9 620,01
40-50 45 18 34,68
50-60 55 6 821,34
60-70 65 5 2354,45
70-80 75 4 4019,56
80-90 85 4 6955,56
Total 29489,62

X 42,06 aos
Me=40,3 aos
S2 = 508 aos2
S =23 aos
CV =0,5330 (53,30%)

Edad de las pacientes mujeres operada en el Hospital Angamos del 1 al 15 de de


agosto del 2002
Edad x i' fi x '
i X 2
fi
0-10 5 2 3362
10-20 15 5 4805
20-30 25 6 2646
30-40 35 13 1573
40-50 45 12 12
50-60 55 14 1134
60-70 65 7 2527
70-80 75 9 42849
80-90 85 0 0
Total 58908

X 46 aos
Me= 47 aos
S2 = 866 aos2
S =29,4 aos
CV =0,6397 (63,97%

You might also like