Professional Documents
Culture Documents
MEDIDAS DE POSICIN
o MEDIA ARITMTICA
o MEDIANA
o MODA
o CUARTILES
o PERCENTILES
o MEDIA GEOMTRICA
o MEDIA ARMONICA
MEDIA ARITMTICA
Definicin
Si x1 ,...., xn son los valores observados de una variable, la media aritmtica o
simplemente media o promedio de estos datos se define como el cociente de la suma de
todos los valores observados entre el nmero de datos o tamao de la muestra. Su
expresin matemtica es:
x1 x 2 ... x n 1 n
X xi ,
n n i 1
donde n es el nmero total de observaciones .
Media aritmtica ponderada
x w i i
Xw i 1
k donde,
w
i 1
i
1 k '
X xi f i , xi' es la i - sima marca de clase
n i 1
MEDIANA
Definicin
Dado x1 ,...., xn observaciones de la variable X, la mediana es el valor o punto medio
que supera al 50 por ciento de los valores observados de la variable y es superado por el
restante 50 por ciento. La forma de obtener el valor de la mediana depende del nmero
de observaciones. As si el nmero de observaciones es impar, la mediana es el valor de
la variable que ocupa la posicin central de los datos ordenados y si el nmero de
observaciones es par, la mediana es la media aritmtica de los dos valores que ocupan la
posicin central de los datos ordenados. Esta definicin se puede plasmar mediante la
siguiente expresin matemtica.
Si n es impar :
Me x n 1
2
Si n es par : (3.5)
x n x n
1
2 2
Me
2
donde el subndice indica la posicin o lugar que ocupa el valor de la variable ordenada
.
Si la muestra es de tamao impar, como por ejemplo: 13 11 19 20 18 21 23,
donde
n 1
n = 7, entonces 4 , por lo que la mediana es el valor de la variable que ocupa la
2
posicin 4 de las observaciones ordenadas: 11 13 18 19 20 21 23 . Me x 4 =
19.
Si el tamao de la muestra es par, como por ejemplo 10 16 4 9 13 17, donde n = 6 y
ordenados son:4 9 10 13 16 17, entonces,
n n
3 , 1 4 por lo que x (3) 10 , x ( 4 ) 13 ocupan la posicin central. Luego
2 2
el valor de la mediana es la media aritmtica de 10 y 13, es decir Me
10 13
11 .5 .
2
Para obtener la mediana a partir de una distribucin de frecuencias se considera los
siguientes casos.
n
Me xi si Fi 1 Fi (a)
2
o
xi 1 xi n
Me si Fi-1 Fi (b)
2 2
Seguir los pasos 1), 2), 3) del caso anterior de datos sin agrupar en intervalos de clase y
como paso 4) ubicar el intervalo de clase asociado a la frecuencia absoluta acumulada
Fi y encontrar el valor de la mediana de acuerdo a la siguiente expresin:
n
Fi 1 n
Me Li 1 2 ai Si Fi 1 Fi (a)
Fi Fi 1 2
n
Me Li 1 Si Fi 1 Fi (b)
2
donde:
Li 1 es el lmite inferior del intervalo asociado a la frecuencia absoluta acumulada
Fi ai es la amplitud del intervalo asociado a la frecuencia absoluta acumulada Fi
CUARTILES
Son nmeros que dividen la distribucin de frecuencia de un conjunto de datos en
cuatro partes iguales. Ellos son:
El cuartil uno, Q1, es el punto por debajo del cul se ubica el 25% de los datos.
El cuartil dos, Q2 , es el punto por debajo del cul se ubica el 50% de los datos.
El cuartil tres, Q3, es el punto por debajo del cul se ubica el 75% de los datos.
Clculo de cuartiles en conjuntos de datos pequeos
Primero ordenamos los datos en orden de magnitud creciente. Los datos ordenados se
representan con x (1) , x ( 2) ,..., x ( n )
Luego encontramos la posicin para cada uno de los cuartiles, segn como sigue:
1
Para el cuartil uno calcular n 1 y redondear al entero ms cercano. La observacin
4
ordenada que ocupa esta posicin, representa el cuartil uno. Si la posicin se encuentra
a mitad entre dos enteros el cuartil uno es el promedio de los dos valores
correspondientes.
3
Para el cuartil tres calcular n 1 y redondear al entero ms cercano. La
4
observacin ordenada que ocupa esta posicin, representa el cuartil tres. Si la posicin
se encuentra a mitad entre dos enteros el cuartil tres es el promedio de los dos valores
correspondientes.
Ejemplo 3.19
Para los siguientes conjuntos de datos
a) 13 11 19 20 18 21 23
b) 10 16 4 9 13 17
Obtendremos el cuartil uno, el cuartil tres y la mediana.
Solucin
a) Si tenemos la siguiente muestra de datos:13 11 19 20 18 21 23, donde n=7,
n 1 7 1
entonces, para encontrar el cuartil uno calculamos 2 , por lo que el cuartil
4 4
uno es el valor de la variable que ocupa la posicin 2 de las observaciones ordenadas:
11 13 18 19 20 21 23. Luego Q1 x 2 13 .
Para encontrar el cuartil dos usamos la formula de la mediana y como n es impar
Me x n 1 x 7 1 x 4 19
2 2
x n x n
x 6 x 6
2
1
2
2
1
2
x 3 x 4 10 13
Me 11 .5
2 2 2 2
n
Q1 xi si Fi 1 Fi (a)
4
o
xi 1 xi n
Q1 si Fi-1 Fi (b)
2 4
3n
Q3 xi si Fi 1 Fi (a)
4
o
xi 1 xi 3n
Q3 si Fi-1 Fi (b)
2 4
Ejemplo 3.20
Con la distribucin del nmero de hijos de los estudiantes de maestra del ejemplo 3.3,
vamos a ilustrar la obtencin del cuartil uno y el cuartil tres.
Solucin:
a) Cuartil uno.
Primero debemos encontrar las frecuencias absolutas acumuladas como se
muestra a
continuacin:
Nmero se hijos fi Fi
x1 =0 2 2
x2 =1 11 13
x3 =2 11 24
x4 =4 3 27
x5 =5 3 30
Total 30
n n 30
y luego calcular , es decir, = 7.5 .
4 4 4
En la columna de frecuencias absolutas acumuladas ubicamos Fi y Fi 1 de
n
tal forma que, Fi 1 2 7.5 Fi 13 .Usando (3.11(a)), el valor de la
4
variable asociada a la frecuencia absoluta acumulada Fi F2 13, es x 2 1 ;
luego, el valor del cuartil uno es 1. Q1 x 2 1 . El 25% de los estudiantes tiene
a lo ms un hijo.
b) Cuartil tres.
Despus de encontrar la frecuencia absoluta acumulada como se muestra en la
tabla siguiente:
Nmero se hijos fi Fi
x1 =0 2 2
x2 =1 11 13
x3 =2 11 24
x4 =4 3 27
x5 =5 3 30
Total 30
3n 3n 3 30
Calculamos es decir = =22.5.
4 4 4
En la columna de la frecuencia absoluta acumulada ubicamos Fi y Fi 1 de tal
3n
forma que, Fi 1 13 22.5 Fi 24 .Usando (3.12(a)), el valor de la
4
variable asociada a la frecuencia absoluta acumulada Fi F3 24, es x3 2 ;
luego, el valor del cuartil tres es 2. Q3 x3 2 . El 75% de los estudiantes tiene
dos o menos hijos.
Para obtener los cuartiles para datos agrupados en intervalos de clase, se procede como
n
en el caso del clculo de la mediana teniendo en cuenta que la fraccin incluida en
2
n 2n 3n
la frmula (3.7) ser cambiada por las fracciones , , segn se requiera
4 4 4
obtener el cuartil uno, cuartil dos(mediana) o cuartil tres respectivamente.
PERCENTILES
Son nmeros que dividen la distribucin en 100 partes iguales, de manera semejante a la
mediana en que la distribucin de un conjunto de datos se dividi en dos partes, un 50%
inferior y otro 50% superior, o en cuartiles en donde la distribucin se dividi en cuatro
partes, cada una conteniendo un 25% de los datos
As por ejemplo el percentil 10, P10, es el valor de la variable debajo del cual se
encuentran el 10% de los datos. Es importante calcularlos en distribuciones con un gran
nmero de datos.
A continuacin se presentan los mtodos de obtencin de los percentiles para datos
tabulados.
Se procede como en el caso del clculo de la mediana teniendo en cuenta que la fraccin
n n
ser cambiada por la fraccin k de acuerdo al percentil que sea de nuestro
2 100
inters encontrar (k =1,2,,99), y luego continuar con los pasos ya conocidos:
1) Encontrar las frecuencias absolutas acumuladas
n
2) Obtener la fraccin k donde k puede tomar los valores k = 1, 2,. . . ,99
100
3) En la columna de las frecuencias absolutas acumuladas ubicar el intervalo
kn
Fi 1 Fi donde Fi 1 es la frecuencia absoluta acumulada inmediatamente
100
kn
inferior o igual que y Fi es la frecuencia absoluta acumulada inmediatamente
100
kn
superior que .
100
4) Ubicar en la columna del recorrido de la variable el valor xi asociado a Fi y
encontrar el valor del percentil k de acuerdo a la frmula siguiente:
kn
Pk xi si Fi 1 Fi (a)
100
o
xi 1 xi kn
Pk si Fi-1 Fi (b)
2 100
(3.13)
n
k Fi 1
100 kn
Pk Li 1 a Si Fi 1 Fi (a)
Fi Fi 1 i 100
(3.14)
kn
Pk Li 1 Si Fi 1 Fi (b)
100
donde:
Li 1 , es el lmite inferior del intervalo asociado a la frecuencia absoluta acumulada
Fi y ai es la amplitud del intervalo asociado a la frecuencia absoluta acumulada
Fi .
Ejemplo 3.21
Considerando los datos de la edad de los estudiantes de maestra del ejemplo 3.4 vamos
a obtener el percentil 75, P75.
Solucin
Previamente se calculan las frecuencias absolutas acumuladas como se muestra a
continuacin,
Edades Frecuencias Frecuencia absoluta
Li 1 , Li absoluta acumulada
fi Fi
23 - 32 6 6
32 - 41 12 18
41 - 50 8 26
50 - 59 2 28
59 - 68 2 30
Total 30
n 30 n
y al calcular k 75 22.5 , se cumple Fi 1 = 18 < k 22.5 < Fi =
100 100 100
26, en este caso el intervalo asociado a Fi F3 26 es 41, 50 , que contiene el
30
valor de la variable que ocupa la posicin 75 22.5 . La amplitud del intervalo
100
es 9 y el lmite inferior 41. Entonces, usando (3.14(a)), el valor del percentil 75 P 75, es
n
k Fi 1
100 22.5 18 4.5
a
i = 41 26 18 9 41 8 9 46.1 .
Pk Li 1 El
Fi Fi 1
75% de los estudiantes tienen edades inferiores a 46.1 aos.
Comentarios
Dependiendo de lo que se quiera representar o explicar y del tipo de variable con la que
estemos trabajando, se elegir a la estadstica de posicin ms apropiada segn el caso,
por ello hacemos la siguientes observaciones.
La media aritmtica es afectada por valores extremos de la variable.
La mediana no es afectada por valores extremos (valores inferiores o superiores
muy distantes del valor central) de la variable.
La media, mediana y moda se pueden calcular para datos cuantitativos.
La moda es la nica medida que sirve tanto para el caso de variables categricas
como para variables cuantitativas, puesto que su definicin no exige ordenar los
valores de la variable, ni hacer operaciones matemticas con ellos. Por ejemplo,
si se est trabajando la distribucin de la variable nacionalidad para un
determinado conjunto de personas, no tiene ningn sentido hablar del promedio
o de la mediana de esa distribucin; en cambio si tiene sentido hablar de la
moda.
Si se trabaja la distribucin de una variable cuantitativa, en principio tiene
sentido calcular la media, la moda y la mediana; pero para efectos prcticos,
puede no tenerlo. Entonces, hace falta desarrollar un cierto criterio para decidir
en casos particulares, cul es la mejor medida de tendencia central.
La media aritmtica es muy sensible a valores extremos. Entonces, si en una
distribucin hubiera presencia de dichos valores, la media no es la mejor de las
medidas de tendencia central. Por ejemplo en lo que sigue tenemos dos
conjuntos de datos, al triplicar el ltimo valor del conjunto2, el nico valor que
se altera es la media:
Media Mediana Moda
Conjunto1: 9,9,9,10,11,12,13,14,19 11.77 11 9
Conjunto2: 9,9,9,10,11,12,13,14,57 16 11 9
Puesto que las tres medidas de posicin tienen debilidades y fortalezas vale la
pena observarlos e interpretarlos en forma conjunta. Un forma de entender la
relacin entre estos tres es localizando los valores de cada uno de ellos en una
distribucin de frecuencias.
La siguiente figura muestra las tres formas muy comunes de distribucin de
frecuencias
Ejemplo.
MEDIDAS DE DISPERSIN
RANGO
Rango x mx x mn (3.15)
Ejemplo 3.25
Los dos conjuntos de valores que siguen corresponden a los aos de servicio en la
docencia de 14 profesionales en estadstica. Obtendremos el rango para cada conjunto
de valores.
Conjunto1: 15 15 30 30 30 30 30 30 30 30 30 30 45 45
Conjunto2: 15 15 20 30 30 30 30 30 40 40 40 40 40 45
Solucin
En el conjunto1, cuyos valores ya ordenados en forma ascendente son
15 15 30 30 30 30 30 30 30 30 30 30 45 45
el mximo valor es 45 y el mnimo valor es 15 entonces el rango es:Rango =45-
15=30 y en el conjunto2, tambin el mximo valor es 45 y el mnimo valor es 15 e
igualmente tiene Rango = 45-15 = 30; pero tenemos que aceptar que la primera
distribucin es menos dispersa que la segunda, sin embargo el rango es el mismo para
las dos distribuciones. Por tanto, en este caso el rango es una medida que no refleja las
diferencias que segn la intuicin y la observacin son evidentes entre las dos
distribuciones. Este hecho nos exige seguir buscando otras medidas de dispersin que
supere la limitacin anterior.
RANGO INTERCUARTLICO
Rango intercuartlico = Q3 Q1
(3.16)
Esta medida de dispersin nos permite saber en cuanto se diferencian el mayor valor del
menor valor del 50% de los valores que se ubican en la parte central de la muestra
ordenada y desde luego no se ve influenciada por la presencia de valores extremos.
Ejemplo 3.26
Con los datos presentados en el ejemplo 3.25, encontraremos el rango intercuartlico
para cada conjunto de valores.
Solucin
RANGO SEMIINTERCUARTLICO
Es la distancia promedio desde la mediana hacia los dos cuartiles es decir, evala, en
promedio, qu tan lejos se hallan los valores de los cuartiles Q1 y Q3 con respecto a
la mediana y se expresa mediante la frmula:
Q3 Q1
Rango semiintercuartlico =
2
(3.17)
Ejemplo 3.27
Con los dos datos presentados en el ejemplo 3.25, correspondientes a los aos de
servicio en la docencia, con rangos ambos iguales a 30, rangos intercuartlicos iguales a
cero y diez respectivamente, encontraremos el rango semiintercuartlico en cada caso.
Solucin
Q3 Q1 30 30
Para el conjunto1: Rango semiintercuartlico = = 0
2 2
Q Q1 40 30 10
Para el conjunto2: Rango semiintercuartlico = 3 = 5
2 2 2
Para el conjunto1, esta medida de dispersin nos dice que no hay dispersin en el 50%
central de los datos respecto a la mediana. Para el conjunto2, esta medida de dispersin
nos dice que tanto el valor del cuartil uno como el valor del cuartil tres distan de la
mediana en promedio en 5 unidades.
Ejemplo 3. 28
En la Escuela de Primaria Juana de Arco, los estudiantes fueron sometidos a un examen
odontolgico. Los siguientes datos corresponden al nmero de dientes extrados en una
muestra de 7 alumnos de primer ao de primaria: 6 0 10 8 2 3 1. Encontraremos:
a) El rango b) Rango intercuartlico c) Rango semiintercuartlico.
Solucin
a) El rango es:
Rango = Rango x mx x mn =10 0 =10.
b) Para encontrar el rango intercuartlico:
Ordenamos las observaciones en orden creciente: 0 1 2 3 6 8 10.
Encontramos:
n 1 7 1
Cuartil uno: calculamos la posicin 2 entonces, en la muestra
4 4
ordenada,
la observacin que ocupa la posicin 2 es Q1 x 2 1 , quiere decir que el 25%
inferior de los alumnos se han extrado menos de un diente.
3(n 1) 3(7 1)
Cuartil tres calculamos la posicin 6 entonces, en la muestra
4 4
ordenada la observacin que ocupa la posicin 6 es Q3 x 6 8 , quiere decir que
el 25% superior de los alumnos se han extrado ms de 8 dientes.
Luego,
Rango intercuartlico = Q3 Q1 = 8 1 7
Es decir, 7 es la diferencia entre el mayor nmero de dientes extrados y el menor
nmero de dientes extrados del 50% de la parte central de la muestra, a diferencia del
rango que nos indica la diferencia entre el mayor nmero de dientes extrados y el
menor nmero de dientes extrados del 100% de la muestra.
Q Q1 8 1 7
c) Rango semiintercuartlico = 3 = =3.5. Esta medida de dispersin
2 2 1 2
nos indica que tanto el valor del cuartil uno como el valor del cuartil tres de la variable
nmero de dientes extrados en el grupo de 7 alumnos, distan de la mediana en
promedio en 3.5 unidades.
Cada una de las medidas que se han presentado hasta el momento proporcionan
informacin parcial de la dispersin de la muestra. Una medida que describe la
dispersin de todos los valores que conforman la muestra, es la varianza.
VARIANZA
x X
n n
x
2
i i
(3.18)
S
2 i 1
donde X i 1
n 1 n
x
2
2
i nX
i 1 (3.19)
S2
n 1
x
n
2
i X
(3.20)
S2 i 1
n
pues cuando el tamao de muestra es grande las dos frmulas (3.18) y (3.20)
proporcionan resultados similares.
DESVIACIN ESTNDAR
n n
xi X x
2
i
(3.21)
S i 1
donde X i 1
,
n 1 n
Ejemplo 3.29
Los siguientes datos representan las edades de seis nios en aos cumplidos:
1 3 3 0 4 1. La media aritmtica es X 2 aos. Obtendremos la varianza.
Solucin
Los clculos auxiliares para el clculo de la varianza se muestran en la siguiente tabla:
x
n
2
Total i X =12
i 1
1 n 12
xi X 5 2.4 aos 2
2
S2
n 1 i 1
Desviacin Estndar :
S 2 .4 aos 2 1.5 aos
N Valid 6
Mean 2.00
Std. Deviation 1.549
Variante 2.400
Para datos sin agrupar en intervalos de clase, la frmula de la varianza (3.18) se expresa
como:
x
k
2
i X fi
(3.22)
S
2 i 1
n 1
donde
k
x i fi
X i 1
,
n
k es el nmero de valores diferentes que toma la variable,
f i es la frecuencia absoluta asociada al i - simo valor diferente que toma la variable.
La desviacin estndar
n n
xi X f i x
2
i fi
(3.23)
S i 1
donde X i 1
,
n 1 n
xi2 f i n X x
2
i fi
S
2 i 1
donde X i 1
n 1 n
(3.24)
Ejemplo 3.30
xi fi xi2 xi2 f i
x1 =0 2 0 0
x2 =1 11 1 11
x3 =2 11 4 44
x4 =4 3 16 48
x5 =5 3 25 75
Total 30 178
Reemplazando en la expresin (3.24) se encuentra
x
2
fi n X 178 30 2
2 2
i
i 1 = =2 hijos2
S2 30 1
n 1
n 1
donde , (3.25)
k es el nmero de intervalos de clase
xi' es la marca de clase del i - simo intervalo
fi es la frecuencia absoluta asociada al i - simo intervalo
k k
xi'2 f i n X x
2 '2
i fi
i 1 i 1 (3.26)
S
2
donde X
n 1 n
y la desviacin estndar es:
S S 2 en cualquiera de los dos casos.
Ejemplo 3.31
Los alumnos del Doctorado en Educacin matriculados el semestre 2000, en el marco
del curso de Estadstica Aplicada a la Investigacin, realizaron una investigacin con
el objetivo de establecer el perfil de los estudiantes de maestra de la UNMSM,
matriculados en el semestre acadmico 2000-I y que ingresaron a la universidad entre
1997 y el ao 1999. El estudio se llev a cabo entre abril y junio del ao 2000. Como el
nmero total de estudiantes que cursaban las diversas maestras era alrededor de 2500,
despus de grandes debates, los alumnos del Doctorado en Educacin decidieron
seleccionar una muestra de 30 estudiantes de la Maestra en Gestin Educativa. A
continuacin se presentan los datos para la variable: edad de los estudiantes .
Obtengamos la media aritmtica.
Solucin
Se resume los pasos para la obtencin de la varianza y se presentan en el siguiente
cuadro:
se calculan las marcas de clase, xi' ,
se genera una columna con los productos de cada marca de clase por su
'
correspondiente frecuencia. xi f i ,
la columna anterior (los resultados obtenidos en cada caso) se vuelve a
2
multiplicar por la correspondiente marca de clase, resultando xi' f i ,
k k
x'i2 f i 51091.5
i 1
x f
i 1
'
i i 1203 n = 30
1 n ' 1203
X
n i 1
xi f i
30
40.1 aos
51091.5 30 40.1
2
S2 98.31 aos2.
29
S 9.92 aos. La dispersin media de las edades de los estudiantes
98.31
respecto a la media es de 10 aos.
Propiedades de la varianza
Propiedad 1. La varianza debe ser siempre un valor no negativo S 2 0 .
k
x X fi
2
i
como xi X 0 y f i 0, entonces
2
En la expresin
S
2 i 1
n 1
k 2
xi X 2 f i 0 de ah que x
i 1
i X 0 por tanto S 2 siempre es no negativo.
Ejemplo 3.32
El Director del Colegio Guadalupe esta preocupado porque durante el ao acadmico
2004, algunos alumnos han faltado frecuentemente a clases. Con la finalidad de
verificar su percepcin solicita al Director Acadmico que tome una muestra de 20
estudiantes que en ao 2004 cursaron el cuarto ao de secundaria y obtenga para dichos
estudiantes:
a) La varianza de la variable X, nmero de inasistencias de los alumnos del cuarto
ao en el mes de noviembre.
b) Si en el mes de diciembre cada uno de los 20 estudiantes faltaron a clase 2 das
ms que en noviembre, cunto ser la varianza de la variable Y, nmero de
inasistencias de los estudiantes de cuarto ao durante el mes de diciembre? Los
datos de la muestra son:
c)
Nmero de inasistencias 1 3 6 7 8
en el mes de noviembre
fi 3 4 8 3 2
Solucin
a) Usando la expresin (3.24), el valor de la varianza para la variable X, nmero de
inasistencias de los alumnos de cuarto ao en el mes de noviembre es::
602 - 20(5) 2
y S2 5.37 , sabiendo que X 5,2
19
b) Si a cada observacin le sumamos la constante C = 2, inasistencias del mes de
diciembre, obtendremos yi 2 xi , i = 1,,5 . Para calcular la varianza de la variable
Y aplicamos la propiedad V Y V C X V X y se tiene: V(Y)=
V 2 X V X 5.37 . Vemos pues que la varianza no se modific a pesar de haber
sumado una constante a todas las observaciones.
Ejemplo 3.33
Con los mismos datos del problema anterior aplicaremos la propiedad 4.
Solucin
Ya se encontr que el valor de la media aritmtica es X 5 y el valor de la varianza
S 2 5.37 .
Supongamos que el nmero de inasistencias de cada alumno se duplica, esto es
y i 2 xi .
Entonces la constante es C = 2 y aplicando la propiedad se tiene que, V Y C 2V X =
2 2 (5.37) 21.48 ; vemos en este caso que la varianza s sufri un cambio al haber
multiplicado por una constante a todas las observaciones.
Propiedad 5. Dados dos conjuntos de datos de tamaos, medias y varianzas respectivas:
n1 , n 2 ; X 1 , X 2 ; S12 , S 22 y si se desea calcular la varianza global de las dos muestras se
aplica la siguiente frmula:
S 2 (n ) S 22 (n 2 ) X 1 X (n1 ) X 2 X (n2 )
2 2
S2 1 1
n1 n2 n1 n2
donde:
S12 (n1 ) S 22 (n 2 )
el primer trmino : representa la variabilidad dentro de cada muestra
n1 n 2
y se le denomina intravaria nza.
el segundo trmino :
X 1 X 2 (n1 ) X 2 X 2 (n2 ) sabiendo que X
X 1 n1 X 2 n2
n1 n 2 n1 n2
representa la variabilidad entre las dos muestras y se le denomina intervarianza. Por tanto la varianza
global de las dos muestra es,
S 2 intravarianza intervarianza
Esta propiedad se puede generalizar para ms de dos muestras.
Ejemplo 3.34
En el Colegio San Carlos, en un concurso de lgebra, tres alumnos por cada seccin
de quinto ao de secundaria, obtuvieron las calificaciones siguientes:
Solucin
El valor de la intervarianza:
X 1 X 2 (n1 ) X 2 X 2 (n2 ) (9 11 .5) 2 3 (14 11 .5) 2 3 12.5 12.5 6,25
n1 n2 33 4
Finalmente, el valor de la varianza global es:
S 2 intravarianza intervarianza = 4,35 + 6,25 = 10,6
Ejemplo 3.35
Con los datos presentados en el ejemplo 32 aplicaremos la propiedad 5.
Solucin
Muestra 1:
xi fi xi f i
1 3 1 *3=3
3 4 3 *4=12
6 8 6 *8= 48
Total 15 63
Muestra 2:
xi fi xi f i
7 3 7 *3=21
8 2 8 *2=16
Total 5 37
x X
2
i
(1 4.2) 2 3 (3 4.2) 2 4 (6 4.2) 2 8
S12 i 1
4.16
n 15
Para la muestra 2 se tiene:
37
n2 =5 X2 7 .4
5
x X
2
i
(7 7.4) 2 3 (8 7.4) 2 2
S
2
2
i 1
0.24
n 5
El valor de la intervarianza:
X 1 X (n1 ) X 2 X (n2 ) (4,2 5) 2 15 (7,4 5) 2 5
2 2
1,92
n1 n2 15 5
Teorema de Chebyshev
Para cualquier conjunto de observaciones (poblacin o muestra) y cualquier constante k
mayor o igual que 1, la proporcin de las observaciones que se encuentran dentro de k
desviaciones estndar de ambos lados de la media es de por lo menos
1
1 2 (3.27)
k
En otras palabras el teorema nos dice que en el intervalo X kS se encuentra al menos
1 1
1 2 o 1 2 % del total de las observaciones.
k k
1 3
As, si k = 2, como mnimo 1 2 0.75 , 75% de los valores de cualquier
2 4
conjunto de datos se encuentra dentro de las dos desviaciones estndar de ambos lados
de la media.
1 8
Si k = 3, por lo menos 1 2 0.889 , 88.9% de los valores de cualquier conjunto
3 9
de datos se encuentra dentro de las tres desviaciones estndar de ambos lados de la
media.
Ejemplo 3.36
Si la media y varianza de un conjunto de n = 30 observaciones son X 50 S2 4 .
Describiremos la distribucin usando el Teorema de Chebyshev.
Solucin
La distribucin del conjunto de observaciones est centrada alrededor de X 50 con
una desviacin estndar S 2 .
El teorema establece que:
Al menos 3/4 o el 75% central de las observaciones se encuentran en el intervalo
( X 2 S ) (50 2( 2), 50 2(2)) ( 46,54) .
Al menos 8/9 o 88.9% central de las observaciones se encuentran en el intervalo
( X 3S ) (50 3(2), 50 3(2)) (44,56) .
El teorema se aplica a cualquier distribucin. En muchos casos la fraccin de las
1
observaciones que caen en el intervalo especificado excede a 1 2 .
k
Ejemplo 3.37
Si todos los solicitantes interesados en trabajar para un programa de asistencia social ,
en un examen de aptitud obtienen una calificacin media de 75 puntos con una
desviacin estndar de 6 puntos qu porcentaje de los solicitantes como mnimo, debe
tener un promedio en el examen de aptitud entre 57 y 93 puntos?.
Solucin
Como datos tenemos que X 75 y S 6 . Puesto que k desviaciones estndar,
18
k (6) es equivalente a la magnitud 93-75 = 75-57=18, entonces k 3 . De
6
acuerdo con el teorema de chebychev la fraccin mnima de solicitantes que cumplen
1 1 8
con tener un promedio entre 57 y 93 es 1 2 = 1 2 o 88.9%.
k 3 9
en este caso se le suele llamar curva normal y la relacin entre la desviacin estndar(
S ) y la proporcin de observaciones es:
Ejemplo 3.38
Un club deportivo tiene como propsito planear las actividades recreativas. La
distribucin de frecuencias de las edades tiene forma acampanada (normal), con media
y desviacin estndar iguales a 27 aos y 8 aos respectivamente
Li 1 Li xi
' Frecuencia
5-9 7 2
9-13 11 3
13-17 15 7
17-21 19 12
21-25 23 15
25-29 27 23
29-33 31 16
33-37 35 12
37-41 39 7
41-45 43 2
45-49 47 1
25
20
F re q u e n c y
15
10
Mean = 26,68
Std. Dev. = 8,11394
0 N = 100
0,00 10,00 20,00 30,00 40,00 50,00
edad de socios
Solucin
La distribucin de la variable edad tiene forma normal, como tambin se puede observar
en el grfico de la figura anterior, X 27aos y S 8 aos .
Si k S k(8) y la proporcin de edades debe oscilar entre 11 y 43, entonces X k (8)
=43 y X k (8) = 11, luego k (8) 43-27=27-11=16 y por tanto k 2 y el porcentaje
de personas cuyas edades oscilan entre 11 y 43 es el 95 % como establece la relacin.
A esta relacin se la conoce como la regla emprica, porque los porcentajes se observan
en la prctica. Si observamos la tabla de distribucin de frecuencias, y contamos las
observaciones comprendidas desde la edad 11 hasta 43 aos se tiene:
En el intervalo 9,13 la amplitud es igual 4 y tiene 3 observaciones. Pero necesitamos
contar las frecuencias exactamente desde 11, entonces tenemos que entre 11 y 13 hay
2(3)
una amplitud de 2 y le corresponde una frecuencia de 1.5 2 . Asimismo en el
4
intervalo 41,45 la amplitud es igual a 4 y su frecuencia es 2, entonces desde 41 hasta 43
2(2)
la amplitud es 2 y su frecuencia igual a 1.
4
Ahora ya tenemos las frecuencias que estn comprendidas en el intervalo 11 y 43 aos y
sumando tenemos: 2+7+12+15+23+16+12+7+1=95. La proporcin entonces es
95
0.95
100
o en porcentaje 95%. Luego hemos comprobado que la relacin terica se cumple en la
prctica.
Puntajes Estandarizados
Los valores originales xi de un conjunto de datos tambin se pueden expresar en
puntajes estandarizados z i , donde el puntaje estandarizado es la distancia a la que se
encuentra el valor xi , por arriba o por debajo de la media, medida en unidades de la
desviacin estndar, es decir:
xi X
zi (3.28)
S
Ejemplo 3. 39
Los siguientes datos correspondientes al peso y altura de tres estudiantes universitarios.
x1 X 80 70
Mara: z1 1 desviaciones estndar
S 10
x 2 X 65 70
Ana: z 2 0.5 desviaciones estndar
S 10
x3 X 60 70
Rosa: z 3 1 desviaciones estndar.
S 10
Los resultados se resumen en las siguientes tablas:
De igual manera se obtienen los valores z i para los valores observados de la variable
Y
Estudiante Altura ( cm. ) Puntaje estandarizado
Y Z
Mara 175 +1.83 desviacin estndar
Ana 160 -0.67 desviacin estndar
Rosa 172 +1.33 desviacin estndar
Como se puede distinguir en las tablas anteriores, la unidad de medida que tenga cada
variable, no importa, sus valores z se miden en desviaciones estndar, luego pueden
ser comparables. As podemos decir, respecto a, la variable peso, que Mara se
encuentra a una desviacin estndar por arriba de la media, mientras que Rosa se
encuentra a una desviacin estndar por debajo de la media. Respecto a la variable
altura, Mara se encuentra a 1.83 desviaciones estndar por arriba de la media, mientras
qu Rosa se encuentra a 1.33 desviaciones estndar, tambin arriba de la media.
.
Ejemplo 3.40
Los siguientes datos corresponden a las calificaciones de un grupo de estudiantes en el
curso de Estadstica. La media es 34.6 y la desviacin estndar 9.6 .Supngase que
Pedro tiene una calificacin de 48. Cul ser la ubicacin de Pedro en el grupo
respecto a su nota?.
Solucin
Encontraremos la nota estandarizada de Pedro, reemplazando su calificacin en la
frmula (3.28):
48 34.6
z 1.4 . Luego la nota de Pedro se ubica a 1.4 desviaciones estndar
9.6
por arriba de la media aritmtica.
Ejemplo 3.41
Dos alumnos rindieron exmenes en los cursos de razonamiento matemtico y
razonamiento verbal cuyas calificaciones y medidas importantes se presentan a
continuacin.
COEFICIENTE DE VARIACIN
Ejemplo 3.42
El curso de estadstica se dict a dos grupos de estudiantes. El grupo 2 realiz el curso
con el auxilio del software SPSS y las calificaciones fueron de 0 a 200; mientras que el
grupo 1 lo realiz con la metodologa tradicional y las calificaciones fueron de 0 a 100.
Grupo 1:10 20 30 40 50
Grupo 2: 60 85 110 135 160
En cul de los dos grupos la dispersin es mayor?.
Solucin
En el siguiente cuadro se muestra que las desviaciones estndar son 15.81 y 39.53
respectivamente; sin embargo, no se puede decir que en el segundo grupo existe mayor
dispersin que en el primero puesto que las calificaciones estn en diferentes escalas.
Por lo que usaremos el coeficiente de variacin.
.
Datos 1 Datos 2
Media 30.0000 110.0000
Desviacin estndar 15.81139 39.52847
Coeficiente de variacin 0.527 0.359
El coeficiente de variacin para el primer grupo es, CV1=0.527(52.7%) y para el
segundo grupo, CV2=0.359(35.9%), indicando que en el primer grupo existe mayor
dispersin relativa que en el segundo
Ejemplo 3.43
Obtendremos los coeficientes de variacin para la variable nmero de hijos del ejemplo
3.30 y para la variable edad del ejemplo 3.31.
Solucin
Solucin
a) Para el nmero de hijos de los estudiantes, el coeficiente de variacin toma el
1.41
valor: CV 0.705 (70.5%) .
2
b) Para la edad de los estudiantes, el coeficiente de variacin toma el valor:
9.91
CV 0.2471 ( 24.71%)
40.1
por lo que la variable nmero de hijos es relativamente ms dispersa que la
variable edad.
Ejemplo 3.44
En un colegio de educacin especial fue de inters del Director evaluar la conducta de
sus estudiantes a travs de las siguientes variables: conducta de aislamiento cuantificado
mediante el tiempo que el estudiante permanece aislado en un periodo de 2 hora,
nmero de participacin en clase, realizacin de tarea medido mediante el porcentaje
del tiempo que los nios permanecan haciendo la tareas.
Observ una muestra de 20 estudiantes de quienes se presenta la media y la desviacin
estndar de las variables evaluadas. Es nuestro inters usar dichos resultados para
evaluar la variabilidad de las mismas.
Medidas de Variables
posicin y
dispersin
Conducta de Participacin en Realizacin de
aislamiento clase tareas
Media X =56 minutos Y =7.58 Z =78.35%
participaciones
Desviacin S x =4.76 minutos S y=2.66 S z =19.35%
estndar participacines
Solucin
Observamos que las tres variables estn expresadas en diferentes unidades de medida
por tanto es pertinente hacer uso del coeficiente de variacin como medida de
dispersin para analizar la variabilidad de las tres variables.
Medidas de Variables
posicin y
dispersin
Coeficiente de CV x =8.5% CV y =35.09% CV z =24.7%
variacin
Ejemplo 3.45
Con la base de DATOS1-maestra obtenemos la varianza y la desviacin estndar para
los coeficientes de inteligencia usando los comandos del SPSS.
Solucin
Se abre la base de DATOS1-maestra y usamos los comandos de la pgina .
Los resultados que proporciona el SPSS para la variable coeficiente de inteligencia
son:
media aritmtica 101.79 puntos, varianza 39.46puntos2, desviacin estndar 6.28 puntos
y se calcula el valor del coeficiente de variacin de la siguiente manera
6.282
CV (100%) 6.17 %.
101.79
Ejemplo 3.46
Con la base de DATOS3-educacin y para las variables: tiempo de servicio de los
docentes, edad de los docentes y rendimiento promedio de los docentes en el programa
de capacitacin, encontramos el rango, la varianza, la desviacin estndar y el
coeficiente de variacin, usando los comandos del SPSS.
Solucin
Se abre la base de DATOS3-educacin y se usan los comandos de la pgina y se
obtiene la siguiente salida.
Podemos decir que la media aritmtica del tiempo de servicio es de 13.97 aos, la
varianza 4.326 aos2, la desviacin estndar 2.08 aos y el valor del coeficiente de
2.08
variacin es CV (100%) 14.89% . Si calculamos el coeficiente de variacin para
13.97
las otras variables, se tiene que el C.V. para la variable edad de los participantes es
igual a 6.5%, y el C.V. para la variable notas promedio es igual al 11.67%. Luego
decimos que la variable edad de los participantes tiene los valores ms homogneos
respecto a la media por tener menor C.V. que las otras variables, a pesar de tener la
mayor desviacin estndar.
ASIMETRA
Mo Me X Mo Me X X Me Mo
Asimetra positiva Simtrica Asimetra negativa
La medida obtenida depende de las unidades que en cada caso se usen, por lo que para
comparar la asimetra de dos o ms curvas es necesario estandarizar los sesgos,
obtenindose la siguiente frmula:
X Mo
Pr imer Coeficient e de asimetra a1 (3.30)
S
Este coeficiente de asimetra se compara con el valor cero que corresponde a la
distribucin normal ( a1 0) . As tenemos si:
3 X Me
Segundo Coeficiente de asimetra a 2
S
(3.32)
x X /n
3
i
Coeficiente de asimetra de tercer orden a3
S3
Este coeficiente de asimetra se compara con el valor cero que corresponde a la
distribucin normal (a3 0) . As tenemos si:
a3 0 la asimetra de la distribucin de frecuencias es positiva
Ejemplo 3.47
Para la variable edad de los estudiantes de maestra del ejemplo 3.4, se obtuvieron los
valores de las siguientes medidas: media = 40.1, mediana = 38.75 y moda = 37.4 y
desviacin estndar = 9.915. Obtendremos el coeficiente de asimetra.
Solucin
3 X Me 3 40.1 38.75
Segundo Coeficiente de Asimetra a 2 = 0.4085 ,
S 9.915
por lo tanto la distribucin de las edades es moderadamente asimtrica positiva.
CURTOSIS
El coeficiente de curtosis de un conjunto de datos unimodal, es una medida de
apuntamiento o aplastamiento de un polgono de frecuencias.
Si la curva de frecuencias es muy en punta las observaciones estn concentradas al
centro y se denomina leptocrtica y si es muy plana recibe el nombre de platicrtica.
Curvas con apuntamiento medio reciben el nombre de mesocrticas.
Pearson tuvo el mrito de formalizar el concepto de curtosis, proponiendo el
coeficiente de curtosis de cuarto orden, a 4 :
n
x X
4
i 1
i
n , (3.33)
a4 4
3
S
donde S es la desviacin estndar de los datos.
n
x X
4
n vale
4
S
aproximadamente 3, resultando a 4 =0. Por ello, si
a 4 0 la distribucin de frecuencias es leptocrtica
a 4 0 la distribucin de frecuencias es platicrtica.
a 4 0 la distribucin de frecuencias es mesocrtica.
1
Q3 Q1
k 2 0.263 (3.34)
P90 P10
donde Q3 Q1 es el rango intercuartlico y P90 P10 es el rango interpercentlico.
1
Q3 Q1
En distribuciones normales , 2 vale aproximadamente 0.263, resultando
P90 P10
k 0 . Por ello, si:
En la siguiente figura prepara usando comandos del MATLAB podemos apreciar las
tres formas de distribucin de acuerdo al coeficiente de curtosis:
Ejemplo 3.48
Las siguientes medidas corresponden a las edades de un grupo de 100 estudiantes
universitarios.
Medidas
Media =26.7
Mediana =27
Moda =27
Desviacin
estndar=8.11
Cuartel uno =23
Cuartel tres=31
Percentil diez=15
Percentil
noventa=38.6
Para saber que forma tiene la distribucin, calcularemos los coeficientes de asimetra y
curtosis.
Solucin
3 X Me 3 26.68 27
a2 = 0.118
S 8.11
La distribucin tiene una ligera asimetra negativa, pero se podra decir que es casi
simtrica.
1 1
P75 P25 31 23
k 2 0.263 = 2 0.263 0.2 0.263 0.063
P90 P10 38.6 15
Los valores obtenidos nos indica que la distribucin tiene una forma casi mesocrtica,
es decir el montculo de la distribucin no es muy achatada ni muy apuntada.
Ejemplo 3.49
Con la base de DATOS1-maestra y usando los comandos del SPSS obtenemos los
coeficientes de sesgo y curtosis .
Solucin
Se abre la base de DATOS1-maestra y usando los comandos de la pgina se tiene:
inteligencia
N Valid 70
Missing 0
Skewness 1.301
Kurtosis 1.558
El coeficiente de asimetra(sesgo) toma el valor 1.3 indicando que los datos tienen
sesgo positivo, mientras que el valor 1.56 para la curtosis, nos indica que estamos frente
a una distribucin leptocrtica.
15
10
0
95 10 0 10 5 11 0 11 5
in te l ige nc ia
Aplicacin
Los siguientes datos corresponden a la edad de los pacientes operados por la
especialidad de ciruga en el hospital Angamos del 1 al 15 de agosto del 2002.
b) La mediana
Edad fi Fi
0-10 8 8
10-20 9 17
20-30 14 31
30-40 22 53 F4
40-50 24 77 F5
50-60 20 97
60-70 12 109
70-80 13 122
80-90 4 126
Total
n 126
63
2 2
n 126 n
Al calcular 63 , se cumple Fi 1 = 53 < 63 < Fi =77, en este caso
2 2 2
el intervalo asociado a Fi F5 77 es 40 , 50 , este contiene el valor de la variable
n 126
que ocupa la posicin 63 . La amplitud del intervalo es 10 y el lmite
2 2
inferior 40. Entonces, el valor de la mediana es:
n
Fi 1
Me Li 1 2 a i 40 63 53 10 40 4,1 7 44,2 . El 50% de
Fi Fi 1 77 53
los pacientes operados tienen edades inferiores a 44,2 aos.
c) Los cuartiles
Cuartil uno:
Edad fi Fi
0-10 8 8
10-20 9 17
20-30 14 31 F3
30-40 22 53 F4
40-50 24 77
50-60 20 97
60-70 12 109
70-80 13 122
80-90 4 126
Total
n 126 n
Al calcular 31,5 se cumple Fi 1 = 31 < 31,5 < Fi = 53, en este
4 4 4
caso el intervalo asociado a Fi F4 53 es 30 , 40 , que contiene el valor de la
126
variable que ocupa la posicin 31,5 . La amplitud del intervalo es 10 y el
4
lmite inferior 30. Entonces, el valor del cuartil uno es l
n
Fi 1
4
Q1 Li 1 a
=
F F i
i 1
i
31,5 31 0.5
30 10 30 10 30 0.236 30,24 . El 25% de los pacientes
53 31 22
operados tienen edades inferiores a 30,24 aos.
Cuartil tres:
Edad fi Fi
0-10 8 8
10-20 9 17
20-30 14 31
30-40 22 53
40-50 24 77 F5
50-60 20 97 F6
60-70 12 109
70-80 13 122
80-90 4 126
Total
n 126 n
Al calcular 3 94,5 se cumple Fi 1 = 77 < 3 94,5 < Fi =97, en
4 4 4
este caso el intervalo asociado a Fi F6 97 es 50 , 60 , que contiene el valor de la
126
variable que ocupa la posicin 3 94,5 . La amplitud del intervalo es 10 y el
4
lmite inferior 50. Entonces, el valor del cuartil tres es l
n
3 Fi 1
4
Q3 Li 1 a
Fi Fi 1 i=
94,5 77 17,5
50 10 50 10 50 8,75 58,75 . El 75% de los pacientes
97 77 20
operados tienen edades inferiores a 58,75 aos.
d) El Rango
Rango x mx x mn =90-0=90
e) El Rango intercuartlico
Rango intercuartlico = Q3 Q1 = 58,75 - 30,24 = 28,51
Indica que la menor edad y la mayor edad del 50% de los datos que se encuentran
ubicados en la parte central, se diferencian en 10 aos.
f) Varianza
x
k
2
'
i X fi
53520,8005
S
2 i 1
428
n 1 126 1
g) Desviacin estndar
S S2 = =20,7 aos
428
La dispersin media de las edades de los pacientes respecto a la media es de 20,7 aos.
X 42,06 aos
Me=40,3 aos
S2 = 508 aos2
S =23 aos
CV =0,5330 (53,30%)
X 46 aos
Me= 47 aos
S2 = 866 aos2
S =29,4 aos
CV =0,6397 (63,97%