You are on page 1of 6

UNIVERSIDAD AUTONOMA DE OCCIDENTE

FACULTAD DE CIENCIAS BASICAS


DEPARTAMENTO DE MATEMATICAS

AREA DE ESTADISTICA
PROBABILIDAD Y ESTADISTICA

MEDIDAS DE DISPERSION

En el tema anterior estudiamos algunas medidas de tendencia central, las cuales


permiten representar la magnitud de los datos en la muestra. De acuerdo al grado de
variabilidad de los datos en la muestra, podemos determinar si la media aritmética por
ejemplo es representativa para un conjunto de datos. Por esta razón, estudiaremos
algunas medidas de dispersión, con la intención de conocer que tan confiables son los
indicadores de centralidad.

Las medidas de dispersión ó medidas de variabilidad, muestran la variabilidad de una


distribución (comportamiento de un conjunto de datos) con un indicador que suele
representarse con un valor numérico. Por medio de este indicador se puede observar si
los diferentes valores de una variable están muy alejados de la media.

Si la distancia entre los diferentes valores de una variable y su media es grande,


mayor será la variabilidad de los datos, en caso contrario, podemos decir que los datos
son homogéneos. Así, se puede saber si todos los valores de una variable son parecidos
o varían mucho entre ellos.

Una de las aplicaciones más comunes de las medidas de dispersión se muestra en la


siguiente situación: Se tiene un grupo de hombres y otro grupo de mujeres. Se toma
información de las edades (años) respectivamente. Para el grupo de hombres se
obtuvieron los siguientes datos: 38, 42, 37, 43, 39, 41 y para el grupo de mujeres: 32,
48, 27, 53, 25, 55. Calculando la media aritmética se encuentra que la edad promedio
de los hombres y la edad promedio de las mujeres es igual a 40 años; más sin
embargo, se puede observar que el promedio en el grupo de hombres representa mejor
los datos que los del grupo de mujeres, puesto que los datos del grupo de hombres
están menos dispersos.

Para calcular la variabilidad que una distribución tiene respecto de su media, se puede
utilizar la desviación estándar.

Entre las medidas de dispersión más importantes tenemos: Varianza, desviación


estándar y coeficiente de variación.

Problema 1. Los siguientes datos representan mediciones del tiempo (minutos)


utilizado para localizar y reparar sistemáticamente averías que se encuentran en una
muestra de equipos de electrónica industrial y de telecomunicaciones (por ejemplo,
receptores HF para uso con PC):

13.1, 14.8, 17.1, 19.0, 10.2, 18.0, 19.8, 15.0, 17.3, 10.8, 20.3, 14.5, 17.1, 14.9, 17.1

Actividades a desarrollar

 Calcule la varianza de los datos.

Marco Antonio Triana 1


Docente área de Estadística - UAO
 Calcule la desviación estándar de los datos. Interprete claramente.

 Calcule el coeficiente de variación. Interprete su resultado.

 ¿Cuál es la aplicación del teorema de Chebyshev?

 Verifique el principio de Tchebycheff para k = 2.

 De acuerdo con el teorema de Chebyshev, construya un intervalo alrededor de la

media que contenga por lo menos el 60% de los datos.

Actividad. Solución del problema 1

 La varianza (S2). Esta es la medida de dispersión más usada en estadística y


está definida como:

 x 
n 2
i  x
i 1
S2  (1)
n 1

 La varianza calcula el promedio de las desviaciones al cuadrado de las


puntuaciones respecto a la media aritmética.

La varianza tiene algunas desventajas, entre las cuales podemos mencionar: su no fácil
interpretación directa, debido a que sus unidades no coinciden con las unidades de la
variable xi en estudio, así por ejemplo si x está en metros, su varianza estará dada en
metros cuadrados. Esta última desventaja se pretende remediar extrayendo la raíz
cuadrada a la varianza para obtener la que se conoce como desviación estándar (S),
que será:

 x 
n 2
i  x
S
i 1
(2)
n 1

Recordemos que la media aritmética es igual a 15,93. Aplicando la formula (1),


tenemos que la varianza de los datos del problema 1 es igual a:

(13,1  15,93) 2  (14,8  15,93) 2  .............  (17,1  15,93) 2


S2   9,012
15  1

 La desviación estándar. S  9,021  3,00 .

Significado de la desviación estándar. La dispersión entre el tiempo utilizado para


localizar y reparar sistemáticamente averías de cada uno de los equipos de electrónica
industrial con respecto a su media es de 3 minutos aproximadamente.

 El coeficiente de variación (c.v). De acuerdo a la formula de la varianza se


puede observar que si el valor de S2 aumenta, se sabe que aumenta la

Marco Antonio Triana 2


Docente área de Estadística - UAO
dispersión de los datos; por esa razón se usa como indicador de dispersión,
igualmente la desviación estándar; pero, qué podemos responder si nos
preguntan por ejemplo: ¿una desviación estándar de 200 metros es grande o es
pequeña? o de otra manera: ¿una desviación estándar de 200 metros me indica
que hay poca o mucha dispersión?

 La anterior pregunta se puede contestar calculando el coeficiente de variación


que consiste en expresar la desviación estándar como un porcentaje de la media
aritmética, entonces tenemos que:
S
C.V. 100% (3)
X

De acuerdo al valor que tome el coeficiente de variación se puede determinar si los


datos son homogéneos o heterogéneos. Se puede utilizar la siguiente regla:

C.V  5% (datos muy homogéneos) 5%  C.V  10% (datos homogéneos)


10%< C.V < 20% (datos poco homogéneos) C.V  20% (datos heterogéneos)

Para los datos tenemos una media X  15,93 y una desviación estándar S  3,00
entonces:

3,0
C.V  * 100%  18,83%
15,93

Significado del coeficiente de variación. Como el valor de C.V está próximo a 20%,
indica que existe una dispersión relativamente grande, es decir, que los datos son poco
homogéneos.

En la práctica el coeficiente de variación se utiliza para comparar la variabilidad relativa


de una característica (variable en estudio), en poblaciones que tienen distinta media.

 ¿Cuál es la aplicación del teorema de Chebyshev?

 Una interpretación de la desviación estándar puede hacerse a través del


principio de Tchebycheff que expresa que para cualquier muestra x1, x2,
...,xn se cumple que si se construye un intervalo con centro en la media ( x ) y
con extremos ubicados a una distancia de k veces la desviación estándar (S),
1
en dicho intervalo se encuentra por lo menos (1 - ) x 100% de los datos;
k2
escrito en símbolos será:

hx  ks , x  ks  1 
1
(4)
k2

hx  s , x  s   1 
1
 Así por ejemplo si k = 1, dice que: 0
12
hx  2s , x  2s   1 
1
 Si k = 2, dice que:  0,75
22
hx  3s , x  3s   1  2  0,888
1
 Si k = 3, dice que:
3

Marco Antonio Triana 3


Docente área de Estadística - UAO
Es decir que en el intervalo construido a 2 desviaciones estándar a cada lado de la
media se encuentra por lo menos el 75% de los datos. Para k = 3, se dice que está
por lo menos el 88,8% de los datos. Se observa que para k = 1 el principio dice que
en el intervalo x  s , x  s  ) se encuentra por los menos un dato, lo cual es
indiscutible.

 Verifiquemos el principio de Tchebycheff para k = 2

1
h  x  2s , x  2s   1   0, 75  75%
22

El intervalo correspondiente para k = 2 es el siguiente:

x  2s  15,93  2 * 3,00  9,93


x  2s  15,93  2 * 3,00  21,93

 Es decir se debe verificar que en el intervalo 9,93 ; 21,93 se encuentra por lo


menos el 75% de los datos.

 De acuerdo con los datos del problema 1, podemos ver que todos los datos
caen dentro del intervalo 9,93 ; 21,93 , es decir, se encuentra el 100%.

 En conclusión, vemos que se cumple el principio de Tchebycheff para k = 2.

 De acuerdo con el teorema de Chebyshev, construya un intervalo alrededor de la

media que contenga por lo menos el 60% de los datos.

Aplicamos la formula (4) para encontrar un intervalo que contiene por lo menos el
60% de los datos:

hx  ks , x  ks  1 
1 1
2
 1  2  0,60 al despejar k tenemos:
k k
1
k  1,58
1  0,60

Ahora, reemplazamos el valor de k en la formula (4) de la siguiente manera:

( x  1,58s)  15,93  1,58 * 3,00  11,19 ( x  1,58s)  15,93  1,58 * 3,00  20,67

Entonces, por lo menos el 60% de los equipos de electrónica industrial y de


telecomunicaciones emplean entre 11,19 y 20,67 minutos para localizar y reparar
sistemáticamente averías.

Problema 2. Los siguientes datos que aparecen en la tabla de frecuencias representan

mediciones del tiempo (minutos) utilizado para localizar y reparar sistemáticamente

averías que se encuentran en una muestra de equipos de electrónica industrial y de

telecomunicaciones (por ejemplo, receptores HF para uso con PC):

Marco Antonio Triana 4


Docente área de Estadística - UAO
TABLA DE FRECUENCIAS
Clase Intervalo de Marca de Frecuencia Frecuencia Frecuencia Densidad
Clase acumulada de
frecuenci
a
No. i L Inf , LSup  clase xi absoluta ni relativa hi absoluta relativa hi*
Ni Hi
1 4.2 - 7.5 5.85 3 6,0% 3 6% 1,818%
2 7.5 - 10.8 9.15 3 6,0% 6 12% 1,818%
3 10.8 - 14.1 12.45 11 22,0% 17 34% 6,66%
4 14.1 - 17.4 15.75 16 32,0% 33 66% 9,696%
5 17.4 - 20.7 19.05 11 22,0% 44 88% 6,66%
6 20.7 - 24.0 22.35 5 10,0% 49 98% 3,03%
7 24.0 - 27.3 25.65 1 2,0% 50 100% 0,606%
Total 50 100%

Actividades a desarrollar

 Calcule la varianza de los datos.

 Calcule la desviación estándar de los datos. Interprete claramente

 Calcule el coeficiente de variación.

 De acuerdo con el teorema de Chebyshev, construya un intervalo alrededor de la

media que contenga por lo menos el 65% de los datos.

Actividad. Solución del problema 2

 Calcule la varianza de los datos.

Si se dispone de una distribución de frecuencias (variables continuas), se puede


calcular como:

n x 
m 2
i
'
i  x
S2 
i 1
(5)
n 1

Recordemos que la media aritmética para los datos agrupados de la tabla de


frecuencias es:

3 * 5,85  3 * 9,15  .........  1 * 25,65


X  15,618
50

Aplicando la formula (5), tenemos que la varianza de los datos es igual a:

3(5,85  15,618) 2  3(9.15  15,618) 2  .............  (25.65  15,618) 2


S2   19,9842
50  1

Marco Antonio Triana 5


Docente área de Estadística - UAO
 Calcule la desviación estándar de los datos. Interprete claramente.

 La desviación estándar S  19,9842  4,47 .

Significado de la desviación estándar. La dispersión entre el tiempo utilizado para


localizar y reparar sistemáticamente averías de cada uno de los equipos de electrónica
industrial con respecto a su media es de 4,47 minutos aproximadamente.

 Calcule el coeficiente de variación. Interprete su resultado.

Para los datos de la tabla de frecuencias tenemos una media x = 15,618 y una
desviación estándar S = 4,47 entonces:

4,47
C.V  * 100%  28,62%
15,618

Significado del coeficiente de variación. Como el valor de C.V es mayor del 20%,
indica que existe una dispersión muy grande, es decir, que los datos son muy
heterogéneos.

 De acuerdo con el teorema de Chebyshev, construya un intervalo alrededor de la

media que contenga por lo menos el 65% de los datos.

Aplicamos la formula (4) para encontrar un intervalo que contiene por lo menos el
65% de los datos:

hx  ks , x  ks  1 
1 1
2
 1  2  0,65 al despejar k tenemos:
k k
1
k  1,69
1  0,65

Ahora, reemplazamos el valor de k en la formula (4) de la siguiente manera:

( x  1,69s)  15,618  1,69 * 4,47  8,06 ( x  1,69s)  15,618  1,69 * 4,47  23,17

Entonces, por lo menos el 65% de los equipos de electrónica industrial y de


telecomunicaciones emplean entre 8,06 y 23,17 minutos para localizar y reparar
sistemáticamente averías.

Marco Antonio Triana 6


Docente área de Estadística - UAO

You might also like