You are on page 1of 23

MEDIDAS DE DISPERSION. 1.- INTRODUCCION.

Las medidas de tendencia central no son suficientes para describir un conjunto de valores de alguna variable estadstica. Los promedios determinan el centro, pero nada indica acerca de cmo estn situados los datos respecto al centro. En primer lugar se necesita una medida del nivel de la dispersin o la variabilidad de los datos con respecto a su centro con la finalidad de ampliar la descripcin de los datos o de comparar dos o ms series de datos. En segundo lugar se necesita una medida del grado o nivel de la asimetra o la

deformacin en ambos lados del centro de una serie de datos, con el fin de describir la forma de la distribucin de los datos. Esta medida se denomina ndice de asimetra. En tercer lugar se necesita una medida que nos permita comparar el apuntamiento o curtosis de distribucin simtrica con respecto a la distribucin simtrica normal. Esta medida se denomina ndice de apuntamiento o curtosis. La estadstica se asimetra y apuntamiento se incluyen en este captulo de medidas de variabilidad, la forma de distribucin queda descrita por la ubicacin de los promedios en la distribucin de frecuencia o por la ubicacin de los cuartiles en una forma grfica de caja. Finalmente las medidas de cuartiles son vlidas solo para distribuciones simtricas.

2.- Medias de dispersin o de variacin


Las medidas de dispersin o variabilidad son nmeros reales que miden en grado o nivel de separacin de los datos con respecto a un valor central, que generalmente es la media aritmtica. Los principales medidas de dispersin es: El rango, El rango intercuartil, La varianza, La desviacin estndar y El coeficiente de variacin.

2.1.- El rango o recorrido de una variable Definicin: el rango de variacin o recorrido, denotado por R es el nmero que resulta de la diferencia del valor mximo (Xmax) menos el valor mnimo (Xmin) de una serie de datos observados de variable X. Esto es,

R = Xmax - Xmin.
El rango de los datos de una medida de dispersin muy fcilmente calculable, pero es muy inestable, ya que depende nicamente de los valores extremos de los datos. Su valor puede cambiar generalmente si se aade o elimina un solo dato. Por tanto, su uso es muy limitado. Por ejemplo. Las dos series de datos: a) 1, 4, 4 , 5, 5, 5, 5, 6, 6, 9 b) 1, 2, 3, 4, 5, 6, 7, 8, 9 Tienen ambas la misma media 5, y el mismo rango 8, las dos series no tienen la misma dispersin, ya que la segunda tiene mayor variedad. El ejemplo del rango como medida de comparacin de variacin puede estar justificado cuando se preside rpidamente de una medida de dispersin y no haya tiempo de calcular algunas de las otras.

2.2.- El rango intercuartil Definicin: El rango intercuartil, denotado por RI, es el nmero que resulta de la diferencia del cuartil 3 menos el cuartil 1de los datos.

RI = Q3 - Q1

El rango intercuartiles una medida que incluye el 25% superior (cuarto superior) y el 25% inferior (cuarto inferior), dando un rango dentro del cual se encuentra el 50% central de los datos observados y a diferencia del rango de los datos no se encuentran afectada por los valores extremos. Si el rango intercuartil es muy pequeo entonces describe alta disconformidad o pequea variabilidad de los valores centrales. Por ejemplo, en la distribucin de frecuencia de los 45 salarios quincenales se obtuvo los cuartiles Q1= 53.4$, Y Q2 = 66.7$, entonces, el rango intercuartil es RI = Q3
-

Q1 = 13.35 $,

por lo que podemos concluir que el 50% de los 45 salarios varan en el rango de 13.35 $. El rango SEMIINTERCUARTIL denotado por RSI, es igual al intercuartil dividido entre 2. Si la distribucin de la frecuencia de los datos es simtrica, entonces, los cuartiles Q1 Y Q3son equidistantes de la mediana Q2.En este caso, el rango intercuartil es equivalente aQ2 RSI. Por lo tanto, Q2 RSI contiene tambin exactamente el 50 % de los datos. Si la distribucin es casi simtrica, se concluye que el intervalo: media RSI contiene aproximadamente EL 50% de los datos. Por ejemplo, si en una distribucin de frecuencia simtricade 100datos observados se obtiene Q1 = 62, Q2 =66, entonces Q3 =70, por lo tanto, el 50% de los datos se hallan comprendido en el intervalo66 4. NOTA: Si la distribucin de frecuencia tiene marcada asimetra, el rango intercuartil es preferible a la desviacin estndar como medida de dispersin. Por otro lado, el rango intercuartil se aplica a variables medidas de escala por lo menos ordinal.

2.3.- La varianza y la desviacin estndar.


La varianza, es una medida que, en promedio, cuantifica el nivel de dispersin o de variabilidad de los valores de una variable cuantitativa con respecto a su media aritmtica. Si los datos tienden a concentrarse alrededor de su media, la varianza ser pequea. Si los valores tienden a distribuirse lejos de su media, la varianza ser grande.

La varianza Definicin: La varianza se define comola media aritmtica de los cuadrados de las diferencias de los datos con respecto a su media aritmtica. La varianza entendida como una media cuadrticacalculada de una muestra ser denotada por poblacin. La varianza es una medida de dispersin que genera unidades de medicin al cuadrado, por ejemplo, $2, Km2, etc. y si es calculada de una poblacin se denotara por .Los mtodos de clculo las dos varianzas son idnticas, por esto, el mtodo es conocido como mtodo de

La desviacin estndar
Definicin: la desviacin estndar es la raz cuadrada positiva de la varianza. La desviacin estndar definida como la raz cuadrada de la media cuadrtica de una muestra se denotara por Sn. Esto es,

Sn =

CALCULO DE LA VARIANZA 1) Varianza de datos no agrupados La varianza de n mediciones: X1 , X2 ,.., Xn. de algunas variables cuantitativa X cuya media es , ES EL NUMERO REAL:

Se comprueba que: Por lo tanto,

EJEMPLO1.
Calcule la varianza y la desviacin estndar de los 45 salarios quincenales sin agrupar del ejemplo 1.3 Solucin

N=45 .

Luego, la varianza de los 45 salarios sin agrupar es el numero:

Mientras, que la derivacin estndar es:

Sn =

Observe que la varianza est en

, mientras que la derivacin estndar est en $.

2.- VARIANZA DE DATOS AGRUPADOS 2.a) Varianza de datos agrupados de variable directa Si n valores de una variable estadstica discreta X se clasifican en k valores distintos X1 , X2 ,.., Xn con frecuencia absoluta respectivas f1 , f2 ,.., fn.Entonces la suma total de los cuadrados de diferencias de los valores de x con respecto a la media

esta dada

por

y su varianza es el nmero:

Se comprueba que:

Por lo tanto,

Ejemplo 2. Calcule la varianza ya la desviacin estndar de la distribucin de frecuencia del nmero de hijos de la muestra de 20 familias. SOLUCION.

Xi 0 1 2 3 4 total

fi 1 4 7 6 2 20

Xi x f i 0 4 14 18 8 44 0 4 28 54 32

x fi

118

La distribucin de frecuencia donde se ha insertado una columna de productos f i x cmputo de varianza. X = nmero de hijos por familia. Entonces, n=20, k=5,

para el

= 44,

=118

Luego, la varianza de la distribucin es el nmero:

La desviacin estndar es:

Sn =

2.b) Varianza de datos agrupados por intervalos. Si n valores observados de alguna variable cuantitativa X,son agrupados en k intervalos, con marca de clase m1, m2,.., mk con frecuencia absoluta respectivas f1 , f2 ,.., fk, entonces, la suma total de los cuadrados de diferencias con respecto a la media esta dada por

y su varianza es el nmero:

Se comprueba que:

Por lo tanto,

Ejemplo 3. Calcule la varianza ya la desviacin estndar de los 45 salarios quincenales organizados en 7 intervalos. SOLUCION. La distribucin de frecuencia donde se ha insertado una columna de productos f i x cmputo de varianza. Intervalos de Salarios [ [ [ [ [ [ [ total [ [ [ [ [ [ ] Marcas mi 30 38 46 54 62 70 78 # de empleados fi 1 2 4 10 16 8 4 45 fi x mi 30 76 184 540 992 560 312 2694 fi x 900 2888 8464 29160 61504 39200 24336 166452 para el

n = 45, k =8,
Luego, la varianza es el nmero

= 2694,

= 166452

La desviacin estndar: Sn = =

Observe que la varianza de los mismos datos, pero, no agrupados es 135.778 CALCULO DE LA VARIANZA CON FRECUENCIA RELATIVAS Para calcular la varianza de n datos observados de una variable cuantitativa X organizados en una distribucin de frecuencia relativa o porcentajes de variables discretas o por intervalos, se hace intervalos, entonces, , para cada i= 1, 2, ,k. Si la distribucin de frecuencia es por

Y la varianza es el nmero:

Varianza de la poblacin La varianza se define por: de una poblacin finita de N datos X1 , X2 ,.., XN.Sin agrupar y cuya media es

Si formamos todas las muestras posibles de tamao n y calculamos su varianza utilizando la formula (mtodo de poblacin), resulta que la media de todas

estas varianzas vale: Para que el promedio de todas las varianzas sea igual a se aplica la varianza por n/ n-1.

(mtodo de muestra)que se obtiene de multiplicar a

Por esta razn, algunos autores de esta materia define la varianza (en estadstica descriptiva) con denominador n-1. Estas 2 varianzas se tratan en estimacin de parmetros. 2.4.- COEFICIENTE DE VARIACION: DIAPERCION RELATIVA Definicin: El coeficiente de variacin, denotado por C, es una medida de dispersin relativa (libre de unidades de medicin),que se define como el coeficiente de la desviacin estndar entre la media aritmtica. Esto es.

El coeficiente o ndice de variacin se utiliza para comparar la variabilidad de dos o ms series de datos que tengan medias iguales o diferentes o que tengan unidades de medidas iguales o diferentes (por ejemplo, comparar la variabilidad de una serie de datos medidas en kilogramos con la de otra serie de datos en metros.)

Por dar un ejemplo, si las clasificaciones en matemtica I de dos secciones H1y H2 tienen la misma deviacin estndar igual a 14, no podemos concluir que los dos horarios tienen la misma variabilidad (salvo que tengan medias iguales.) Del mismo modo, si la desviacin estndar de H1 es 2y la de H2 es 4 no podemos concluir que las notas de H2 son ms dispersas que las de H1. La variabilidad de estos dos grupos depende, adems, de sus medias. En el primer caso, si se indica que la media del horario H1es 16 y la media de H2 es 11, los coeficientes de variacin respectivos son :

Es Decir, las calificaciones obtenidas en H1 son ms homogneas o tienen menor variabilidad que las calificaciones del horario H2. 2.5.- USOS DE LAS MEDIDAS DE DISPERSION O DE VARIACION La varianza es la medida de variabilidad cuyo computo transforma en cuadrticas las unidades de medicin de los valores de la variable. La desviacin estndar es la medida de variabilidad cuyo cmputo resulta en las mismas unidades de medicin de la variable. El coeficiente o ndice de variacin es la medida de variabilidad cuyo computo resulta un numero abstracto (carece en las unidades en las que vienen expresada los datos). 1) Si dos o ms grupos de datos (observados en el mismo tipo de medicin) tienen la medias aritmticas iguales, entonces, es ms dispersa o de mayor variabilidad la serie que tiene mayor valor, una de cualquiera de sus medidas de variacin: Rango R , o Ri, o s2, o s o CV. Si hay marcada asimtrica, es preferible comparar la variabilidad con el rango intercuartil. 2) Si dos o ms series de datos, no tienen medias iguales (o casi iguales) o no tienen las mismas unidades de medicin (variable diferente), entonces, es ms homogneo o de

menor variabilidad la serie que tenga menor coeficiente de variacin CV, sin importar su forma de asimetra. VALORES ESTANDARIZADOS. Cuando se necesiten comparar valores observados que pertenecen a diferentes distribuciones de datos, las que difieren en su media aritmtica o en su varianza, o difieren en el tipo de unidad de medida (variable diferente), entonces se estandarizan los valores observados de la variable aplicando la variable estandarizadora o variable estndar Z se define por: La varianza Z estandariza en cero cualquier media y estandariza en 1 cualquier varianza . Los valores estandarizados indican la posicin relativa de las unidades estadsticas dentro de su grupo. Por lo tanto Z es otra medida de posicin, adems, de los percentiles.

Ejemplo Las calificaciones en un examen de matemtica e historia generaron las medias 13 y 17 y las desviaciones estndar 3 y 4 respectivamente. Si un alumno obtuvo 14 en matemtica y 16 en Historia. En cul de los dos cursos tiene mejor rendimiento relativo? Solucin: El hecho que tenga 14 en matemtica y 16 en historia, no significa que tenga mejor rendimiento en historia. Se deben calcular los rendimientos relativos con la puntuacin estandarizadaZ. En matemticas:

En histori a :

En consecuencia, el alumno tiene mejor rendimiento en matemtica ya que tiene mayor rendimiento relativo en esa asignatura. 2.6) PROPIEDADES DE LA VARIANZA. 1) La varianza es un nmero real no negativo y viene expresada en mediciones cuadrticas. Mientas, que la desviacin estndar es tambin un nmero real no negativo que viene expresada en las mismas unidades en las que se observan los datos. 2) dada, la media y la varianza cuadrados de los valores es igual a de n datos de una variable X, la suma total de los

En efecto, para datos no agrupados se tiene por ejemplo,

3) Si la variable cuantitativa X se transforma en Y= aX+b (esto es cada uno de n los valores Xi es transformado en yi =ax1+b), entonces, la varianza de x y la varianza de Y denotados ahora por Var(X), Var(Y)respectivamente , verifican la siguiente relacin. Var (Y)= a2 x Var(X) Consiguientemente, DesvEstdr(Y)= | |

Como casos particulares se tiene: Si Y=b, entonces, Var (b)=0. Es decir, si los n datos de una variable son iguales a una constante, entonces, su varianza es igual a cero. Si Y= X + b, entonces, Var (Y) = Var(X). Es decir, si sumamos una constante s cada valor de la variable, la varianza y en consecuencia la desviacinestndar, no cambian. Si Y =aX, entonces, Var (Y)= a2 x Var(X). Es decir, si multiplicamos por una constante a cada valor de la variable, la varianza de los nuevos valores es igual que la varianza de los antiguos valores multiplicados por a2.

4) La varianza y las dispersin estndar se calculan tambin, en distribucin de frecuencia en intervalos de amplitud diferentes, siempre que puedan determinarse las marcas de las clases. Por otra parte, estas medias dependen de todo los datos y son sensibles a los cambios de cada uno de estos, basta que uno de los datos cambie, para que cambien estas medidas. 5) Datos k series de datos con tamaos, medias y varianzas respectivas

entonces la varianza total,

de los

n=n1 +n2 + +nk datos es el numero:

, donde

6) Desigualdad de chebyshev Cualquiera sea la forma de la distribucin (simtrica o asimtrica) de los datos observados de una variable X, el intervalo [ contiene por lo menos.
Por ciento de los datos El porcentaje de datos que se ubica fuera del intervalo es menor que

], donde k>1,

Por ejemplo, el intervalo [

] contiene por lo menos el

o 75%, del total de los datos. El porcentaje de datos que se ubica fuera del intervalo es menos de 25%. El intervalo [ total de los datos. El intervalo [ total de los datos. ] contiene por lo menos el 93.75%, (15/16), del ] contiene por lo menos el 88.89%, (8/9), del

EJEMPLO: En el mes de enero el sueldo promedio de los trabajadores del sector industrial era de $200. Para el mes de julio se considera un aumento del 30% al sueldo del mes de enero ms un adicional de %50. Si el coeficiente de variacin en enero era de 0.25, se puede decir que la distribucin de sueldos en julio es ms homognea?
SOLUCION:

Sean los valores, X=sueldo de enero, La media de enero es:

Y=Sueldo de julio

Sea CVx, el coeficiente de variacin en enero, CVx =0.25 Sea sx la desviacin estndar de enero, entonces, es sx= CVx x = 0.25 x 200= $50 La relacin entre los dos valores es:

Entonces, la mediana de los sueldo de julio, entonces, Sea

la varianza de los sueldos de julio, entonces: $2

La desviacin estndar:

Coeficiente de variacin en julio es: CVy=

Comprobando los coeficientes de variacin de enero y julio se puede concluir que la distribucin de los sueldos del mes de julio y es ms homogneo. 3) INDICES DE ASIMETRIA.

Definicin: Se dice que una distribucin de frecuencia variable discreta es simtrica, si son iguales las frecuencias de sus valores equidistantes del valor central. Se dice que una distribucin de frecuencia por intervalos es simtrica, si son iguales las frecuencias de los intervalos equidistantes del valor central. En una distribucin de frecuencia simtrica coinciden en su centro la media, la mediana y la moda (figura 1a). En contraposicin, si estos tres promedios no coinciden, entonces, la distribucin tiene forma asimtrica con cola o sesgo a la derecha (figura 2a) o en la izquierda (figura 3a)

Por lo tanto, el orden de ubicacin de los promedios describe la simetra o asimetra de la distribucin de los datos. FIGURA 1

c) Asimtrica Positiva

a) Asimtrica negativa

b) SIMETRICA

El hecho de que dos distribuciones pueden tener la misma media y la misma desviacin estndar, no garantiza que estas sean simtricas. Pueden diferir en el grado de asimetra. Otro modo de describir la simetra o asimetra de la distribucin de los datos es aplicando una grfica de cajas. Existen varios mtodos de medir la simetra de la distribucin de los datos, uno de estos es el coeficiente o ndice de asimetra de Pearson.

COEFICIENTE O NDICE DE ASIMETRA DE PEARSON Definicin:El ndice de simetra de Pearson es el nmero real.

Como en distribuciones de marcada asimetra se verifica: entonces, otra forma de expresar el ndice de asimetra es:

Interpretacin de la media de asimetra

. = 0. Ver la figura 1 a, donde se observa, promedios: .

Si la distribucin de los datos es simtrica, adems, Si si, que coinciden los tres

, la distribucin es asimtrica ,adems, es asimtrica positiva o sesgada o de cola a > 0.(figura 1b)Y, es asimtrica negativa o sesgada o de cola a ala izquierda < 0 (figura 1c). Por ejemplo, la distribucin de los 45 salarios quincenales del ejemplo 3 organizado en 7

la derecha, si

intervalos tiene asimetra negativa, pues:

El ndice de asimetra de Pearson aplicando momentos se define para n casos por: En donde , Sn= la desviacin estndar.

Este ndice es utilizado por los paquetes o computo estadstico para determinar la asimetra de distribucin de la forma dato frecuencia.

Para n datos tabulados en k intervalos, un mtodo alternativo es utilizar el ndice de asimetra de Fisher definido por:

En donde

, Sn= la desviacin estndar.

Si la distribucin es simtrica asimtrica negativa.

. Si

, es asimtrica positiva y si

, es

Por ejemplo, continuando con el ejemplo3, el ndice de asimetra de los 45 salarios quincenales organizados como variable discreta en la forma dato es . Y de los mismos datos tabulados en 8 intervalos es:AS=-0.3. frecuencia

NOTA(ojivas simtricas y asimtricas). Las ojivas o curvas de frecuencia acumulada, presentan formas particulares segn el tipo de asimetra .por ejemplo, en la figura 2 la curva de frecuencia acumulada A es de una distribucin con asimetra extrema negativa. La ojiva C es de asimetra extrema positiva. La ojiva B es de una distribucin simtrica. En la figura 2b la diagonal D es la ojiva de una distribucin normal. La curva F es la ojiva de una distribucin simtrica leptocrtica, y la E de una platicrtica.

Fig. 2 a ojivas asimtricas relativas

Fig. 2bojivas simtricas relativas

4) CURTOSIS.
La curtosis es la propiedad de una distribucin d frecuencia por la cual se compara la dispersin de los datos observados cercano al valor central con la dispersin de los datos cercano a ambos extremos de la distribucin. La curtosis se mide en comparacin a la curva simtrica normal o mesocrtica (fig. 3a).

Figura 3 curtosis de curvas simtricas.

Una curva simtrica con curtosis mayor que de la normal es denominada curva leptocrtica (fig. 3c) Una curva simtrica con curtosis menor que de la normal es denominada curva platicrtica (fig. 3b) Existen varias maneras de medir la curtosis de la distribucin de los datos pero, se aplica solo si la distribucin es simtrica. Curtosis vasado en percentiles. Esta medida de curtosis es muy poco usada por ser muy inestable. Sin embargo, describe muy bien el concepto. En una curva normal, el cociente de rango intercuartil(percentil 75 menos el percentil 25)entre la diferencia del percentil 90 menos el percentil 10 es aproximadamente igual a 0.5.

A medida que P75 P25 y P90 P10 sean iguales (valor del cociente casi uno),
la distribucin ser leptocrtica, y a medida que P 75 P25 sea cad ves ms pequeo con respecto a P90 P10 (valor del cociente casi cero), la distribucin ser platicrtica. La curtosis utilizando percentiles se define por el cociente:

-0.5

Interpretacin. Si la distribucin es normal, k tiende a 0. Si k tiende a 0.5, es leptocrtica, y si k tiende a -0.5, es platicrtica. Por ejemplo, la distribucin de los 45 salarios quincenales del ejemplo 3 tabulados en 7 intervalos tiene curtosis frecuencias no es simtrica. NOTA: (otras medidas de curtosis) [ ] . Sin embargo , no se puede relacionarla con una distribucin normal, porque esta distribucin de

La curtosis utilizando momentos es definida por la expresin:

Donde

, n= nmero de caso, s=la desviacin estndar.

Esta curtosis es utilizada por los paquetes de computo estadstico para determinar la curtosis de distribuciones de la forma de dato frecuencia.

Para n datos tabulados en k intervalos, la curtosis se calcula por:

-3

Donde,

= la desviacin estndar .

La distribucin es normal, k=0. Si k>0, es leptocrtica y si k<0 es platicrtica. Por ejemplo, continuando son el ejemplo 3. La curtosis de los 45 salarios quincenales tabulados en la forma dato frecuencia es k=1.021. Y de los mismos datos tabulados en 8 intervalos es k=0.0244. Sin embargo, no se puede decir que es leptocrtica, por que la distribucin de los datos no es simtrica.

5) DIAGRAMA O GRAFICA DE CAJA.


Existe una gran variedad de grficos estadsticos para extraer informacin acerca de las propiedades o comportamiento de un conjunto de datos. Una grfica til para reflejar propiedades y describir la forma como se distribuyen los datos es la grfica de cajas (box plots) que se basa generalmente en la mediana (en algunos casos en la media), los cuartiles y valores externos. La caja representa el rango intercuartil que encierra el 50% de los valores observados y una variable cuantitativa y tiene la mediana (Me) dibujada dentro. El rango intercuartil tiene como extremos el percentil 75, P75 (o cuarto superior Q3). El percentil 25, P25 (cuarto inferior Q1). Adems la caja incluye la extensin de los datos mediante segmentos (bigotes de la caja) que se extienden de la caja hacia el valor mximo (u)y hacia el valor mnimo (l)de los datos. Este recuadro se dibuja con el eje de la variable en forma horizontal <o vertical como se indica en la figura que sigue. Los datos atpicos o discordantes o raros llamados outliers (aislados) son aquellos que se ubican a fuera de los intervalos[ ], donde RI = es el rango intercuartil. En este caso, en el extremo inferior les el dato mnimo no outlier.

Los outliers son posibles valores fuera del intervalo. Empricamente un dato est fuera de intervalo si su valor estandarizado Z es fuera del intervalo [ ].

Diagrama de caja y extensiones.

De un grfico de caja, se obtiene informacin de los datos: La centralizacin, observando la ubicacin de la mediana La dispersin o variabilidad, mediante el rango intercuartil: RI = La asimetra, comparando los segmentos: Me con - Me

Las colas, por la longitud de los segmentos que salen de los lados de la cajahacia el mximo y hacia el mnimo. Ejemplo.

Las calificaciones de 20 alumnos en una prueba de conocimientos son: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 realice el anlisis descriptivo de los datos aplicando una grfica de caja. SOLUCION. Se observa que la media es Me = 11. El percentil 75 es P75 =13, el percentil 25 es P25 = 5.5. El rango intercuartil es: d = Q3 Q1 =7.5 Adems, Q3 +1.5d= 13 + 1.5 x7.5 =24.25 entonces, U=15 (es el mximo no outlier). Q1 - 1.5d= 11 - 1.5 x7.5 = -0.25 entonces, L=1 (es el mnimo no outlier). No hay outlieres en la serie de datos. La forma de la distribucin de las notas es asimtrica de la cola ala izquierda o asimtrica negativa, pues, Q3 Me< Me Q1

GRAFICA DE CAJAS

You might also like