You are on page 1of 23

Tercera parte

Medidas de tendencia central y de


variabilidad
Objetivos

Que deberían saber al terminar esta TERCERA PARTE:

Definir una serie de medidas (estadísticos descriptivos) que sinteticen la


información contenida en una distribución de frecuencias.

Identificar el punto alrededor del cual se centran los datos.

Comparar las diferentes medias y sus respectivas aplicaciones

Estudiar como se ven afectados los estadísticos a l transformar los datos


de una variable.

Cuantificar e interpretar el grado de dispersión de un conjunto de datos


alrededor del valor promedio o media.

Comparar la dispersión entre dos o más variables.

3.1 Medidas de posición

Este tipo de medidas indican un valor de la variable objeto de estudio en


torno al cual se sitúan un grupo de datos u observaciones.

Las podemos distinguir de la siguiente manera:

Medidas de Tendencia central: media aritmética, armónica, geométrica,


ponderada, mediana y moda

Medidas de tendencia no central : Aquí en este grupo encontramos los


cuantiles (deciles, cuartiles y percentiles)

Seguidamente abordaremos los principales detalles conceptuales y de


aplicación de las medidas referidas anteriormente

Medidas de tendencia central a partir de datos no agrupados

Media aritmética
N

Media Poblacional X 1  X 2  X 3  ....  XN


 Xi
  i 1

N N
Media Muestral n

X 1  X 2  X 3  ....  Xn
 Xi
X  i 1

n n

donde:

μ = media aritmética poblacional


x = media aritmética muestral
xi = dato i
n = número de datos en la muestra
N = número de datos en la población

Ejercicios

1. Se han tomado como muestra las medidas de seis conectores


usados en una máquina de suministro de aire, las cuales son; 15.2 cm,
15.0, 15.1, 15.2, 15.1 y 15.0, determine su media aritmética.


15.2  15.0  15.1  15.2  15.1  15.0
x  15.1
6
Por supuesto que se mantienen las unidades, es decir, 15.1 centímetros.

2. Se toman varias muestras de cierto tipo de queso y se determina la


cantidad de proteína por cada 100 gramos de queso, encontrándose lo
siguiente: 26.5 gramos, 24.8, 25.3, 30.5, 21.4, determine la cantidad
promedio de proteína encontrada en la muestra por cada 100 gramos de
queso que se elabora.

Solución:

_
26.5  24.8  25.3  30.5  21.4
x  25.7 grs
5

3. Si deseamos determinar la edad promedio de los estudiantes de una


escuela de nivel superior al iniciar sus estudios, suponga que se toman
las edades de algunos de los alumnos de cierta clase y estas son las
que siguen: 20, 18, 18, 19, 18, 19, 35, 20, 18, 18, 19.

Luego, la media se determinará con solo 10 de las edades ya que es


necesario descartar la edad de 35 años, que es un dato atípico o un
caso especial, por lo que;
_
20  18  18  19  18  19  20  18  18  19 187
x   18.7años
10 10

Nota: Cuando es necesario determinar aquellas medidas de tendencia central


que hagan uso de todos los datos de la muestra se recomienda descartar todos
aquellos datos atípicos que se encuentren en la muestra o muestras tomadas.

1. Media Ponderada

Para este caso las observaciones tienen un grado de ponderación o valor,


no ocurría así en la media aritmética donde todas las observaciones eran de
igual importancia o peso.

Xw 
 XW
W

X W  es la media ponderada
X: es la observación individual
W: es el peso o ponderación asignada

Ejercicio

Para el curso de estadística se establece que el examen final valdrá el doble de


los otros exámenes, es decir que el examen final debe dársele el doble de
peso. Obtenga la media ponderada Xw si:

Nota (X) Peso (W) XW Si observan manejamos tres columnas


89 1 89 diferenciando claramente cual es X y
W y la 92 1 92 tercera columna XW me permite
79 1 79 reemplazar con más facilidad en la
94 2 188 fórmula
5 448  XW
W

Xw 
 XW
= 448/5 = 89.6
W

Ejercicio
El expendio de la “esquina” vende cinco tipos de cerveza:

Cerveza Utilidad por Volumen de


unidad ventas
Águila Imperial 2.0 3
Club Colombia 3.5 7
Heineken 5.0 15
Pilsener 7.5 12
Corona 6.0 15

Cuál es la utilidad promedio?

Ejercicio
A continuación se mencionan las materias que Luis Pérez llevó en el primer
semestre de Ingeniería Química, el número de créditos y la calificación
obtenida;

MATERIA NUMERO CREDITOS CALIFICACIÓN


Metodología de la investigación 8 90.5
Matemáticas I 10 100.0
Programación 8 81.0
Química 10 78.0
Dibujo 4 100.0
Economía 8 84.0
Determine la calificación promedio que obtuvo Luís Pérez en su primer
semestre.

La media Geométrica y sus aplicaciones

La media geométrica es útil para encontrar el promedio de porcentajes,


razones, índices o tasas de crecimiento. Se utiliza ampliamente en los negocios
y la economía, debido a que frecuentemente interesa determinar el cambio
porcentual en ventas, sueldos, o cifras económicas, como el producto nacional
bruto. La media geométrica de un conjunto de n números positivos se define
como la raiz n –ésima del producto de los n valores. Su formula es:

MG  n x1  x 2  ......  x n

Donde:

G = media geométrica
xi = dato i
n = número de datos en la muestra
La media será siempre menor que o igual a la media aritmética.
Otra observación importante es que los datos deben ser positivos.

Pongamos un ejemplo optimista

Suponga que usted recibe un aumento de sueldo del 5% este año y recibirá
uno del 15% el año próximo.

El aumento porcentual promedio es de 10?

Verifiquemos con la media geométrica.

MG  2 1.05  1.15

MG = 1.0986

Para mirar el promedio porcentual

1.0986 -1.0 = 0.09886 = 9.886%

Aplicación 1 Las ganancias obtenidas por la constructora P&D en cuatro


proyectos recientes fueron de 3%, 2%, 4%, 6%.

¿Cuál es la media geométrica de la ganancia?


Compare con la media aritmética

Un segundo uso de la media geométrica es encontrar aumentos porcentuales


promedio en un intervalo de tiempo.

Suponga que se ganaron en nuestra constructora 30000 dólares el mes julio y


50000 en este mes. ¿Cuál es la tasa de aumento mensual.

LA EXPRESIÓN QUE UTILIZAMOS ES LA SIGUIENTE:

Valor al final del período


MG  n 1
Valor al inicio del período

50000
MG  2 1
30000

Ejercicio
Supóngase que la población en el centro de la Guajira era de dos personas en
1990 y en el 2000era de 22. ¿Cuál es la tasa de aumento porcentual anual
promedio para el período?

Hay 10 años entre 1990 y 2000 por lo tanto n = 10

Media armónica (H)

La media armónica se define como el recíproco del promedio de los recíprocos


de cada uno de los datos que se tienen en la muestra, y se determina de la
siguiente manera:

1 n
H  n
 n
1 / n1 / xi 1 / xi
i 1 i 1

Ejercicio

Determine la media armónica de los siguientes datos, 3.1, 2.8, 2.84, 3.05, 3.09

Solución:

5
H  
1 / 3.1  1 / 2.8  1 / 2.84  1 / 3.05  1 / 3.09

5 5
   2.9703
0.3226  0.3571  0.3521  0.3279  0.3236 1.6833

Mediana (ó media posicional)

Queda en la mitad del conjunto de datos después de que se han colocado en


serie ordenada.
La mitad de las observaciones estará por encima de la mediana, la otra mitad
por debajo.

Número impar de observaciones n 1


Posición de la mediana = 2
xi  xi 1
Me 
2
Número par de observaciones Posición de la mediana = se
promedian los dos valores
medios
Cuando el número de datos en la muestra es impar.- En este caso después de
ordenar los datos de la muestra en cuanto a su magnitud, es decir de mayor a
menor valor o de menor a mayor valor, se procede a localizar aquel dato que
se encuentra justo en el centro de los datos o en la parte central de los
mismos, el valor de este dato será el que dé valor a la mediana.

Ejercicio
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en
un arnés de lavadora; se toman como muestra siete circuitos y sus mediciones
son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5 cm.

Ordenando los datos de menor a mayor valor;

11.2, 11.2, 11.2, 11.3, 11.4, 11.5, 11.5

Se observa que el dato 11.3 es el que queda en la parte central, por lo que este
es el que dará valor a la mediana; entonces,

xmed = 11.3 cm.

Cuando el número de datos en la muestra es par.- En este caso después de


ordenar los datos en cuanto a su magnitud, observamos que en la parte central
de los datos no se encuentra dato alguno, en este caso, la mediana tomará el
valor del promedio de dos datos; el que se encuentra antes de la parte central y
el que se encuentra después de la parte central.

Ejercicio

Los siguientes datos son las mediciones obtenidas de un circuito utilizado en


un arnés de lavadora; se toman como muestra ocho circuitos y sus mediciones
son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5, 11.4 cm.

Ordenando los datos de mayor a menor valor,

11.5, 11.4, 11.4, 11.3, 11.2, 11.2, 11.2, 11,1 cm.

Se observa que en la parte central de los datos no hay dato alguno por lo que
la mediana se determina con el promedio de los datos subrayados, entonces,

11 .3  11 .2
Xmed   11 .25cm
2
Nota: Es imprescindible para calcular el valor de la mediana el que
primero se ordenen los datos en cuanto a su magnitud, ya que de no
hacerlo, se incurriría en un grave error.

Moda

La observación modal es la observación que ocurre con mayor frecuencia.

Ejercicio

Determine la moda de los datos que se muestran a continuación, se refieren a


la estatura de un grupo de jóvenes; 1.60m, 1.65, 1.70, 1.71, 1.70, 1.70, 1.70,
1.71, 1.70, 1.93, 1.87, 1.85

Estatura Frecuencia
1.60 1
1.65 1
1.70 5*
1.71 2
1.85 1
1.87 1
1.93 1

La tabla muestra la distribución de frecuencias de los datos o el número de


veces que estos se repiten, la mayor frecuencia que es 5 corresponde a una
estatura de 1.70m, por lo que esta sería la moda.

Luego, xmod = 1.70m

Determine la moda de los siguientes datos que se refieren a la edad de


alumnos de primer semestre del tecnológico de Chihuahua, 18 años, 17, 19,
21, 19, 18, 22, 22, 18, 18, 17, 19, 19, 19, 18, 20, 21, 20, 18, 19, 18, 19, 18,19,
22, 35

Edad Frecuencia
17 2
18 7*
19 8*
20 2
21 2
22 3
35 1
En este caso se observa que las edades que más frecuencia tienen son las de
18 y 19 años, por lo que se concluye que existen dos modas,

Xmod1= 18 años , Xmod2= 19años

Una distribución de datos puede ser amodal (carece de moda),


unimodal (tiene una sola moda), bimodal (tiene dos modas) o
polimodal (tiene más de dos modas).

Una comparación geométrica y empírica, de la media, mediana y moda

Una relación útil cuando se tienen frecuencias unimodales, que además tienen
un comportamiento asimétrico, es decir la distribución geométrica no es
uniforme, se tiene la siguiente construcción empírica:

Media  moda  3  media mediana

Un patrón importante se construye cuando las frecuencias son simétricas ya


que en dicho caso la media, moda y mediana coinciden.
Medidas de dispersión (datos no agrupados)

Las medidas de dispersión miden que tanto se dispersan las observaciones


alrededor de su media

Varianza Poblacional
 2
( x) 
 (x i  )2
N
Desviación estándar poblacional  (X )
2

Varianza muestral
s 2 ( x) 
 (x i  x) 2
n 1
Desviación estándar muestral 2
s (X ) =s

Cuando se tiene una muestra de datos obtenida de una población


cualquiera, es importante determinar sus medidas de tendencia central
así como también es básico el determinar que tan dispersos están los
datos en la muestra, por lo que se hace necesario determinar su rango, la
varianza, la desviación estándar, etc., ya que una excesiva variabilidad o
dispersión en los datos indica la inestabilidad del proceso en análisis en
la mayoría de los casos.

Rango o recorrido. El rango es la diferencia entre el valor mayor y el valor


menor encontrados en la muestra, también se le denomina recorrido ya que
nos dice entre que valores hace su recorrido la variable de interés; y se
determina de la siguiente manera:
R = VM – Vm
Donde:

R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra

Ejercicio

1. Se han tomado como muestras las mediciones de la resistencia a la tensión


de la soldadura usada para unir dos cables, estas son: 78.5kg, 82.4, 87.3, 78.0,
90.0, 86.5, 77.9, 92.4, 75.9, determine su rango o recorrido.
:

VM = 92.4 kg
Vm = 75.9 kg
R = VM – Vm = 92.4 – 75.9 = 16.5 kg

Ejercicio

Se toman las mediciones de la cantidad de grasa de la leche en gramos por


cada 100 ml de leche que entra a un proceso de pasteurización, a continuación
se enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine
el rango o recorrido de la cantidad de grasa de la leche.

VM = 17.61
Vm = 12.76

R = 17.61 – 12.76 = 4.85gramos


_

Desviación absoluta media ( d ). Esta medida de dispersión nos representa la


diferencia absoluta promedio que existe entre cada dato que se encuentra en la
muestra y la media de los datos y se determina de la siguiente manera:

n _

_ 
i1
xi  x
d 
n

Donde:
xi = dato i
_
x = media aritmética de la muestra
n = número de datos en la muestra
Ejercicio

Determine la desviación absoluta media de los siguientes datos que son las
concentraciones de plomo de algunas muestras, las que a continuación se
enumeran: 18gr, 12, 21, 19, 16, 20, 22

Para determinar la desviación absoluta media o promedio, lo primero que hay


que hacer es calcular la media aritmética de los datos de la muestra, la que es
128/7 =18.286, luego se procede a calcular el promedio de las diferencias
absolutas entre cada dato y la media calculada.

_ 18  18.286  12  18.286  .....  20  18.286  22  18.286


d 
7

_
0.286  6.286  2.714  0.714  2.286  1.714  3.714 17.714
d   2.5305gr
7 7

La interpretación de este resultado sería que el grado de alejamiento absoluto


promedio de los datos con respecto a su media es de 2.5305 gramos.

¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la media
aritmética? Si solo se hicieran diferencias entre cada dato y la media aritmética,
estas tendrían signos positivos y negativos ya que algunos datos son menores
que la media y otros son mayores que la media, luego al sumar las diferencias,
con sus signos correspondientes, éstas se irían anulando unas con otras y no
sería posible medir leal grado de alejamiento promedio de los datos en la
muestra.

Varianza o variancia (s2). Es el promedio de las diferencias elevadas al


cuadrado entre cada valor que se tiene en la muestra (x i) y la media aritmética (
_
x ) de los datos y se determina de la siguiente manera:

n
 _
2
  xi  x
S2 
i 1 
n1

Donde n es el número de datos en la muestra.


Ejercicio

Los siguientes datos es la cantidad de glucosa en miligramos encontrada en


muestras de sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3,
determine su varianza.

Lo primero que hay que calcular es la media aritmética de la muestra como ya


se ha hecho anteriormente.

 14.2  12.1  15.6  18.1  14.3 74.3


x   14.86mg
5 5
2 2 2
( 14.2  14.86 )  ( 12.1  14.86 )  ....  ( 14.3  14.86 )
s 2

5 1

0.4356  7.6176  0.5476  10.4976  0.3136 19.412 2


s2    4.853mg
4 4
Desviación estándar (s). Es la desviación o diferencia promedio que existe
entre cada dato de la muestra y la media aritmética de la muestra. Y se obtiene
a partir de la varianza, sacándole raíz cuadrada.

s  s2

Donde:

s2= varianza o variancia

Por tanto la desviación estándar de la muestra anterior sería;

2
4.853mg  2.2029mg
s=

La interpretación de este resultado sería, que la cantidad de glucosa


encontrada en la muestra es en promedio de 14.86 miligramos y que la
cantidad de glucosa en la muestra se aleja o dispersa en promedio 1.9704 mg
alrededor de la media.

En este caso solo nos interesa conocer el significado de la desviación estándar,


aunque es necesario decir que s es la desviación de la muestra y que  es la
desviación de la población, así como s 2 es la varianza de la muestra y 2 es la
varianza de la población.
Ejercicio

Se desea determinar la estabilidad del precio de una acción en particular.


Decide basar su juicio en la estabilidad de la desviación estándar del precio de
cierre diario de dicha acción. Al revisar las páginas financieras. Se sabe que la
acción ha sido transada en la bolsa durante algún tiempo y que hay muchos
precios de cierre desde hace varios meses. En lugar de utilizar todos estos
precios se decide simplificar su aritmética y seleccionar una muestra aleatoria
de n = 7 días y se nota que los precios de cierre son :

87, 120, 54, 92, 73, 80 y 63

Medidas de tendencia central y de dispersión para datos agrupados

El director de la división de análisis estadístico le pide recolectar y agrupar los


datos sobre el número de pasajeros que han decidido viajar por P&D. Tales
datos correspondientes a los últimos 50 días aparecen en la tabla anexa. Sin
embargo, con estos datos en bruto, es improbable que el director pueda
obtener información útil y significativa respecto de las operaciones de vuelo. Es
preciso agrupar y presentar los datos de manera concisa y reveladora para
facilitar el acceso a la información que contienen.

68 71 77 83 79 72 74 57 67 69
50 60 70 66 76 70 84 59 75 94
65 72 85 79 71 83 84 74 82 97
77 73 78 93 95 78 81 79 90 83
80 84 91 101 86 93 92 102 80 69

Si agrupamos los datos (teniendo en cuenta la ley de Sturges) me


quedan los siguientes intervalos:

Clase ni f N F Ci Xi nixi Xi2 ni Xi2


[50-60[ 3 3/50 3 3/50 10 54.5 163.5
[60-70[ 7 7/50 10 10/50 10 64.5 451
[70-80[ 18 18/50 28 28/50 10 74.5 1341
[80-90[ 12 12/50 40 40/50 10 84.5 1014
[90-100[ 8 8/50 48 48/50 10 94.5 756
[100-110] 2 2/50 50 50/50 10 104.5 209
50 1.00 3935

n i = número de datos (muestra) n x i i


Vamos a los cálculos de los estadísticos

1. Media aritmética

X 
n x i i

n x
i i
Reemplazando los valores (mirar tabla) = 3935/50=
n n i

78.7

2. Mediana

Primero se debe hallar la clase de la mediana de la distribución de frecuencias.


La clase mediana es la clase cuya frecuencia acumulada es mayor que o igual
a n/2, donde n es el tamaño muestral = 50.

Ubiquemos entonces la clase con una frecuencia acumulada de 25 o más.


Volviendo a la tabla la tercera clase tiene una frecuencia acumulada de 28

Aquí n es el total de los datos (muestra)


n 
 2  Ni 
Luego Mediana  Lmd   C 
 n md 
 

 50 
 2  10 
reemplazando Med  70   10  78.33
 18 
 

Lmd = limite inferior de la clase de la mediana ------------ 70


Ni = frecuencia acumulada de la clase que antecede a la clase de la mediana ---- 10
nmd = frecuencia de la clase de la mediana ------ 18
C = es el intervalo de clase de la clase de la mediana -------- 10

3. Moda

Hallamos la clase con la mayor frecuencia (clase modal)

 Da 
Moda  Lmo   C
 Db  Da 

Lmo = es el límite inferior de la clase modal -------------70


Da = es la diferencia entre la clase modal y la clase que le antecede ------ 18 - 7
Db = es la diferencia entre la clase modal y la clase que le sigue ----------- 18 - 12
C = es el intervalo de clase de la clase modal ------------------------ 10

Reemplazando
 18  7 
Moda  70    10  76.47
 18  12  18  7  

4. Varianza y desviación estándar

n x
2 2
 nx
Varianza  S 2

i i
este les queda como trabajo…. Les
n 1
debería dar 147.31 luego s = a la raiz cuadrada de la varianza =
12.14

Para contrastar los estadísticos con datos agrupados y no


agrupados…. Completen el ejercicio con datos no agrupados y
obtengan la media, mediana, moda, varianza y desviación estándar

Estadístico Datos no agrupados Datos agrupados


Media
Mediana
Moda
Varianza
Desviación estándar

Ejercicio

La veeduría distrital quiere evaluar el programa bandera de la Alcaldía del


Distrito “Bogotá sin hambre” en una localidad del centro.

El número de comidas diarias que suministran aparece en la siguiente tabla de


frecuencia

Número de Número
comidas por día de días
0–5 3
6 - 11 6
12 - 17 5
18 - 23 8
24 - 29 2
30 - 35 3
27

Respuestas para contrastar


Media = 16.5 comidas
Mediana = 17.4 comidas
Moda = 20 comidas
Varianza = 80.31
Desviación estándar = 8.96 comidas

Cuantiles

Estas otras medidas de dispersión pueden ser cuartiles, deciles o percentiles

Un conjunto de datos entonces tendrá:

 3 cuartiles
 9 deciles
 99 percentiles

Ubicación de un percentil

Lp = (n + 1)(P/100)

Lp = es el sitio del percentil deseado en una serie ordenada


n = es el número de observaciones
P = Percentil deseado

Ejercicio

3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80

Obtenga

P25, P35, La mediana, tercer decil El rango o recorrido intercuartílico


(RIC = Q3 – Q1)
Diagrama de caja (Box plot)

Es un resumen gráfico de datos basado en un resumen de cinco números. Una clave


para construir un diagrama de caja es del cálculo de la mediana y los cuartiles Q1 y
Q3. También se usa el rango intercuartil (RIQ = Q3 – Q1).

Resumen de cinco números


1. Valor mínimo
2. Primer Cuartil (Q1)
3. Mediana = Q2
Tercer cuartil (Q3)
Valor máximo

Los diagramas de caja proporcionan información completa visual


sobre cómo se distribuyen los datos. Pueden ser de gran utilidad
como técnica de análisis exploratorio de datos.
En un simple gráfico se suministra información sobre la mediana (o
media), sobre el 50% y 90% de los datos, sobre la existencia de
empresas con ratios atípicos, así como de la simetría de la
distribución.

¿Cómo se dibuja un diagrama de caja?

Un diagrama de caja se construye como sigue:


1) Ordenar los datos de la muestra y obtener el valor mínimo, el máximo,
y los tres cuartiles Q1, Q2 y Q3.
2) Dibujar un rectángulo cuyos extremos son Q1 y Q3 e indicar la
posición de la mediana, Q2, mediante una línea.
3) Calcular con cualquiera de los procedimientos descritos anteriormente
unos límites admisibles superior e inferior, Li y Ls, que identifiquen a los
valores atípicos.
4) Considerar como valores atípicos los situados fuera del intervalo (Li,
Ls).

Ejercicio
El precio de un interruptor térmico en 10 comercios de electricidad de una
ciudad son : 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27dólares. Hallar la media,
moda, mediana, diagrama de barras y el diagrama de caja.
[El diagrama de caja: caja desde Q 1 a Q3 (50% de los datos), bigotes el
recorrido]

Ejercicio

Ahora aborde usted la siguiente una situación:

Sueldos mensuales iniciales para una muestra de 12


egresados de una Escuela de Administración
Egresado Sueldo Egresado Sueldo
(dólares) (dólares)
1 2850 7 2890
2 2950 8 3130
3 3050 9 2940
4 2880 10 3325
5 2755 11 2920
6 2710 12 2880
1. Halle la media
2. Halle la mediana
3. Halle la moda
4. Halle la varianza
5. Halle la desviación estándar
6. Halle el coeficiente de variación , CV = (desviación estándar/media)x 100
7. Halle el percentil P25, P50, P75
8. Halle Q1, Q2, Q3
9. Halle el rango intercuartílico
10. Halle la mediana
11 Construya el diagrama de caja. Tenga en cuenta:

 Se traza un rectángulo con los extremos en el primer y tercer cuartiles.


 Q1 = 2857.5
 Q3 = 3025
 Este rectángulo contiene el 50% intermedio de los datos.

 En la caja se traza una recta vertical en el lugar de la mediana (2905).


Así la mediana divide los datos en dos partes iguales.
 Se ubican los límites mediante el RIQ. Los límites en el box plot están a
1.5 (RIQ) abajo de Q1 y a 1.5 (RIQ) arriba de Q3. Se considera que los
datos afuera de estos límites son valores atípicos.
 Las líneas punteadas de la caja se llaman bigotes de la caja, que se
trazan desde los extremos de esta hasta los valores mínimo y máximo
dentro de los límites. Así los bigotes terminan en los valores de los
salarios 2710 y 3130.
 Por último se marcan con un asterisco (*) las localizaciones de los
valores atípicos. Para nuestro caso 3325

o Presente el gráfico (Box Plot)

Medidas de dispersión relativa

Nos permiten comparar la dispersión de distintas distribuciones.

Coeficiente de variación de Pearson ( CVx )

Indica la relación existente entre la desviación típica (o desviación estándar) de


una muestra y su media.

Al dividir la desviación típica por la media se convierte en un valor sin unidad


de medida. Si comparamos la dispersión en varios conjuntos de observaciones
tendrá menor dispersión aquella que tenga menor coeficiente de variación.

El principal inconveniente, es que al ser un coeficiente inversamente


proporcional a la media aritmética, cuando está tome valores cercanos a cero,
el coeficiente tenderá a infinito.
Medidas de Forma

Comparan la forma que tiene la representación gráfica, bien sea el histograma


o el diagrama de barras de la distribución, con la distribución normal.

Medida de asimetría

Diremos que una distribución es simétrica cuando su mediana, su moda y su


media aritmética coinciden.

Diremos que una distribución es asimétrica a la derecha si las frecuencias


(absolutas o relativas) descienden más lentamente por la derecha que por la
izquierda.

Si las frecuencias descienden más lentamente por la izquierda que por la


derecha diremos que la distribución es asimétrica a la izquierda.

Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría


de Fisher, que viene definido:

Los resultados pueden ser los siguientes:


g1 = 0 (distribución simétrica; existe la misma
concentración de valores a la derecha y a la
izquierda de la media)
g1 > 0 (distribución asimétrica positiva; existe mayor
concentración de valores a la derecha de la media
que a su izquierda)
g1 < 0 (distribución asimétrica negativa; existe
mayor concentración de valores a la izquierda de la
media que a su derecha)

Medida de apuntamiento o curtosis

Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda.


Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución mesocúrtica: presenta un grado de concentración medio


alrededor de los valores centrales de la variable (el mismo que presenta una
distribución normal).

Distribución leptocúrtica: presenta un elevado grado de concentración


alrededor de los valores centrales de la variable.

Distribución platicúrtica: presenta un reducido grado de concentración


alrededor de los valores centrales de la variable.

El Coeficiente de Curtosis viene definido por la siguiente fórmula:

Los resultados pueden ser los siguientes:


g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución leptocúrtica).
g2 < 0 (distribución platicúrtica).

You might also like