You are on page 1of 88

Unidad 5

Medidas Descriptivas
Universidad Simón Bolívar de Datos
Sede del Litoral

LECTURA

Medidas Descriptivas de Datos


Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Índice de Contenido
AL TÉRMINO DE LA UNIDAD USTED ESTARÁ EN CAPACIDAD DE. 4

ACTIVIDADES PLANIFICADAS PARA LOGRAR LOS OBJETIVOS


4
PROPUESTOS.

TIEMPO ESTIMADO PARA REALIZAR LA UNIDAD. 4

EVALUACIÓN. 4

PRESENTACIÓN DEL TEMA. 5

DESARROLLO DEL CONTENIDO TEÓRICO-PRÁCTICO. 7

1. Medidas de tendencia central. 7

Media aritmética. 7

Media aritmética ponderada. 11

Mediana. 15

Moda. 20

2. Medidas de posición (no centrales). 22

Deciles. 22

Cuartiles. 23

Percentiles. 24

Rango percentil. 29

3. Medidas de dispersión. 31

2
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Dispersión 32

Medidas de dispersión absolutas 33

Rango 33

Rango intercuartil 34

Rango semi-intercuartil 35

Varianza 36

Desviación típica 40

Medidas de dispersión relativas 42

Coeficiente de Variación 43

4. Medidas de Forma 44

Medidas de Sesgo 44

Medidas de Curtosis 47

5. Diagramas de bloques y líneas 49

ACTIVIDADES PROPUESTAS. 57

RESUMEN DE LA UNIDAD. 75

BIBLIOGRAFÍA. 76

EVALUACIÓN. 77

3
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

AL TÉRMINO DE LA UNIDAD USTED ESTARÁ EN CAPACIDAD DE:

1. Aplicar las técnicas para el cálculo de las medidas de tendencia central (para datos
agrupados y no agrupados): media aritmética, moda y mediana.

2. Aplicar las técnicas para el cálculo de las medidas de posición (no centrales) para
datos agrupados y no agrupados: cuantiles y rango percentil.

3. Aplicar las técnicas para el cálculo de las medidas de dispersión absoluta y relativa
(para datos agrupados y no agrupados): rango, rango intercuartil, rango semi
intercuartil, varianza, desviación típica, coeficiente de variación.

4. Aplicar las técnicas para el cálculo de las medidas de forma (para datos agrupados y
no agrupados): sesgo y curtosis.

5. Aplicar la técnica gráfica de presentación de un conjunto de datos: El Boxplot.

ACTIVIDADES PLANIFICADAS PARA LOGRAR LOS OBJETIVOS

PROPUESTOS:

1. Lectura de fundamentos teóricos de la unidad: Formato PDF.

2. Exploración de términos conceptuales al término de la Unidad: Quiz sin puntaje.

TIEMPO ESTIMADO PARA REALIZAR LA UNIDAD: 12 horas.

EVALUACIÓN: Examen teórico-práctico.

4
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

PRESENTACIÓN DEL TEMA.

En las unidades anteriores se inició el estudio de la estadística descriptiva, y a fin de

presentar un conjunto de datos (agrupados o no) en un formato adecuado, se les organizó en

tablas que llamamos tablas de distribuciones de frecuencias.

Se estudiaron algunos métodos gráficos y se llegó a la conclusión de que los mismos son

útiles para lograr una descripción de los datos, es por esto que las representaciones

resultantes de las distribuciones de frecuencia nos permitieron discernir las tendencias y

patrones de los datos; sin embargo, los métodos gráficos presentan limitaciones cuando se

desea tener una mayor exactitud.

De acuerdo con Berenson, Levine y Krehbiel (2001), dentro del manejo de la información

numérica, un buen análisis de datos no se limita a la presentación de datos y la observación

de lo que estos tratan de transmitir, motivo por el cual si necesitamos de medidas más

exactas de un conjunto de datos, recurrimos a números individuales. Se debe recordar que

cuando dichos valores obtenidos corresponden a una muestra se llaman medidas

estadísticas o estadísticos de la muestra, si son de una población, reciben el nombre de

parámetros de la población.

5
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Mediante estos números individuales podemos describir ciertas características del conjunto

de datos de una manera más precisa, lo cual nos permitirá tomar decisiones más rápidas y

satisfactorias.

Las cuatro características que se consideran en el estudio de esta unidad son:

1. Medidas de Tendencia Central

2. Medidas de Posición “no centrales”

3. Medidas de Dispersión.

4. Medidas de Forma (sesgo y curtosis).

6
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

DESARROLLO DEL CONTENIDO TEÓRICO-PRÁCTICO.

En esta unidad se exponen las nociones básicas y los conceptos asociados a las medidas

descriptivas que Usted como estudiante debe aprender.

1. Medidas de tendencia central.

Según Spiegel (1991) un promedio es un valor típico o representativo de un conjunto de

datos. Como tales valores tienden a situarse en el centro del conjunto de datos ordenados

según su magnitud, los promedios se conocen también como medidas de centralización o de

tendencia central. Las medidas de tendencia central que se van a considerar son la media

aritmética, la mediana y la moda; las cuales se detallan a continuación:

1.1 Media aritmética.

Es aquella medida que representa el promedio aritmético de un conjunto de observaciones,

la misma actúa como punto de equilibrio o centro de gravedad, de manera que las

observaciones menores equilibran a las mayores.

Notación:

µ cuando sea para una población.

x cuando sea para una muestra.

7
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Fórmulas:
Datos no agrupados Datos agrupados
n g
∑ xi ∑ x *f
x + x 2 + x 3 + ... + x n i x1 1 + x 2 *f 2 + x3 * f3 + ...+ x g *f g
*f
x = i=1 = 1 i=1 i
x= =
n n ∑ fi = n n
xi son las marcas de clase
N
∑ xi
i =1 fi son las respectivas frecuencias absolutas
μ=
N

Cabe destacar que para los datos agrupados, lo que se calcula es una estimación del valor

de la media ya que al agrupar por clases no conocemos los valores individuales de cada

observación, sólo que para facilitar los cálculos se ha de renunciar a la exactitud. Veamos

unos ejemplos para ilustrar las ideas planteadas:

(1) Considere los siguientes datos (no agrupados) de una muestra de las edades (en años) en

un grupo de jóvenes

15,2 ; 18,6 ; 12,6 ; 13,2 ; 12,8 ; 13,8 ; 16,3 ; 13,0 ; 12,7 ; 15,8 ; 19,2 ; 12,7 ; 15,6 ; 13,5 ;

12,9.

Determine el valor de la media aritmética para el conjunto de datos dados:

La media aritmética de la muestra (aplicando la fórmula para datos no agrupados) está dada

por la suma de todos los valores y dividiendo entre la cantidad de elementos, es decir:

x=
(15,2 + 18,6 + 12,6 + ... + 12,9) = 14,53 años
15

8
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Para visualizar lo que indica este resultado, considere la representación de los datos en una

línea recta.

Como se puede apreciar, el valor de la media (14,53 años) tiende a ubicarse de tal forma

que exista un equilibrio entre los valores.

(2) Del ejemplo utilizado al comienzo de la unidad 4, sobre el investigador que deseaba

determinar cómo variaban las estaturas de las obreras de una empresa y el cual tomaba una

muestra de 50 mujeres para registrar luego sus estaturas en pulgadas, se había obtenido la

siguiente tabla:

li - li+1 fi xi hi %hi Fi Hi %Hi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00

9
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Calcular la media aritmética para el conjunto de datos:

Para calcular la media debemos agregar una nueva columna a esta tabla, donde se

establecerá el producto de xi * fi, es decir, el producto de la marca de clase por su respectiva

frecuencia absoluta:

li - li+1 fi xi hi %hi Fi Hi %Hi xi * fi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00 54,5 * 2 = 109

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00 57,5 * 5 = 287,5

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00 60,5 * 9 = 544,5

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00 952,5

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00 798,0

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00 347,5

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00 145,0

Σ = 50 Σ = 3184

Al realizar la suma de los valores correspondientes a la columna de xi * fi se obtiene 3184;

esta cantidad corresponde al valor del numerador en la fórmula para determinar la media

con datos agrupados. El valor del denominador se obtiene al sumar los elementos de la

columna de fi en este caso, 50. Luego, el valor de la media será:

3184
x= = 63,68 pulgadas
50

Interpretación: las obreras presentaron una estatura promedio de 63,68 pulgadas.

10
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

1.2 Media aritmética ponderada.

A veces se asocia a los números de un conjunto de datos ciertos factores o pesos y es por

ello que la media aritmética ponderada es un promedio que se calcula a fin de tener en

cuenta la importancia de cada valor para el total global, para ilustrar esta idea,

consideremos lo siguiente: en una materia cualquiera podemos tener en la evaluación

exámenes parciales, talleres, una prueba final, etc., y es posible que no tenga el mismo peso

para la nota final un taller que un parcial, o un examen final. Ante una situación de esta

naturaleza, la media aritmética ponderada es una medida adecuada para obtener el

promedio de las notas.

Notación: x w

Fórmula:

k
∑ wi *xi w 1 * x 1 + w 2 * x 2 + w 3 * x 3 + ... + w k * x k
x w = i=1 =
k w 1 + w 2 + w 3 + ... + w k
∑ wi
i=1

Cabe destacar que al calcular la media aritmética a partir de datos agrupados, en realidad

obtuvimos la media aritmética ponderada utilizando las marcas de clase para los valores de

“x” y las frecuencias de cada clase como los pesos, en ese caso Σ fi = Σ wi

Ejemplo:

11
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Si un examen final de curso se valora como 3 veces los exámenes parciales y un estudiante

tiene una nota de examen final de 85 y notas de exámenes parciales de 70 y 90, calcular su

nota final.

Solución: note que para este caso el peso de los exámenes parciales es de 1 y el del examen

final 3, por lo tanto para calcular la nota final debemos usar la media aritmética ponderada.

Al aplicar la fórmula obtenemos:

1 * 70 + 1 * 90 + 3 * 85
xw = = 83 puntos.
1+1+ 3

La nota final será de 83 puntos.

Observaciones sobre la media aritmética:

Es una medida que toma en consideración todos los valores de la distribución. Esto

es positivo, pero por la misma razón es muy sensible a la presentación de

observaciones extremas o anómalas que hacen que la media se desplace hacia ellas.

En consecuencia no es recomendable usar la media como medida de tendencia

central en los casos en el cual el conjunto de datos no es homogéneo, pues la

cantidad obtenida no es representativa del total de los datos.

Tiene la ventaja de que es única y siempre se puede calcular (si no hay intervalos

abiertos).

El valor de la media aritmética puede no coincidir con los valores de la variable.

12
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Algunas propiedades de la media aritmética:

La suma algebraica de las desviaciones de un conjunto de números con respecto a

su media aritmética es cero, matemáticamente:

k
∑ (x i − x) = 0
i =1

En la expresión anterior xi es cada uno de los números. Vamos a ejemplificar esta

idea:

Supongamos que tenemos los siguientes valores: 1 ; 2 ; 3 ; 4 y 5. La media de esos

valores es:

1+ 2 + 3 + 4 + 5
x= =3
5

Luego, para comprobar la propiedad debemos resolver: (1 – 3) + (2 – 3) + (3 – 3) +

(4 – 3) + (5 – 3) y el resultado de esas operaciones es cero, tal y como lo plantea la

propiedad.

La media aritmética de una constante es igual a la constante. Supongamos que

tenemos la serie: 5 ; 5 ; 5 ; 5 ; 5. Todos los valores son los mismos (constantes). Al

determinar la media de esa serie obtenemos:

13
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

5+5+5+5+5
x= =5
5

Con lo cual se comprueba la propiedad.

Si a cada valor de la serie se le agrega una constante, la media de la nueva serie es

igual a la media de la serie original más la constante. Igual sucede si a la media se le

resta una constante. Ejemplifiquemos:

Supongamos que tenemos la serie: 1 ; 2 ; 3 ; 4 y 5. La media de esos valores es:

1+ 2 + 3 + 4 + 5
x= =3
5

Ahora, a cada número de la serie vamos a sumarle una misma cantidad, digamos 10.

La serie será entonces: 11 ; 12 ; 13 ; 14 ; 15. La media de esta serie es:

11 + 12 + 13 + 14 + 15
x= = 13
5

Como se ve, la media de la nueva serie (13) es igual a la media de la serie original

(3) más la constante (10, en este caso). Así, se comprueba la propiedad.

Media de medias: Si f1 números tienen de media m1, f2 números tiene de media m2

,..., fk números tienen de media mk, entonces la media de todos los números es:

f * m1 + f 2 * m 2 + f 3 * m 3 + ... + f k * m k
xw = 1
f1 + f 2 + f 3 + ... + f k

14
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

es, decir, la media aritmética ponderada de todas las medias.

Veamos un ejemplo:

Supongamos que se desea hacer un estudio con respecto al peso de los estudiantes,

para ello sabemos que en un piso de la universidad hay 3 aulas que son de diferente

tamaño: en el aula uno hay 20 estudiantes, en el aula dos hay 35 estudiantes y en el

aula tres hay 10 estudiantes.

También se sabe que el peso promedio en el aula uno es de 67,5 Kg. en el aula dos

el peso promedio resultó ser de 70,0 Kg. y en el aula tres de 62,8 Kg. Queremos

determinar el peso promedio general. Al aplicar la fórmula obtenemos lo siguiente:

20 * 67,5 + 35 * 70,0 + 10 * 62,8


xw = = 68,12 Kg
20 + 35 + 10

1.2 Mediana.

Según Lind, Marchal y Mason (2004) es el valor que corresponde al punto medio de un

conjunto de datos, representando el elemento más central en dicho conjunto, por lo que deja

por encima y por debajo la misma cantidad de datos (una vez que estos han sido

ordenados). Geométricamente es el valor de “x” que corresponde a la vertical que divide al

histograma en dos partes de igual área.

Notación: Med

15
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Fórmulas:

Datos no agrupados Datos agrupados

El valor de la mediana puede coincidir o n


no con un valor de la serie, todo depende − Fa
Med = l i + 2 *a
si el número de datos es par o impar.
f med
Los pasos son:
en donde:
1. Organizar por orden ascendente a los
datos. li es el límite inferior.
Fa es la frecuencia acumulada anterior.

2. Utilizar la fórmula de posicionamiento fmed es la frecuencia absoluta del intervalo de


de punto: la mediana.

n +1 a es la amplitud.
2
para localizar el lugar que ocupa el valor Los pasos son:
de la mediana en el arreglo ordenado.
n
1. Calcular
2
3. Si el conjunto tiene un número impar de
elementos, el de la mitad será la mediana, 2. Localizar ese valor en Fi, si no está,
si contiene un número par de elementos, la pasar al inmediato superior. Con esto
mediana será el promedio aritmético de se halla el intervalo de la mediana.
los dos que se hallan en la mitad. 3. Aplicar la fórmula sustituyendo los
valores correspondientes.

Veamos unos ejemplos:

(1) Sean los números: 5, 8, 4, 3, 10, 8, 4, 8, 6. Determinar la mediana:

Estamos trabajando con datos no agrupados, por lo tanto, seguimos los pasos expuestos en

el cuadro anterior:

16
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

1. Organizamos los datos de manera ascendente: 3, 4, 4, 5, 6, 8, 8, 8, 10

n +1
2. Utilizamos la fórmula de posicionamiento de punto:
2

9 +1
Al sustituir los valores obtenemos: =5
2

Por lo tanto, buscamos el número que ocupa la quinta posición en la serie de datos

ordenados. En este caso es el 6; la mediana pedida entonces es Med = 6.

(2) Sean los números: 7, 5, 5, 9, 15, 18, 11, 12. Determinar la mediana:

Estamos trabajando con datos no agrupados, por lo tanto, seguimos los pasos expuestos

anteriormente

1. Organizamos los datos de manera ascendente: 5, 5, 7, 9, 11, 12, 15, 18

8 +1
2. Utilizamos la fórmula de posicionamiento de punto y sustituimos los valores: = 4,5
2

Como no hay la posición 4,5 ; entonces determinamos el promedio aritmético de los dos

que se hallan en la mitad, en este caso, los valores que ocupan la posición cuatro y la

9 + 11
posición cinco: = 10 . La mediana entonces será igual a 10.
2

17
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

(3) Del ejemplo inicial (ver unidad 4) sobre el investigador que deseaba determinar cómo

variaban las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50

mujeres para registrar luego sus estaturas en pulgadas, se había obtenido la siguiente tabla:

li - li+1 fi xi hi %hi Fi Hi %Hi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00


[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00
[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00
[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00
[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00
[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00
[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00

Determinar el valor de la mediana:

Como los datos están agrupados, procedemos a seguir los pasos dados al comienzo de este

apartado:

n 50
Paso 1: cálculo de = = 25
2 2

Paso 2: localizar ese valor en Fi, si no está, pasar al inmediato superior. Como 25 no

aparece en Fi, pasamos al inmediato superior: 31.

Paso 3: aplicar la fórmula sustituyendo los valores correspondientes. Al identificar a los

elementos tenemos: li es 62; fmed es 12, Fa es 16 y la amplitud es 3.

18
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

25 − 16
Med = 62 + * 3 = 63,8 pulgadas
15

Interpretación: El 50% de las obreras tienen una estatura igual o inferior a 63,8 pulgadas

aproximadamente.

Observaciones sobre la mediana:

Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones

extremas, ya que no depende de los valores que toma la variable, sino el orden de

los mismos. Por ello, es adecuado su uso (en lugar de la media) en distribuciones

que presentan observaciones extremadamente grandes o pequeñas.

Puede ser calculada aún a partir de datos agrupados con clases abiertas (a menos

que la mediana entre en dicha clase abierta).

Puede usarse con datos cualitativos.

No utiliza toda la información de los datos (sólo los valores centrales).

Su mayor defecto es que no se ajusta fácilmente al cálculo algebraico, lo que hace

que sea difícil de utilizar en otras áreas, como en la inferencia.

19
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

1.3 Moda.

Es el valor de los datos que se presenta con más frecuencia, es decir, el que más se repite en

un conjunto de datos; por lo que representa el punto más alto en la curva de distribución de

un conjunto de datos.

Notación: Mo

Fórmulas:

Datos no agrupados Datos agrupados

No hay fórmulas, sólo ver Δ


cuál valor o elemento es el Mo = l i + 1 *a
que más se repite. Δ +Δ
1 2

li es el límite inferior.

Δ1 es el valor que se obtiene a restar la fmodal con la frecuencia


anterior.

Δ2 es el valor que se obtiene a restar la fmodal con la frecuencia


siguiente.
a es la amplitud.

Los pasos para calcular la moda con datos agrupados serían:

1. Ubicar la mayor fi para hallar el intervalo modal

2. Aplicar la fórmula

Ejemplos:

(1) Hallar la moda de los números: 3, 5, 2, 5, 9, 5, 2, 8, 6.

20
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Como la moda se definió como el elemento que más se repite, en este caso el 5 sería la

moda ya que es el que mayor frecuencia presenta.

(2) Del ejemplo inicial (ver unidad 4) sobre el investigador que deseaba determinar cómo

variaban las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50

mujeres para registrar luego sus estaturas en pulgadas, se había obtenido la siguiente tabla:

li - li+1 fi xi hi %hi Fi Hi %Hi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00

Determinar el valor de la moda:

Como los datos están agrupados, procedemos a seguir los pasos datos estipulados al

comienzo de este apartado:

1. Determinar la clase donde se encuentra la mayor frecuencia absoluta (fi): en este caso se

encuentra en la cuarta clase

21
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

2. Sustituimos los valores en la fórmula, identificando a los elementos: a = 3 ; li = 62 ;

∆1 = 15 – 9 ; ∆2 = 15 – 12. Al sustituir los valores, tenemos:

15 − 9
Mo = 62 + * 3 = 64 pulgadas.
(15 − 9) + (15 − 12)
Interpretación: la mayoría de las obreras tienen una estatura de 64 pulg.

2. Medidas de posición (no centrales).

Según Spiegel (1991), si una serie de datos se colocan en orden de magnitud, el valor

medio que divide al conjunto de datos en dos partes iguales es la mediana, por extensión de

esta idea se puede pensar en aquellos valores que dividen a los datos en cuatro partes

iguales, en cien partes iguales, etc. El nombre genérico esos valores es el de cuantil y el

mismo se define como el valor bajo el cual se encuentra una determinada proporción de los

valores de una distribución. Dentro de las medidas de los cuantiles tenemos:

2.1 Deciles.

Son aquellos valores que dividen en diez partes iguales a un conjunto de datos ordenados;

se representan por D1 , D2 , D3 , ....D9. De esta manera tenemos que:

D1 (primer decil) es el valor por debajo del cual se encuentran como máximo el

10% de las observaciones, mientras que el 90% restante se sitúan por encima de él.

22
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

D2 (segundo decil) es el valor por debajo del cual se encuentran como máximo el

20% de las observaciones, mientras que el 80% restante se sitúan por encima de él.

D3 (tercer decil) es el valor por debajo del cual se encuentran como máximo el 30%

de las observaciones, mientras que el 70% restante se sitúan por encima de él. Y así

sucesivamente con los demás.

2.2 Cuartiles.

Son aquellos valores que dividen en cuatro partes iguales a un conjunto de datos ordenados;

se representan por Q1, Q2, y Q3. De esta manera tenemos que:

Q1 (primer cuartil) es el valor por debajo del cual se sitúan a lo sumo el 25% de las

observaciones y por encima de éste el 75% restante.

Q2 (segundo cuartil) es el valor por debajo de cual se sitúan a lo sumo el 50% de las

observaciones y por encima de éste el 50% restante. Está justo en el centro de la

distribución y corresponde a la mediana.

Q3 (tercer cuartil) es el valor por debajo del cual se sitúan a lo sumo el 75% de las

observaciones y por encima de éste el 25% restante.

Observación: hay algunas variaciones en las convenciones con respecto al cálculo de los

cuartiles, ya que los valores reales calculados pueden variar un poco dependiendo de la

23
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

convención seguida. Sin embargo, el objetivo de todos los procedimientos de cálculo de

cuartiles es dividir al conjunto de los datos en aproximadamente cuatro partes iguales.

2.3 Percentiles.

Son aquellos valores que dividen a un conjunto de datos ordenados en cien partes iguales;

se representan por P1, P2,..., P99. De esta manera tenemos que:

P1 es el valor por debajo del cual se sitúan a lo sumo el 1% de los datos y por

encima de él tenemos el 99% restante.

P2 es el valor por debajo del cual se sitúan a lo sumo el 2% de los datos y por

encima de él tenemos el 98% restante. Y así sucesivamente.

P35 es el valor por debajo del cual se sitúan a lo sumo el 35% de los datos y por

encima de él tenemos el 65% restante. Y así sucesivamente.

En forma genérica el p-ésimo percentil es un valor tal que por lo menos un “p” por ciento

de los elementos tiene dicho valor o menos y, al menos, un (100-p) por ciento de los

elementos tiene ese valor o más.

Es conveniente tomar en cuenta que los deciles y los cuartiles se pueden expresar como

percentiles, por ejemplo: D1= P10 , D2 = P20 , Q1 = P25, Q2 = P50 = Mediana, etc.

Dependiendo de si trabajamos con datos agrupados, o no agrupados, tendremos los

siguientes pasos para el cálculo de los percentiles:

24
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Datos no agrupados Datos agrupados

Anderson y otros (1999) establecen los Se aplica la fórmula:


siguientes pasos:
n *p
1. Ordenar los datos de manera ascendente.
−F
Pp = l i + 100 a
*a
f
2. Calcular el índice de posición: p

⎛ P ⎞ Para aplicar la fórmula, los pasos son:


i=⎜ ⎟*n
⎝ 100 ⎠ 1. Ubicar el resultado de
n*p
en Fi
100
Observaciones:
- Si “i” es entero, el p-ésimo percentil es el
promedio de los valores de los datos 2. Si no está ese valor, se pasa al inmediato
ubicados en los lugares “i” e “i +1”. superior.

- Si “i” no es entero, se redondea al valor 3. Al ubicar el valor en Fi determinamos la


entero inmediato mayor que “i”, esto indica clase de donde se obtendrán los datos para
la posición del p-ésimo percentil. sustituir en la ecuación.

La utilidad de los percentiles radica en que permite determinar el valor de la variable para

un porcentaje dado. Veamos algunos ejemplos:

(1) Determinar el P50 y el P85 de los datos siguientes: 2350, 2450, 2550, 2380, 2255, 2210,

2390, 2630, 2440, 2825, 2420, 2380.

Lo primero es ordenar de manera ascendente los datos:

2210, 2255, 2350, 2380, 2380, 2390, 2420, 2440, 2450, 2550, 2630, 2825.

25
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Para determinar el P50:

12 * 50
Calculamos “i”: i = =6
100

Como “i” es entero, el P50 es el promedio de los valores que ocupan los lugares “i” e “i + 1”

en este caso serían los lugares 6° y 7°, luego nos daría:

2390 + 2420
P50 = = 2405
2

Para determinar el P85:

12 * 85
Calculamos “i”: i = = 10,2
100

Como “i” es decimal buscamos el mayor entero al valor de “i”, en este caso sería 11. Este

número nos indica que debemos buscar el valor que ocupa la posición 11 en nuestro

conjunto de datos. Al llevar a cabo esto, obtenemos que P85 = 2630

(2) Del ejemplo inicial (ver unidad 4) sobre el investigador que deseaba determinar cómo

variaban las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50

mujeres para registrar luego sus estaturas en pulgadas, se había obtenido la siguiente tabla:

26
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

li - li+1 fi xi hi %hi Fi Hi %Hi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00

A partir de esta tabla, determinar: P15 ; Q1 ; D3

Para resolver esto, seguiremos los pasos planteados para el cálculo de percentiles para datos

agrupados:

Determinación de P15:

n * p 50 * 15
1. Cálculo de = = 7,5
100 100

2. Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este

caso, es 16.

3. Identificamos los elementos para sustituir en la fórmula: a = 3 ; li = 59 ; Fa

(frecuencia acumulada anterior) = 7 ; fp (frecuencia absoluta de la clase) = 9.

27
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

7,5 − 7
4. Aplicamos la fórmula: P15 = 59 + * 3 = 59,17 pulgadas
9

Interpretación: el 15% de las obreras tienen una estatura de 59,17 pulgadas o menos.

Determinación de Q1:

Como Q1 = P25 utilizamos la fórmula de percentiles para el cálculo de Q1

n * p 50 * 25
1. Cálculo de = = 12,5
100 100

2. Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este

caso, es 16.

3. Identificamos los elementos para sustituir en la fórmula: a = 3 ; li = 59 ; Fa

(frecuencia acumulada anterior) = 7 ; fp (frecuencia absoluta de la clase) = 9.

12,5 − 7
4. Aplicamos la fórmula P25 = 59 + * 3 = 60,83 pulgadas
9

Interpretación: el 25% de las obreras tienen una estatura de 60,83 pulgadas o menos.

Determinación de D3:

Como D3 = P30 utilizamos la fórmula de percentiles para el cálculo de D3

n * p 50 * 30
1. Cálculo de = = 15
100 100

28
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

2. Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este

caso, es 16.

3. Identificamos los elementos para sustituir en la fórmula: a = 3 ; li = 59 ; Fa

(frecuencia acumulada anterior) = 7 ; fp (frecuencia absoluta de la clase) = 9.

15 − 7
4. Aplicamos la fórmula P30 = 59 + * 3 = 61,67 pulgadas
9

Interpretación: el 30% de las obreras tienen una estatura de 61,67 pulgadas o menos.

2.4 Rango percentil.

Es una expresión matemática mediante la cual podemos hallar el porcentaje, dado un valor

de la variable. Dicha expresión se obtiene al despejar “p” en la fórmula de percentiles para

datos agrupados, el proceso para hallar el rango percentil es:

1. Ubicar el valor de la variable que nos dan, en el intervalo que le corresponde.

2. Una vez ubicado, podemos determinar li, fi, etc, para sustituir en la fórmula:

(Pp − l i )* f i
+ Fa
p= a *100
n

Vamos a ilustrar los pasos:

29
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las

estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres para

registrar luego sus estaturas en pulgadas, se había obtenido la siguiente tabla:

li - li+1 fi xi hi %hi Fi Hi %Hi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00

Hallar el porcentaje de obreras cuyas estaturas son iguales o inferiores a 67 pulgadas:

1. Ubicamos el valor de 67 en la tabla según los intervalos que tenemos, y vemos que

corresponde a la 5ta clase.

2. Identificamos los elementos que corresponden: a = 3 ; li = 65 ; Fa = 31 ; fp = 15.

(67 − 65)*12 + 31
3. Aplicamos la fórmula: p = 3 *100 = 78%
50

Interpretación: el 78% de las obreras tienen estaturas iguales o inferiores a 67 pulgadas.

30
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

3. Medidas de dispersión.

Mientras los estadísticos de tendencia central nos indican los valores alrededor de los

cuales se sitúan un grupo de observaciones, los estadísticos de variabilidad o dispersión

muestran si los valores de las observaciones están próximos entre sí o están muy separados.

Levin y otros (2004) plantean que dos conjuntos de datos pueden tener la misma

localización central y no obstante, ser muy distintos si uno se halla más disperso que el

otro. Veamos el siguiente ejemplo tomado de Anderson y otros (1999): supongamos que

usted es un agente de compras de una importante empresa manufacturera y con regularidad

coloca pedidos con dos proveedores distintos, ambos le indican que necesitan alrededor de

10 días hábiles para surtir sus pedidos. Después de varios meses de trabajar así, encuentra

usted que el promedio de días necesarios para surtir los pedidos es, realmente, unos 10 para

cada proveedor. Los gráficos que resumen la cantidad de días hábiles requeridos para surtir

los pedidos son los siguientes:

31
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Aunque la cantidad promedio es aproximadamente de 10 en ambos casos. ¿Tienen éstos el

mismo grado de confiabilidad para entregar a tiempo?. Observe la dispersión, o

variabilidad, en los gráficos. ¿Qué proveedor prefiere usted?

Para la mayoría de las empresas es importante recibir materiales y suministros tiempo. Las

entregas a los siete u ocho días de J. C. Clark Distributor pueden considerarse favorables;

sin embargo, algunas de las entregas a los 13 o 15 días podrían ser desastrosas en términos

de la utilización de la mano de obra y del cumplimiento de los programas de producción.

Este ejemplo ilustra un caso en el que la dispersión, o variabilidad, en los tiempos de

entrega puede ser la consideración más importante para seleccionar un proveedor. Para la

mayoría de los agentes de compra, la menor dispersión que muestra Dawson Supply, Inc.

haría que fuera el proveedor más consistente y preferido.

Teniendo presente el ejemplo anterior, pasemos a continuación a establecer las definiciones

con respecto a las medidas de variabilidad:

3.1 Dispersión

Es el grado en que los datos numéricos tienden a extenderse alrededor de un valor medio.

Levin y otros (2004) señalan que la dispersión de la distribución suministra información

complementaria que permite juzgar la confiabilidad de nuestra medida de tendencia central.

Si los datos están ampliamente dispersos, la localización central será menos representativa

de los datos en su conjunto de lo que sería en el caso de datos que se acumulasen más

32
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

alrededor de la media. Además, si no conviene tener una amplia dispersión de valores

respecto al centro o si esa dispersión implica un riesgo inaceptable, deberemos ser capaces

de reconocerlo y no escoger las distribuciones que presentan la máxima dispersión.

Por ejemplo, a los analistas financieros les interesa la dispersión de las ganancias de una

empresa, las utilidades con una fuerte dispersión indican un riesgo mayor parar los

accionistas que las utilidades que permanecen relativamente estables.

Las medidas de dispersión se dividen en dos grandes grupos: las medidas de dispersión

absolutas y las medidas de dispersión relativas, a continuación se exponen las mismas.

3.2 Medidas de dispersión absoluta.

Son aquellas que vienen expresadas en las mismas medidas que identifican a la serie de

datos, se van a considerar las siguientes:

3.2.1 Rango, amplitud o recorrido

Es la diferencia entre el valor máximo (más alto) y el valor mínimo (más bajo) observado,

por lo que un rango pequeño indica poca variación y uno grande indica una gran

variabilidad.

Notación: R

33
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Fórmula: R = Xmáx - Xmin

Observaciones con respecto al rango:

No es muy útil porque sólo toma en cuenta los valores máximo y mínimo de una

distribución por lo que no da una idea de la verdadera concentración de los valores.

Por ejemplo, veamos las siguientes gráficas:

Ambas presentan igual rango, pero diferente variabilidad.

No se puede utilizar en distribuciones que tengan intervalos abiertos.

Puede ser afectado por observaciones extremas.

3.2.2 Rango intercuartílico o rango intercuartil.

Es la diferencia entre los valores de Q3 y Q1, esta diferencia refleja la variabilidad de las

observaciones del 50% intermedio de los datos y tiene la ventaja de no verse influenciado

por valores extremos.

34
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Notación: RI

Fórmula: RI = Q3 - Q1

Gráficamente:

A través del rango intercuartil podemos ver (aproximadamente) qué tan lejos de la mediana

tenemos que ir en cualquiera de las dos direcciones antes de que podamos recorrer una

mitad de los valores del conjunto de datos. Para los efectos de la situación que se ha

mantenido como ejemplo (el de las estaturas de las obreras), el rango intercuartil es:

Q3 - Q1 = (66,63 – 60,83) pulgadas = 5,80 pulgadas.

3.2.3 Rango semi-intercuartílico o rango semi-intercuartil.

Es la semidiferencia entre los valores de Q3 y Q1, al igual que el rango intercuartílico tiene

la ventaja de no verse influenciado por valores extremos.

Notación : RSI

Q3 − Q1
Fórmula: RSI =
2

35
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Para los efectos de la situación que se ha mantenido como ejemplo (el de las estaturas de

66,63 − 60,83
las obreras), el rango semi-intercuartil es RSI = = 2,9 pulgadas. De esto,
2

pudiéramos establecer que un 50% de las estaturas caen en el intervalo [63,8 ± 2,9]

pulgadas.

3.2.4 Varianza.

Es la medida del cuadrado de la distancia promedio entre la media y cada elemento de la

población.

Notación:

σ2 cuando sea para una población.

s2 cuando sea para una muestra.

Fórmulas:

Datos no agrupados Datos agrupados


N g
∑ (x i − μ ) 2
∑ (x i − μ ) 2
*f
i
2 i =1 2 i =1
σ = σ =
N N

n g
∑ (x i − x )
2
∑ (x i − x )2
*f
i
2 i =1 2 i =1
S = S =
n -1 n -1

36
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Nota: La teoría matemática establece que si pretendemos estimar la varianza de una

población a partir de la varianza una de sus muestras, resulta que el error cometido es

generalmente menor cuando la varianza de la muestra se divide por n –1 y no por n, porque

el valor resultante da una mejor estimación de la varianza de la población. Sin embargo,

para grandes valores de n (n >30) no hay prácticamente diferencia entre dividir por n o por

n-1.

Para ilustrar el concepto de varianza, veamos dos ejemplos:

(1) Considere que se tiene una muestra con los siguientes valores: 5, 8, 7, 10, 15. Determine

la varianza para este grupo de datos:

Lo primero es determinar el valor de la media de la muestra, como los datos no están

agrupados, utilizamos la expresión:

5 + 8 + 7 + 10 + 15
x= =9
5

Una vez determinada la media, aplicamos la fórmula para el cálculo de la varianza para

datos no agrupados:

(5 − 9) 2 + (8 − 9) 2 + ... + (15 − 9) 2
s2 = = 14,5
5 −1

37
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

2) Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las

estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres para

registrar luego sus estaturas en pulgadas, se había obtenido la siguiente tabla:

li - li+1 fi xi hi %hi Fi Hi %Hi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00

Para calcular la varianza agregamos una nueva columna:

li - li+1 fi xi hi %hi Fi Hi %Hi ( xi - x )2 * fi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00 (54,5 - 63,68)2 * 2 = 168,5448

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00 (57,5 - 63,68)2 * 5 = 190,9620

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00 91,0116

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00 0,4860

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00 95,4288

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00 169,3620

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00 155,5848

Σ = 871,38

38
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Como se está calculando la varianza de una muestra, la fórmula a utilizar será:

g
(
∑ i
x − x )2
*f
i
2 i=1
S =
n -1

Al ver la fórmula, el numerador corresponde al valor obtenido al realizar la sumatoria de

los números correspondientes a la última columna de la tabla, por lo que:

871,38
s2= = 17,7833 pulg 2
49

Algunas propiedades de la varianza:

La varianza de una constante es cero.

Siempre es una cantidad positiva.

La varianza del producto de una constante por una variable es igual al producto de

la constante al cuadrado por la varianza de la variable.

Observaciones sobre la varianza:

Las unidades de la varianza son los cuadrados de las unidades de los datos y en

muchas ocasiones no son fáciles de interpretar.

Puede sufrir un cambio desproporcionado por la existencia de valores extremos en

el conjunto.

39
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

3.2.5 Desviación típica o desviación estándar.

Se define como la raíz cuadrada positiva de la varianza.

Notación:

σ cuando sea para una población.

s cuando sea para una muestra.

Fórmulas:

Datos no agrupados Datos agrupados

N g
∑ (x i − μ ) 2
∑ (x i − μ ) 2
*f
i
i =1 i =1
σ = σ =
N N

n g
∑ (x i − x ) 2
∑ (x i − x ) 2
*f
i
i =1 i =1
S = S =
n -1 n -1

Algunas propiedades de la desviación típica:

La desviación típica de una constante es cero.

Siempre es una cantidad positiva.

La desviación típica del producto de una constante por una variable es igual al

producto de la constante por la desviación típica de la variable.

40
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Observaciones sobre la desviación típica:

Webster (1996) plantea que entre sus aplicaciones tenemos el teorema de

1
Chebyshev, el cual afirma que para cualquier conjunto de datos, al menos 1− de
k2

la observaciones están dentro de k desviaciones típicas de la media (K >1). En

virtud de esto, si por ejemplo, k = 2 nos daría 0,75. Lo que significa que si

formamos un intervalo de 2 desviaciones típicas por debajo de la media hasta 2

desviaciones típicas por encima de la media, en dicho intervalo se encontrarán como

mínimo el 75% de todas las observaciones.

Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de

una distribución de frecuencia en relación con la media.

Las unidades de la desviación típica se expresan en las mismas unidades de los

datos.

Puede sufrir un cambio desproporcionado por la existencia de valores extremos en

el conjunto.

Según Webster (1996), el concepto de desviación típica tiene una enorme importancia en

los negocios y en la economía. Por ejemplo, en finanzas, la desviación típica se utiliza para

medir el riesgo asociado a varias oportunidades de inversión. Al utilizar esta medida para

medir la variabilidad de las tasas de rendimiento que ofrecen distintas inversiones, el

analista financiero puede calibrar el nivel de riesgo que entraña cada activo.

41
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las

estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres para

registrar luego sus estaturas en pulgadas, se habían obtenido una varianza de 17,7833 pulg2.

La desviación típica es la raíz cuadrada de esa cantidad, por lo que obtenemos: 4,2170 pulg.

3.3 Medidas de dispersión relativa.

Son relaciones entre medidas de dispersión absolutas y medidas de tendencia central, estas

medidas vienen generalmente expresadas en porcentajes y su función es la de determinar

entre varias distribuciones la de mayor o menor dispersión.

Estas medidas tienen como ventaja que nos permiten comparar distribuciones donde las

unidades pueden ser diferentes ya que estas medidas son independientes de las unidades

utilizadas.

Cabe destacar que varias distribuciones pueden tener un mismo valor para determinada

medida de dispersión y ser la variabilidad de sus datos en relación con la media, diferente.

La expresión general para medidas de dispersión relativas viene dada por:

dispersión absoluta
Dispersión relativa =
promedio

Para los efectos del presente curso, la medida de dispersión relativa con la cual se trabajará

es el coeficiente de variación.

42
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

3.3.1 Coeficiente de variación.

Mide el grado de dispersión de un conjunto de datos en relación con su media.

Notación: CV

Fórmulas:

s
CV = * 100% para la muestra
x

σ
CV = * 100% para la población
μ

Observaciones:

El CV es un estadístico útil para comparar la dispersión de conjuntos de datos que

tienen distintas desviaciones estándar y distintos promedios.

El CV es un estadístico útil para comparar la dispersión de conjuntos de datos que

tienen distintas unidades.

El CV pierde su utilidad cuando la media se aproxima a cero.

Para los efectos de la situación que se ha mantenido como ejemplo (el de las estaturas de

las obreras), se había calculado previamente la desviación típica (4,2170 pulgadas.) y la

4,22
media (63,68 pulg.). Luego CV = * 100% = 6,62%
63,68

Interpretación: la desviación típica de la muestra es el 6,62% del valor de la media de la

43
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

4. Medidas de forma: sesgo y curtosis.

En un análisis estadístico de una serie de valores, no sólo interesa conocer el promedio y la

dispersión de los datos, sino también cómo se refleja o se acerca esta serie a una

distribución simétrica y cómo es el grado de pico de la distribución. Para ello se consideran

las medidas de sesgo y de curtosis.

4.1 Medidas de sesgo.

El sesgo es el grado de asimetría de una distribución, es por esto que visualmente podemos

tener dos tipos de curvas:

Curvas simétricas: Son aquellas en las cuales al trazar una línea vertical desde la

cumbre de la curva al eje horizontal, se divide su área en dos partes iguales. De

acuerdo a Lind y otros (2004), en un conjunto simétrico de observaciones la media,

moda y mediana coinciden y los valores de los datos se encuentran distribuidos

uniformemente alrededor de estos valores. Gráficamente:

44
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Curvas asimétricas: son aquellas curvas en las cuales al trazar una línea vertical

desde su cumbre al eje horizontal, no se divide su área en dos partes iguales y

pueden ser:

• Asimetría positiva (sesgo a la derecha): es una curva que disminuye

gradualmente hacia el extremo superior de la escala. Gráficamente:

De acuerdo con Levin, Rubin, Balderas, Del Valle y Gómez (2004), un ejemplo de

esto podría ser representar la distribución de frecuencias del número de días que un

producto se encuentra en existencia en un negocio de venta de fruta al mayoreo. La

curva estaría sesgada a la derecha, con muchos valores en el extremo izquierdo y

pocos en el extremo derecho, debido a que el inventario debe agotarse rápidamente.

• Asimetría negativa (sesgo a la izquierda): es una curva que disminuye

gradualmente hacia el extremo inferior de la escala. Gráficamente:

45
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

De acuerdo con Levin y otros (2004), un ejemplo de esto podría ser representar la

distribución de frecuencias del número de días que requiere un agente de bienes

raíces para vender una casa. La curva estaría sesgada a la izquierda, con muchos

valores en el extremo derecho y pocos en el extremo izquierdo, debido a que el

inventario de casas se coloca muy lentamente.

Coeficiente de asimetría de Pearson.

Notación: SK

Fórmulas (cualquiera de las dos es válida):

x − Mo Si SK > 0 La asimetría es positiva.


SK =
s
Si SK = 0 Hay simetría.
3 (x − Med )
SK =
s Si SK < 0 La asimetría es negativa.

46
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Lind y otros (2004) establecen que el valor del coeficiente de asimetría de Pearson puede

variar entre -3 y +3. Un valor cercano a -3, como por ejemplo -2,57 indica una considerable

asimetría negativa; un valor como 1,63 indica una asimetría positiva moderada.

Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las

estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres para

registrar luego sus estaturas en pulgadas, se habían obtenido los siguientes valores:

Media: 63,68 pulg. ; Moda: 64 pulg. ; Desviación Típica: 4,2170 pulg.

63,68 − 64
Al sustituir en la primera fórmula: SK = = − 0,0759
4,2170

Interpretación: asimetría negativa, pero como el valor es tan pequeño se puede considerar

que la distribución está ligeramente sesgada a la izquierda.

4.2 Medidas de curtosis.

La curtosis es una medida de la concentración relativa de valores en el centro de la

distribución comparado con las colas, es decir, mide el grado de pico o de apuntamiento

que presenta una distribución; el patrón de referencia es la distribución normal o gaussiana.

Los tipos de curvas que se pueden presentar son:

Curva platicúrtica: es aquella que presenta un pico ligero, es achatada.

Gráficamente:

47
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Curva mesocúrtica: es aquella no es ni muy puntiaguda ni muy achatada


(es la curva normal).

Curva leptocúrtica: es aquella que presenta un pico alto.

Coeficiente de curtosis.

Es al medida que nos da una idea acerca del achatamiento o levantamiento de la curva en

relación con la normal.

Notación: K

48
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Para determinar la curtosis de manera empírica, se establece el porcentaje de valores que se

encuentran en el intervalo x ± s para considerar lo siguiente:

Si el resultado es menor a 68%, es platicúrica

Si el resultado es aproximadamente igual a 68%, es mesocúrtica

Si el resultado es mayor a 68%, es leptocúrtica

Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las

estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres para

registrar luego sus estaturas en pulgadas, se había obtenido: x = 63,68 pulgadas y s = 4,22

pulgadas. Al calcular el porcentaje (con el rango percentil) para el intervalo x ± s se obtuvo

68,44%, por lo que la distribución es aproximadamente mesocúrtica.

5. Diagramas de bloques y líneas o boxplot.

En su forma más simple, el diagrama de bloques y líneas ofrece una representación gráfica

de los datos a través de los cinco números de resumen: Xmínimo , Q1 , Q2 , Q3 y Xmáximo. Este

tipo de gráfico se caracteriza porque presenta al mismo tiempo información sobre la

tendencia central, dispersión, simetría y la presencia (si la hay) de datos atípicos, en un

conjunto de datos que se estén estudiando.

49
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Antes de exponer los pasos para su construcción, se va a definir lo que se considera como

un dato atípico dentro de una distribución.

Según Anderson y otros (1999) los valores atípicos dentro de un conjunto de datos son

aquellos elementos con valores demasiado grandes o demasiado pequeños, es decir,

observaciones que se alejan de manera poco usual del resto de los datos. Un valor atípico

puede deberse a:

Un elemento para el cual se haya anotado su valor en forma errónea (lo cual puede

corregirse antes de proseguir el análisis).

Puede ser uno, que por error, se incluyó en el conjunto de datos y en estos casos

debe eliminarse.

Un elemento poco común que se haya anotado de forma correcta y que sí pertenece

al conjunto de datos.

Cabe destacar que aunque no necesariamente se deben eliminar los valores atípicos, sí se

debe comprobar su exactitud y su existencia.

Una vez definido lo que es un dato atípico, veamos los pasos para construir un boxplot:

1) Construya una recta y marque en ella los 3 cuartiles, recuerde usar una unidad de medida

adecuada.

2) Dibuje una caja sobre la recta con los extremos localizados en Q1 y Q3.

50
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

3) Trace un segmento vertical por el punto correspondiente a la mediana dentro de la caja,

así la línea de la mediana divide al conjunto de datos en 2 partes iguales.

4) Se ubican los límites mediante el rango intercuartil: los límites están a 1,5 * RI debajo de

Q1 y a 1,5 * RI arriba de Q3. Se considera que los datos fuera de estos límites son valores

atípicos. Algunos autores comentan sobre los llamados valores extremos, siendo éstos

elementos aquellos que se encuentran fuera del intervalo 3* RI debajo de Q1 y a más de

3 * RI arriba de Q3.

5) Se trazan dos líneas punteadas (extensiones o bigotes de la caja): una que va del centro

de la primera vertical hasta el valor mínimo dentro de los límites, y la otra que va del centro

de la segunda vertical hasta el valor máximo dentro de los límites.

6) Se marcan con un asterisco las localizaciones de los valores atípicos.

Gráficamente, el boxplot tendría una forma como esta:

51
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Aunque usualmente se representa al boxplot de manera vertical, también se puede presentar

de forma horizontal, tal y como se ilustra a continuación:

Una de las ventajas del boxplot consiste en que permite comparar a la vez varios grupos de

datos, sin perder información ni saturarse de ella.

Con respecto a la interpretación del boxplot , la profesora Neyra Peña recomienda tomar en

cuenta las siguientes consideraciones:

Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.

La distancia entre las cinco medidas descritas en el boxplot puede variar, sin

embargo, recuerde que la cantidad de elementos entre una y otra es

aproximadamente la misma. Entre el límite inferior y Q1 hay aproximadamente

igual cantidad de elementos que de Q1 a la mediana, de ésta a Q3 y de Q3 al límite

superior. Se considera aproximado porque pudiera haber valores atípicos, en cuyo

caso la cantidad de elementos se ve levemente modificada.

52
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

La línea que representa la mediana indica la simetría. Si está relativamente en el

centro de la caja la distribución es simétrica. Si por el contrario se acerca al primer o

tercer cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica positiva) o

sesgada a la izquierda (asimétrica negativa) respectivamente. Esto suele suceder

cuando los datos tienden a concentrase más hacia un punto de la escala.

También algunos autores recomiendan considerar visualmente que: en

distribuciones con sesgo a la derecha, la distancia de Q3 a Xmáximo excede la

distancia de Xmínimo a Q1; y en distribuciones con sesgo a la izquierda, la distancia

de Xmínimo a Q1 excede la distancia de Q3 a Xmáximo.

La mediana puede inclusive coincidir con los cuartiles o con los límites de los

bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto,

pudiera ser este un caso particular de una distribución sesgada o el caso de una

distribución muy homogénea.

Debe estar atento al tamaño de la muestra. Lo que pareciera ser dispersión en los

resultados, en ocasiones podría deberse a un tamaño de muestra muy pequeño, por

lo que debe ser cauteloso a la hora de interpretar. En estos casos se sugiere remitirse

al reporte numérico.

Para ilustrar las ideas con respecto al boxplot, consideremos la siguiente situación:

53
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

En un estudio para determinar el consumo de gasolina, se probaron 13 vehículos durante

300 kilómetros, en condiciones de tránsito tanto en la ciudad como en el campo; de lo

anterior se obtuvieron los siguientes datos del consumo de la gasolina en litros:

Ciudad: 16,2 16,7 15,9 14,4 13,2 15,3 16,8 16,0 16,1 15,3 15,2 15,3 16,2

Campo: 19,4 20,6 18,3 18,6 19,2 17,4 17,2 18,6 19,0 21,1 19,4 18,5 18,7

Realice un análisis descriptivo de los datos que incluya un gráfico y las medidas

descriptivas adecuadas para determinar el consumo de gasolina comparando entre la ciudad

y el campo.

Solución:

En este caso lo más apropiado para realizar el análisis es construir un boxplot para cada

conjunto de datos, ya que el mismo nos permite visualizar en un solo dibujo una serie de

medidas descriptivas básicas para describir el comportamiento de los mismos. Es

importante destacar que las unidades de medición de los grupos deben ser las mismas para

poder efectuar las comparaciones.

Antes de poder construir el boxplot se debe:

Ordenar los valores de menor a mayor en cada grupo de datos.

Ciudad: 13,2 14,4 15,2 15,3 15,3 15,3 15,9 16,0 16,1 16,2 16,2 16,7 16,8

Campo: 17,2 17,4 18,3 18,5 18,6 18,6 18,7 19,0 19,2 19,4 19,4 20,6 21,1

54
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Determinar: los cinco números de resumen, el rango intercuartil y los límites

(inferior y superior). Es importante destacar que el cálculo de los cuartiles se debe

realizar utilizando los pasos descritos en el apartado correspondiente a percentiles.

En la siguiente tabla se presentan estos resultados:

Medida Ciudad Campo


Xmínimo 13,2 17,2
Xmáximo 16,8 21,1
Q1 Q1 = P25 = 15,3 Q1 = P25 = 18,5
Q2 Q2 = P50 = 15,9 Q2 = P50 = 18,7
Q3 Q3 = P75 = 16,2 Q3 = P75 = 19,4
RI = Q3 - Q1 0,9 0,9
1,5 * RI 1,35 1,35
LI (límite inferior) = Q1 - 1,5 * RI 13,95 17,15
LS (límite superior) = Q3 + 1,5 * RI 17,55 20,75

Una vez completada la etapa previa, para realizar la construcción del gráfico se debe

escoger una escala adecuada, la cual dependerá del espacio con el cual se cuente.

Gráficamente (generado por medio de un programa estadístico), los boxplot tendrían la

siguiente forma:

55
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

De aquí se puede concluir lo siguiente:

En el campo el consumo medio de gasolina resultó mayor al de la ciudad, lo que se aprecia

en los valores de las medianas (Ciudad:15,9 litros ; Campo:18,7 litros ).

La variabilidad de ambos grupos es semejante, lo que se observa en el ancho de las cajas,

que representa el rango intercuantil.

En cuanto a la simetría se tiene que para el grupo del campo la distribución es asimétrica

positiva mientras que para el grupo de la ciudad se observa asimetría negativa.

Por otra parte se observa un dato atípico en el campo (un vehículo cuyo consumo resultó

ser superior al de los demás, al inspeccionar los datos, es aquel cuyo consumo fue de 21,1

litros) y otro en la ciudad (un vehículo cuyo consumo resultó ser menor al de los demás, al

inspeccionar los datos, es aquel cuyo consumo fue de 13,2 litros).

56
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

ACTIVIDADES PROPUESTAS.

A continuación se proponen 2 actividades, en las cuales se deben aplicar las herramientas y

los conocimientos adquiridos en esta unidad:

Actividad No. 1:

En la siguiente tabla se presenta la edad de los empleados que trabajan en cierta empresa:

Edad Cantidad de Empleados (fi)

[22-26) 12
[26-30) 29
[30-34) 27
[34-38) 19
[38-42) 16
[42-46) 10
[46-50) 7

Calcular:

a) Edad más frecuente e interprete.

b) La edad que se encuentra justo en el 50% de la distribución e interprete.

c) La edad mínima del 40% entre los mayores y la edad máxima del 30% de los menores e

interprételas.

57
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

d) Porcentaje entre 28 y 40 años e interprételo.

e) Porcentaje entre ± s e interprételo.

f) Calcule la curtosis e interprete.

g) Calcule el coeficiente de asimetría e interprete.

h) Determine el intervalo que contiene al 60% central de los datos e interprete.

i) Construya el boxplot.

Actividad No. 2:

En lo que va de año cierta tienda deportiva ubicada en un centro comercial de la ciudad

capital ha vendido la última línea de lentes deportivos RayBan, Bolle, Sting y Speedo. A

continuación se presentan los datos sobre las 50 ventas de lentes deportivos en dicha tienda

(datos hipotéticos):

RayBan RayBan RayBan Bolle RayBan Sting RayBan Sting Bolle Bolle

Bolle Bolle Sting RayBan Bolle RayBan RayBan RayBan Sting RayBan

RayBan Sting Sting Speedo RayBan RayBan RayBan Bolle RayBan Bolle

RayBan RayBan Bolle Bolle RayBan RayBan Sting Bolle Bolle Bolle

Bolle RayBan RayBan Sting RayBan Bolle RayBan Bolle RayBan RayBan

58
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

A partir de los datos dados:

a) Construya una tabla de distribución de frecuencias e interprete los valores de %hi

b) Realice un gráfico de pastel

c) Realice un gráfico de barras

d) ¿Cuál marca tiene mayor demanda en el mercado?

e) Realice un breve informe con relación a lo que sugieren los datos sobre las ventas de

lentes deportivos en dicha tienda.

59
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Soluciones:

Actividad No. 1:

Para responder a las preguntas formuladas, debemos anexar columnas a la tabla de datos

dada, tales que nos sirvan para lograr nuestro propósito.

li - li+1 fi xi Fi
[22-26) 12 24 12
[26-30) 29 28 41
[30-34) 27 32 68
[34-38) 19 36 87
[38-42) 16 40 103
[42-46) 10 44 113
[46-50) 7 48 120

Calcular:

a) Edad más frecuente e interprete.

Nos piden determinar la moda, que es por definición, el elemento que más se repite, el de

mayor frecuencia. Para ello se debe identificar la clase donde se presenta la mayor

frecuencia absoluta (fi), en este caso se encuentra en la segunda clase. Sustituimos los

valores en la fórmula, identificando a los elementos:

a = 4 ; li = 26 ; ∆1 = 29 – 12 ; ∆2 = 29 – 27

29 - 12
Mo = 26 + * 4 = 29 ,58 años.
( 29 − 12) + ( 29 − 27)

60
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Interpretación: la mayoría de los empleados que trabajan en la empresa tienen una edad

aproximada de 29,58 años.

b) La edad que se encuentra justo en el 50% de la distribución.

La medida que se encuentra justo en el centro de una distribución es la mediana, aplicando

los pasos descritos con anterioridad para calcularla tenemos:

n 120
Cálculo de : = 60
2 2

Localizar ese valor, 60, en Fi ; como no está, pasamos al inmediato superior. En este

caso, 68, de esta forma encontramos la clase que contiene a la mediana.

Sustituimos los valores en la fórmula, identificando primero a los elementos: li es

30; fmed es 27, Fa es 41 y la amplitud es 4.

La fórmula quedará así:

n
−F 60 − 41
2 a
Med = l + * a = 30 + * 4 = 32 ,81 años.
i f 27
med

Interpretación: El 50% de los empleados tienen una edad igual o inferior a 32,81

años.

61
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

c) La edad mínima del 40% entre los mayores y la edad máxima del 30% de los menores.

Edad mínima del 40% entre los mayores:

Consideremos primero que los percentiles se

determinan de abajo hacia arriba, es por esto

que en la gráfica podemos visualizar que

para determinar la edad mínima del 40%

entre los mayores, debemos calcular el

percentil 60.

Aplicando los pasos para el cálculo de percentiles, tenemos:

Aplicando los pasos para el cálculo de percentiles, tenemos:

n * p 120 * 60
Cálculo de = = 72
100 100

Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este caso,

es 87.

Identificamos los elementos para sustituir en la fórmula: a = 4 ; li = 34 ; Fa = 68 ;

fp = 19.

Al aplicar la fórmula:

72 − 68
P60 = 34 + * 4 = 34 ,84 años.
19

62
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Interpretación: la edad mínima entre el 40% de los empleados con mayores edades

es de 34,84 años.

Edad máxima del 30% de los menores:

Al considerar que los percentiles se

determinan de abajo hacia arriba, en la

gráfica podemos visualizar que para

determinar la edad máxima del 30% entre los

menores, debemos calcular el percentil 30.

Aplicando los pasos para el cálculo de percentiles, tenemos:

n * p 120 * 30
Cálculo de = = 36
100 100

Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este

caso,es 41.

Identificamos los elementos para sustituir en la fórmula: a = 4 ; li = 26 ; Fa = 12 ;

fp = 29.

Al aplicar la fórmula:

36 − 12
P30 = 26 + * 4 = 29 ,31 años.
29

63
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Interpretación: la edad máxima entre el 30% de los empleados más jóvenes es de

29,31 años.

d) Porcentaje entre 28 y 40 años

Para determinar un porcentaje, sabiendo el valor de la variable, usamos los pasos para

determinar el rango percentil. En este caso, hay que calcular dos valores: el porcentaje para

la edad de 28 años y el porcentaje para la edad de 40 años.

Para la edad de 28 años:

Primero ubicamos ese valor dentro de la distribución, para ver en que clase se encuentra.

En este caso se encuentra en la segunda clase, ya que 28 pertenece al intervalo [26-30);

identificamos los elementos a sustituir en la fórmula: a = 4 ; li = 26 ; Fa = 12 ; fp = 29.

Luego:

(28 − 26) * 29 + 12
p= 4 *100 = 22,08%
120

Para la edad de 40 años:

Primero ubicamos ese valor dentro de la distribución, para ver en que clase se encuentra.

En este caso se encuentra en la quinta clase, ya que 40 pertenece al intervalo [38-42);

64
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

identificamos los elementos a sustituir en la fórmula: a = 4 ; li = 38 ; Fa = 87 ; fp = 16.

Luego:

(40 − 38)*16 + 87
p= 4 * 100 = 79 ,17 %
120

La respuesta final consiste en la resta de

ambos valores, la razón podemos visualizarla

en la gráfica. Como podemos apreciar, el

porcentaje para la edad de 40 años ya

contempla el de los 28 años, por lo que

estaríamos contando doble si no hacemos la

resta.

Entonces, el resultado será: 79,17% - 22,08% = 57,09%

Interpretación: el 57,09% de los empleados tienen edades comprendidas entre los 28 y los

40 años.

e) Porcentaje entre x ± s

Para el cálculo de la media y de la desviación se agregaron la quinta y sexta columna a la

tabla:

65
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

li - li+1 fi xi Fi xi * fi ( xi - x )2 * fi
[22-26) 12 24 12 288 (24 – 33,87)2 * 12 = 1169,00
[26-30) 29 28 41 812 (28 - 33,87)2 * 29 = 999,25
[30-34) 27 32 68 864 94,42
[34-38) 19 36 87 684 86,20
[38-42) 16 40 103 640 601,23
[42-46) 10 44 113 440 1026,17
[46-50) 7 48 120 336 1397,60

Σ = 5373,87

Cálculo de la media:

288 + 812 + 864 + 684 + 640 + 440 + 336


x= = 33,87 años
120

Interpretación: la edad promedio de los empleados es de 33,87 años.

Cálculo de la desviación típica:

5373,87
s= = 6,72 años
120 − 1

Interpretación: la desviación promedio en la distribución de las edades de los empleados es

de 6,72 años.

El intervalo x ± s será entonces: 33,87 ± 6,72 y nos quedaría: [27,15 ; 40,59] años. Para

determinar el porcentaje, calculamos el rango percentil para cada uno de esos valores:

66
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Para la edad de 27,15 años:

Primero ubicamos ese valor dentro de la distribución, para ver en que clase se encuentra.

En este caso se encuentra en la segunda clase, ya que 27,15 pertenece al intervalo [26-30);

identificamos los elementos a sustituir en la fórmula: a = 4 ; li = 26 ; Fa = 12 ; fp = 29.

Luego:

(27,15 − 26 )* 29 + 12
p= 4 * 100 = 16 ,95 %
120

Para la edad de 40,59 años:

Primero ubicamos ese valor dentro de la distribución, para ver en que clase se encuentra.

En este caso se encuentra en la quinta clase, ya que 40,59 pertenece al intervalo [38-42);

identificamos los elementos a sustituir en la fórmula: a = 4 ; li = 38 ; Fa = 87 ; fp = 16.

Luego:

(40,59 − 38) *16 + 87


p= 4 *100 = 81,13%
50

La solución será la diferencia entre estos porcentajes: 81,13% - 16,95% = 64,18%

Interpretación: el 64,18% de los empleados tienen edades comprendidas en el intervalo

[ 27,15 ; 40,59] años.

67
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

f) Calcule la curtosis e interprete.

Para determinar la curtosis de manera empírica, se establece el porcentaje de valores que se

encuentran en el intervalo x ± s para este caso, ese valor (64,18%) resultó ser menor a 68%;

por lo que tiende a ser platicúrtica.

g) Calcule el coeficiente de asimetría e interprete.

33,87 − 29,58
SK = = 0,64
6,72

Interpretación: ligera asimetría positiva, sesgo hacia la derecha

h) Determine el intervalo que contiene al 60% central de los datos.

Para poder resolver la pregunta, tome en cuenta el

gráfico. Allí se aprecia que para determinar el intervalo

que contiene al 60% central, se deben calcular los

percentiles 80 y 20 de la distribución. Recuerde que

mediante los percentiles calculamos el valor de la

variable, sabiendo el porcentaje.

68
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Para el percentil 80:

Aplicando los pasos para el cálculo de los percentiles:

120 * 80
Cálculo de: = 96
100

Con ese valor, se ubica en Fi para determinar los elementos que se utilizarán en la fórmula:

96 − 87
P80 = 38 + * 4 = 40,25 años
16

Para el percentil 20:

Aplicando los pasos para el cálculo de los percentiles:

120 * 20
Cálculo de: = 24
100

Con ese valor, se ubica en Fi para determinar los elementos que se utilizarán en la fórmula:

24 − 12
P 20 = 26 + * 4 = 27,66 años
29

Interpretación: el intervalo de edades que abarca el 60% central de los datos es

[27,66 ; 40,25] años.

69
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

i) Construya el boxplot.

Para construir al boxplot, primero se debe determinar: los cinco números de resumen, el

rango intercuartil y los límites (inferior y superior). Es importante destacar que el cálculo

de los cuartiles se debe realizar utilizando los pasos descritos en el apartado

correspondiente a percentiles para datos agrupados.

Nota: como se trabajan con datos agrupados los resultados serán aproximados y se va a

considerar como Xmáximo al límite superior de la última clase y como Xmínimo al límite

inferior de la primera clase.

En la siguiente tabla se presentan estos resultados:

Medida Valores (en años)


Xmínimo 22
Xmáximo 50
Q1 Q1 = P25 = 28,48
Q2 Q2 = P50 = 32,81
Q3 Q3 = P75 = 38,75
RI = Q3 - Q1 10,27
1,5 * RI 15,41
LI (límite inferior) = Q1 - 1,5 * RI 13,07
LS (límite superior) = Q3 + 1,5 * RI 54,16

A continuación, se presenta la gráfica del boxplot:

70
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Actividad No. 2:

a) Construya una tabla de distribución de frecuencias e interprete los valores de %hi

Marca de lente fi hi %hi


Bolle 16 0,3200 32,00
RayBan 25 0,5000 50,00
Speedo 1 0,0200 2,00
Sting 8 0,1600 16,00

Interpretaciones:

El 32% de las ventas de los lentes correspondió a la marca Bolle.

El 50% de las ventas de los lentes correspondió a la marca RayBan.

El 2% de las ventas de los lentes correspondió a la marca Speedo.

El 16% de las ventas de los lentes correspondió a la marca Sting.

71
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

b) Realice un gráfico de pastel:

A partir de los datos que se obtienen de la tabla, para la construcción de los sectores

podemos aplicar una regla de tres y obtener así los valores de los ángulos centrales. Sin

embargo, la presente gráfica se realizó en una hoja de cálculo:

Ventas de lentes según las marcas

16,00%

32,00%
2,00% Bolle
RayBan
Speedo
Sting

50,00%

c) Realice un gráfico de barras:

Ventas de lentes según las marcas


25
25

22,5

20
Frecuencia de venta

17,5
16
15
12,5

10
8
7,5
5

2,5
1
0
Bolle RayBan Speedo Sting

Marca de lente

72
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

d) ¿Cuál marca tiene mayor demanda en el mercado?

En esta pregunta se están refiriendo a la moda, en este caso quien tiene mayor venta (mayor

demanda en el mercado) es la marca RayBan.

e) Realice un breve informe con relación a lo que sugieren los datos sobre las ventas de

lentes deportivos en dicha tienda.

A la hora de realizar un informe con datos cualitativos el estudiante puede hacer uso de: las

interpretaciones de %hi cuando construye la tabla de distribución de frecuencias, realizar

un gráfico (usualmente de sectores o de barras) señalar una medida de tendencia central

(usualmente la moda) y hacer algunas recomendaciones según lo que presenten los datos.

Un ejemplo de informe pudiera ser:

A partir de los datos que arrojaron las ventas de lentes deportivos en lo que va de año, se

puede establecer que la marca más solicitada fue la RayBan con un 50% del total de las

ventas en el período considerado, seguido por la Bolle con un 32%, la marca Sting con un

16% y por último la marca Speedo, con un 2% en cuanto a la preferencia de los clientes al

adquirir lentes deportivos. Estos resultados se pueden apreciar visualmente en el gráfico de

sectores y en el gráfico de barras construido.

Al tomar en cuenta estos resultados, se recomienda:

73
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Revisar la publicidad dada en la tienda a la marca Speedo y, posiblemente, estudiar


la factibilidad de hacer alguna oferta para ver si se pueden aumentar las ventas de
dicha marca.

Si no mejora la venta de la marca Speedo, considerar la posibilidad de no vender


más esa marca en la tienda por lo bajo de la demanda y por que acarrea costos por
almacenamiento.

Hacer también una revisión de las estrategias de venta con la marca Sting, porque si
bien el porcentaje de ventas no es tan bajo como la marca Speedo, no presenta un
porcentaje alto en la demanda de dicho producto.

Llevar a cabo una investigación de mercado para tratar de identificar los atributos
que son más valorados por los compradores de los lentes deportivos y a partir de los
resultados que arroje el estudio, establecer estrategias de mercadeo adecuadas para
tratar de aumentar las ventas.

Dar entrenamiento a los vendedores en cuanto a estrategias de ventas, atención al


público, etc.

Cabe destacar algo, usualmente el estudiante sólo menciona en las recomendaciones

aumentar las ventas del producto; sin embargo, imagine la situación: Usted es el dueño de

la tienda y le pide un informe en cuanto al nivel de las ventas y las recomendaciones que

puedan dar lugar al encargado del local. Si este encargado le recomienda “aumentar las

ventas de los productos” y lo deja hasta allí, qué le diría Usted?. Posiblemente, le dirá: “sí,

hay que aumentar las ventas, pero cómo lo hacemos?”.

De allí que las recomendaciones estén orientadas a eso, a tratar de dar ideas que nos

permitan el aumento de las ventas, y por ende, el de los ingresos.

74
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

RESUMEN DE LA UNIDAD.

Estimado estudiante ha concluido con la unidad cinco, en ésta se revisaron los conceptos y

nociones básicas asociadas a las medidas descriptivas de los datos tales como: las medidas

de tendencia central, medidas de posición (no centrales), medidas de dispersión, medidas de

sesgo y curtosis y la construcción e interpretación del boxplot.

A continuación, se presenta un breve esquema del contenido tratado:

75
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

BIBLIOGRAFÍA.

1. Anderson, D., Sweeney, D., Williams, T. (1999) Estadística para Administración

y Economía. Internacional Thomson Editores. Séptima edición.

2. Berenson, M., Levine D. y Krehbiel (2001) Estadística para Administración.

Edit. Prentice-Hall Hispanoamericana. Segunda edición.

3. Levin, R., Rubin, D., Balderas, M., Del Valle, J., Gómez, R. (2004) Estadística

para Administradores. Edit. Prentice-Hall Hispanoamericana.

4. Webster, A. (1996) Estadística aplicada a la Empresa y a la Economía. Edit. Mc

Graw-Hill.

5. Spiegel, M. (1991) Probabilidad y Estadística. Edit. Mc Graw-Hill.

76
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

EVALUACIÓN.

A continuación se presentan varias actividades que Usted deberá responder antes de

proseguir con la unidad 6, en caso de no hacerlo correctamente, revise de nuevo los

contenidos de la unidad 5:

Parte 1: Verdadero o Falso

Señale la respuesta correcta en cada una de las siguientes afirmaciones:

1. El valor de cada observación del conjunto de datos se toma en cuenta cuando

calculamos su mediana.

2. Cuando la población está sesgada positiva o negativamente, a menudo es preferible

utilizar la mediana como mejor medida de posición, debido a que siempre cae entre

la media y la moda.

3. Las medidas de tendencia central de un conjunto de datos se refieren al grado en

que las observaciones están dispersas.

4. Con un conjunto de datos no agrupados, la moda se utiliza con más frecuencia como

medida de tendencia central.

5. Si organizamos las observaciones de un conjunto de datos en forma descendente, el

punto de datos que se encuentra en medio es la mediana del conjunto de datos.

6. Si la curva de una cierta distribución tiene el extremo más largo hacia la izquierda

de la escala de medición del eje horizontal, se dice que la distribución está

negativamente sesgada.

77
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

7. La diferencia entre las observaciones más alta y más baja de un conjunto de datos se

conoce como rango intercuartil.

8. El coeficiente de variación es una medida absoluta de dispersión.

9. La varianza indica la distancia promedio de cualquier observación del conjunto de

datos con respecto a la media.

10. La moda siempre se encuentra en el punto más alto de una gráfica de un arreglo de

datos.

Parte 2:

A continuación se le presenta un caso hipotético de una empresa dedicada a la venta de

automóviles. En ella se formulan una serie de preguntas que usted debe contestar aplicando

todos los conocimientos adquiridos hasta ahora en estadística descriptiva.

Pedro Pérez es el propietario de la empresa Pérez Pontiac, en Caja Seca, Estado Zulia. El

padre de Pedro fundó la agencia en 1964 y durante más de 30 años vendieron

exclusivamente automóviles Pontiac. A principios de la década de 1990, la salud de su

padre comenzó a deteriorarse y Pedro se encargó de la operación diaria de la agencia. Al

mismo tiempo, el negocio de los automóviles comenzó a cambiar, las agencias empezaron a

vender vehículos de otras marcas y Pedro se enfrentó con varias decisiones importantes que

debía tomar. La primera fue cuando otra agencia local (que vendía autos Volvo, Saab y

Volkswagen) habló con Pedro para venderle su concesión. Después de pensarlo y

78
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

analizarlo, compró la concesión; tiempo después adquirió la agencia que vendía autos Eagle

Jeep.

Actualmente, Pedro vende en el mismo lote la línea completa de Pontiac, los caros

productos Volvo, Saab, Volkswagen y Chrysler, incluyendo la popular línea Jeep. La

agencia emplea a 83 personas, incluyendo a 23 vendedores a tiempo completo, pero a causa

de la diversidad de la línea de productos hay bastante variación en los precios de venta de

los vehículos. De acuerdo con los registros de venta, la agencia vendió 80 vehículos el mes

pasado; los precios (en bolívares) de venta para cada vehículo se muestran a continuación:

20197 20372 17454 20591 23651 24453 14266 15021 25683 27872

16587 20169 32851 16251 17047 21285 21324 21609 25670 12546

12935 16873 22251 22277 25034 21533 24443 16889 17004 14357

17155 16688 20657 23613 17895 17203 20765 22783 23661 29277

17642 18981 21052 22799 12794 15263 32925 14399 14968 17356

18442 18722 16331 19817 16766 17633 17962 19845 23285 24896

26076 29492 15890 18740 19374 21571 22449 25337 17642 20613

21220 27655 19442 14891 17818 23237 17445 18556 18639 21296

Determine la variable de interés y su nivel de medición. Además, responda los incisos

siguientes:

(a) Construya una tabla de distribución de frecuencias (datos agrupados) para el precio de

venta de los vehículos.

(b) Interprete los 3 primeros valores obtenidos para %hi y %Hi

79
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

(c) Determine el porcentaje de vehículos cuyo precio de venta es menor a 19341 bolívares.

(d) Determine el porcentaje de vehículos cuyo precio de venta es mayor o igual a 26136

bolívares.

(e) Determine el porcentaje de vehículos cuyo precio de venta es al menos de 17076

bolívares pero inferior a 28401 bolívares.

(f) Estimar el porcentaje de vehículos cuyo precio de venta es de 15000 bolívares o menos.

(g) Estimar el porcentaje de vehículos cuyo precio de venta es de 27000 o más bolívares.

(h) Determine el porcentaje de vehículos cuyo precio de venta es al menos de 17076

bolívares.

(i) Determine e interprete el precio promedio de los vehículos vendidos.

(j) Determine e interprete el precio más frecuente.

(k) Determine e interprete el precio que se encuentra justo en el 50% de la distribución.

(l) Determine e interprete los cuartiles de la distribución.

(m) Determine el precio mínimo del 40% de los vehículos más costosos.

(n) Determine el precio máximo del 30% de los vehículos menos costosos.

80
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

(ñ) Determine el porcentaje de vehículos cuyo precio de venta es al menos de 17076

bolívares pero inferior a 28401 bolívares. (por fórmula)

(o) ¿Qué intervalo abarca el 70% central?

(p) Determine e interprete el porcentaje entre ± s

(q) Calcule e interprete el sesgo y la curtosis.

(r) Construya el boxplot.

81
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Soluciones:

Parte 1:

1. F; 2. V; 3. F; 4. F; 5. V; 6. V; 7. F; 8. F; 9. V; 10. V

Parte 2:

Variable de interés: precio de venta del vehículo en bolívares.

Nivel de medición: razón.

(a) Construya una tabla de distribución de frecuencias (datos agrupados) para el precio de

venta de los vehículos.

li - li+1 fi xi hi %hi Fi Hi %Hi


[12546 – 14811) 6 13678,5 0,0750 7,50 6 0,0750 7,50
[14811 – 17076) 14 15943,5 0,1750 17,50 20 0,2500 25,00
[17076 – 19341) 17 18208,5 0,2125 21,25 37 0,4625 46,25
[19341 – 21606) 18 20473,5 0,2250 22,50 55 0,6875 68,75
[21606 – 23871) 11 22738,5 0,1375 13,75 66 0,8250 82,50
[23871 – 26136) 8 25003,5 0,1000 10,00 74 0,9250 92,50
[26136 – 28401) 2 27268,5 0,0250 2,50 76 0,9500 95,00
[28401 – 30666) 2 29533,5 0,0250 2,50 78 0,9750 97,50
[30666 – 32931) 2 31798,5 0,0250 2,50 80 1,0000 100,00

(b) Interprete los 3 primeros valores obtenidos para %hi y %Hi

82
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Clase %hi Interpretación %Hi Interpretación


Primera 7,50 El 7,50% de los vehículos 7,50 El 7,50% de los vehículos
tuvieron un precio de venta tuvieron un precio de venta que
que oscilaba entre 12546 y oscilaba entre 12546 y menos de
menos de 14811 bolívares. 14811 bolívares.
Segunda 17,50 El 17,50% de los vehículos 25,00 El 25,00% de los vehículos
tuvieron un precio de venta tuvieron un precio de venta que
que oscilaba entre 14811 y oscilaba entre 12546 y menos de
menos de 17076 bolívares. 17076 bolívares.
Tercera 21,25 El 21,25% de los vehículos 46,25 El 46,25% de los vehículos
tuvieron un precio de venta tuvieron un precio de venta que
que oscilaba entre 17076 y oscilaba entre 12546 y menos de
menos de 19341 bolívares. 19341 bolívares.

(c) Determine el porcentaje de vehículos cuyo precio de venta es menor a 19341 bolívares:

por medio de la tabla se determina que el porcentaje es 46,25%

(d) Determine el porcentaje de vehículos cuyo precio de venta es mayor o igual a 26136

bolívares: por medio de la tabla se determina que el porcentaje es 7,50%

(e) Determine el porcentaje de vehículos cuyo precio de venta es al menos de 17076

bolívares pero inferior a 28401 bolívares: por medio de la tabla se determina que el

porcentaje es 70%

83
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

(f) Estimar el porcentaje de vehículos cuyo precio de venta es de 15000 bolívares o menos:

A través del rango percentil: 8,96%

(g) Estimar el porcentaje de vehículos cuyo precio de venta es de 27000 o más bolívares: A

través del rango percentil: 6,55%

(h) Determine el porcentaje de vehículos cuyo precio de venta es al menos de 17076

bolívares: por medio de la tabla se determina que el porcentaje 75%

(i) Determine e interprete el precio promedio de los vehículos vendidos: x = 20133,75 Bs.;

interpretación: el precio promedio de venta de los vehículos es de 20133,75 bolívares.

(j) Determine e interprete el precio más frecuente: Mod = 19624,125 bolívares;

interpretación: el precio de venta más frecuente de los vehículos es de 19624,125 bolívares.

84
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

(k) Determine e interprete el precio que se encuentra justo en el 50% de la distribución:

Med = 19718,5 bolívares; interpretación: El 50% de los vehículos tienen precios de venta

de 19718,5 bolívares o menos.

(l) Determine e interprete los cuartiles de la distribución.

Q1 = P25 = 17076 bolívares.

Interpretación: el 25% de los vehículos tienen precios de venta de 17076 bolívares o menos.

Q2 = P50 = Mediana

Q3 = P75 = 22635,55 bolívares.

Interpretación: el 75% de los vehículos tienen precios de venta de 22635,55 bolívares o

menos.

(m) Determine el precio mínimo del 40% de los vehículos más costosos: P60 = 20725,17

bolívares. Interpretación: el precio mínimo del 40% de los vehículos más costosos es de

20725,17 bolívares.

85
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

(n) Determine el precio máximo del 30% de los vehículos menos costosos: P30 = 17608,94

bolívares fuertes. Interpretación: el precio máximo del 30% de los vehículos menos

costosos es de 17608,94 bolívares.

(ñ) Determine el porcentaje de vehículos cuyo precio de venta es al menos de 17076

bolívares pero inferior a 28401 bolívares. (por fórmula):

Rango percentil de 17076: 25%

Rango percentil de 28401: 95%

Porcentaje pedido: 95% - 25% = 70%

(o) ¿Qué intervalo abarca el 70% central?

P85 = 24437,25 bolívares.

P15 = 15781,71 bolívares.

Intervalo: [15781,71 ; 24437,25] bolívares.

(p) Determine e interprete el porcentaje entre x ± s

86
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

Media: 20133,75 bolívares fuertes.

Desviación Típica: 4173,34 bolívares fuertes.

Intervalo: [15960,41 ; 24307,09] bolívares fuertes.

Rango percentil para 15960,41: 16,38%

Rango percentil para 24307,09: 84,43%

Sol: 84,43% - 16,38% = 68,05 %

Interpretación: el 68,05% de los vehículos tuvieron un precio de venta comprendido entre

15960,41 y 24307,09 bolívares fuertes.

(q) Calcule e interprete el sesgo y la curtosis.

Para el sesgo: SK = 0,12

Interpretación: leve asimetría positiva, sesgo hacia la derecha

Para la curtosis: el intervalo x ± s comprende el 68,05 % por lo que la distribución tiende a

ser mesocúrtica

87
Unidad 5
Medidas Descriptivas
Universidad Simón Bolívar De Datos
Sede del Litoral

(r) Construya el boxplot.

Medida Valores (en años)


Xmínimo 12546
Xmáximo 29492
Q1 Q1 = P25 = 17076
Q2 Q2 = P50 = 19718,5
Q3 Q3 = P75 = 22635,55
RI = Q3 - Q1 5559,55
1,5 * RI 8339,325
LI (límite inferior) = Q1 - 1,5 * RI 8736,675
LS (límite superior) = Q3 + 1,5 * RI 30974,875

Nota: a pesar de que se debe resolver el ejercicio agrupando a los datos, para determinar los

valores máximos y mínimos dentro de los límites, podemos obtenerlos al ordenar los

valores iniciales, de allí que se tome como valor máximo dentro de los límites el 29492 y

como valor mínimo el 12546.

La gráfica, generada a través de un software estadístico, es la siguiente:

Note que se presenta 2 valores atípicos que están luego del límite superior y que

corresponderían a los valores 32851 y 32925.

88

You might also like