Professional Documents
Culture Documents
Estadística descriptiva
Alex J. Zambrano1
azambran@poligran.edu.co
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Definición (Estadística)
Ciencia destinada al estudio de fenómenos aleatorios, la misma está ligada con los
métodos científicos en la toma, recopilación, organización, presentación y análisis de
datos; tanto para la deducción de conclusiones como para la toma de decisiones
razonables de acuerdo a tales análisis.
Definición (Población)
Conjunto total de objetos que tienen un característica en común. Está característica es de
interés para un problema dado.
Definición (Parámetro)
Es cualquier característica medible de una población.
Definición (Población)
Conjunto total de objetos que tienen un característica en común. Está característica es de
interés para un problema dado.
Definición (Parámetro)
Es cualquier característica medible de una población.
Definición (Población)
Conjunto total de objetos que tienen un característica en común. Está característica es de
interés para un problema dado.
Definición (Parámetro)
Es cualquier característica medible de una población.
Definición (Población)
Conjunto total de objetos que tienen un característica en común. Está característica es de
interés para un problema dado.
Definición (Parámetro)
Es cualquier característica medible de una población.
Definición (Estadístico)
Cualquier característica medible de una muestra.
Definición (Variable)
Característica de la población que se analiza en el estudio estadístico.
Definición (Censo)
Palabra derivada del latín censere, que significa “valuar o tasar”. Es la enumeración
completa de la población.
Definición (Estadístico)
Cualquier característica medible de una muestra.
Definición (Variable)
Característica de la población que se analiza en el estudio estadístico.
Definición (Censo)
Palabra derivada del latín censere, que significa “valuar o tasar”. Es la enumeración
completa de la población.
Definición (Estadístico)
Cualquier característica medible de una muestra.
Definición (Variable)
Característica de la población que se analiza en el estudio estadístico.
Definición (Censo)
Palabra derivada del latín censere, que significa “valuar o tasar”. Es la enumeración
completa de la población.
Definición (Estadístico)
Cualquier característica medible de una muestra.
Definición (Variable)
Característica de la población que se analiza en el estudio estadístico.
Definición (Censo)
Palabra derivada del latín censere, que significa “valuar o tasar”. Es la enumeración
completa de la población.
Ejercicio
En un centro de información turística de Londres, se realizó una serie de preguntas a una
muestra aleatoria de turistas que entraron. Describa el tipo de datos obtenidos con cada
pregunta.
¿Va a pasar la noche en Londres?
¿Cuántas veces había estado anteriormente en Londres?
¿Cuál de las siguientes atracciones ha visitado?
Torre de Londres
Palacio de Buckingham
Big Ben
Covent Garden
Abadía de Westminster
¿Qué probabilidades hay de que vuelva a Londres en los próximos 12 meses: (1)
improbable, (2) probable, (3) muy probable?
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Ejemplos (Frecuencias)
Tipos de distribución de frecuencias
Absoluta
Relativa
Absoluta acumulada
Relativa acumulada
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
hi = fni ,
Fi = f1 + f2 + · · · + fi ,
Hi = h1 + h2 + · · · + hi
Ejemplo
¿Cuál es la marca de gaseosa que más le gusta?
Coke Classic Coke Classic Coke Classic Sprite Coke Classic
Diet Coke Dr. Pepper Diet Coke Dr. Pepper Diet Coke
Pepsi Sprite Coke Classic Pepsi Pepsi
Diet Coke Coke Classic Sprite Diet Coke Pepsi
Coke Classic Diet Coke Pepsi Pepsi Pepsi
Coke Classic Coke Classic Coke Classic Coke Classic Pepsi
Dr. Pepper Coke Classic Coke Classic Coke Classic Coke Classic
Diet Coke Sprite Coke Classic Coke Classic Dr. Pepper
Pepsi Coke Classic Pepsi Pepsi Pepsi
Pepsi Diet Coke Coke Classic Dr. Pepper Sprite
Ejemplo
Distribución de frecuencia del gusto de la gaseosa
Gaseosas Frecuencia
Coke Classic 19
Diet Coke 8
Dr. Pepper 5
Pepsi 13
Sprite 5
Total general 50
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Intervalos de Marca de Frecuencia absoluta Frecuencia relativa Frecuencia absoluta Frecuencia relativa
clase [−) clase absoluta relativa acumulada acumulada
Variable xi fi hi Fi Hi
[L0 − L1 ) x1 f1 h1 F1 H1
[L1 − L2 ) x2 f2 h2 F2 H2
.. .. .. .. .. ..
. . . . . .
[Lk−1 − Lk ) xk fk hk n 1
n 1
Ejemplo
Nielsen Home Technology Report informa sobre la tecnología en el hogar y su uso. Los
datos siguientes son las horas de uso de computadora por semana en una muestra de 50
personas.
4.1 10.4 3.4 1.6 3.0
3.1 2.0 5.4 3.9 11.1
4.1 8.8 4.3 7.1 6.2
10.8 9.5 12.1 4.0 4.4
7.2 5.7 4.7 3.7 6.1
1.5 5.9 5.7 6.1 3.7
4.8 14.8 4.2 4.1 3.5
4.1 5.6 3.3 10.3 7.6
2.8 12.9 0.7 9.2 5.7
6.1 5.9 3.9 3.1 3.1
Definición (Histograma)
Representación gráfica de una distribución de frecuencia, de frecuencia relativa o de
frecuencia porcentual que se construye colocando los intervalos de clase sobre un eje
horizontal y la frecuencia, la frecuencia relativa o la frecuencia porcentual sobre un eje
vertical.
Definición (Ojiva)
Gráfica de una distribución acumulada.
Ejemplo
Distribución de frecuencia de las horas de uso de computadora por semana
Horas Frecuencias
0.7-2.8 4
2.8-4.9 22
4.9-7 11
7-9.1 4
9.1-11.2 6
11.2-13.3 2
13.3-15.4 1
Total 50
Punto de indiferencia al precio (PIP): Es el precio considerado como base o justo del mercado.
Punto de precio óptimo (PPO): Es el precio viable para el mercado.
Punto Económico Marginal (PEM): Es el precio más bajo que el usuario esperaria*.
Punto Caro Marginal (PCM): Es el precio máximo tolerable por el consumidor*.
Definición (Simetría)
Se dice que la forma de una distribución es simétrica si las observaciones están
equilibradas, es decir, distribuidas de una manera uniforme a un lado y a otro de su
centro.
Definición (Sesgo)
Una distribución está sesgada o es asímétrica si las observaciones no están distribuidas
simétricamente en ninguno de los lados del centro. Una distribución sesgada hacia la
derecha (llamada a veces sesgada positivamente) tiene una cola que se extiende hacia la
derecha. Una distribución sesgada hacia la izquierda (llamada a veces sesgada
negativamente) tiene una cola que se extiende hacia la izquierda.
Ejercicio
Se realizó un estudio sobre satisfacción en el empleo en cuatro ocupaciones. La
satisfacción en el empleo se midió mediante un cuestionario de 18 puntos en el que a
cada punto había que calificarlo con una escala del 1 al 5; las puntuaciones más altas
correspondían a mayor satisfacción en el empleo. La suma de las calificaciones dadas a
los 18 puntos proporcionaba una medida de la satisfacción en el empleo de cada uno de
los individuos de la muestra. Los datos obtenidos fueron los siguientes.
1 Realice un diagrama circular para la ocupación de los trabajadores.
2 Realice una histograma para la satisfacción de los trabajadores.
3 ¿Qué conclusiones se pueden de los gráficos anteriores?
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Ejercicio
Se quiere estudiar el tipo de categoría de un grupo de profesores y el tipo de universidad
en la que trabaja.
Tipo de Universidad Categoría del Profesor
Pública Tiempo Completo
Privada Asociado
Privada Asociado
Privada Tiempo Completo
Privada Cátedra
Privada Cátedra
Pública Cátedra
Pública Tiempo Completo
Privada Tiempo Completo
Privada Tiempo Completo
Privada Asociado
Privada Asociado
Privada Tiempo Completo
Pública Tiempo Completo
Pública Asociado
Pública Asociado
Pública Asociado
Privada Asociado
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Ejercicio
Se realizó un estudio sobre satisfacción en el empleo en cuatro ocupaciones. La
satisfacción en el empleo se midió mediante un cuestionario de 18 puntos en el que a
cada punto había que calificarlo con una escala del 1 al 5; las puntuaciones más altas
correspondían a mayor satisfacción en el empleo. La suma de las calificaciones dadas a
los 18 puntos proporcionaba una medida de la satisfacción en el empleo de cada uno de
los individuos de la muestra. Los datos obtenidos fueron los siguientes.
1 Realice una tabulación cruzada para ocupación y satisfacción en el trabajo.
2 ¿Qué observaciones puede hacer respecto a la satisfacción en el trabajo en estas
ocupaciones?
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Ejercicio
Considere la relación publicidad/ventas en una tienda de equipos de sonido. Durante los
últimos tres meses, en 10 ocasiones la tienda apareció en comerciales de televisión, en el
fin de semana, para promover sus ventas. Los directivos quieren investigar si hay relación
entre el número de comerciales emitidos el fin de semana y las ventas en la semana
siguiente. En la tabla siguiente se presentan datos muestrales de las 10 semanas dando
las ventas en cientos de dólares.
Semana Número de comerciales Ventas (en ciento de dólares)
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Definición (Media)
La media aritmética de cierto conjunto de datos se encuentra sumando los números y
dividiendo después entre la cantidad de datos (promedio).
Media Poblacional Media Muestral
1
P
N P
n
µ= N Xi x̄ = n1 xi
i=1 i=1
Observación
Ventajas
Fácil de calcular.
Buenas ventajas como estimador.
Desventajas
Se ve afectada por los valores extremos.
Definición (Mediana)
Es aquel valor en el cual el 50 % de los datos se encuentran por debajo del él y el otro
50 % de los datos se encuentran por encima de él. Es decir, es la observación que ocupa
el lugar central de un conjunto de datos ordenados en forma ascendente.
Sea x[1] 6 x[2] 6 · · · 6 x[n] un conjunto de datos ordenados en forma ascendente donde
x[i] representa el valor en la posición i-ésima. La mediana se definen como:
x n+1 si n es impar
[ ]
x̃ = x n2 +x n +1
[ 2 ] [ 2 ] si n es par
2
Observación
Ventajas
No se ve afectada por valores extremos.
Desventajas
No es fácil determinar la mediana si el conjunto de datos es grande.
Definición (Moda)
Si existe, es el valor con mayor frecuencia. Se denota por x̂.
Observación
Ventajas
No se ve afectada por valores extremos.
Es útil para datos categóricos.
Desventajas
La moda puede que no exista.
La moda puede no ser única.
Ejercicio (Edades)
Millones de estadounidenses trabajan para sus empresas desde sus hogares. A
continuación se presenta una muestra de datos que dan las edades de estas personas que
trabajan desde sus hogares.
18 54 20 46 25 48 53 27 26 37 40 36 42 25 27 33 28 40 45 25
Notese que
1X
n
1
log x̄g = (log x1 + · · · + log xn ) = log xi .
n n i=1
Observación
La media geométrica es útil para encontrar los cambios porcentuales en una serie de
números positivos, inclusive, para encontrar el promedio de proporciones, índices, o tasas
de crecimiento. Tiene mucha aplicación en el comercio y en la economía porque nos
interesa encontrar el cambio porcentual en las ventas, salarios o datos económicos, tales
como el producto nacional bruto.
Observación
La media geométrica siempre será menor que la media aritmética, salvo en el extraño
caso en el que todos los incrementos porcentuales sean iguales. Si esto último sucede, las
dos medias serán iguales.
Ejemplo
Supongamos que los intereses durante 5 años consecutivos son 3,6,10, 12 y 8 %
respectivamente. Cuanto voy a obtener después de 5 años si coloco 100000 pesos. ¿Cuál
es la tasa promedio de interés que se obtiene?
Ejercicio
Una cadena de grande almacenes eligió aleatoriamente 10 establecimientos situados en
una región. Tras examinar los datos de ventas, observó que ese año se habían conseguido
en las Navidades los siguientes aumentos porcentuales de las ventas en dólares con
respecto al año anterior: 10.2, 3.1, 5.9, 7.0, 3.7, 2.9, 6.8, 7.3, 8.2 y 4.3 %.
Calculé el aumento porcentual medio de las ventas en dólares.
Ejercicio
Investigar ejemplos y aplicaciones de cada una de las siguientes medias.
Media armónica.
Rango medio.
Media cuadrática.
Media recortada.
Media winsorizada.
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Definición
Una medida de localización para una distribución de frecuencias es aquel valor para el
cual una porción específica de la distribución queda en o debajo de esté valor.
Definición (Percentil)
Es aquel valor tal que lo más un p % de los datos están por debajo de esté valor y, el otro
(100 − p) % de los datos se encuentran por encima de él.
Ejemplo
Teniendo en cuenta el ejemplo de los sueldos de los estudiantes egresados en Marketing y
Administración (diapositiva 50), determine cual es 85-ésimo percentil de los egresados en
marketing y el 15-ésimo percentil de los egresado en administración.
Ejercicio
Teniendo en cuenta el ejercicio de la muestra de las edades de los trabajadores que
desempeñan su labor desde las casas (diapositiva 51), determine el 25-ésimo percentil y
75-ésimo percentil.
Definición (Cuartiles)
Son las medidas de localización que separan grandes conjuntos de datos en cuatro partes
(iguales) y se definen así.
Q1 primer cuartil o 25-ésimo percentil.
Q2 segundo cuartil o 50-ésimo percentil (mediana).
Q3 tercer cuartil o 75-ésimo percentil.
Definición (Deciles)
Son las medidas de localización que separan grandes conjuntos de datos en diez partes
(iguales) de tal forma que cada parte contiene aproximadamente 10 % de los datos. se
denotan por Dn .
Definición
El resumen de cinco números se refiere a las cinco medidas descriptivas:
Mínimo (xmı́n ).
Primer cuartil (Q1 ).
Mediana (x̃).
Tercer cuartil (Q3 ).
Máximo (xmáx ).
xmı́n 6 Q1 6 x̃ 6 Q3 6 xmáx
Ejemplo
Teniendo en cuenta el ejemplo de los sueldos de los estudiantes egresados en Marketing y
Administración (diapositiva 50), construya un diagrama box-plot para cada uno de los
sueldos. ¿Qué se puede observar acerca de los sueldos de los egresados?
Ejercicio
Teniendo en cuenta el ejercicio de la muestra de las edades de los trabajores que
desempeñan su labor desde las casas (diapositiva 51), construya un digrama box-plot y
realice una descripción de los resultados.
Ejercicio
La pizería Gilotti’s tiene cuatro locales en una gran área metropolitana. La tabla a
continuación muestra las ventas diarias (en cientos de dólares) de una muestra aleatoria
de diez días procedente de los cuatro locales. Represente los datos de cada local con un
diagrama de box-plot y compare los resultados. ¿Como son las ventas de estos locales?
Local 1 Local 2 Local 3 Local 4
6 1 2 22
8 19 3 20
10 2 25 10
12 18 20 13
14 11 22 12
9 10 19 10
11 3 25 11
7 17 20 9
13 4 22 10
11 17 26 8
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
Ejercicio
Observemos el siguiente conjunto de datos los cuales describen los salarios anuales de
siete supervisores de ventas de una pera y los de site de otra empresa.
Empresa 1 34.5 30.7 32.9 36 34.1 33.8 32.5
Empresa 2 34.9 27.5 31.6 39.7 35.3 33.8 31.7
Determine la media y mediana del conjunto de datos.
Aunque los conjuntos de datos presenten igual media, es evidente que los datos presentan
diferente dispersión sobre la media. Por ello se prefieren medidas de variabilidad que
permitan cuantificar la variabilidad de los datos.
Ejercicio
Observemos el siguiente conjunto de datos los cuales describen los salarios anuales de
siete supervisores de ventas de una pera y los de site de otra empresa.
Empresa 1 34.5 30.7 32.9 36 34.1 33.8 32.5
Empresa 2 34.9 27.5 31.6 39.7 35.3 33.8 31.7
Determine la media y mediana del conjunto de datos.
Aunque los conjuntos de datos presenten igual media, es evidente que los datos presentan
diferente dispersión sobre la media. Por ello se prefieren medidas de variabilidad que
permitan cuantificar la variabilidad de los datos.
Definición (Rango)
Es la diferencia entre la observación mayor y la menor.
R = xmáx − xmı́n
Definición (Varianza)
Es el promedio de los cuadrados de las desviaciones de los valores con respecto a la media
Varianza Poblacional Varianza Muestral
1
P
N
1
P
n
σ2 = N (Xi − µ)2 s2 = n−1 (xi − x̄)2
i=1 i=1
Observación
1 Aunque la varianza es una medida de dispersión muy utilizada, interpretarla es
complicado, ya que las unidades de la varianza son el cuadrado de las unidades de
medida.
2 La varianza y la desviación estándar tiene una limitación y es que frente a presencia
de datos atípicos, pueden verse afectados los cálculos.
3 Otra forma de expresar la varianza muestral es dada por la siguiente ecuación
!2
P
n
P
n P
n
i=1
xi
x2i − nx̄2 x2i − n
2 i=1 i=1
s = =
n−1 n−1
1 Introducción
2 Distribución de frecuencia
Datos Cualitativos
Datos Cuantitativos
4 Estadística descriptiva
Medidas de tendencia central
Medidas de localización
Medidas de variabilidad
5 Referencias
H. Yesid Rodríguez.
Estadística Descriptiva.
Ediciones USTA, 2012.
Mario F. Triola.
Estadística.
Pearson, 10 edition, 2009.