You are on page 1of 62

Unidad N°1: Análisis de datos

univariados
Profesor: Bricio Bouffanais
¿Qué es la Estadística?

Definición

Es una disciplina matemática que a través de recopilar, organizar,


presentar y analizar datos permite obtener información, del objeto en
estudio.

Algunos conceptos importantes

Población:
Colección o conjunto de personas, objetos o eventos que poseen
características comunes y cuyas propiedades serán analizadas.

Muestra:
Subconjunto representativo de la población que comparte una determinada
característica.
Estadística

Variable estadística:
Es cada una de las características o cualidades que poseen los
individuos de una población. Existen dos tipos: cualitativas y
cuantitativas.
Cualitativa nominal
No admiten un criterio de orden.
Por ejemplo: estado civil
(soltero, casado, divorciado, viudo).
• Cualitativas
Tienen características no numéricas.
Por ejemplo: color de pelo, sexo,
estado civil, etc.
Cualitativa ordinal
Admiten un criterio de orden.
Por ejemplo: evaluación de un servicio
(bueno, regular, malo)
Estadística

Variable estadística:
Cuantitativa discreta
Se les puede asociar un número
entero y es imposible fraccionar.
• Cuantitativas Por ejemplo: número de hijos,
número de automóviles.
Representan características que se
pueden expresar con un número.
Por ejemplo: edad, estatura, número Cuantitativa continua
de hijos, etc. Se les puede asociar cualquier
número real dentro de un intervalo.
Por ejemplo: peso, estatura, tiempo.
Estadística
La suma de las frecuencias
Tipos de frecuencias absolutas es igual al número
total de datos.

• Frecuencia absoluta fi
Número de veces que aparece un determinado dato en un estudio estadístico.
Generalmente se le denomina solo “frecuencia”.

• Frecuencia acumulada Fi
Suma de las frecuencias absolutas de todos los datos inferiores o iguales al valor
considerado.

• Frecuencia relativa fr
Cociente entre la frecuencia absoluta de un determinado valor y el número total de
datos. También puede expresarse como porcentaje.
Estadística

Tablas de distribución de frecuencias unidimensionales

• La construcción de una tabla depende del tipo de variable de estudio y la


cantidad de datos, entre otros factores.

• Es muy importante el interpretar adecuadamente la información


presentada en la tabla.

• Las tablas de datos para variables cuantitativas y para variables


cualitativas son similares, lo importante es identificar adecuadamente la
variable y las categorías de ésta.

• En caso de que la variable de estudio tenga un recorrido muy amplio


y, además se tengan muchos datos, es necesario entonces agrupar los
datos en intervalos de clase.
Estadística

Ejemplo: Temperaturas mínimas registradas durante el mes de


mayo en la ciudad de Santiago:

Temperatura Frecuencia Frecuencia Frecuencia


mínima fi acumulada Fi relativa
1° 1 1 1/31
2° 0 1 0/31
3° 1 2 1/31
4° 8 10 8/31
5° 9 19 9/31
6° 3 22 3/31
7° 4 26 4/31
8° 2 28 2/31
9° 0 28 Total de datos 0/31
10° 3 31 3/31

Fuente: www.Meteochile.cl
Estadística

Distribución de frecuencias
La distribución de frecuencias es una representación (muchas veces en forma de
tabla) de la muestra estadística, donde se asigna a cada dato su frecuencia
correspondiente. Tabla de frecuencias

Ejemplo: Temperatura
mínima (°C)
Frecuencia
Las temperaturas mínimas registradas durante
el mes de mayo en la ciudad de Santiago son 1° 1
las siguientes: 2° 0
3° 1
10°, 10°, 7°, 5°, 4°, 5°, 10°, 7°, 4°, 4°, 5°, 5°,
5°, 3°, 7°, 4°, 4°, 5°, 6°, 8°, 6°, 4°, 5°, 4° 8
1°, 4°, 5°, 7°, 8°, 6°, 4°, 5° 5° 9
6° 3
7° 4
8° 2
9° 0
10° 3
Estadística

Actividad
En conjunto con los compañeros de la asignatura, crear una base de datos con
las siguientes categorías: Rendimiento académico (leyenda, bueno, regular,
sobreviviendo) – ¿Con cuanta gente vive? - Situación sentimental (soltero,
pololeando, casado, comprometido, lanzado) – Bebida alcohólica favorita-
Estatura

Dato N° Rendimiento ¿Con Situación Bebida Estatura


académico cuanta sentimental alcohólica
gente vive? favorita
1
2
3



N
Estadística

Actividad
Realizar una tabla de datos para la variable: Situación sentimental. Desde la base
de datos del curso

Titulo del Gráfico


X: Situación 𝒇𝒊 𝒇𝒓 𝒇𝒓 % 𝑭𝒊 𝑭𝒓 𝑭𝒓 %
sentimental

Soltero

Lanzado

Pololeando

Comprometido

Casado

Fuente:
Estadística

Datos agrupados
Cuando se tiene una gran cantidad de datos, se distribuyen en
clases o categorías. Los datos agrupados son aquellos que se
encuentran clasificados dentro de intervalos o clases.

Ejemplo:
Número de datos
La tabla adjunta representa las edades de los integrantes de un a
pertenecientes
equipo deportivo, agrupadas en intervalos de edad. cada clase.

Muestra: Edad (años) Frecuencia


Integrantes del equipo deportivo.
[8 – 11] 16existen 7 integrantes cuyas
Variable: [12 – 15] 12edades están entre 20 y 23
Edad de los participantes. años
[16 – 19] 10
Clase: Edad [20 – 23] 7
[24 – 27] 4
Estadística

Datos agrupados
Ejemplo:
La tabla adjunta representa las edades de los integrantes de un
equipo deportivo, agrupadas en intervalos de edad.

Edad (años) Frecuencia Frecuencia acumulada Frecuencia relativa (%)


16  16 Aproximadamente

[8 – 11] 16 16   100 %  32,7%
el 20,4% de los
49
Frecuencia de la clase  49 
integrantes tienen
actual más todas las 12  12 entre  16 y 19 años.
[12 – 15] 12 28anteriores (16+12+10)49   49 100 %  24,5%
10  10 
[16 – 19] 10 38   100 %  20,4%
49  49 
Total de 7  7 
[20 – 23] 7 45   100 %  14,3%
integrantes 49  49 
4  4 
[24 – 27] 4 49   100 %  8,2%
49  49 
Estadística

Datos agrupados

Cada intervalo puede ser representado por un solo valor, llamado


marca de clase, que corresponde al promedio entre los extremos
del intervalo.

Ejemplo:
Usando el ejemplo anterior, la marca de clase de cada intervalo es
8  11
 9,5
Edad (años) Frecuencia Marca de clase2

[8 – 11] 16 9,5
[12 – 15] 12 13,5
[16 – 19] 10 17,5
[20 – 23] 7 21,5
[24 – 27] 4 25,5
Estadística

Datos agrupados

Construcción de intervalos de clases:

1. Calcular rango:
𝑅 𝑥 = max 𝑥𝑖 − min{𝑥𝑖 }

2. Determinar n° de intervalos a construir (k):


Se aconseja que 5 ≤ 𝑘 ≤ 15 , 𝑘 ∈ 𝑍 +
𝑘≈ 𝑛
𝑘 ≈ 1 + 3.322 log 𝑛 Regla de “Sturges”

3. Calcular el ancho o amplitud de los intervalos:


𝑅(𝑥)
𝐴:
𝑘
Estadística

Datos agrupados
Construcción de intervalos de clases:

4. Forma de los intervalos:

Los intervalos tendrán la forma:


[ 𝐿𝑖 , 𝐿𝑖 [ 𝑖 = 1, … , 𝑘

𝐿𝑖 : limite inferior del i esimo intervalo

𝐿𝑖 : limite superior del i esimo intervalo

5. Marca de clase :
𝐿𝑖 + 𝐿𝑖
𝑋𝑖′ =
2
La marca de clase es un valor representativo para cada intervalo
Estadística

Actividad
Realizar una tabla de datos agrupados por intervalos con la variable: Estatura de
los alumnos del curso.
Estadística

Gráficos Estadísticos
“Una imagen vale mas que mil palabras”

En un grafico podemos apreciar, de manera rápida, que ocurre con un conjunto de


datos de interés.

Consideraciones:
1. Debe ser sencillo y auto explicativo
2. Debe evitar distorsiones (no mentir con el gráfico):
- Elegir bien las escalas
- Elegir bien el origen
- Utilizar colores agradables a la vista

3. Debe llevar titulo, fuente y leyenda (en caso de ser necesario)


Estadística

Gráfico circular o de sectores (torta)


Se puede utilizar para todo tipo de variables. Por lo general con un recorrido no tan
amplio. Tiene la desventaja que no se puede apreciar el orden de la variables.
Comúnmente se representa la frecuencia relativa (porcentual) de cada dato.
Se debe dividir el circulo en tantos sectores como categorías tenga la variable
Ejemplo:
Los datos del ejemplo anterior se representan gráficamente de la siguiente
manera:
Temperaturas mínimas registradas
1° 2° 3° 4° 5° 6° 7° 8° 9° 10°

3% 0% 3% El ángulo de cada sector


0% es proporcional a la
10%
6%
frecuencia
correspondiente.
26%
13%

10%

29%
Fuente: www.Meteochile.cl
Estadística

Gráfico de barras
Se utiliza para presentar datos cualitativos o datos cuantitativos de tipo discreto.
Se construye colocando en el eje X las categorías o recorrido de la variable y en el
eje Y la frecuencia. La altura de cada barra corresponde a la frecuencia observada.
(todas las barras tienen igual ancho). Se puede apreciar el orden de la variable.
Ejemplo:
Los datos del ejemplo anterior se representan gráficamente de la
siguiente manera:
Temperaturas mínimas registradas
en mayo
10

8
Frecuencia

0
1° 2° 3° 4° 5° 6° 7° 8° 9° 10°
Temperatura (°C)

Fuente: www.Meteochile.cl
Estadística

Actividad
Realizar una tabla de datos y un gráfico de barra para la variable: Cantidad de
integrantes en su hogar. Construir, además, un grafico de torta para la variable
situación sentimental.
Estadística

Histograma (barras continuas)


Los datos están agrupados en intervalos de clase, por lo tanto, es exclusivo para
variables cuantitativas).
Para construirlo se debe ubicar en el eje X los límites de cada uno de los intervalos
y en el eje Y las frecuencias. Luego, se levantan las barras contiguas con altura
proporcionales a las frecuencias de cada intervalo.

Actividad
Con la tabla de frecuencias agrupadas por intervalos de la estatura de
los alumnos del curso, realizada anteriormente, crear un Histograma
Estadística

Polígono de frecuencias
La construcción de un polígono de frecuencias es similar al grafico anterior. En el
eje X ubicamos cada intervalo con sus respectivas marcas de clase y en el eje Y
ubicamos la frecuencia.
Luego marcamos mediante “puntos” las frecuencias de cada marca de clase y a
continuación unimos mediante líneas lo puntos consecutivos. No se debe olvidar
considerar un intervalo adicional al inicio y al termino de los intervalos para
terminar y empezar el polígono.
Actividad
Hacer un polígono de frecuencias a partir del gráfico anterior.
Estadística

Tarea

1. Averiguar que es una Ojiva y hacerla para los datos de la estatura.

2. Traer un recorte extraído desde un diario en donde se pueda apreciar un


gráfico mal hecho.
Medidas de Resumen
Estadística

Medidas de resumen
Son valores o índices que resumen la información extraída de una muestra o
población, permitiéndonos describir como se comportan los datos.

- Si los datos son de muestras, entonces las medidas de resumen reciben el


nombre de “estadísticos”

- Si los datos son de población, entonces las medidas de resumen se llaman


“parámetros”

Los estadísticos nos permiten estimar los parámetros


Podemos distinguir tres tipos:
a) Medidas de tendencia central y posición: Valor hacia cual tienden o se
aglomeran los datos

b) Medidas de dispersión: Variabilidad de los datos respecto, generalmente, a


una medida de tendencia central.

c) Medidas de forma: Indican simetría o asimetría de la curva de distribución de


los datos
Medidas de tendencia central

Definición

Moda

Medidas de
Mediana
tendencia central

Promedio
(media aritmética)
Medidas de tendencia central

Moda
La moda de una serie de datos es aquel valor que se presenta con
mayor frecuencia, es decir, es el valor que más se repite.
La moda puede no existir y si existe, puede no ser única.
Notación: Mo(x)

Ejemplo 1: En la siguiente serie de datos ¿cuál crees que es la moda?


9, 2, 5, 5, 10, 11, 2, 2, 17, 2
La moda es 2, y su frecuencia es 4.

Ejemplo 2: ¿Cuál será la moda en la siguiente serie de datos?


1, 3, 11, 5, 3, 11, 1, 5, 18, 18
Todos los datos tienen igual frecuencia, por lo cual la muestra NO
tiene moda.
Medidas de tendencia central

Moda

Cada una con


Ejemplo 3: La siguiente serie de datos, es bimodal, frecuencia 5
tiene dos modas, 4 y 3.

1, 3, 3, 4, 3, 4, 8, 4, 9, 3, 4, 7, 6, 4, 3

Nota: Se puede hallar la moda para variables cualitativas y cuantitativas.


Medidas de tendencia central

Moda en datos no agrupados


Ejemplo:
En la siguiente tabla de frecuencias, se presentan las temperaturas mínimas
registradas durante el mes de mayo en la ciudad de Santiago. ¿Cuál fue la
moda de las temperaturas mínimas registradas?

Temperatura Frecuencia
1° 1
2° 0
La moda es 5° y su
frecuencia es 9 3° 1
4° 8
Se interpreta
5° 9
6° 3 La temperatura mínima mas
7° 4 frecuente durante el mes de
8° 2 Mayo fueron 5°
9° 0
10° 3
Medidas de tendencia central

Moda en datos agrupados


El intervalo modal (o clase modal) corresponde al intervalo que tiene
la mayor frecuencia.
Ejemplo: mayor
frecuencia
Intervalo Edad (años) Frecuencia
modal [8 – 11] 16
[12 – 15] 12
[16 – 19] 10
[20 – 23] 7
[24 – 27] 4

En este caso, es [8 – 11].

Nota: Esto NO significa que en ese intervalo se encuentre la moda de la


muestra.
Medidas de tendencia central

Moda en datos agrupados

¿Cómo calculamos la moda si los datos están agrupados en intervalos?

Primero debemos hallar el intervalo modal


Luego debemos aplicar la siguiente formula:

𝑓𝑖+1
𝑴𝒐 𝑥 = 𝐿𝑖 + ∙𝐴
𝑓𝑖+1 + 𝑓𝑖−1

En donde:
𝐿𝑖 ∶ Limite inferior del intervalo modal
𝑓𝑖+1 : Frecuencia absoluta posterior del intervalo modal
𝑓𝑖−1 : Frecuencia absoluta anterior al intervalo modal
A : amplitud del intervalo

Actividad: Hallar la moda desde la tabla de datos agrupados por


intervalos de la diapositiva anterior
Medidas de tendencia central


Promedio (o media aritmética) 𝒙

Es la suma de todos los datos, dividida por el número de datos.

Ejemplo 1:
La duración, en horas, de 8 ampolletas de cierto tipo son los siguientes:
650 – 556 – 722 – 478 – 570 – 660 – 814 – 670

Luego, el promedio (o media aritmética) es:

650 + 556 + 722 + 478 + 570 + 660 + 814 + 670


x= 8
x = 640

Nota: El promedio se puede hallar solo para variables cuantitativas.


Medidas de tendencia central


Promedio (o media aritmética) 𝒙

Ejemplo 2:
En la siguiente tabla de frecuencias, se presentan
Temperatura Frecuencia
las temperaturas mínimas registradas durante el mínima fi
mes de mayo en la ciudad de Santiago.
1° 1
2° 0
¿Cuál fue el promedio de las temperaturas 3° 1
mínimas registradas? 4° 8
5° 9
6° 3
7° 4
8° 2
9° 0
10° 3
Medidas de tendencia central


Promedio (o media aritmética) 𝒙
x1  f1  x 2  f2  x 3  f3  x 4  f4 ...
En general: x
n
Con: Temperatura
Frecuencia
xi : dato mínima (°C)
fi
xi
fi : frecuencia
1 1
n : total de datos
2 0
3 1
11 2  0  3 1 4  8  5  9  6  3  7  4  8  2  9  0  10  3
x 4 8
31 5 9
1 3  32  45  18  28  16  30
x 6 3
31 7 4
8 2
173
x 9 0
31 10 3

x  5,58...
Medidas de tendencia central

ഥ (en datos agrupados)


Promedio (o media aritmética) 𝒙
El promedio se determina a partir de la frecuencia y la marca de
clase de cada intervalo.
Ejemplo:
La tabla adjunta representa las edades de un equipo deportivo, agrupadas en
intervalos. ¿Cuál es el promedio de las edades, obtenido a partir de la marca de
clase?
Multiplicamos por la marca obtenemos
la frecuencia Frecuencia
f1 Marca de clase de clase
Frecuencia
x1 · Marca de fclase
1 · x1= 152
Edad (años)
Multiplicamos por la marca obtenemos
(fi) (x’i) (fi · x’i)
la frecuencia f2 de clase x’2 f2 · x’2= 162
[8 – 11] 16 9,5 152
[12 – 15] 12 13,5 162
[16 – 19] 10 17,5 175
[20 – 23] 7 21,5 150,5
[24 – 27] 4 25,5 102
Total 49 741,5
Medidas de tendencia central

ഥ (en datos agrupados)


Promedio (o media aritmética) 𝒙

Frecuencia Marca de clase Frecuencia · Marca de clase


Edad (años)
(fi) (xi) (fi · xi)
[8 – 11] 16 9,5 152
La sumatoria del producto
[12 – 15] 12 13,5 162
entre cada frecuencia y su
…se divide por el total
de[16 – 19]
datos 10
de la muestra 17,5 175 marca de clase…
[20 – 23] 7 21,5 150,5
[24 – 27] 4 25,5 102
Total 49 741,5

741,5
x  15,132...a ños
49
Medidas de tendencia central

x1  f1  x 2  f2  x 3  f3  x 4  f4 ...
En general: x
n
Con:
xi : marca de clase
fi : frecuencia
n : total de datos

Aplicando la fórmula en el ejemplo anterior resulta:


16  9,5  12 13,5  10 17,5  7  21,5  4  25,5
x
49
152  162  175  150,5  102 Interpretación
x
49
741,5 Si todos los participantes del
x
49 equipo deportivo tuvieran la misma
edad, esta sería 15, 132 años.
x  15,132...
Nota: Este resultado es un valor aproximado del valor real, a falta de
mayor precisión en los datos.
Medidas de tendencia central
Cuando hablamos de la

Promedio (o media aritmética) 𝒙 media poblacional usamos
el símbolo 𝜇
En general se tiene que:

Para datos sueltos: Para datos en tablas: Para datos en tablas agrupadas:

σ𝑛𝑖=1 𝑥𝑖 σ𝑘𝑖=1 𝑓𝑖 ∙ 𝑥𝑖 σ𝑘𝑖=1 𝑓𝑖 ∙ 𝑥𝑖 ′


𝑥= 𝑥= 𝑥=
𝑛 𝑛 𝑛

En donde:
𝑥𝑖 ∶ Dato de la posición i-esima
𝑓𝑖 : Frecuencia absoluta de la i-esima posición
𝑥𝑖 ′ : Marca de clase de la i-esima
𝑛 : Total de datos
𝑘 ∶ total de categorías, intervalos o clases

Nota: El promedio es sensible a los datos extremos (atípicos, outliers).


La solución ante esto es “podar la muestra” y calcular el promedio
solo con datos similares.
Medidas de tendencia central

Mediana (o percentil 50)


Corresponde al valor central de todos los datos de una muestra, ordenados
en forma ascendente o descendente.
Cuando la muestra presenta una cantidad par de datos, la mediana
corresponderá al promedio de los dos datos centrales.

Ejemplo 1:
La duración, en horas, de 8 ampolletas de cierto tipo son las siguientes:
650 – 556 – 722 – 478 – 570 – 660 – 814 – 670

¿Cuál es la mediana de la duración de las ampolletas ?

Nota: La mediana se puede hallar solo para variables cuantitativas.


Medidas de tendencia central

Datos
centrales
Solución: Primero, ordenaremos la duración de menor a mayor.

478 – 556 –570 – 650 – 660 – 670 – 722 – 814

Mediana (o percentil 50) = 650 + 660 = 655


2

Nota: Como el total de datos es par, la mediana es el promedio de los dos


datos centrales.
Medidas de tendencia central

Ejemplo 2:
¿Cuál será la mediana de las siguientes puntuaciones en un juego?

120 – 114 – 189 – 120 – 107 – 150 – 132


Dato
central
Solución: Primero, ordenaremos los datos de menor a mayor.
107 – 114 – 120 – 120 – 132 – 150 – 189

Mediana o percentil 50 = 120

Nota: Como el total de datos es impar, la mediana es solo


el valor central.
Medidas de tendencia central

Ejemplo 3:
En la siguiente tabla de frecuencias, se presentan las temperaturas mínimas
registradas durante el mes de mayo en la ciudad de Santiago. ¿Cuál es la
mediana de las temperaturas mínimas registradas?

Temperatura Frecuencia Frecuencia


mínima fi acumulada Fi
1° 1 1 Como hay 31 datos en
2° 0 1 total, la mediana se
encuentra en la
La mediana es 5° 3° 1 2 posición 16.
4° 8 10
5° 9 19
6° 3 22
7° 4 26
Interpretación
8° 2 28 El 50% de los días la
9° 0 28 temperatura mínima fue
menor o igual a 5°
10° 3 31
Medidas de tendencia central

Mediana en datos agrupados


El intervalo donde se encuentra la mediana se determina
ubicando la posición central, de acuerdo a las frecuencias
acumuladas.
Ejemplo:
Edad (años) Frecuencia Frecuencia acumulada
Datos de posición
Intervalo donde se 17 al 28
encuentra la [8 – 11] 16 16
mediana
[12 – 15] 12 28
[16 – 19] 10 38
[20 – 23] 7 45
[24 – 27] 4 49

Como hay 49 datos en total, la mediana se encuentra en la


posición 25. Luego, el intervalo donde se encuentra la mediana
es [12 – 15].
Medidas de tendencia central

Mediana en datos agrupados

¿Cómo calculamos la mediana si los datos están agrupados en intervalos?

Primero debemos hallar el intervalo mediano


Dato
Luego debemos aplicar la siguiente formula: La ojiva nos permite
identificar fácilmente
𝑛
(2 − 𝐹𝑖−1 ) la mediana
𝑴𝑒 𝑥 = 𝐿𝑖 + ∙𝐴
𝑓𝑖
En donde:
𝐿𝑖 ∶ Limite inferior del intervalo mediano
𝑓𝑖+1 : Frecuencia absoluta del intervalo mediano
𝐹𝑖−1 : Frecuencia absoluta acomulada anterior al intervalo modal
A : amplitud del intervalo
𝑛 : tamaño muestral
Actividad: Hallar la mediana desde la tabla de datos agrupados por
intervalos de la diapositiva anterior.
Medidas de tendencia central

Actividad

Desde la base de datos del curso, calcular cada una de las medidas de
tendencia central (si es posible) para las variables estudiadas, deben incluir
sus respectivas interpretaciones.
Medidas de posición
Medidas de posición
Percentiles

Se denomina Percentil al valor bajo el cual se encuentra un


cierto porcentaje de los datos, cuando estos están ordenados de
menor a mayor de acuerdo a la columna de frecuencia porcentual
acumulada.

Los percentiles dividen la muestra en 100 partes iguales, con


1% de los datos cada una.

Ejemplo:
El percentil 35 corresponde al valor bajo el cual se encuentra el
35% de los datos.
Medidas de posición
Percentiles

Los deciles dividen a la muestra en 10 partes iguales, con 10%


de los datos cada una. Por ejemplo, el decil 6 corresponde al
valor bajo el cual se encuentra el 60% de los datos.

Los cuartiles dividen a la muestra en 4 partes iguales, con 25%


de los datos cada una. Por ejemplo, el cuartil 3 corresponde al
valor bajo el cual se encuentra el 75% de los datos.

Nota: La mediana de una muestra corresponde al percentil 50, al decil


5 y al cuartil 2.
Medidas de posición
Percentiles

Ejemplo: La tabla adjunta representa los puntajes de un grupo de


alumnos en una prueba.
Frecuencia porcentual
Puntaje Frecuencia Frecuencia porcentual
acumulada
5 6 15% 15%
10 2 5% 20%
15 6 15% 35%
20 14 35% 70%
25 12 30% 100%

El percentil 45 (45%) es 20, ya que 35% < 45% < 70%

El decil 8 (80%) es 25, ya que 70% < 80% < 100%

El cuartil 1 (25%) es 15, ya que 20% < 25% < 35%


Medidas de posición
Diagrama de cajas

Rango intercuartil
Dato menor Dato mayor

Cuartil 1 Cuartil 3
mediana

Rango intercuartil = cuartil 3 – cuartil 1

Dato
Esto también es conocido
como el resumen de los
cinco números.
Medidas de posición
Diagrama de cajas

Ejemplo:

22 dato mayor, 22

Cuartil 3 es 20

Mediana 15
Rango intercuartil:
20 – 8 = 12

Cuartil 1 es 8

3 dato menor, 3
Medidas de posición
Percentiles

En general para calcular percentiles primero debemos ordenar


la muestra, luego calcular la posición del percentil requerido:
𝑛∙𝑘
𝑘 = 1, … , 99
100

Luego:
𝑛∙𝑘
𝑃𝑘 = 𝑋𝑖 𝑡𝑎𝑙 𝑞𝑢𝑒 𝐹𝑖 ≥ .
100

Si los datos están agrupados en intervalos:

𝑛∙𝑘
( − 𝐹𝑖−1 ) ∙ 𝐴
𝑃𝑘 = 𝐿𝑖 + 100
𝑓𝑖

Todos estos cálculos son respectos al intervalo que contiene al


percentil requerido.
Medidas de posición

Actividad
Desde la base de datos del curso, realizar un box-plot para la variable
estatura.
Medidas de Dispersión

“Son valores que cuantifican que tan


lejos o que tan cerca están los datos
respecto de una medida de tendencia
central”
Medidas de dispersión
Rango de un conjunto de datos

Corresponde a la diferencia entre el valor máximo y el valor mínimo


de un grupo de datos.
En caso de datos agrupados, corresponde a la diferencia entre el
límite superior del intervalo final y el límite inferior del intervalo inicial.

Ejemplo: Límite inferior


intervalo inicial
mínimo
Puntaje Frecuencia Edad (años) Frecuencia
5 6 [8 – 11] 16
10 2 [12 – 15] 12
15 6 Límite superior
[16 – 19] 10
máximo intervalo final
20 14 [20 – 23] 7
25 12 [24 – 27] 4

El rango es (25 – 5) = 20 puntos. El rango es (27 – 8) = 19 años.


Medidas de dispersión
Varianza de un conjunto de datos

Es el promedio de los cuadrados de las diferencias entre los datos


y el promedio del conjunto.

Ejemplo: Sea el conjunto {3, 5, 10}

3  5  10 18
El promedio del conjunto es x   6
3 3
Los cuadrados de las diferencias entre los datos y el promedio son:

(3 – 6)² = (– 3)² = 9
(5 – 6)² = (– 1)² = 1

(10 – 6)² = 4² = 16
Medidas de dispersión
Varianza de un conjunto de datos

El promedio de estos valores es

9  1 16 26
σ2  
3 3

Luego, la varianza del conjunto {3, 5, 10} es

26
σ2   8,666...
3
Medidas de dispersión
Varianza de un conjunto de datos

Notación:
𝑆2
Varianzas muestrales
𝑠2

𝜎 2 ∶ varianza poblacional

¿Cómo se calcula?

𝑛 2
2
σ𝑖=1 𝑋𝑖 − 𝑥ҧ ∙ 𝑓𝑖 σ𝑛𝑖=1 𝑋𝑖 − 𝑥ҧ 2
∙ 𝑓𝑖
𝑆 = 𝑠2 =
𝑛−1 𝑛

𝑥𝜎𝑛−1 𝑥𝜎𝑛 𝑛 ≥ 300

El problema de la varianza es que la unidad de medida de los


datos es el cuadrado de la unidad de medida de 𝑋
Medidas de dispersión
Desviación estándar de un conjunto de datos
Corresponde a la medida del grado de dispersión de los datos con
respecto al valor promedio. Se calcula como la raíz cuadrada de la
varianza del conjunto.

Ejemplo: Sea el conjunto {3, 5, 10}

26
La varianza del conjunto {3, 5, 10} es: σ2 
3

Luego, la desviación estándar del conjunto {3, 5, 10} es

26
σ  σ2   2,944
3
Medidas de dispersión
Desviación estándar de un conjunto de datos
Ejemplo: Se determinó que la desviación estándar del conjunto
que se presenta a continuación, era aproximadamente 2,944.

3 5 10

En los siguientes conjuntos, se representa la medida de la dispersión de los


datos. La desviación estándar ¿sería mayor o menor a la del caso inicial?

Desviación estándar ≈ 3,091


3 4 10

Desviación estándar ≈ 2,867


3 6 10

Desviación estándar ≈ 2,944


3 8 10

Desviación estándar ≈ 2,944


14 16 21
Medidas de dispersión
Desviación estándar de un conjunto de datos
La desviación estándar viene a resolver el problema de la unidad
de medida de la varianza.
Es muy importante que un promedio vaya acompañado de su
desviación estándar para su correcta interpretación.

Actividad: Se medió el n° de respuestas correctas en una prueba de 6


preguntas en las secciones A, B y C. Compare el rendimiento de los cursos.
Hacer un grafico de barras donde se puedan apreciar los 3 cursos
simultáneamente.
X: n° de respuestas 𝒇 𝒂 𝒇𝒃 𝒇𝒄
correctas
1 1 16 6
2 2 3 7
3 17 1 7
4 17 1 7
5 2 3 7
6 1 16 6
Medidas de dispersión
Coeficiente de variación
𝑠
𝐶. 𝑉 𝑋 =
𝑥ҧ

Nos permite comparar grupos de datos que tengan diferentes


unidades de medida y se suele expresar como un porcentaje. No
tiene unidad de medida.
Se aconseja que se utilice cuando el promedio diferente de 0 y
tampoco muy cercano a el.

Cuando el 𝐶. 𝑉 𝑋 sea alto diremos que los datos son mas


heterogéneos
Cuando el 𝐶. 𝑉 𝑋 sea bajo diremos que los datos son mas
homogéneos.

You might also like