You are on page 1of 49

PROBABILIDAD Y

ESTADISTICA

GRAFICOS
ESTADISTICOS
Gilberth Pesantes Calderón
CONTENIDO

• Introducción.
• Historia de los gráficos
estadísticos.
• Definición.
• Partes de un gráfico.
• Tipos de gráficos.
INTRODUCCIÓN

La presentación de datos mediante gráficos es algo que se realiza a diario y en


forma casi natural por personas de las más diferentes profesiones. La revista
americana LIFE tenía como consigna “Una foto vale más que mil
palabras”.

En comparación con otras formas de presentación de los datos, los gráficos


nos permiten, de una mirada, comprender el comportamiento de los datos,
aún de datos muy complejos, por lo tanto ahorran tiempo al analista de
información.

Los gráficos estadísticos nos permiten usar nuestra habilidad para


visualmente procesar información de un gráfico. Esto nos permite hacer
juicios respecto a la variabilidad, escala, patrones y tendencias de los datos
Definición de Gráfico Estadístico
En estadística denominamos gráficos a aquellas imágenes que, combinando la
utilización De sombreado, colores, puntos, líneas, símbolos, números, texto y un
sistema De referencia (coordenadas), permiten presentar información cuantitativa.

El gráfico es la representación de la
información estadística, con el fin de
obtener una impresión visual global
del material presentado, que facilite
su rápida comprensión.

La utilidad De los gráficos es doble,


ya que pueden servir no sólo como
sustituto a las tablas, sino que
también constituyen el medio más
efectivo no sólo para describir y
resumir la información, sino también
para analizarla.
Partes de un Gráfico
Al igual que las tablas estadísticas, los gráficos estadísticos deben tener un
título y una explicación de QUE, DONDE y CUANDO se obtuvo la
información.

PARTES DE UN GRÁFICO

• El título principal
• Título secundario o subtítulo
• El gráfico propiamente dicho
• Fuente
• Las notas explicativas
• Interpretación

Fuente: Enaho 2002-IV trimestre.


Elaboración: Centro de Investigación de Enaho
Clases de Gráficos

Barras

Pictogramas Circular

Bidimensionales Gráficos Líneas

Ojivas Histogramas

Polígono de frecuencias
Clases de Gráficos
Barras Llamado también gráfico de columnas
Es un tipo de gráfico estadístico que se utiliza
Circular para variables cualitativas y discretas.
En el eje X se sitúan:
Líneas · Las modalidades de la variable cualitativa.
· Los valores de la variable cualitativa discreta.
Histogramas
y sobre ellos se levantan barras cuya altura sea
Polígono de frecuencias proporcional a sus frecuencias.

Ojivas
Bidimensionales

Pictogramas
Clases de Gráficos
Barras
Circular Llamado también gráfico de sectores
Es un gráfico empleado fundamentalmente para
Líneas variables cualitativas. Las modalidades se
representan en un círculo dividido en sectores.
Histogramas
La amplitud de cada sector, en grados, se
Polígono de frecuencias obtiene multiplicando la frecuencia relativa de
cada modalidad o valor por 360º.
Ojivas
Bidimensionales

Pictogramas
Clases de Gráficos
Barras
Circular
Líneas Muy utilizado en series temporales
Normalmente usados para estudiar la evolución
Histogramas de uno o varios fenómenos a lo largo del tiempo.
Esta última variable (t) se representa en el eje
Polígono de frecuencias horizontal, mientras que los datos estudiados se
miden con referencia al eje vertical.
Ojivas
Bidimensionales

Pictogramas
Clases de Gráficos
Barras
Circular
Líneas

Histogramas Llamado también rectángulos apilados


Se utiliza con variables continuas, o agrupadas
Polígono de frecuencias en intervalos, representando en el eje X los
intervalos de clase y levantando rectángulos de
Ojivas base la longitud de los distintos intervalos y de
altura tal que el área sea proporcional a las
Bidimensionales
frecuencias representadas.
Pictogramas
Clases de Gráficos
Barras
Circular
Líneas

Histogramas

Polígono de frecuencias Se construye sobre un histograma


Es una línea poligonal que une los vértices
Ojivas superiores de las barras de un diagrama de
barras, o los puntos medios de las bases
Bidimensionales superiores de los rectángulos de un histograma.
Pictogramas
Clases de Gráficos
Barras
Circular
Líneas

Histogramas

Polígono de frecuencias
Llamado también polígono de frecuencias acumuladas
Ojivas
Una ojiva es la representación de las
Bidimensionales frecuencias acumuladas de un conjunto de
datos cuantitativos. Se puede hacer tanto con
Pictogramas los datos agrupados en intervalos o con los
datos sin agrupar.
Clases de Gráficos
Distribución de los hogares en el área urbana según su

Barras
percepción del nivel de vida de los hogares de su
localidad y nivel de pobreza

Circular 70.0%
66.0% 65.2% 68.3%

60.0%

Líneas 50.0%
40.0%
Mejoró
29.5% 29.1% 25.4%
Está igual
30.0% Empeoró
Histogramas 20.0%
4.6% 5.6% 6.2%
10.0%
0.0%
Polígono de frecuencias Pobre
extremo
Pobre no
extremo
No pobre

Ojivas
Bidimensionales Aplicado para Tablas de doble entrada
Permiten representar las series de datos en dos
Pictogramas dimensiones o sea los valores se representan
alineados en dos ejes perpendiculares: el eje
horizontal X y el eje vertical Y. Son
aplicaciones estadísticas al estudio en conjunto
de dos variables cualitativas
Clases de Gráficos
Barras
Circular
Líneas

Histogramas

Polígono de frecuencias

Ojivas
Bidimensionales

Pictogramas Son gráficos similares a los gráficos de barras


Son gráficos con dibujos alusivos al carácter
que se está estudiando y cuyo tamaño es
proporcional a la frecuencia que representan;
dicha frecuencia se suele representar. Se usan
para lograr el interés masivo del público.
Pirámides de Población

• Cuando se realizan representaciones


correspondientes a edades de
población, cambiamos el eje Y por el
eje X para obtener las llamadas
pirámides de población , que no son
más que 2 histogramas a izquierda y
derecha, para hombres y mujeres.

• La pirámide de población nos permite


estudiar la estructura demográfica de la
población en un momento concreto. Cada
barra representa a los distintos grupos de
población y nos indica la frecuencia con
que podemos encontrar personas de esas
características concretas.
Cartogramas
Son gráficos realizados sobre mapas, en los que aparecen indicados sobre las
distintas zonas cantidades o colores de acuerdo con el carácter que representan.
Diagrama de Tallos y Hojas
• Ventajas:
Es más fácil de construir a mano.
Facilita el ordenamiento de los datos.
Permite ver la distribución de los datos dentro de cada intervalo como patrones
dentro de los datos.

• El diagrama de tallos y hojas es otra forma de representación visual de una serie de


valores, conformados por lo menos de dos dígitos.
• Para su construcción los números se dividen en dos partes, una llamada de tallo,
formada por uno o más dígitos principales y la otra la hoja, que contiene el resto de
los dígitos.
Ejemplo: Trace un diagrama de tallo y hoja para los siguientes datos.
70, 72, 75, 64, 58, 83, 80, 82, 76, 75, 68, 65, 57, 78, 85, 72
GRAFICO DE CAJAS Y BIGOTES
(BOXPLOT)

GRÁFICOS DE
CONTROL DE CALIDAD
DIAGRAMA DE CAUSA Y EFECTO

DIAGRAMA DE PARETO
PROBABILIDAD Y
ESTADISTICA

MEDIDAS DE TENDENCIA
CENTRAL Y DE POSICION

Gilberth Pesantes Calderón


¿Qué son medidas de tendencia central?
 Se denominan también medidas de
centralización, son aquellos valores
numéricos en torno a los cuales se agrupan,
en mayor medida, los valores de una
variable e indican el centro de la
distribución de los datos. Es el valor
representativo de estos.
 Al estudiar la información estadística de los
histogramas y polígonos de frecuencias, se
puso en evidencia que:

 Algunos de estos valores son mas comunes que otros, además se observó una clara
agrupación de los valores mas frecuentes, haciendo que las curvas representativas
adquieran formas de campana.
 Por lo general, la mayor frecuencia esta en al parte central de las gráficas, de aquí que
deriva el nombre de medidas de tendencia central.
Tipos de Medidas de Centralización

1 Media Aritmética

2 Moda

3 Mediana

4 Cuartiles

5 Deciles y Percentiles
1. Media Aritmética para datos no
agrupados
 Se define como el “centro de gravedad” de la distribución estadística de una variable.
Esla medida de posición mas utilizada debido a que en forma empírica la hemos
utilizado cuando determinamos el promedio aritmético de calificaciones semestrales;
también se le conoce con el nombre de valor medio.
 Nos sirve para determinar el promedio matemático de un conjunto de datos, y posee
como características la unicidad, facilidad de cálculo y la influencia negativa que
ejercen los valores extremos en su determinación. Su formula de cálculo es:


i 1
Xi
X1  X 2  ...........  X n
X 
n n
1.1.Observaciones sobre
la Media Aritmética

 La media se puede hallar sólo para variables cuantitativas.


La media es independiente de las amplitudes de los intervalos.
 La media es muy sensible a las puntuaciones extremas.

 La media no se puede calcular si hay un intervalo o clase abierto (con una


amplitud indeterminada)
 La media es un estadístico “suficiente” porque usa toda la información de la
muestra.
2. LA MODA PARA DATOS NO
AGRUPADOS
Es una medida de tendencia central que es poco usada porque puede no existir y muy a
menudo puede no ser un valor único. La moda se define como el valor que ocurre con
mayor frecuencia en un conjunto de datos, si existe un solo valor máximo decimos que es
unimodal, si tiene dos o mas valores con la misma frecuencia máxima decimos que el
conjunto es bimodal, trimodal, etc. Se representa por las letras Mo.

Ejemplo:
4, 5, 7, 8, 8 , 10, 12, 15

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27

7, 12, 15, 18, 25, 30, 31, 38


2.1.Observaciones sobre la moda

 La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de


intervalos, y relativa).
 La moda tiene la ventaja de no ser afectada por valores extremos.
 Al igual que la mediana, puede ser calculada en distribuciones con intervalos
abiertos.

 En muchas series de datos no hay moda porque ningún valor aparece más de una
vez.
 No es un estadístico aceptable porque puede variar ampliamente de una muestra a
otra.
3. MEDIANA PARA DATOS NO
AGRUPADOS
Se define como el valor de la variable que divide la distribución en dos partes
iguales. Es decir, el 50% de los datos es menor o igual a él y el restante 50% es
mayor o igual a él. Se denota Me
3. Calculo de la Mediana
para datos no agrupados

La mediana (Me) de un conjunto de datos x1,x2,,xn, es el valor xi que se encuentra en


el punto medio o centro, cuando se ordenan los valores de menor a mayor. Es el valor que
divide al conjunto ordenado de datos, en dos subconjuntos con la misma cantidad de
elementos.

 Paso 1.- Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,…,n
 Paso 2.- Identificar si n es impar o par
3.2.Observaciones sobre la Mediana

 Se puede utilizar para datos cualitativos ordinales y para datos cuantitativos


 La mediana no está influenciada por los valores extremos ya que su
determinación se apoya en los valores centrales de la variable

Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, a


menos que la mediana caiga en una de las clases abiertas
No es un estadístico “suficiente” ya que no aprovecha toda la información de la
muestra, pero es un parámetro bueno para representar el valor típico de una
población.
COMPARACIÓN ENTRE LA MEDIA
MEDIANA Y LA MODA
 Las distribuciones simétricas tienen el mismo valor para la media, la mediana y la
moda.
 En una distribución con sesgo positivo, la moda se halla en el punto más alto de la
distribución, la mediana está hacia la derecha de la moda y la media más a la
derecha. Es decir Mo < Me < x
 En una distribución con sesgo negativo, la moda es el punto más alto, la mediana
está a la izquierda de la moda y la media está a la izquierda de la mediana. Es
decir, x < Me < Mo

 Cuando la población tiene una distribución sesgada, con frecuencia la mediana


resulta ser la mejor medida de posición, debido a que está siempre entre la media
y la moda. La mediana no se ve altamente influida por la frecuencia de aparición
de un solo valor como es el caso de la moda, ni se distorsiona con la presencia de
valores extremos como la media.
4. Media Aritmética para datos agrupados

Se utilizará cuando los datos están distribuidos en una tabla de frecuencias.


Luego se calcula la media aritmética aplicando la formula:

n Donde:

n y i i
ni = frecuencia absoluta

x i 1 yi = Marca de clase
n n = número de observaciones
5. Moda para datos agrupados

Cuando se trabajan con tablas de frecuencias de intervalos, la formula para


calcular la moda es:
 1 
M o  LI  c j  
  2  1 
Donde:
LI : Límite inferior de la clase modal
cj: Amplitud del intervalo de la clase modal
n : número total de observaciones o datos
Δ1= nj – nj-1 y Δ2= nj – nj+1
nj-1: Frecuencia absoluta anterior a la clase modal.
nj+1: Frecuencia absoluta posterior a la clase modal.
6. Mediana para datos agrupados
Cuando se trabajan con tablas de frecuencias de intervalos, la formula para
calcular la mediana es:
 n 
 2  N j 1 
Me  LI  c j  
N
 j  N j 1 
 
Donde:
LI : Límite inferior de la clase mediana
cj: Amplitud del intervalo de la clase mediana
n : número total de observaciones o datos
Nj : Frecuencia acumulada de la clase mediana
Nj-1:Frecuencia acumulada anterior de la clase mediana.
6. Mediana para datos agrupados
Cuando se trabajan con tablas de frecuencias de intervalos, la formula para
calcular la mediana es:

 n 
 2  N j 1 
Me  LI  c j  
N
 j  N j 1 
 
Donde:
LI : Límite inferior de la clase mediana
cj: Amplitud del intervalo de la clase mediana
n : número total de observaciones o datos
Nj : Frecuencia acumulada de la clase mediana
Nj-1:Frecuencia acumulada anterior de la clase mediana.
7. Cuartiles
Son estadígrafos que dividen a una distribución de frecuencias en cuatro
porciones iguales o intervalos. Se representan por Q1 Q2 Q3.

 nk 
 4  N j 1 
Qk  LI  c j   k  1, 2, 3
N
 j  N j 1 
 
Donde:

LI : Límite inferior de la clase cuartil


cJ : Amplitud del intervalo de la clase cuartil
n : número total de observaciones o datos
N j : Frecuencia acumulada de la clase cuartil
N j 1 :Frecuencia acumulada anterior de la clase cuartil
k : k-ésimo cuartil
8. Deciles
Son 9 números que dividen a los datos en 10 pares iguales, cada uno con el 10% de los
datos

 nk 
 10  N j 1 
Dk  LI  c j  k  1, 2, 3, ...9

N
 j  N j 1 
 

Donde:
LI : Límite inferior de la clase decil
cJ : Amplitud del intervalo de la clase decil
n : número total de observaciones o datos
N j : Frecuencia acumulada de la clase decil
N j 1 :Frecuencia acumulada anterior de la clase decil
k : k-ésimo decil
9. Percentiles
Son 99 números que dividen a los datos en 100 partes iguales, cada uno con el
1% de los datos

 nk 
 100  N j 1 
Pk  LI  c j   k  1, 2, 3, ...99
N
 j  N j 1 
 
Donde:
LI : Límite inferior de la clase percentil
cJ : Amplitud del intervalo de la clase percentil
n : número total de observaciones o datos
N j : Frecuencia acumulada de la clase percentil
N j 1 :Frecuencia acumulada anterior de la clase percentil
k : k-ésimo percentil
PROBABILIDAD Y
ESTADISTICA

MEDIDAS DE
DISPERSION

Gilberth Pesantes Calderón


CONCEPTO

 Las medidas de dispersión miden el grado de cercanía o lejanía de las


puntuaciones respecto a la media
 Permiten describir el grado de homogeneidad / heterogeneidad de la
distribución de una variable.
 La idea de dispersión se relaciona con la mayor o menor concentración de los
datos en torno a un valor central.
Ejemplo
 Al tomar las temperaturas en una región “A” durante A B
diferentes épocas del año y a distintas horas del día, se
registraron los datos que se muestran en la columna “A” ; 19.3 -3
por su parte, las de otra región diferente “B”, son las de la 20 0
columna “B” . 20.2 6
 Al obtener la media, en ambos casos resultó que la
temperatura promedio fue de 20.68º, cuya interpretación 20.4 22
podría ser que en torno, alrededor o cerca a 20.68º fluctúan 21 31.5
los demás valores. 21.3 34
 Como puede verse, eso es bastante aproximado para los
21.3 36
datos de la columna “A”, no así para los de la “B”. Los
datos más alejados en “A” son 19.3º y 22º, que realmente 22 39
están próximos a 20.68º; en cambio, los datos más alejados
Promedio: 20.69 20.69
en “B” son -3º y 39º, que están muy distantes del promedio.

 ¿Por qué si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los
valores que están a su alrededor?.
 La respuesta está en que no se ha tomado en cuenta la dispersión, es decir, la manera en que
se disgregan los datos respecto de la media, pues en “A” casi no se dispersan mientras que
en “B” sí, .Cabría decir que el conjunto de datos “A” es bastante compacto mientras que el
“B” es muy dilatado.
PRINCIPALES MEDIDAS DE DISPERSIÓN

Distinguimos entre medidas


de dispersión absolutas, que
no son comparables entre
diferentes muestras y las
relativas que nos permitirán
comparar varias muestras. Medidas de Dispersión absolutas
Las mas comunes son: 1. El Rango
2. La Varianza
3. La Desviación Estándar

Medidas de Dispersión Relativas


4. El Coeficiente de Variación.
1. RANGO O RECORRIDO
El rango es la diferencia entre los datos mayor y menor del conjunto. También se le
suele llamar “recorrido” . En un conjunto de datos, mientras mayor sea el rango,
mayor será su dispersión y, a la inversa, mientras menor sea su rango, menor su
dispersión.. Su fórmula es:

R  X max  X min

Ejemplo1: para una serie de datos de carácter cuantitativo como es la estatura tal y
como:
x1 = 185, x2 = 165, x3 = 170, x4 = 182, x5 = 155

De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo
que es lo mismo: R = 185-155 = 30.
2. Varianza para datos no agrupados
La Varianza es un valor numérico que cuantifica el grado de dispersión de los valores
de una variable respecto a su media aritmética.

 Xi  X 
N


2


2
i 1
X i  nX
2

Varianza  s  2

n1 n1

La varianza es el promedio de los cuadrados de los desvíos respecto a la media


aritmética
3. Desviación Estándar para datos no agrupados
Es la medida de dispersión más utilizada. En su cálculo intervienen todas las
observaciones. Se lo define como la raíz cuadrada de la Varianza.

Desviación Estándar

 xi  x 
n


2

s i 1 
 i
x 2
 nx 2

n1 n1
Ejemplo
Desviaciones Estandar para Niños y Adultos en
Equipos de Basketball
4. VARIANZA Y DESVIACIÓN ESTÁNDAR PARA
DATOS AGRUPADOS
Se utilizan cuando los datos están agrupados en una tabla de distribución de
frecuencias. Su formulas de cálculo son:

VARIANZA

m m

 ni  xi  x   i i
2
n x 2
 nx 2

Varianza  s 2  i 1
 i 1
n1 n1

Desv.estandar  s  s 2
Observaciones
 Dadas dos poblaciones existe mayor dispersión en aquella que posee
mayor varianza que equivales a mayor desvío estándar.
 Se interpreta que menor dispersión implica mayor concentración de los
datos alrededor de la media aritmética, obteniendo o logrando mayor
precisión en el tratamiento de la información.
 Teniendo en cuenta las observaciones anteriores en los procedimientos y
métodos estadísticos se buscará minimizar varianzas.

(Xi – u)2
(Xi – u)2

(Xi – u)2
X (Xi – u)2

(Xi – u)2
5. COEFICIENTE DE VARIACIÓN
 Mide la dispersión en los datos con relación a la media .Es más útil cuando se trata de
hacer comparaciones entre muestras. No tiene unidades de medida.
 Siempre se expresa en porcentajes, no en términos de la unidad de medida de los datos
estudiados
S
C.V .%   100
Muestral x

Poblacional 
C.V .%   100

OBSERVACIÓN:
1. Al realizar comparaciones entre dos variables, el C.V. mas pequeño será el que tenga menor
dispersión relativa.
2. Un C.V. mayor a 0.3 ó 30% indica un alto grado de dispersión y pequeña representatividad de
la media, pero cuanto menor sea a 30% la media será mas representativa.
“… No camines delante de mí por que no puedo seguirte; no camines detrás de mí por
que no puedo guiarte; camina junto a mí y simplemente se mi amigo …”

You might also like