You are on page 1of 54

ESTADISTICA DESCRIPTIVA

Profesora
M. Cecilia Lpez Vidal
Marzo 2004

PRESENTACION
Estos apuntes han sido preparados para los alumnos que deben seguir un primer curso de
"Estadstica Aplicada". Su objetivo es presentar la estadstica descriptiva, de manera que el
alumno pueda tener un apoyo, lo ms prctico posible, ya que la bibliografa existente no
abarca algunos de los temas tratados aqu; o bien su enfoque es muy general. No obstante,
el alumno no debe olvidar de buscar bibliografa que le sirva de complemento a los temas
tratados en la sala de clases.

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

INDICE
I.

INTRODUCCIN

II.

CLASIFICACION DE VARIABLES.

III.

PRESENTACIN DE DATOS UNIDIMENSIONALES.


III.1 TABLAS DE FRECUENCIAS UNIDIMENSIONALES.
III.2 REPRESENTACION GRAFICA DE DATOS UNIDIMENSIONALES.

7
7
13

IV

MEDIDAS DESCRIPTIVAS PARA UNA VARIABLE.


IV.1 MEDIDAS DE POSICION
IV.2 MEDIDAS DE DISPERSION.
IV.3 MEDIDAS DE FORMA.

21
21
30
34

V.

MEDIDAS DESCRIPTIVAS EN DATOS ESTRATIFICADOS.

36

VI.

PRESENTACIN DE DATOS BIDIMENSIONALES


DIMENSIONES.
VI.1 TABLAS DE FRECUENCIA BIDIMENSIONALES.
VI.2 GRAFICOS PARA DATOS BIDIMENSIONALES.

VII.

MEDIDAS DE RESUMEN EN DISTRIBUCIONES BIDIMENSIONALES. 42


VII.1 MEDIDAS MARGINALES Y CONDICIONALES.
42
VII.2. MEDIDAS CONJUNTAS.
43

IX.

PROBLEMAS PROPUESTOS.

45

X.

BIBLIOGRAFA COMPLEMENTARIA

50

ESTADISTICA DESCRIPTIVA

DE

MS
37
37
41

Cecilia Lpez Vidal.

I.

INTRODUCCIN

Hasta ahora ha habido muchos adelantos cientficos logrados mediante la investigacin, la


experimentacin y tambin muchos inventos tecnolicos. En todos ellos se ha empleado el
mtodo cientfico, que es el procedimiento que se aplica al ciclo completo de la
investigacin, desde la deteccin del problema hasta la interpretacin de los resultados.
Ms an, el desarrollo actual de la administracin moderna requiere cada vez ms respaldar
las decisiones que se toman permanentemente con informacin slida y validada
cientficamente, pues los costos de los errores son muy grandes.
Las etapas del mtodo cientfico pueden establecerse como:
1.

Deteccin y enunciado del problema. La deteccin depender tanto de los juicios de


valor del investigador como de las condiciones en que se encuentre en ese momento
el desarrollo de la ciencia.

2.

Desarrollo de una teora que procure explicar o resolver el problema.

3.

Formulacin de las hiptesis que se desprenden de la teora y que debern ser


contrastadas con la realidad mediante observaciones rigurosas y experimentos.

4.

Factibilidad de las hiptesis a fin de que los conceptos involucrados puedan ser
medidos de acuerdo a reglas precisas, vlidas y confiables

5.

Contrastacin de las hiptesis, con hechos observados o experimentos elaborados


especialmente para poner a prueba las hiptesis, de tal forma que si resultan
falseadas, entonces se pueda concluir que la teora que las origin est mal
elaborada.

6.

Interpretacin de los resultados (conclusin), en el sentido de aceptar o no la la


teora que procuraba explicar el problema, con el propsito de reelaborar la teora si
resulta rechazada, o de preparar nuevos expermentos para ponerla otra vez a prueba.

Quin proporciona las tcnicas para llevar a la prctica aquellas etapas del mtodo
cientfico que requieren recoleccin y anlisis de informacin es el mtodo estadstico.
El mtodo estadstico es un conjunto de procedimientos aplicados en secuencia lgica a la
obtencin y anlisis de datos, los cuales son influidos por mltiples factores.
En el mtodo estadstico se distinguen bsicamente tres etapas: La planificacin, la
ejecucin y el anlisis de los resultados.
La planificacin es el planteamiento terico de la investigacin, de manera que mientras
mejor planeada est una investigacin, ser ms fcil su ejecucin.
ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

En la planificacin hay que considerar los siguientes puntos:


-

Definicin de los objetivos, es decir, indicar detalladamente qu es lo que se


pretende investigar; el qu, el cmo, el dnde, el cundo y el porqu.

Definicin del universo, es decir, especificar con precisin el conjunto o poblacin


de elementos del cul se extraer la informacin y a la cual se referirn los
resultados.

Diseo de las muestras de elementos que sern obsrvados o sometidos a


experimentacin aplicando los principios probabilsticos que permiten la
generalizacin de los resultados obtenidos.

Determinacin de las grupos de control, en casos que la investigacin de una


hiptesis requiera de experimentos complejos. El grupo de control (o testigo) es
aquel que no se somete a la accin de un estmulo intencionado. En cambio el grupo
de elementos que son sometidos a dicha accin se denomina "grupo de estudio".

Determinacin de la informacin necesaria para cumplir con los objetivos, la que


debe ser accesible y medible con un error mnimo a fin de lograr los objetivos de la
investigacin y que no ocurra que falte informacin para sacar conclusiones o que
sobre, lo que significa prdida de recursos.

Determinacin de la fuente de origen de la informacin requerida y de los


procedimientos que se emplearn para obtenerla, etableciendo las unidades de
medicin y escalas de clasificacin adecuadas a los propsitos de la investigacin.

Elaboracin del plan de tabulacin y anlisis de la informacin con el objetivo de


sacar las conclusiones.

En esta etapa de planificacin, tambin se debe determinar la duracin aproximada de las


diversas etapas de la ejecucin, el personal que debe intervenir, su adiestramiento, el tipo
de anlisis computacional y se debe estimar todos los costos involucrados en la
investigacin.
En la ejecucin se debe llevar a cabo todo lo planificado: recoleccin de la informacin,
elaboracin de la informacin y anlisis de los resultados.
El anlisis de los resultados puede ser descriptivo censal, o bien, inferencial de acuerdo con
el origen de los datos; tod la poblacin o una muestra probabilstica de ella. La estadstica
descriptiva comprende aquellos mtodos usados para organizar los datos y describir la
poblacin estudiada, mientras que la inferencia estadstica comprende aquellos mtodos y

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

tcnicas usados para hacer generalizaciones, predicciones o estimaciones sobre poblaciones


a partir de una muestra o experimento.
En resumen, podemos decir que la estadstica es el mtodo cientfico de recopilar,
clasificar, presentar, analizar e interpretar conjuntos de datos u observaciones obtenidos de
hechos reales para orientar racionalmente la toma de decisiones y predecir en lenguaje
probabilstico cuantitativo los fenmenos que nos afectan.
En ciertas ocasiones para tener una visin ms clara de la estrategia de investigacin es
conveniente determinar el tipo de investigacin a realizar, clasificacin que depender de los
siguientes factores: los objetivos de la investigacin, la existencia de hiptesis, la fuente de
origen de la informacin, el orden en que se recogen los datos y el manejo de las variables.
TIPOS DE INVESTIGACION.
1.

Investigacin retrospectiva, actual y prospectiva. Con respecto a la relacin entre


tiempo de ocurrencia y el registro de la informacin se define la informacin
retrospectiva como aquella que averigua hechos ocurridos en el pasado, la
investigacin actual va registrando la informacin a medida que se va produciendo y la
prospectiva, basada en los resultados de las anteriores provee informacin probable de
lo que se espera que ocurra.

2.

Investigacin descriptiva y explicativa. La investigacin descriptiva tiene como


objetivo mostrar una situacin, mientras que la explicativa pretende averiguar el
porqu de las situaciones observadas, es decir las causas de los fenmenos observados.

3.

Investigacin experimental y no-experimental. La investigacin experimental tiene


como caracterstica principal que el investigador puede manejar la variable
independiente, en cambio la no experimental no manipula los fenmenos; slo los
observa tal como ocurren.
En el caso de la investigacin explicativa, lo ideal es usar el mtodo experimental sin
embaro, muchas veces resulta muy costoso o imposible. En ese caso, se utilizan
procedimientos descriptivos complejos para etablecer las correlaciones entre mltiples
variables que afectan la situacin. En cambio, la investigacin descriptiva suele ser noexperimental.

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

II.

CLASIFICACION DE VARIABLES.

Los estadsticos denominan como "variable" a las caractersticas cualitativas y cuantitativas de


los elementos de una poblacin (unidades de observacin). Por ejemplo, en una poblacin
humana, caractersticas importantes son la edad, el sexo, el estado civil, el nivel educacional,
etc.; caractersticas que suelen variar de un individuo a otro.
Como los datos a manejar en una investigacin son de distinta naturaleza, la clasificacin de
las variables en estudio se hace necesaria para decidir el mtodo adecuado de anlisis
estadstico que se emplear.
La caracterstica especfica de una unidad de observacin de la poblacin es el valor de la
variable para ese elemento. Por ejemplo, para la variable sexo, un individuo puede ser hombre
o mujer; es decir la variable puede tomar dos valores: 1. Hombre 2. Mujer.
Existen diversos criterios para clasificar variables, los que no son excluyentes y se
complementan.

II.1

CLASIFICACION BASICA.

Bsicamente hay dos tipos de variables: las cualitativas y las cuantitativas.


Una variable es cualitativa cuando es no-numrica y se expresa en categoras. Por ejemplo: el
sexo se expresa en las categoras femenino y masculino; la religin se expresa en las
categoras catlica, bautista, presbiteriana, anglicana, etc.
Una variable es cuantitativa cuando puede ser expresada en forma numrica. Por ejemplo:
edad en aos; duracin en horas de la batera de un telfono celular; ingreso mensual en pesos
de una familia, etc.
II.2

CLASIFICACION SEGUN NIVELES O ESCALAS DE MEDICION

Para describir un objeto, un individuo u otra identidad hacemos referencia a las propiedades o
atributos que posee, estos atributos pueden expresarse en escalas de diferente nivel de
medicin.
1.

Escala Nominal.
Este es el nivel de medicin ms dbil que slo permite distinguir las distintas
clases, asignndoles nmeros o smbolos a las unidades para identificar a la clase
que pertenecen.

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

En una escala nominal, el conjunto de elementos se divide en subconjuntos


mutuamente excluyentes en que la nica relacin implicada es la de equivalencia
(relacin que es reflexiva, simtrica y transitiva).
La escala nominal es nica hasta una transformacin de uno a uno, esto significa
que los nmeros o smbolos que designan las distintas subclases en la escala pueden
ser intercambiados de manera total y consistente.
Las estadsticas descriptivas, que estudiaremos ms adelante, admisibles en este tipo
de escalas son aquellas que no se ven alteradas por las transformaciones uno a uno,
como por ejemplo el conteo de frecuencias y la moda.
Ejemplos de variables en esta escala: Nmero de cdula de identidad, sexo, nmero
de la camiseta en los jugadores de ftbol, religin, etc.
2.

Escala Ordinal o de Rangos.


En esta escala el nmero asignado adems de nombre indica jerarqua entre todas
las clases. Esta relacin de jerarqua es irreflexiva, asimtrica y transitiva, por lo que
el nico tipo de transformacin que acepta es montona, es decir, aquella que
mantiene el orden de los objetos.
Ejemplos: los grupos socioeconmicos, los grados en el ejrcito, el tamao de cierto
elemento (pequeo, mediano, grande, extragrande), etc.

3.

Escala de Intervalos.
En este caso el nmero indica nombre, jerarqua y tiene sentido la diferencia con
cualquier otro nmero de la escala, pero donde el cero es arbitrario.
En este nivel cualquier cambio en los nmeros asociados con las posiciones de los
objetos debe conservar el orden y las diferencias relativas entre los objetos, es
decir, la escala de intervalos es nica hasta una transformacin lineal; como ocurre
por ejemplo entre las escalas Celsius y Farenheit para medir temperatura.
Esta escala es la primera cuantitativa que vemos, por lo que es posible calcular todas
las estadsticas descriptivas comunes (media, desviacin estndar, correlacin, etc.).
Ejemplos: Medicin de temperatura en escala Celsius, medicin de altura de vuelo,
ao o fecha en que vivimos, puntajes de coeficiente intelectual, etc.

4.

Escala de Razn.
En este caso el nmero indica lo mismo que en la escala de intervalos (nombre
jerarqua y valor), pero con el cero real.

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

En este nivel de medicin cualquier operacin aritmtica es aplicable (con una


interpretacin vlida).
Ejemplos de variables: peso, estatura, ingreso, cantidad de hijos, etc.
II.3

CLASIFICACION DE ACUERDO AL RECORRIDO.

Segn los valores numricos que asuma una variable, sta puede ser:
1.

Discreta.
Una variable se clasifica como discreta, si los valores que asume son finitos o
infinitos numerables (contables). Ejemplo: Cantidad de hijos, nmero de personas
en una fila, valores de los billetes, etc.

2.

Continua.
Una variable es continua si tiene un recorrido infinito no numerable, o bien, si entre
dos valores cualesquiera siempre existe la posibilidad de que se encuentre otro
valor observable. Ejemplo: duracin de una batera, edad, resistencia a la tensin,
temperatura, etc.

En algunos casos en que la variable asume dos valores (presencia o ausencia de una
caracterstica) se clasifican como dicotmicas. Por ejemplo, para indicar si una persona
fuma o no, se asigna 1 a fuma y 0 a no fuma.
II.4

CLASIFICACION SEGUN LA ORIENTACION DESCRIPTIVA DE LAS


VARIABLES.
Las variables pueden clasificarse segn si ellas describen o son descritas por otras
variables, clasificacin que depende de los objetivos del estudio y no de la
estructura matemtica de las variables. Esta clasificacin puede ser en:
1.

Independiente, variable que es fijada (o manejada) por el investigador.

2.

Dependiente, variable que el investigador no puede manejar, sino a travs de


cambios en la variable independiente.

Ejemplo: Ingreso (independiente) y gasto (dependiente).

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

III.

PRESENTACIN DE DATOS UNIDIMENSIONALES.

Las tcnicas visuales para presentar los datos, que son suficientemente numerosos, en forma
ordenada y resumida son las tablas de frecuencia y los grficos.
III.1

TABLAS DE FRECUENCIAS UNIDIMENSIONALES.

Una tabla de frecuencias es un cuadro numrico que permite la clasificacin de los datos en
categoras. Una tabla de frecuencias se dice que es unidimensional si se refiere al estudio de
una variable, bidimensional si se refiere a la presentacin en forma conjunta de dos variables y
multidimensional cuando se refiere a la presentacin de informacin conjunta de dos o ms
variables.
Estas tablas son tiles cuando se necesita resumir los datos para posteriormente analizar la
informacin registrada para cada una de las variables.
Se denominan de frecuencia por que esta es la informacin que se coloca en cada una de las
categoras de las variables.
El formato general de este tipo de tablas para una variable es el siguiente:
TITULO DE LA TABLA
Nombre de la
Tipo de
variable
frecuencia

Categoras de
Frecuencias
la variable
observadas

FUENTE:
El ttulo de la tabla debe indicar por lo menos qu informacin se presenta, dnde fueron
registrados los datos y cundo se obtuvo la informacin.
El nombre de la variable puede utilizarse completo, con sus respectivas unidades de medida,
o bien, alguna sigla previamente definida.
Las categoras que tendr la variable van a depender del tipo de variable segn nivel de
medicin o recorrido. De acuerdo a esto veremos la construccin de distintos tipos de tablas.

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

TIPOS DE FRECUENCIA:
1.

FRECUENCIA ABSOLUTA o simplemente FRECUENCIA es el nmero de veces


que se presenta un valor o una categora de una variable. Se acostumbra a denotar por
ni, que indica la frecuencia en la clase o categora i de la variable. En toda tabla,
siempre
ni = n , donde n es el nmero total de observaciones de la variable.

2.

FRECUENCIA RELATIVA es la proporcin del total de datos que se presenta en un


valor o una categora de una variable. Se acostumbra a denotar por hi (tambin se usa fi
o pi) a la proporcin de elementos del total que est en el valor o categora i, valor que
se obtiene por hi = ni / n, con
hi = 1 . Esta frecuencia resulta ser en la mayora de los
casos ms clara e informativa, sobretodo si se desea comparar conjuntos de datos con
distinto nmero (n) de observaciones. Por lo general, en la presentacin de una tabla
esta frecuencia se muestra como porcentaje, es decir hi100.

Tanto la frecuencia absoluta como la frecuencia relativa se pueden usar en todo tipo de
variables. Cuando las variables son de un nivel de medicin al menos ordinal, podra
ser de utilidad usar alguna de las dos siguientes frecuencias.
3.

FRECUENCIA ABSOLUTA ACUMULADA es el nmero de datos que se presenta


hasta un valor o una categora de una variable. Se acostumbra a denotar por Ni al
nmero de observaciones hasta la clase i entre el total de datos.

4.

FRECUENCIA RELATIVA ACUMULADA es la proporcin de datos hasta un valor


o una categora de una variable. Se acostumbra a denotar por Hi (Fi o Pi) a la
proporcin de observaciones hasta la clase i en el total de datos, pudindose usar
tambin en valores porcentuales.

CONSTRUCCION DE TABLAS UNIDIMENSIONALES.


1.

Variable en nivel de medicin nominal.


En este caso cada valor que asume la variable pasa a ser una categora y se disponen en
un orden arbitrario en la tabla.
EJEMPLO.
Los siguientes datos corresponden al sexo de un grupo de personas en estudio:
M-M-F-M-F-M-M-F-F-M-F-M-F-F-M-F-F-M-M-M -F-M F-M-F-M-M-F-F-F-M-M.
La tabla de frecuencias para este caso es como sigue:

ESTADISTICA DESCRIPTIVA

Cecilia Lpez Vidal.

DISTRIBUCIN DE LAS PERSONAS DE ACUERDO A SU SEXO.


SEXO
Femenino
Masculino
TOTAL

Cantidad de Porcentaje
de
personas (ni) personas (hi100)
15
46,875
17
53,125
32
100,000

FUENTE: Elaboracin propia.


Tome nota que en esta tabla, las frecuencias acumuladas no tendran ningn sentido
prctico.
3.

Variable en nivel de medicin al menos ordinal y discreta con una cantidad pequea de
valores distintos (alrededor de 20). En este caso cada valor que asume la variable
pasa a ser una categora y se disponen segn el orden implcito de la variable .
EJEMPLOS.
a)

Construir la tabla de frecuencias para los siguientes datos corresponden al


nmero de das ausentes en un semestre de los alumnos a la clase de
Estadstica:
1-3-2-7-4-0-1-2-0-5-5-4-2-7-0-1-3-2
0 - 1 - 2 - 0 - 4 - 3 - 0- 2 - 3 - 2 - 1 - 1 - 1 - 0 - 1 - 3 - 2 - 2
Como la variable es discreta con un nmero de valores que va desde 0 hasta 7,
cada valor pasa a ser una categora, quedando la tabla como sigue:
DISTRIBUCION DE LOS ALUMNOS DEL CURSO DE ACUERDO A SUS
AUSENCIAS DURANTE EL SEMESTRE.

DIAS
AUSENTES
0
1
2
3
4
5
6
7
TOTAL

Cantidad de
alumnos

Cantidad
Acumulada
de alumnos
(Ni)
7
15
24
29
32
34
34
36

(ni)
7
8
9
5
3
2
0
2
36

Fuente: Elaboracin propia.


ESTADISTICA DESCRIPTIVA

Proporcin de
alumnos
(hi)
0,1944
0,2222
0,2500
0,1389
0,0833
0,0556
0,0000
0,0556
1,0000

Proporcin
Acumulada de
alumnos (Hi)
0,1944
0,4167
0,6667
0,8056
0,8889
0,9444
0,9444
1,0000

Cecilia Lpez Vidal.

Nota: Un buen ejercicio ser interpretar algunos de los valores de la tabla, por
ejemplo, n4=5 indica que durante el semestre hubo 5 alumnos que faltaron 3
das a la clase de estadstica y H5=0,8889 indica que el 88,89% de los alumnos
del curso faltaron a lo ms 4 das a la clase.
b)

La siguiente tabla resume las respuestas de 30 dueas de casa a la pregunta Es


usted quien hace las compras en el supermercado?
DISTRIBUCIN DE LAS DUEAS DE CASA DE ACUERDO A SUS
HBITOS DE COMPRAS
Cantidad de
Porcentaje de
RESPUESTA
amas de casa
amas de casa
Siempre
12
0,4000
Casi siempre
10
0,3333
A veces
4
0,1333
Casi nunca
3
0,1000
Nunca
1
0,0333
Total
30
1,0000
Fuente: Elaboracin propia.

4.

Variable en nivel al menos de intervalos y continua, o bien, variable discreta que


asume demasiados valores distintos (>21).
En esta tabla se pierde informacin, ya que las clases estarn formadas por intervalos
de valores, cuyos puntos medios se denominan marcas de clase y se denotan por xi
(para la variable X). A veces se denominan tablas de datos agrupados, ya que en ellas
se pierde informacin al disponer las observaciones en intervalos. Estas tablas de
frecuencia deberan tener las siguientes caractersticas para su construccin:
uniformidad (cada clase debe tener la misma amplitud), unicidad (dos clases no se
traslapan) y exhaustivas (cada uno de los datos debe pertenecer a alguna clase).
Aunque la caracterstica de uniformidad no es estrictamente necesaria.
Los pasos para la construccin de estas tablas con intervalos de igual amplitud son:
-

Determinar el rango o recorrido R de la variable: R = mx - mn.

Establecer el nmero k de intervalos a usar. En caso de no tener una buena idea


de cuantos usar se puede recurrir a una de las frmulas empricas existentes,
como la regla de Sturges que establece una buena aproximacin de k como la
parte entera de [1+ 3,3 log n].

Determinar la amplitud c de cada clase, es decir la diferencia entre el lmite


superior (LS) de una clase y su lmite inferior (LI) . Para ello se divide R por k

ESTADISTICA DESCRIPTIVA

10

Cecilia Lpez Vidal.

y el resultado se aproxima al valor siguiente con la misma cantidad de cifras


decimales que los datos, si esta divisin resulta con ms decimales; si la
divisin resulta tener igual o menor cantidad de decimales que los datos se
conserva ese mismo resultado como valor de c.
-

Si el valor de c se ha obtenido por aproximacin, se procede a multiplicarlo por


k, obteniendo como resultado el rango R' que tendrn los datos en la tabla. Para
no sesgar demasiado los datos en la tabla respecto de los reales conviene hacer
la diferencia entre R' y R repartiendo sta en partes lo ms equitativas posibles
entre el mnimo y el mximo. Al mnimo se le resta aproximadamente la mitad
de la diferencia y al mximo se le suma el resto, conservando siempre el
nmero de cifras decimales de los datos para lograr una visin clara de ellos.
Si el valor de c no se ha obtenido por aproximacin, el recorrido R de los datos
ser el mismo que el de la tabla.

Construir la tabla comenzando por el mnimo obtenido en el paso anterior y


agregar en cada intervalo el valor c de la amplitud., empleando el mismo valor
en el lmite superior de una clase y en el lmite inferior de la clase siguiente,
slo que para colocar las frecuencias se debe tener presente que la convencin
en los lmites de los intervalos es que los lmites inferiores son siempre
cerrados y los lmites superiores abiertos, exceptuando el ltimo lmite superior
que siempres es cerrado.

Se debe hacer notar que en la construccin de estas tablas existen otros criterios para
trabajar con los lmites de los intervalos, en la metodologa que se emplea aqu se
trabaja directamente con los lmites reales de clase, tambin llamados fronteras de
clase; en los caso en que se trabaja con valores distintos entre el lmite superior de una
clase y el lmite inferior de la clase siguiente se dice que se trabaja simplemente con
los lmites de clase.
EJEMPLO:
Los siguientes datos corresponden a los tiempos, en minutos, requeridos para atender
a 50 clientes en una caja de supermercado, obtenidos en un control de eficiencia de
ste:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
Construir la tabla de frecuencias, con todas las frecuencias incluyendo la marca de
clase.

ESTADISTICA DESCRIPTIVA

11

Cecilia Lpez Vidal.

Solucin:
R = Xmx - Xmn = 6,0 - 0,3 = 5,7
k = [1 + 3,3 log 50] = 6
R/k = 0,95

c= 1

Pero 1 6 = 6 = R'
R' - R = 0,3, cifra que repartimos lo ms iguales posibles conservando un decimal,
entre el mnimo y el mximo. En este caso procederemos a restar 0,1 al mnimo y a
sumar 0,2 al mximo (0,1 + 0,2 = 0,3 ).
Por tanto, nuestra tabla comenzar con el valor 0,2 y terminar con el valor 6,2;
teniendo cada intervalo una amplitud igual a 1.
DISTRIBUCIN DE LOS CLIENTES SEGN EL TIEMPO DE ATENCIN EN
LA CAJA.
TIEMPO
(minutos)
[ LI - LS [
0,2 - 1,2
1,2 - 2,2
2,2 - 3,2
3,2 - 4,2
4,2 - 5,2
5,2 - 6,2
Total

Tiempo
promedio
(Xi )
0,7
1,7
2,7
3,7
4,7
5,7

Cantidad
de clientes
(ni )
19
16
6
4
1
4
50

Proporcin
de clientes
(hi )
0,38
0,32
0,12
0,08
0,02
0,08
1,00

Cantidad
Acumulada de
clientes (Ni )

Proporcin
Acumulada de
clientes (Hi )

19
35
41
45
46
50

0,38
0,70
0,82
0,90
0,92
1,00

Fuente: Elaboracin propia con base en los resultados de la medicin de eficiencia.


Nota: Algunas interpretaciones en esta tabla son: h4 indica que el 8% de los clientes
demoran en ser atendidos entre 3,2 y 4,2 minutos; N5 indica que 46 clientes demoraron
menos de 5,2 minutos.
Todas las tablas mostradas en esta seccin permiten hacer un primer anlisis de lo que est
ocurriendo con los datos, con frecuencia en este anlisis se indica en que valores se encuentra
la mayora de las observaciones, donde se encuentra la minora y en qu punto se encuentra
aproximadamente la mitad de las observaciones.

ESTADISTICA DESCRIPTIVA

12

Cecilia Lpez Vidal.

III.2

REPRESENTACION GRAFICA DE DATOS UNIDIMENSIONALES.

Una grfica es una forma ilustrada de representar y resumir datos; de modo de hacer evidentes
visualmente ciertas caractersticas de los datos, son una alternativa a las tablas de frecuencia,
incluso a veces representa mejor sus caractersticas que las tablas de frecuencias.
Al construir un grfico se debe tener presente los siguientes puntos:
-

Sencillez y autoexplicacin.
Evitar distorsiones por mala eleccin de escala.
Eleccin apropiada del tipo de grfico, segn los objetivos del estudio y el nivel de
medicin de las variables.

III.2.1 PICTOGRAMA.
Son representaciones de la informacin mediante dibujos de los objetos que son motivo de
estudio, con un formato que d una rpida idea visual de la distribucin de frecuencia. Este
tipo de grficas es una de las ms antiguas en uso y son especialmente tiles para fines
publicitarios por ser atractivos y de fcil comprensin.
EJEMPLO:
El siguiente pictograma muestra la cantidad de dinero circulante en tres pases fronterizos:

Pas

III.2.2 DIAGRAMA DE TALLO Y HOJAS O HISTOGRAMA DIGITAL.


Este es un diagrama semigrfico en forma de rbol que tiene la ventaja de presentar todas las
observaciones y por tanto no se pierde informacin como en una tabla de frecuencias en
intervalos y resulta especialmente til cuando cuando el nmero total de datos es pequeo
(<50). Los principios para la realizacin del diagrama son los siguientes:
-

Redondear los datos a dos o tres cifras significativas.

Disponer los datos en dos columnas separadas por una lnea vertical de tal forma que
para los datos con dos dgitos la cifra de las decenas se encuentre a la izquierda de la
lnea vertical (tallo del diagrama), y a la derecha las unidades (hojas o ramas del

ESTADISTICA DESCRIPTIVA

13

Cecilia Lpez Vidal.

diagrama). Para datos con tres dgitos, el tallo estar formado por los dgitos de las
centenas y las decenas, que se escribirn a la izquierda de la lnea vertical y las hojas
estarn formadas por el dgito de las unidades, que se escribir a la derecha de la lnea
vertical.
-

Cada tallo define una clase y se escribe slo una vez. A su derecha se van escribiendo
por orden las sucesivas hojas correspondientes a ese tallo. El nmero de hojas para
cada tallo representa la frecuencia de cada clase.

EJEMPLO:
Construir el diagrama de tallo y hojas para los datos de tiempo de espera en el ejemplo de la
pgina 15.
Solucin.
Recordemos que los datos eran:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
Luego, el diagrama de tallo y hoja es:
0
1
2
3
4
5
6

3344557777899999
0112233445556667788
33456
02225
5
299
0

III.2.3 GRAFICOS SECTORIALES, DE TORTA O DE PIE.


Corresponden a la representacin circular de las frecuencias, en forma proporcional a los 360
de una circunsferencia, en que las categoras se identifican como sectores de la
circunsferencia. Son tiles para estudiar la distribucin de frecuencias de datos categricos y
nominales con pocas categoras.
EJEMPLO:
La representacin de los datos de la tabla III.1.3 sera como sigue:

ESTADISTICA DESCRIPTIVA

14

Cecilia Lpez Vidal.

Nunca
3%

Casi nunca
10%

Siem pre
41%

A veces
13%
Casi
siem pre
33%

III.2.4 GRAFICOS DE BARRAS SEPARADAS.


Se utilizan para representar la distribucin de frecuencias (absolutas o relativas) de una
variable discreta; en que cada categora se representa por una barra cuyo alto (o largo) indica
la frecuencia de observaciones en dicha categora.
EJEMPLO:
La siguiente tabla corresponde a la distribucin porcentual de un grupo de familias segn la
cantidad de hijos:
Cantidad de hijos Porcentaje de familias
0
15
1
22
2
28
3
19
4
10
5
6

Porcentaje de familias

El correspondiente grfico de barras para esta tabla es el siguiente:

30
25
20
15
10
5
0
0

ESTADISTICA DESCRIPTIVA

Cantidad de hijos

15

Cecilia Lpez Vidal.

III.2.5 GRAFICOS DE BARRAS AGRUPADAS.


Se usan para comparar dos o ms grupos de datos en un nivel de medicin nominal u ordinal.
EJEMPLO:
La siguiente tabla muestra las distribuciones de los empleados y empleadas de cierta empresa
clasificados segn antigedad en la empresa, en aos.
Antigedad
(aos)
0-1
1-2
2-3
3-4
4-5
5

Porcentaje de
empleados
12
24
36
14
10
4

Porcentaje de
empleadas
10
16
32
24
12
6

Porcentaje de
empleados

40
30
Hombres

20

Mujeres

10
0
0 - 1 1 - 2 2 - 3 3 - 4 4 - 5 >=5
Antigedad

III.2.6 GRAFICOS DE BARRAS DIVIDIDAS.


Son similares a los anteriores, es decir, son tiles para estudiar la distribucin de frecuencias
de una variable discreta dentro de diferentes niveles de otra variable discreta, de manera de
poder establecer comparaciones entre tales niveles.
EJEMPLO:
Para los datos del ejemplo anterior, el grfico de barras divididas que denota los porcentajes de
las antigedades para hombres y mujeres, quedara como sigue:

ESTADISTICA DESCRIPTIVA

16

Cecilia Lpez Vidal.

100%
80%
60%
40%
20%
0%
Hombres

Mujeres

>=5
4-5
3-4
2-3
1-2
0-1

III.2.7 HISTOGRAMA Y POLIGONO DE FRECUENCIAS.


Ambos grficos se usan para representar las frecuencias (absolutas o relativas) de variables en
un nivel de medicin de intervalos o de razn y continuas; tambin se pueden usar con
variables discretas con un gran nmero de valores distintos .
El histograma consiste en una serie de rectngulos adyacentes cuyas reas son proporcionales
a la frecuencia del intervalo sobre el cual se ubican. Si los intervalos son de igual amplitud, los
rectngulos tendrn una altura proporcional a la frecuencia correspondiente; en todo caso si la
amplitud del intervalo es ci, su frecuencia ni y si k es una constante cualquiera, idntica para
cada intervalo, la altura de la barra hi debe satisfacer la siguiente igualdad:
n
hi = k i
ci
El polgono de frecuencias es un grfico de lneas trazado sobre las marcas de clase sucesivas,
a la altura de la frecuencia (absoluta o relativa ) de cada intervalo y en el que se deben crear
dos marcas de clase ficticias, una antes del primer intervalo y otra despus del ltimo, para
cerrar el polgono.
EJEMPLO:
El volumen de ventas diario que realizan un vendedor de una tienda que se dedica al rubro
electrnico, se resume en el siguiente cuadro:

ESTADISTICA DESCRIPTIVA

17

Cecilia Lpez Vidal.

Ventas
(miles de $)
900 - 1.000
1.000 - 1.100
1.100 - 1.200
1.200 - 1.300
1.300 - 1.400

Venta promedio
(miles de $)
950
1.050
1.150
1.250
1.350

Cantidad de das
6
12
18
10
4

El histograma y polgono de frecuencias para estos datos estn en el siguiente grfico de


rectngulos dibujado con los lmites de clase y el grfico de lneas trazado sobre las marcas de
clase, respectivamente.
Cantidad de das

18

12
6

850

950

1.050 1.150

10
4
1.250 1.350

Ventas
1.450 [m$]

III.2.8 GRAFICO ESCALONADO


Es el grfico de la distribucin acumulada (absoluta o relativa) de una variable discreta. En
ste, las frecuencias acumuladas se van presentando en forma de escalera, en que el punto
inicial del peldao incluye al valor en la escala de la variable y el punto final excluye al punto
en la escala de la variable; con un salto entre clases consecutivas y en que las distancias entre
los distintos escalones representan las frecuencias de cada clase.
EJEMPLO:
La siguiente tabla muestra la distribucin acumulada del nmero de habitaciones desocupadas
durante los ltimos cien das en el hotel "X".

ESTADISTICA DESCRIPTIVA

18

Cecilia Lpez Vidal.

Cantidad de habitaciones

Porcentaje acumulado de das

0
1
2
3
4
5
6
7

10
26
26
44
68
82
92
100

Su correspondiente grfica es:


Incluye al 6
Porcentaje Acumulado de das
100
92
82

Excluye al 7

68
44
26
10
0

N de
habitaciones

III.2.9 OJIVA.
Es el grfico de la distribucin de frecuencias acumulada (absoluta o relativa) de una variable
continua. Es un grfico de lneas que une las frecuencias acumuladas en los lmites inferiores
(y superiores) de cada intervalo.
EJEMPLO:
Usando los datos usados para el histograma y polgono de frecuencias dibujar la ojiva.
Solucin.
La tabla de frecuencias acumuladas es como sigue:

ESTADISTICA DESCRIPTIVA

19

Cecilia Lpez Vidal.

Ventas
(miles de $)
900 - 1.000
1.000 - 1.100
1.100 - 1.200
1.200 - 1.300
1.300 - 1.400
La ojiva es:

Cantidad Acumulada
de das
6
18
36
46
50

DISTRIBUCIN ACUMULADA DE LAS VENTAS DIARIAS


N acumulado
de das

50
46
36
18
6

ESTADISTICA DESCRIPTIVA

Ventas
900

1.000

20

1.100

1.200

1.300

1.400

1.500

(m$)

Cecilia Lpez Vidal.

IV

MEDIDAS DESCRIPTIVAS PARA UNA VARIABLE.

Los conjuntos de datos tienen distintas caractersticas que los hace diferenciarse de otros
conjuntos de datos. Estas caractersticas se denominan medidas descriptivas y se clasifican en:
medidas de posicin, medidas de dispersin y medidas de forma.
Estas medidas descriptivas se pueden obtener tanto en la muestra como en la poblacin.
Cuando los datos corresponden a una muestra, las medidas se denominan estadgrafos y
cuando los datos son de la poblacin, las medidas se denominan parmetros.
IV.1

MEDIDAS DE POSICION

Por lo general, las medidas de posicin tienen como objetivo resumir el conjunto de datos de
forma de tener un panorama general de ellos, de manera que sirva como representante de la
globalidad de la informacin. La mayora de las medidas de posicin indican donde se ubica el
centro de la distribucin, por lo que se les llama medidas de tendencia central.
Las medidas de tendencia central son: la media aritmtica, la mediana, la moda, la media
geomtrica y la media armnica. Las medidas de posicin son las cuantilas (cuartiles,
quintiles, octiles, deciles, percentiles).
IV.1.1 LA MEDIA O PROMEDIO ARITMETICO (M x ).
DEFINICION:

La media aritmtica se define como la suma de todos los valores observados


dividida por el nmero de datos.

Si los datos son los valores X1, X2,, XN de la poblacin de tamao N (finito), la media se
N

denota por y la definicin dice que:

i=1

; si los datos corresponden a una


N
muestra x1, x2, , xn de la poblacin, la media aritmtica se denota por x , o bien, M(x) y la
n

xi

aplicacin de la definicin es: x =

i =1

Si los datos de una muestra estn ordenados en una tabla de frecuencias, entonces la definicin
k

se transforma en:

x=

xi ni

i =1

xi hi

; donde xi es el valor de la variable o marca de

clase si los datos son de una variable X discreta o continua, respectivamente.

ESTADISTICA DESCRIPTIVA

21

Cecilia Lpez Vidal.

EJEMPLO:
La siguiente tabla muestra la distribucin del saldo de 120 cuentas de crdito, en miles de $,
que maneja en sus archivos la empresa XX.
Saldo
(miles de $)
0 30
30 60
60 90
90 120
120 150
150 180

Cantidad de cuentas
10
25
40
20
15
10

Obtener la media aritmtica


Solucin.
Para obtener la media aritmtica, se deben calcular las marcas de clase xi, segn se describe
en el siguiente cuadro:
Saldo promedio(xi)
(miles de $)
15
45
75
105
135
165

Cantidad de cuentas
10
25
40
20
15
10

La media aritmtica est dada por:


x=

15 10 + 45 25 + 75 40 + 105 20 + 135 15 + 165 10


= 83,75 [miles
120

de $], lo que se interpreta

como "el saldo promedio de las cuentas de crdito de la empresa XX sera de $83.750".
Propiedades de la media.
La media aritmtica tiene la gran desventaja de que se ve muy influenciada por los valores
extremos, pero an as es la medida de tendencia central que ms se usa, ya que posee las
siguientes propiedades:
1.
2.

La media aritmtica de una constante k es igual a la misma constante, es decir,


M(k)=k.
La media del producto de una constante a por una variable X, es igual al producto de la
constante por la media de la variable, es decir, M(a X) = a M(X).

ESTADISTICA DESCRIPTIVA

22

Cecilia Lpez Vidal.

3.

5.

La media del producto de una constante a por una variable X ms otra constante,
digamos b, es igual a la constante a por la media de la variable X ms la constante b, es
decir, M(a X + b) = a M(X) + b.
La media de la suma de dos variables X e Y, es igual a suma de las medias de cada
una de esas variables, es decir, M ( X + Y ) = M( X ) + M( Y ).
xmn x xmx.

6.

En toda distribucin

4.

( xi x ) = 0 .

i =1

7.

En toda distribucin

( xi a) 2

es mnimo para a = x .

i =1

Usos de la media aritmtica.


La media aritmtica resulta ser la mejor medida indicadora de tendencia central cuando la
distribucin es ms bien simtrica, es decir, no hay observaciones extremas y cuando el nivel
de medicin es intervalar o de razn. En caso que no se den estas condiciones la medida ms
representativa de la tendencia central es la mediana.
IV.1.2 LA MEDIANA (Me ~ ~x ).
DEFINICION: La mediana es el valor que est justo al centro del conjunto de datos
ordenados segn magnitud; es decir es la observacin que supera a no ms del 50% de los
datos y es superado por no ms del 50% de las observaciones.
Obtencin de la mediana:
x

si n es impar

n +1
2

x
Me(X) =

+x

n
2

+1

si n es par

n
N k 1
2
LI k + c k
nk

donde:

si los datos estn ordenados en una tabla de frecuencias con intervalos.

x(i) indica la observacin que est en el lugar i del conjunto de datos ordenados.
LIk es el lmite real inferior del intervalo que contiene a la mediana.

El intervalo que contiene a la mediana es aqul cuya frecuencia absoluta acumulada alcanza el
valor

n
2

, o bien, su frecuencia relativa acumulada alcanza el valor 0,5.

ESTADISTICA DESCRIPTIVA

23

Cecilia Lpez Vidal.

EJEMPLOS:
1)

Sea el siguiente nmero impar de datos: 2 - 5 - 6 - 6 - 7 - 7 - 7- 8 - 9 - 9 -10.


Solucin.
El valor mediano de estos datos ordenados es 7. Su interpretacin es que el 50% de las
observaciones es al menos igual a 7 y el resto a lo ms igual a 7.

2)

Sea el siguiente nmero par de datos: 2 - 2 - 3 - 4 - 4 - 5 - 6 - 6 - 7 - 8.


Solucin.
Su mediana es (4+5)/2 = 4,5.

3)

La siguiente tabla muestra la distribucin de un grupo de familias clasificadas segn el


nmero de hijos:
N de hijos
0
1
2
3
4
5
6

N de familias
12
18
24
32
22
12
2

Para obtener la mediana en este caso debemos obtener las frecuencias acumuladas.
N de hijos
0
1
2
3
4
5
6

N acumulado de familias
12
30
54
86
108
120
122

Por ser un nmero par de datos, la mediana es el promedio de las observaciones


centrales, que estn en la posicin 61 y 62, lo que corresponde a 3 hijos; esto significa
que el 50% de las familias tiene a lo menos tres hijos y el otro 50% tiene a lo ms tres
hijos.

ESTADISTICA DESCRIPTIVA

24

Cecilia Lpez Vidal.

4)

Obtener la mediana en la tabla de frecuencias del ejemplo de la media, de las 120


cuentas.
Solucin.
Primero se debe calcular el valor
Saldo
(miles de $)

= 60

y obtener las frecuencias acumuladas.

Cantidad de cuentas

0 30
30 60
60 90
90 120
120 150
150 180

n
2

n
2

Cantidad acumulada
de cuentas

10
25
40
20
15
10

10
35
75
95
110
120

El intervalo que contiene a la mediana es el tercero.

Me(x) = 60 + 30

60 35
40

= 78,75 [m$], esto significa que el 50% de las cuentas

tendran un saldo de a lo ms $78.750 y el 50% restante un saldo de a lo menos


$78.750.
Propiedades de la mediana:
1.
2.
3.

El clculo de la mediana se ve afectado por el nmero de observaciones y no por la


magnitud de cualesquiera de los extremos, pero no utiliza toda la informacin como la
media.
Cualquier observacin seleccionada al azar es igual de fcil que supere a la mediana o
que la mediana supere a la observacin.
La suma de las diferencias absolutas en torno a la mediana es un mnimo, es decir,
n

x i a = Mnimo

si a = Me .

i =1

4.

Escala de medicin al menos ordinal.

IV.1.3 LA MODA O MODO (Mo).


DEFINICION:

Es el valor ms comn observado en un conjunto de datos.

Esta es la nica medida descriptiva que se puede utilizar en datos medidos en una escala
nominal. Si la variable es continua, la moda (o las modas) corresponden a aquellos valores de
la variable en los cuales la funcin alcanza un mximo local y habr tantas modas como

ESTADISTICA DESCRIPTIVA

25

Cecilia Lpez Vidal.

mximos locales; pero si el mximo es global, la moda es nica y se habla de distribucin


unimodal y si la funcin es uniforme, entonces no tiene moda.
Obtencin de la moda:
-

Si los datos estn sin agrupar, o bien, si corresponden a una variable discreta ordenada
en una tabla de frecuencias, se aplica la definicin para obtenerla.
Si los datos corresponden a una variable continua agrupada en intervalos, slo se
puede calcular la moda si los intervalos son de igual amplitud y el intervalo con mayor
frecuencia se denomina clase modal y el valor modal est dado por:
Mo(x) = LI k + c

(n k n k 1 )
,
(n k n k 1 ) + (n k n k +1 )

donde, el subndice k denota al intervalo que contiene la moda, c denota la amplitud de


los intervalos y las nj se refieren a las frecuencias absolutas o relativas.
RELACION ENTRE MEDIA, MEDIANA Y MODA.
Si la distribucin es simtrica, las tres medidas coinciden. Grficamente es:

M=Me=Mo
Si la distribucin es unimodal y asimtrica positiva (con cola a la derecha), entonces
M>Me>Mo. Grficamente es:

Mo Me M
Si la distribucin es unimodal
M<Me<Mo. Grficamente es:

y asimtrica negativa (con cola a la izquierda), entonces

ESTADISTICA DESCRIPTIVA

26

Me Mo

Cecilia Lpez Vidal.

IV.1.4 LAS CUANTILAS.


Las cuantilas son medidas de posicin que dividen el conjunto de datos ordenados en un
nmero determinado de partes iguales. Una de estas medidas es la mediana que divide en dos
partes iguales. Cuando el conjunto ordenado de datos se divide en cuatro partes iguales, los
puntos de divisin se llaman cuartiles (Qi) y cuando el conjunto ordenado de datos se divide en
cinco partes iguales, los puntos de divisin se llaman quintiles (Fi); se podra seguir
mencionando otras medidas, pero son los percentiles (Pi) los puntos que denotan la mayor
cantidad de divisiones en partes iguales, dividen el conjunto ordenado en cien partes iguales.
Es la particin ms fina de los datos. Como es posible establecer una equivalencia entre los
percentiles y cualquier otra cuantila, como por ejemplo, P50 = Q2 = Me y P20 = F1, ser a los
percentiles a quienes estudiaremos en detalle.
El percentil Pk puede definirse como el valor en que el k % de las observaciones es igual o
inferior a l y el (100 - k)% de las observaciones es igual o superior a l.
Obtencin de los percentiles:
x

+x

k n
100

k n
+1
100

2
Pk =

k n
+1
100

si

si

kn

100
si los datos slo se han ordenado de menor a mayor (no se han tabulado).

kn

100

kn
N k 1
100
LI k + c k
nk

si los datos estn ordenados en una tabla de frecuencia s con intervalos .

El parntesis [] indica parte entera y x(i) denota a la observacin de la posicin i en el conjunto


de datos ordenados.
Para obtener el resto de las cuantilas, slo se debe cambiar en la expresin:
100 por el nmero de partes en que divide los datos la cuantila.

k n
,
100

el divisor

EJEMPLO:
Los trabajadores de una empresa clasificados segn su rendimiento mensual, cuantificado en
cientos de miles de $, dan origen a la distribucin presentada en la tabla siguiente.

ESTADISTICA DESCRIPTIVA

27

Cecilia Lpez Vidal.

Rendimiento

Cantidad de trabajadores

50 - 70
70 - 90
90 - 110
110 - 130
130 - 150
150 - 170
170 - 190

18
27
20
12
11
9
3

a)

Obtenga e interprete P20.

b)

Qu porcentaje de trabajadores supera a $11.700.000 en rendimiento?

Solucin.
a)

Para obtener P20 primero se debe obtener el valor

frecuencias acumuladas.
Rendimiento

Cantidad de trabajadores

50 - 70
70 - 90
90 - 110
110 - 130
130 - 150
150 - 170
170 - 190

k n
100

y compararlo

con

las

Cantidad Acumulada de trabajadores

18
27
20
12
11
9
3

18
45
65
77
88
97
100

k n 20 100
=
= 20
El intervalo que contiene al valor P20 es el 2.
100
100
20 18
P20 = 70 + 20
= 71,48[cientos de miles de $] , es decir, el 20%
27

de los

trabajadores tiene un rendimiento de a lo ms $7.148.000.


b)

Se desea obtener el valor de 100- k tal que Pk = 117.


117 = 110 + 20

k 65
12

k = 69,2% ,

es decir el 100-69,2 =30,8% de los

trabajadores tiene un rendimiento superior a los $11.700.000.


Existen, adems otras medidas de tendencia central pero que son de uso ms especfico, ellas
son la media geomtrica y la media armnica.

ESTADISTICA DESCRIPTIVA

28

Cecilia Lpez Vidal.

IV.1.5 LA MEDIA GEOMETRICA (MG).


DEFINICION:

MG = n x1 x 2 x n

La media geomtrica se utiliza en el clculo de promedios de tasas de variacin y en la


elaboracin de nmeros ndices; con el inconveninte que no se puede calcular cuando hay
algn valor igual o inferior a cero.
EJEMPLO:
El PNB de cierto pas ha aumentado de 550 u.m. a 1200 u.m. en 10 aos, Cul ha sido la tasa
media de crecimiento?
Solucin.
10

1200
= 1,0811
550

La tasa media de crecimiento anual fue de 8,11%.

IV.1.6 LA MEDIA ARMONICA (MH).


DEFINICION:

MH =

1
=
1
M
X

n
ni
yi

La media armnica se usa para obtener un valor representativo de un conjunto de datos


expresados en forma de tasas, esto es, tantas unidades de un tipo por cada unidad de otra
especie.
EJEMPLO: Una persona conduce su vehculos a 60 km/hora los primeros 40 km y a 100
km/hora los siguientes 60 km. Cul fue la velocidad media en todo el trayecto?
Solucin.

NOTA:

MH =

40 + 60
= 78,95 km/hora.
40 60
+
60 100

En cualquier distribucin se cumple que: MH<MG<M.

ESTADISTICA DESCRIPTIVA

29

Cecilia Lpez Vidal.

IV.2

MEDIDAS DE DISPERSION.

Son medidas que describen la variabilidad de los datos.


IV.2.1 EL RANGO, AMPLITUD O RECORRIDO(R Rx).
DEFINICION: Es la diferencia entre el mayor valor y el menor valor de una serie de
datos, es decir, Rx = xmx - xmn
Esta es la medida de dispersin ms simple de calcular y entender, que slo tiene
sentido calcularla cuando los datos estn en un nivel de medicin intervalar o de razn.
Por depender slo de los valores extremos, su utilidad es muy restringida, ya que estos
pueden presentarse en forma accidental. Se usa bastante en Control de Calidad.
IV.2.2 RANGO INTERCUARTILICO O AMPLITUD INTERCUARTILICA (Q).
DEFINICION:

Es la diferencia entre el cuartil tres y el cuartil uno, es decir, Q = Q 3 Q1 .


Esto se interpreta como la mayor diferencia entre los valores del 50% de
las observaciones centrales en los datos ordenados.

A pesar de ser ms adecuada que la anterior, ya que elimina la influencia de los valores
extremos, no permite hacer una interpretacin precisa de un valor dentro de la distribucin. Al
igual que el rango, se usa bastante en Control de Calidad.
IV.2.3 LA VARIANZA Y LA DESVIACION ESTANDAR.
DEFINICION:

La varianza poblacional, que se denota por 2 (sigma cuadrado), se define


como el promedio de las desviaciones cuadrticas de los valores de la
distribucin y su media. Es decir:
N
2

(x i )2

i =1

De todas las medidas descriptivas, esta es la nica en que es distinta la frmula poblacional de
la muestral. La varianza muestral, que se denota por s2, est dada por:
n

s2 =

(x i x )2

i =1

n 1

x i2 n (x )2

i =1

n 1

La ltima igualdad corresponde al

desarrollo de la sumatoria, con lo que se logra una frmula ms fcil para el clculo. En caso
que los datos estn en tablas de frecuencia la varianza muestral se obtiene por:

ESTADISTICA DESCRIPTIVA

30

Cecilia Lpez Vidal.

s2 =

x i2 n i n (x )2

i =1

, donde xi es la marca de clase o valor de la clase i y ni corresponde a la

n 1

frecuencia absoluta de la clase i.


El valor numrico de la varianza cuantifica el grado de dispersin de los valores observados de
la variable respecto de su media aritmtica, de manera que mientras mayor es la dispersin de
las observaciones, mayor es la magnitud de sus desviaciones respecto a la media aritmtica y
por lo tanto, ms alto es el valor numrico de la varianza.
Las unidades de medicin de la varianza son iguales al cuadrado de las unidades con que se
mide la variable. El valor de la varianza nunca ser negativo y como las unidades cuadrticas
son de difcil comprensin es que se usa la desviacin estndar, que corresponde a la raz
cuadrada positiva de la varianza, es decir:
= + 2 corresponde a la desviacin estndar poblacional y s = + s 2 corresponde a la
desviacin estndar muestral. Las unidades de medicin de la desviacin estndar son las
mismas con que se mide a la variable.
Para tener una idea de si el valor obtenido en la desviacin estndar indica que la dispersin
de los datos es grande o pequea, podemos usar el teorema de Chebyshev, que establece que
la expresin 1

k2

representa la proporcin mnima de los datos que dista no ms de k

desviaciones estndar de la media si k 1; expresado en otros tminos la siguiente afirmacin


equivale al teorema de Chebyshev: A lo ms

1
k2

100 %

de los datos de cualquier conjunto,

distan ms de k desviaciones estndar de la media, con k 1.


Propiedades de la varianza:
Para presentar las propiedades tanto de la varianza poblacional como de la varianza muestral,
se denotar con la letra V a la varianza.
1.
La varianza de una constante es cero. V(a) = 0, si a es constante.
2.
La varianza del producto de una constante por una variable es igual a la constante al
cuadrado multiplicada por la varianza de la variable. V(bX) = b2 V(X).
3.
De 1. y 2. podemos concluir lo siguiente:
a) V(a + bX) = b2 V(X)
b) V(a - bX) = b2 V(X)
(Las demostraciones de estas propiedades se pueden obtener fcilmente aplicando la
definicin y las propiedades de la sumatoria y de la media aritmtica).

ESTADISTICA DESCRIPTIVA

31

Cecilia Lpez Vidal.

EJEMPLO:
Usando los datos del ejemplo de la media, que se refera a la distribucin del saldo de 120
cuentas de crdito,
a) Obtenga la desviacin estndar.
b) Si se sabe que por las condiciones econmicas los saldos han aumentado un 20%,
determine la nueva desviacin estndar.
Solucin.
a)

Recordemos que los datos para los clculos son:


Saldo promedio(xi)
(miles de $)
15
45
75
105
135
165

Cantidad de cuentas
10
25
40
20
15
10

Suponiendo que los datos son de una muestra, la desviacin estndar muestral se
calculara como sigue:
s=

b)

(15 2 10 + ... + 165 2 10) 120 (83,75)2


= 41,23 [miles de $]
119

Sea X: saldo antiguo


e Y: saldo nuevo
Y = X + 0,2 X = 1,2 X
Aplicando propiedades se tiene que s y = 1,2 s x = 49,48 [miles de $]

Usos de la varianza.
La varianza (o la desviacin estndar) se usa como medida de dispersin cuando se ha
utilizado la media aritmtica como medida de tendencia central.
Tambin se usa para comparar la dispersin de dos o ms distribuciones, cuando ellas
presentan igual media aritmtica y las observaciones estn en la misma unidad de medida. Por
ejemplo, no se podr usar en la comparacin de la dispersin del rendimiento de la gasolina
de dos vehculos si uno est medido en Km por litro y el otro en millas por galn.

ESTADISTICA DESCRIPTIVA

32

Cecilia Lpez Vidal.

Cuando las distribuciones tienen distinta media aritmtica o estn en unidades diferentes, se
usa una medida de dispersin relativa, como es el coeficiente de variacin.
IV.2.4. EL COEFICIENTE DE VARIACIN (CV(x) CVx).
DEFINICION:

Es el cuociente entre la desviacin estndar y la media aritmtica. Es decir,


x

CV(X) =

para datos poblacionales y CV(X) =

sx
x

para datos muestrales.

Se interpreta como la proporcin de variabilidad con respecto a la media. Indica cun


homognea o heterognea es una distribucin. Es una medida sin unidades, que multiplicada
por 100 indica la dispersin en trminos porcentuales.
Las propiedades matemticas del coeficiente de variabilidad se obtienen de la aplicacin de las
respectivas propiedades en la desviacin estndar y la media.
As como se tiene una medida de dispersin relativa, tambin existe una medida de posicin
relativa, que se llama puntaje tpico o estndar.
EJEMPLO:
Con los datos del ejemplo anterior obtener e interpretar el coeficiente de variacin.
Solucin.
CV(x) =

41,23
= 0,4923 Esto
83,75

significa que hay un 49,23% de variabilidad en los saldos respecto

del saldo promedio.


PUNTAJE TIPICO O ESTANDAR (zi).
DEFINICION:

Zi =

xi

xi x
s

Indica el nmero de desviaciones estndar en que un valor de un conjunto de datos se


encuentra bajo la media (si zi<0) o sobre la media (si zi>0), luego lo que hace es determinar la
posicin relativa de una observacin dentro de un conjunto, de manera de poder establecer un
ranking con algunas observaciones en particular.
EJEMPLO: Los siguientes datos corresponden a los resultados semestrales de un alumno y
los valores de las medias y desviaciones estndar del curso.
Curso Nota alumno

A
4,8
4,3
1,2
B
4,5
4,1
0,8
En cul de los dos cursos tuvo mejor desempeo el alumno?
ESTADISTICA DESCRIPTIVA

33

Cecilia Lpez Vidal.

Solucin.

IV.3

Se tiene que ZA = 0,4167 y ZB = 0,5; por lo tanto en el curso B tuvo mejor


desempeo, ya que est a una mayor cantidad de unidades de desviacin
estndar sobre la media.

MEDIDAS DE FORMA.

Existen dos medidas de este tipo, son la asimetra y la curtosis.


IV.3.1 ASIMETRIA
DEFINICION:

La asimetra es la medicin de la deformacin de una distribucin respecto


de una curva simtrica o "normal".

Existen varios coeficientes para medir la asimetra (o simetra), entre ellos estn:
1.

AS =

x Mo 3(x Me )
=
s
s

Estos dos coeficientes fueron determinados empricamente


por Pearson.

(x i x )3

i =1

2.

AS =

n
n

(x i x )

3
2

i =1

En todos los coeficientes ocurre que si AS = 0, la distribucin es simtrica; si AS<0, la


distribucin es asimtrica negativa y si AS>0 la distribucin es asimtrica positiva.
IV.3.2

CURTOSIS.

DEFINICION:

La curtosis es el grado de apuntamiento de una distribucin. Las


distribuciones pueden ser platicrticas (achatadas), mesocrticas (normal), o
bien leptocrticas (elevadas).

Entre las medidas de curtosis est la siguiente:

ESTADISTICA DESCRIPTIVA

34

Cecilia Lpez Vidal.

b2 =

(x i x )4

i =1
n

(x i x )

i =1

Para una distribucin normal b2=3, para una platicrtica b2<3 y para una leptocrtica b2>3.

DIAGRAMAS DE CAJA Y BIGOTE.


Es una presentacin visual que describe tanto la tendencia central como la dispersin, la
asimetra y adems los valores atpicos.
El diagrama es una caja alineada en forma vertical u horizontal, el rectngulo se forma con la
amplitud intercuartlica, lo atraviesa una lnea que corresponde al cuartil dos. De ambas aristas
del rectngulo nace una lnea o bigote que se extiende hasta los valores extremos (mximo y
mnimo) si la distancia a los cuartiles uno y tres respectivamente no supera 1,5 veces la
amplitud intercuartlica. En caso de que esa distancia est entre 1,5 y 3 veces el rango
intercuartlico se dibujan con crculos llenos los valores, que se denominan atpicos; los puntos
que estn ms all de 3 amplitudes intercuartlicas de los bordes de la caja se dibujan con
crculos vacos y se denominan valores atpicos extremos.
La estructura general es:

xmn Q1

Q2

ESTADISTICA DESCRIPTIVA

Q3

xmx

35

Variable

Cecilia Lpez Vidal.

III.

MEDIDAS DESCRIPTIVAS EN DATOS ESTRATIFICADOS.

En ciertas ocasiones la informacin de un conjunto de datos se presenta para una cantidad L de


grupos o estratos y de cada estrato se tiene la siguiente informacin:
n i = tamao del estrato i proporcin del estrato i , con i = 1, 2, , L
xi

= media aritmtica del estrato i, con i = 1, 2, , L

2i = varianza del estrato i, con i = 1, 2, , L


En este caso podemos obtener dos medidas descriptivas para el total de los elementos: la
media total y la varianza total.
La media total ( x T ) se obtiene como una media de las medias de los estratos, esto es:
L

xT =

xi ni

i =1

donde n =

ni
h =1

La variacin total de los datos tiene dos fuentes de variacin, la variacin que hay en las
observaciones dentro de los estratos, que se mide con la intravarianza y se denota por w2 , y la
variacin que se produce entre los distintos estratos, que se mide con la intervarianza y se
denota por B2 . Por lo tanto, la varianza total T2 se obtiene por:
T2 = W2 + B2

La intravarianza se define como el promedio de las varianzas de los estratos, esto significa
que:
L

W2 =

i2 n i

i =1

La intervarianza se define como la varianza de las medias de los estratos, es decir:


L

B2 =

(x

xT ) ni
2

i =1

EJEMPLO:

La siguiente informacin corresponde al contenido de folacina (Vitamina B)


especmenes escogidos al azar de cuatro marcas de t.

ESTADISTICA DESCRIPTIVA

36

para

Cecilia Lpez Vidal.

Marca

Cantidad de especmenes
(nh)
7
5
6
6

A
B
C
D

Media
( xh )
8,271
7,500
6,350
5,817

Varianza
( s 2h )
2,139
2,825
1,123
2,406

Obtener la varianza total e indicar dnde se produce mayor variacin en el contenido de


folacina, entre las distintas marcas o dentro de las marcas.
Solucin.
xT =

B2 =

8 , 271 7 + 7 , 5 5 + 6 , 35 6 + 5 ,817 6
= 7 , 0166
24

8,2712 7 + 7,5 2 5 + 6,35 2 6 + 5,817 2 6


2
(7,0166) = 0,9785
24

2,139 7 + 2,825 5 + 1,123 6 + 2,406 6


= 2,0947
24
T2 = 0,9785 + 2,0947 = 3,0732

W2 =

Existe mayor variabilidad en el contenido de folacina al interior de las marcas, ya que W2 > B2 .

VI.

PRESENTACIN
DIMENSIONES.

DE

DATOS

BIDIMENSIONALES

DE

MS

Hasta ahora se ha estudiado datos considerando una sola variable en ellos. En este captulo
estudiaremos dos ms variables a cada observacin; variables que tienen entre s alguna
relacin.
La presentacin de estos datos puede hacerse mediante tablas de frecuencia bidimensionales
para el caso de dos variables o multidimensionales si se han medido ms de dos variables.
Aqu se presentar slo las tablas bidimensionales.
VI.1

TABLAS DE FRECUENCIA BIDIMENSIONALES.

El conjunto de datos {(x1, y1), (x2, y2), , (xn, yn)}de la variable dimensional (X, Y) se debe
presentar en una tabla de contingencia o de doble entrada con la siguiente estructura:

ESTADISTICA DESCRIPTIVA

37

Cecilia Lpez Vidal.

TITULO
Clases de Y
Clases de X
x1
x2

y1

y2

n11
n21

n12 n1j n1k


n22 n2j n2k

xi

ni1

ni2

xr

nr1

nr2

yj

nij

nrj

yk

nik

nrk

FUENTE:
Esto indica que los datos de la variable X se han clasificado en r clases o intervalos y los datos
de la variable Y en k clases o intervalos. Para la clasificacin de las dos variables, se debe
seguir el mismo procedimiento que para una variable unidimensional.
Los valores nij de la tabla indican la frecuencia absoluta conjunta de la variable X en la clase i
y de la variable Y en la clase j, es decir corresponde al nmero de veces que se repiten ambas
clases en los n pares de datos. A estas r k frecuencias se acostumbra a llamarlas matriz de
frecuencias absolutas conjuntas.
A partir de esta primera tabla se pueden construir las tablas correspondientes a las frecuencias
relativas y a las frecuencias acumuladas (absolutas y relativas).
Por ejemplo, la estructura de la tabla de frecuencias conjuntas absolutas acumuladas, sera la
siguiente:
TITULO
Clases de Y
Clases de X
x1
x2

y1

y2

yj

N11 N12 N1j N1k


N21 N22 N2j N2k

xi

Ni1

Ni2

Nij

xr

Nr1

yk

Nr2

Nrj

Nik

Nrk

FUENTE:

ESTADISTICA DESCRIPTIVA

38

Cecilia Lpez Vidal.

En que los valores Nij indican la cantidad de observaciones que hay hasta la clase i de la
variable X y hasta la clase j de la variable Y; es decir N ij =

nlm

l =1 m =1

Adems, de la tabla de frecuencias absolutas conjuntas se pueden obtener las frecuencias


marginales y las frecuencias condicionales.
Las frecuencias marginales son las frecuencias de una variable, independiente del valor que
toma la otra variable. Por lo tanto, habr frecuencias marginales para X y para Y, las que
podrn ser absolutas, relativas, absolutas acumuladas o relativas acumuladas. Todas ellas se
acostumbra a colocar al margen de la tabla de frecuencias absolutas, esto es:
TITULO
Clases de Y
Clases de X
x1
x2

y1

y2

n11
n21

n12 n1j n1k


n22 n2j n2k

yj

xi

ni1

ni2

xr

nr1

nr2

nrj

nrk

n.j
h.j
N.j
H.j

n. 1
h. 1
N. 1
H. 1

n. 2
h. 2
N. 2
H. 2

n. j
h. j
N. j
H. j

n. k
h. k
N. k
H. k

nij

yk

nik

ni.

N i.

h i.

Hi.

n 1.
n 2.

N 1.
N 2.

h 1.
h 2.

H 1.
H 2.

n i.

n r.

N i.

N r.

h i.

H i.

h r.

H r.

FUENTE:
En la notacin usada para las frecuencias marginales el punto usado en el subndice denota
que con respecto a esa variable se ha procedido a sumar. Es as como: n i . =

n ij

, es decir, la

j=1

suma de todas las frecuencias absolutas conjuntas de la fila i y n . j =

n ij

, es decir, la suma de

i =1

todas las frecuencias absolutas conjuntas de la columna j. El resto de las frecuencias


marginales se obtienen a partir de las marginales absolutas como si se tratara de una variable
unidimensional.
Otro tipo de frecuencias que se pueden obtener son las frecuencias condicionales, que
corresponden a las frecuencias de una variable condicionadas a uno o ms valores de la otra

ESTADISTICA DESCRIPTIVA

39

Cecilia Lpez Vidal.

variable. Por ejemplo, h i (X/ Y < M(Y)) indica la frecuencia relativa en la clase i de la
variable X condicionada a todos los valores menores que el valor medio de Y.
Ntese que para indicar condicin se usa el smbolo " / ".
EJEMPLO:
Los siguientes datos corresponden a la cantidad de hijos (X) y a los ingresos mensuales, en
miles de $, de un grupo de familias:
X

Y 230 320 280 430 380 230 325 195 450 280 360 240 350 170 220 360 490 570 395 270
a)
b)
c)

Construir una tabla de contingencia.


Agregar en la tabla las frecuencias marginales absolutas.
Indicar las frecuencias relativas de X condicionadas a los ingresos inferiores a
$410.000.

Solucin.
a)

Para construir la tabla se usarn 6 clases para X, ya que es una variable discreta y
asume valores desde 0 a 5; para Y se usarn 5 intervalos por ser una variable continua
y tener slo 20 datos.
Ttulo: Distribucin de las familias segn nmero de hijos e ingresos mensuales.
Y: Ingresos (m$)
X: Cantidad de hijos
0
1
2
3
4
5
Cantidad de familias ( n . j )

170 - 250 250 - 330


0
2
3
0
2
2
1
0
0
0
0
1
6

330 - 410
0
1
1
2
1
0

Cantidad de
410 - 490 490 - 570 familias (n i. )
0
0
2
0
0
4
1
0
6
1
0
4
1
1
3
0
0
1
3

20

Fuente: Elaboracin a partir de los datos dados.


b)
c)
d)

Son los valores n i. y n . j de la tabla.


Para mostrar las frecuencias condicionales de X/ Y<410, se har una tabla
unidimensional.

ESTADISTICA DESCRIPTIVA

40

Cecilia Lpez Vidal.

X: Cantidad de hijos

Proporcin de familias con


ingresos inferiores a $410.000.
2/16= 0,1250
4/16= 0,2500
5/16= 0,3125
3/16= 0,1875
1/16= 0,0625
1/16= 0,0625

0
1
2
3
4
5

VI.2

GRAFICOS PARA DATOS BIDIMENSIONALES.

La mejor manera de visualizar la relacin entre dos variables cuantitativas es el diagrama de


dispersin, que es una aplicacin de la representacin de funciones en el sistema de
coordenadas cartesianas.

Ingresos (miles de $)

EJEMPLO:

El diagrama de dispersin para los datos del ejemplo anterior es el siguiente:

600
500
400
300
200
100
0
0

Cantidad de hijos

Cuando el estudio es longitudinal, es decir, una de las variables es el tiempo, en el eje de las X
se grafica la variable tiempo y la otra variable en el eje de las Y. En estos casos el diagrama de
dispersin se llama grfico secuencial o de lnea.

ESTADISTICA DESCRIPTIVA

41

Cecilia Lpez Vidal.

III.

MEDIDAS DE RESUMEN EN DISTRIBUCIONES BIDIMENSIONALES.

VII.1 MEDIDAS MARGINALES Y CONDICIONALES.


Cuando las observaciones bivariadas se han presentado en una tabla de frecuencias se puede
obtener medidas de resumen marginales, condicionales y conjuntas.
Las medidas de resumen marginales se calculan con las frecuencias marginales y las medidas
condicionales se calculan con las frecuencias condicionales. Las medidas de resumen que se
pueden calcular con ambos tipos de distribuciones son las mismas que para una variable
unidimensional y se calculan tratando a la variable para la cual se tienen las frecuencias
(marginales o condicionales) como si fuera una variable unidimensional.
EJEMPLO:
En la siguiente tabla la variable X representa el nmero de personas por hogar, de una muestra
realizada en una comuna de Santiago y la variable Y representa el pago mensual en servicios
bsicos, en miles de pesos, de esa muestra.
Distribucin de los hogares de acuerdo al nmero de personas y del pago mensual en
servicios bsicos.
Y

X
1
2
3
4

10 - 15

15 - 25

4
18
7
0

5
30
12
2

25 - 50
1
7
6
8

Fuente: Elaboracin propia.


a)
b)

Determine el pago medio por hogar en servicios bsicos de la muestra.


Cul es el pago mediano de los hogares con menos de 3 personas?

Solucin.
a)

En este caso se est preguntando por la media marginal de la variable Y.


Los datos a usar sern las frecuencias marginales de Y, esto es:

ESTADISTICA DESCRIPTIVA

42

Cecilia Lpez Vidal.

Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
M(Y) =

b)

yi: Pago promedio


12,5
20,0
37,5

Cantidad de hogares
29
49
22
100

12,5 29 + 20 49 + 37,5 22
= 21,675 (miles de $)
100

La pregunta es Me (Y / X<3).
Para esto necesitamos la frecuencia de Y condicionada a los valores de X inferiores a
3. Esto es:
Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
Me (Y / X<3) = 15 + 10

Cantidad de hogares
22
35
8
65
32,5 22
=18
35

(miles de $) El 50% de los hogares con menos

de tres hijos habran tenido un gasto en servicios bsicos igual o inferior a $18.000.
VII.2 MEDIDAS CONJUNTAS.
VII.2.1 LA COVARIANZA (Cov(X,Y)).
Es una medida descriptiva del tipo de relacin lineal que existe entre las variables y se puede
obtener tanto con datos en tablas bidimensionales como con los datos no tabulados.
(x i x) (y j y)

DEFINICION:

Cov(X, Y) =

= xy x y

Cuando la relacin entre las variables es lineal directa, entonces el valor de la covarianza es
positivo; si la relacin es lineal inversa la covarianza es negativa y cuando no existe relacin
lineal entre las variables, entonces la covarianza es cero.
EJEMPLO:
Obtener e interpretar la covarianza de los siguientes datos:

ESTADISTICA DESCRIPTIVA

43

Cecilia Lpez Vidal.

Y 230 320 280 430 380 230 325 195


Solucin.
x = 1,375

xy = 3545

y = 298,75
xy = 443,125

Cov(X, Y) = 443,125 - 1,375 298,75 =32,34375, que indica una relacin lineal directa, ya
que es positiva.
VII.2.2 EL COEFICIENTE DE CORRELACION.
El coeficiente de correlacin mide el grado de asociacin lineal entre las variables.
Si las variables son cuantitativas, el coeficiente de correlacin que se debe calcular es el de
Pearson, que se obtiene por:

r=

Cov(X, Y)
SX SY

Los valores de r estn entre - 1 y + 1 . Si r = - 1 se dice que existe una asociacin lineal
negativa (inversa) perfecta entre las variables; si r = 1, se dice que existe una relacin lineal
positiva (directa) perfecta entre las variables y si r = 0, entonces los datos no estn
correlacionados linealmente.
Si las variables estn en un nivel de medicin ordinal, el coeficiente de correlacin a calcular
n

es el por rangos de Spearman, que se obtiene por:

rs = 1

di
i =1
2

n n 1

donde di son las diferencias de los rangos de los valores de X e Y. (Los rangos son los valores,
entre 1 y n, asignados a cada valor observado de una variable al ordenarla de menor a mayor
jerarqua)
EJEMPLO:
Obtener el coeficiente de correlacin en el ejemplo anterior. Interpretar.
Solucin.
Como los datos son cuantitativos, obtenemos el coeficiente de correlacin de Pearson.

ESTADISTICA DESCRIPTIVA

44

Cecilia Lpez Vidal.

r=

32,34375
= 0,35187 ,
1,21835 75,44659

que indica que existe un bajo grado de asociacin lineal

positiva (directa) entre las variables X e Y.


Cuando se establece que existe cierto grado de asociacin lineal entre dos variables por medio
del coeficiente de correlacin, se puede encontrar la funcin lineal que las relaciona mediante
el uso del anlisis de regresin.

VIII. PROBLEMAS PROPUESTOS.

1.

Los siguientes datos corresponden al nmero de das con aire contaminado (con
ndice superior a 100) en una muestra de varias ciudades del Orbe durante un ao.
248
79
63
58

221
106
32
59

248
ND
55
20

208
69
56
82

171
118
30
48

184
101
88
18

113
67
55
33

131
60
26
16

104
33
47
12

128
35
69

89
79
21

ND = No disponible
1.1
1.2
1.3
1.4

2.

Identifique la unidad de observacin y la variable en estudio. Clasifique la


variable segn nivel de medicin y segn recorrido.
Presentar los datos en una tabla de frecuencias y comentarla.
Dibuje el grfico de caja con bigote. R: Q1=42, Q2=70 y Q3=108
Usando la tabla obtenga las medidas de posicin y de dispersin ms
adecuadas. R: Me=70, Q=66

En la siguiente tabla se muestra la distribucin del nivel educacional de los


trabajadores de una empresa:
Nivel educacional
Educacin Bsica
Educacin Media
Educacin Tcnico-Profesional
Educacin Profesional

2.1
2.2

Cantidad de trabajadores
32
46
25
12

Represente grficamente la distribucin de los trabajadores segn el nivel


educacional.
Obtenga la mejor medida de tendencia central para esta distribucin.R:Me

ESTADISTICA DESCRIPTIVA

45

Cecilia Lpez Vidal.

3.

En una compaa aseguradora se registr la siguiente informacin respecto del nmero


de accidentes de los vehculos asegurados, en esa compaa, durante los primeros seis
meses de este ao:
Nmero de
accidentes
0
1
2
3
4
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8

4.

Nmero de
Vehculos
250
420
150
40
20

Identifique la variable en estudio, indique si es discreta o continua y el nivel de


medicin empleado.
Grafique las frecuencias relativas acumuladas.
Obtenga la diferencia H4 - H 2 e interprete el resultado. R:0,2159
Obtenga e interprete la media aritmtica. R:1,045
Qu porcentaje de vehculos tuvo entre 2 y 4 accidentes? R:23,86
Obtenga e interprete el valor mediano. R: 1
Calcule el coeficiente de variabilidad. Interprete. R:0,876.
Determine el porcentaje de vehculos que tuvieron un nmero de accidentes
desviados del valor mediano en a lo ms 1,0 desviacin estndar.

En la siguiente tabla aparece la informacin referente a la produccin anual, expresada


en miles de unidades, de un grupo de empresas de la lnea blanca.

N de
unidades
(miles)

4.1
4.2
4.3
4.4
4.5
4.6

N promedio
de unidades
(miles)
5
10
15
20
25

N de
empresas

Proporcin
de empresas

N Acumulado
de empresas

0,1
0,3

14

50

Proporcin
Acumulada
de empresas

0,8

Complete la tabla de distribucin de frecuencias.


Efecte un anlisis descriptivo con toda la informacin de la tabla.
Cul es la produccin anual de la mayora de las empresas? R: 17 (m. de u.)
Qu cantidad de empresas tiene una produccin anual de a lo menos 11.200
unidades? R:81,12%=41 empresas.
Cul es la produccin total de estas empresas? R:840 (m. de u.)
Debido a una nueva medida econmica que incentiva la produccin de estas
empresas, se estima que aumentar en un 12% ms 800 unidades. Cul ser la
nueva produccin promedio y la nueva desviacin estndar segn esta
estimacin? La produccin, ser ms o menos homognea? R: M=19,616,
=6,7906, ms homognea.

ESTADISTICA DESCRIPTIVA

46

Cecilia Lpez Vidal.

4.7

Calcule e interprete P38. R: 15,17 (m de u.)

5.

La lechera "Vacasur", hace un estudio estadstico de las ventas en sus tres sucursales,
obteniendo la siguiente informacin :
Nmero de ventas totales = 150 por semana
Promedio aritmtico total = 27 ( miles de $ )
Desviacin tpica total = 8 ( miles de $ )
Intervarianza = 4,33 ( miles de $ )2
Para las 40 ventas de la sucursal Pto. Octay una desviacin tpica de 10 ( miles de $), y
para las 50 ventas de la sucursal Osorno una desviacin tpica de 5 ( miles de $).
5.1
Calcule la intravarianza y haga un breve comentario comparando con la
intervarianza. Interprete.
5.2
Encuentre el valor del coeficiente de variabilidad en la sucursal "Puerto Montt"
sabiendo que su promedio aritmtico de ventas fue de 25 (miles de $) por
semana. Interprete brevemente su resultado.

6.

En una empresa donde los salarios diarios tienen un promedio de $120 y una
desviacin estndar de $13, el sindicato solicita que cada salario xi, se transforme en yi
mediante la siguiente relacin :
yi = 1,3 xi + 15
El directorio acoge parcialmente la peticin, rebajando los salarios resultantes ( yi ) en
un 10%, lo que es aceptado por el sindicato. Se pide calcular la media aritmtica y la
varianza de la distribucin final de los salarios.

7.

Se realiz una encuesta en tres comunas del Gran Santiago y se obtuvo la siguiente
informacin con respecto al Nmero de kilos de papas fritas que se consume
semanalmente por familia:

Comuna
A
B
C

ni

yi

Si

35
25
40

2
3
5

0,1

C.V.(yi)

0,1

Adems, se conoce la varianza total VT = S2T = 1,8815 (kilos)2.


7.1
7.2
8.

Calcule la media total ( yT ).


Determine en cul de las tres comunas se obtuvo mayor porcentaje de
variabilidad.

La informacin de la tabla presenta la distribucin de un grupo de Ingenieros recin


recibidos segn sueldo y sexo.

ESTADISTICA DESCRIPTIVA

47

Cecilia Lpez Vidal.

Sueldo Mensual
(miles de $)
800
1.100
1.400
1.700
2.000
8.1
8.2
8.3
8.4

9.

SEXO
Masculino
Femenino

1.100
1.400
1.700
2.000
2.600

1
7
10
8
4

3
5
6
4
2

Qu cantidad de varones recibe un ingreso entre $950.000 y $1.200.000?.


Indique quienes tienen sueldos ms homogneos, los hombres o las
mujeres?
Si los sueldos de los hombres aumentan un 8% y los sueldos de las mujeres
aumentan un 10% ms un bono mensual de $25.000, Quines tendran un
sueldo medio superior, los hombres o las mujeres?
Construya un grfico que le permita comparar los sueldos de los ingenieros y
las ingenieras y concluya respecto de una posible discriminacin en los
sueldos con respecto al sexo.

En un estudio acerca del alabeo (comba) de ciertas placas de cobre para la


construccin, se midi las siguientes variables a un grupo de placas:
X:
Y:
Z:

Temperatura (C).
Contenido de Cobre (%).
Cantidad de alabeo.

Los resultados fueron los siguientes:


X

50

40

60

80

100

16 21
21 26
26 31

3
2
1

1
2
2

0
3
3

0
1
4

75

16 21
21 26
26 31

2
4
1

3
2
2

1
3
2

1
3
2

100

16 21
21 26
26 31

1
3
1

1
0
1

2
3
4

0
2
4

125

16 21
21 26
26 31

1
2
1

2
4
1

1
4
2

0
3
2

ESTADISTICA DESCRIPTIVA

48

Cecilia Lpez Vidal.

9.1
9.2
9.3
9.4
10.

Clasifique las variables consideradas en el problema segn nivel de


medicin y tamao del recorrido e indique la unidad de observacin.
Compare grficamente la distribucin del alabeo de las placas sometidas a
una temperatura inferior a 100 C con las sometidas al menos a 100 C.
Cul es el alabeo mediano de las placas con a lo menos un 60% de cobre y
que son sometidas a una temperatura de al menos 100 C?. R: 24,75
En qu tipos de placas segn su contenido de cobre el alabeo es ms
homogneo, en las placas con 40% o con 80% de Cu? R: Con 80%.

La siguiente tabla muestra la distribucin de los trabajadores de cierta empresa, de


acuerdo a su productividad promedio mensual (en UF), su antigedad en la empresa
(en aos) y el sexo (F: Femenino y M: Masculino).
Y: Antigedad
X: Productividad

10.1
10.2
10.3
10.4
10.5

Z: Sexo

0-3

3- 6

6-9

45 - 55

55 - 65

65 - 75

75 - 85

Obtenga la medida de tendencia central ms adecuada para cada una de las


variables en estudio. R: M(X)=61,455 Me(X)=61,053; Me(Y)=6,3 y
Mo(Z)=Sexo Masc.
Compare grficamente la productividad de las mujeres con menos de 6 aos
de servicio v/s la productividad de las mujeres con a lo menos 6 aos de
servicio.
Indique con una medida descriptiva adecuada, si los hombres tienen una
productividad ms homognea que las mujeres. R: CVF=0,1594,
CVM=0,1404.
Qu porcentaje de trabajadores de sexo masculino que llevan menos de 6
aos en la empresa, tienen una produccin media mensual entre 52 UF y 64
UF? R: 42%
El Gerente de Produccin de la Empresa ha observado que el nivel de
productividad est "fuera de control" cuando el coeficiente de variacin de la
productividad es superior a 0,1 (10%). En base a la informacin presentada,
Qu concluye el Gerente de Produccin? R: Fuera de control.

ESTADISTICA DESCRIPTIVA

49

Cecilia Lpez Vidal.

IX.

BIBLIOGRAFA COMPLEMENTARIA

1.

Montgomery, D y Runger, G. Probabilidad y Estadstica aplicadas a la Ingeniera.


Editorial McGraw-Hill. 1 Edicin. 1996.

2.

Devore, Jay L.Probabilidad y Estadstica para Ingeniera y Ciencias. International


Thomson editores. Primera Edicin.1998.

3.

Weimer, Richard C. Estadstica.. Probabilidad y Estadstica aplicadas a la


Ingeniera. Ed. CECSA. Primera Edicin. 1996.

4.

Afonso Lopes, Paulo. Probabilidad y Estadstica. Conceptos, Modelos, Aplicaciones


en Excel. Editorial Prentice Hall.Primera edicin. 2000.

ESTADISTICA DESCRIPTIVA

50

Cecilia Lpez Vidal.

You might also like