Professional Documents
Culture Documents
Profesora
M. Cecilia Lpez Vidal
Marzo 2004
PRESENTACION
Estos apuntes han sido preparados para los alumnos que deben seguir un primer curso de
"Estadstica Aplicada". Su objetivo es presentar la estadstica descriptiva, de manera que el
alumno pueda tener un apoyo, lo ms prctico posible, ya que la bibliografa existente no
abarca algunos de los temas tratados aqu; o bien su enfoque es muy general. No obstante,
el alumno no debe olvidar de buscar bibliografa que le sirva de complemento a los temas
tratados en la sala de clases.
ESTADISTICA DESCRIPTIVA
INDICE
I.
INTRODUCCIN
II.
CLASIFICACION DE VARIABLES.
III.
7
7
13
IV
21
21
30
34
V.
36
VI.
VII.
IX.
PROBLEMAS PROPUESTOS.
45
X.
BIBLIOGRAFA COMPLEMENTARIA
50
ESTADISTICA DESCRIPTIVA
DE
MS
37
37
41
I.
INTRODUCCIN
2.
3.
4.
Factibilidad de las hiptesis a fin de que los conceptos involucrados puedan ser
medidos de acuerdo a reglas precisas, vlidas y confiables
5.
6.
Quin proporciona las tcnicas para llevar a la prctica aquellas etapas del mtodo
cientfico que requieren recoleccin y anlisis de informacin es el mtodo estadstico.
El mtodo estadstico es un conjunto de procedimientos aplicados en secuencia lgica a la
obtencin y anlisis de datos, los cuales son influidos por mltiples factores.
En el mtodo estadstico se distinguen bsicamente tres etapas: La planificacin, la
ejecucin y el anlisis de los resultados.
La planificacin es el planteamiento terico de la investigacin, de manera que mientras
mejor planeada est una investigacin, ser ms fcil su ejecucin.
ESTADISTICA DESCRIPTIVA
ESTADISTICA DESCRIPTIVA
2.
3.
ESTADISTICA DESCRIPTIVA
II.
CLASIFICACION DE VARIABLES.
II.1
CLASIFICACION BASICA.
Para describir un objeto, un individuo u otra identidad hacemos referencia a las propiedades o
atributos que posee, estos atributos pueden expresarse en escalas de diferente nivel de
medicin.
1.
Escala Nominal.
Este es el nivel de medicin ms dbil que slo permite distinguir las distintas
clases, asignndoles nmeros o smbolos a las unidades para identificar a la clase
que pertenecen.
ESTADISTICA DESCRIPTIVA
3.
Escala de Intervalos.
En este caso el nmero indica nombre, jerarqua y tiene sentido la diferencia con
cualquier otro nmero de la escala, pero donde el cero es arbitrario.
En este nivel cualquier cambio en los nmeros asociados con las posiciones de los
objetos debe conservar el orden y las diferencias relativas entre los objetos, es
decir, la escala de intervalos es nica hasta una transformacin lineal; como ocurre
por ejemplo entre las escalas Celsius y Farenheit para medir temperatura.
Esta escala es la primera cuantitativa que vemos, por lo que es posible calcular todas
las estadsticas descriptivas comunes (media, desviacin estndar, correlacin, etc.).
Ejemplos: Medicin de temperatura en escala Celsius, medicin de altura de vuelo,
ao o fecha en que vivimos, puntajes de coeficiente intelectual, etc.
4.
Escala de Razn.
En este caso el nmero indica lo mismo que en la escala de intervalos (nombre
jerarqua y valor), pero con el cero real.
ESTADISTICA DESCRIPTIVA
Segn los valores numricos que asuma una variable, sta puede ser:
1.
Discreta.
Una variable se clasifica como discreta, si los valores que asume son finitos o
infinitos numerables (contables). Ejemplo: Cantidad de hijos, nmero de personas
en una fila, valores de los billetes, etc.
2.
Continua.
Una variable es continua si tiene un recorrido infinito no numerable, o bien, si entre
dos valores cualesquiera siempre existe la posibilidad de que se encuentre otro
valor observable. Ejemplo: duracin de una batera, edad, resistencia a la tensin,
temperatura, etc.
En algunos casos en que la variable asume dos valores (presencia o ausencia de una
caracterstica) se clasifican como dicotmicas. Por ejemplo, para indicar si una persona
fuma o no, se asigna 1 a fuma y 0 a no fuma.
II.4
2.
ESTADISTICA DESCRIPTIVA
III.
Las tcnicas visuales para presentar los datos, que son suficientemente numerosos, en forma
ordenada y resumida son las tablas de frecuencia y los grficos.
III.1
Una tabla de frecuencias es un cuadro numrico que permite la clasificacin de los datos en
categoras. Una tabla de frecuencias se dice que es unidimensional si se refiere al estudio de
una variable, bidimensional si se refiere a la presentacin en forma conjunta de dos variables y
multidimensional cuando se refiere a la presentacin de informacin conjunta de dos o ms
variables.
Estas tablas son tiles cuando se necesita resumir los datos para posteriormente analizar la
informacin registrada para cada una de las variables.
Se denominan de frecuencia por que esta es la informacin que se coloca en cada una de las
categoras de las variables.
El formato general de este tipo de tablas para una variable es el siguiente:
TITULO DE LA TABLA
Nombre de la
Tipo de
variable
frecuencia
Categoras de
Frecuencias
la variable
observadas
FUENTE:
El ttulo de la tabla debe indicar por lo menos qu informacin se presenta, dnde fueron
registrados los datos y cundo se obtuvo la informacin.
El nombre de la variable puede utilizarse completo, con sus respectivas unidades de medida,
o bien, alguna sigla previamente definida.
Las categoras que tendr la variable van a depender del tipo de variable segn nivel de
medicin o recorrido. De acuerdo a esto veremos la construccin de distintos tipos de tablas.
ESTADISTICA DESCRIPTIVA
TIPOS DE FRECUENCIA:
1.
2.
Tanto la frecuencia absoluta como la frecuencia relativa se pueden usar en todo tipo de
variables. Cuando las variables son de un nivel de medicin al menos ordinal, podra
ser de utilidad usar alguna de las dos siguientes frecuencias.
3.
4.
ESTADISTICA DESCRIPTIVA
Cantidad de Porcentaje
de
personas (ni) personas (hi100)
15
46,875
17
53,125
32
100,000
Variable en nivel de medicin al menos ordinal y discreta con una cantidad pequea de
valores distintos (alrededor de 20). En este caso cada valor que asume la variable
pasa a ser una categora y se disponen segn el orden implcito de la variable .
EJEMPLOS.
a)
DIAS
AUSENTES
0
1
2
3
4
5
6
7
TOTAL
Cantidad de
alumnos
Cantidad
Acumulada
de alumnos
(Ni)
7
15
24
29
32
34
34
36
(ni)
7
8
9
5
3
2
0
2
36
Proporcin de
alumnos
(hi)
0,1944
0,2222
0,2500
0,1389
0,0833
0,0556
0,0000
0,0556
1,0000
Proporcin
Acumulada de
alumnos (Hi)
0,1944
0,4167
0,6667
0,8056
0,8889
0,9444
0,9444
1,0000
Nota: Un buen ejercicio ser interpretar algunos de los valores de la tabla, por
ejemplo, n4=5 indica que durante el semestre hubo 5 alumnos que faltaron 3
das a la clase de estadstica y H5=0,8889 indica que el 88,89% de los alumnos
del curso faltaron a lo ms 4 das a la clase.
b)
4.
ESTADISTICA DESCRIPTIVA
10
Se debe hacer notar que en la construccin de estas tablas existen otros criterios para
trabajar con los lmites de los intervalos, en la metodologa que se emplea aqu se
trabaja directamente con los lmites reales de clase, tambin llamados fronteras de
clase; en los caso en que se trabaja con valores distintos entre el lmite superior de una
clase y el lmite inferior de la clase siguiente se dice que se trabaja simplemente con
los lmites de clase.
EJEMPLO:
Los siguientes datos corresponden a los tiempos, en minutos, requeridos para atender
a 50 clientes en una caja de supermercado, obtenidos en un control de eficiencia de
ste:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
Construir la tabla de frecuencias, con todas las frecuencias incluyendo la marca de
clase.
ESTADISTICA DESCRIPTIVA
11
Solucin:
R = Xmx - Xmn = 6,0 - 0,3 = 5,7
k = [1 + 3,3 log 50] = 6
R/k = 0,95
c= 1
Pero 1 6 = 6 = R'
R' - R = 0,3, cifra que repartimos lo ms iguales posibles conservando un decimal,
entre el mnimo y el mximo. En este caso procederemos a restar 0,1 al mnimo y a
sumar 0,2 al mximo (0,1 + 0,2 = 0,3 ).
Por tanto, nuestra tabla comenzar con el valor 0,2 y terminar con el valor 6,2;
teniendo cada intervalo una amplitud igual a 1.
DISTRIBUCIN DE LOS CLIENTES SEGN EL TIEMPO DE ATENCIN EN
LA CAJA.
TIEMPO
(minutos)
[ LI - LS [
0,2 - 1,2
1,2 - 2,2
2,2 - 3,2
3,2 - 4,2
4,2 - 5,2
5,2 - 6,2
Total
Tiempo
promedio
(Xi )
0,7
1,7
2,7
3,7
4,7
5,7
Cantidad
de clientes
(ni )
19
16
6
4
1
4
50
Proporcin
de clientes
(hi )
0,38
0,32
0,12
0,08
0,02
0,08
1,00
Cantidad
Acumulada de
clientes (Ni )
Proporcin
Acumulada de
clientes (Hi )
19
35
41
45
46
50
0,38
0,70
0,82
0,90
0,92
1,00
ESTADISTICA DESCRIPTIVA
12
III.2
Una grfica es una forma ilustrada de representar y resumir datos; de modo de hacer evidentes
visualmente ciertas caractersticas de los datos, son una alternativa a las tablas de frecuencia,
incluso a veces representa mejor sus caractersticas que las tablas de frecuencias.
Al construir un grfico se debe tener presente los siguientes puntos:
-
Sencillez y autoexplicacin.
Evitar distorsiones por mala eleccin de escala.
Eleccin apropiada del tipo de grfico, segn los objetivos del estudio y el nivel de
medicin de las variables.
III.2.1 PICTOGRAMA.
Son representaciones de la informacin mediante dibujos de los objetos que son motivo de
estudio, con un formato que d una rpida idea visual de la distribucin de frecuencia. Este
tipo de grficas es una de las ms antiguas en uso y son especialmente tiles para fines
publicitarios por ser atractivos y de fcil comprensin.
EJEMPLO:
El siguiente pictograma muestra la cantidad de dinero circulante en tres pases fronterizos:
Pas
Disponer los datos en dos columnas separadas por una lnea vertical de tal forma que
para los datos con dos dgitos la cifra de las decenas se encuentre a la izquierda de la
lnea vertical (tallo del diagrama), y a la derecha las unidades (hojas o ramas del
ESTADISTICA DESCRIPTIVA
13
diagrama). Para datos con tres dgitos, el tallo estar formado por los dgitos de las
centenas y las decenas, que se escribirn a la izquierda de la lnea vertical y las hojas
estarn formadas por el dgito de las unidades, que se escribir a la derecha de la lnea
vertical.
-
Cada tallo define una clase y se escribe slo una vez. A su derecha se van escribiendo
por orden las sucesivas hojas correspondientes a ese tallo. El nmero de hojas para
cada tallo representa la frecuencia de cada clase.
EJEMPLO:
Construir el diagrama de tallo y hojas para los datos de tiempo de espera en el ejemplo de la
pgina 15.
Solucin.
Recordemos que los datos eran:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
Luego, el diagrama de tallo y hoja es:
0
1
2
3
4
5
6
3344557777899999
0112233445556667788
33456
02225
5
299
0
ESTADISTICA DESCRIPTIVA
14
Nunca
3%
Casi nunca
10%
Siem pre
41%
A veces
13%
Casi
siem pre
33%
Porcentaje de familias
30
25
20
15
10
5
0
0
ESTADISTICA DESCRIPTIVA
Cantidad de hijos
15
Porcentaje de
empleados
12
24
36
14
10
4
Porcentaje de
empleadas
10
16
32
24
12
6
Porcentaje de
empleados
40
30
Hombres
20
Mujeres
10
0
0 - 1 1 - 2 2 - 3 3 - 4 4 - 5 >=5
Antigedad
ESTADISTICA DESCRIPTIVA
16
100%
80%
60%
40%
20%
0%
Hombres
Mujeres
>=5
4-5
3-4
2-3
1-2
0-1
ESTADISTICA DESCRIPTIVA
17
Ventas
(miles de $)
900 - 1.000
1.000 - 1.100
1.100 - 1.200
1.200 - 1.300
1.300 - 1.400
Venta promedio
(miles de $)
950
1.050
1.150
1.250
1.350
Cantidad de das
6
12
18
10
4
18
12
6
850
950
1.050 1.150
10
4
1.250 1.350
Ventas
1.450 [m$]
ESTADISTICA DESCRIPTIVA
18
Cantidad de habitaciones
0
1
2
3
4
5
6
7
10
26
26
44
68
82
92
100
Excluye al 7
68
44
26
10
0
N de
habitaciones
III.2.9 OJIVA.
Es el grfico de la distribucin de frecuencias acumulada (absoluta o relativa) de una variable
continua. Es un grfico de lneas que une las frecuencias acumuladas en los lmites inferiores
(y superiores) de cada intervalo.
EJEMPLO:
Usando los datos usados para el histograma y polgono de frecuencias dibujar la ojiva.
Solucin.
La tabla de frecuencias acumuladas es como sigue:
ESTADISTICA DESCRIPTIVA
19
Ventas
(miles de $)
900 - 1.000
1.000 - 1.100
1.100 - 1.200
1.200 - 1.300
1.300 - 1.400
La ojiva es:
Cantidad Acumulada
de das
6
18
36
46
50
50
46
36
18
6
ESTADISTICA DESCRIPTIVA
Ventas
900
1.000
20
1.100
1.200
1.300
1.400
1.500
(m$)
IV
Los conjuntos de datos tienen distintas caractersticas que los hace diferenciarse de otros
conjuntos de datos. Estas caractersticas se denominan medidas descriptivas y se clasifican en:
medidas de posicin, medidas de dispersin y medidas de forma.
Estas medidas descriptivas se pueden obtener tanto en la muestra como en la poblacin.
Cuando los datos corresponden a una muestra, las medidas se denominan estadgrafos y
cuando los datos son de la poblacin, las medidas se denominan parmetros.
IV.1
MEDIDAS DE POSICION
Por lo general, las medidas de posicin tienen como objetivo resumir el conjunto de datos de
forma de tener un panorama general de ellos, de manera que sirva como representante de la
globalidad de la informacin. La mayora de las medidas de posicin indican donde se ubica el
centro de la distribucin, por lo que se les llama medidas de tendencia central.
Las medidas de tendencia central son: la media aritmtica, la mediana, la moda, la media
geomtrica y la media armnica. Las medidas de posicin son las cuantilas (cuartiles,
quintiles, octiles, deciles, percentiles).
IV.1.1 LA MEDIA O PROMEDIO ARITMETICO (M x ).
DEFINICION:
Si los datos son los valores X1, X2,, XN de la poblacin de tamao N (finito), la media se
N
i=1
xi
i =1
Si los datos de una muestra estn ordenados en una tabla de frecuencias, entonces la definicin
k
se transforma en:
x=
xi ni
i =1
xi hi
ESTADISTICA DESCRIPTIVA
21
EJEMPLO:
La siguiente tabla muestra la distribucin del saldo de 120 cuentas de crdito, en miles de $,
que maneja en sus archivos la empresa XX.
Saldo
(miles de $)
0 30
30 60
60 90
90 120
120 150
150 180
Cantidad de cuentas
10
25
40
20
15
10
Cantidad de cuentas
10
25
40
20
15
10
como "el saldo promedio de las cuentas de crdito de la empresa XX sera de $83.750".
Propiedades de la media.
La media aritmtica tiene la gran desventaja de que se ve muy influenciada por los valores
extremos, pero an as es la medida de tendencia central que ms se usa, ya que posee las
siguientes propiedades:
1.
2.
ESTADISTICA DESCRIPTIVA
22
3.
5.
La media del producto de una constante a por una variable X ms otra constante,
digamos b, es igual a la constante a por la media de la variable X ms la constante b, es
decir, M(a X + b) = a M(X) + b.
La media de la suma de dos variables X e Y, es igual a suma de las medias de cada
una de esas variables, es decir, M ( X + Y ) = M( X ) + M( Y ).
xmn x xmx.
6.
En toda distribucin
4.
( xi x ) = 0 .
i =1
7.
En toda distribucin
( xi a) 2
es mnimo para a = x .
i =1
si n es impar
n +1
2
x
Me(X) =
+x
n
2
+1
si n es par
n
N k 1
2
LI k + c k
nk
donde:
x(i) indica la observacin que est en el lugar i del conjunto de datos ordenados.
LIk es el lmite real inferior del intervalo que contiene a la mediana.
El intervalo que contiene a la mediana es aqul cuya frecuencia absoluta acumulada alcanza el
valor
n
2
ESTADISTICA DESCRIPTIVA
23
EJEMPLOS:
1)
2)
3)
N de familias
12
18
24
32
22
12
2
Para obtener la mediana en este caso debemos obtener las frecuencias acumuladas.
N de hijos
0
1
2
3
4
5
6
N acumulado de familias
12
30
54
86
108
120
122
ESTADISTICA DESCRIPTIVA
24
4)
= 60
Cantidad de cuentas
0 30
30 60
60 90
90 120
120 150
150 180
n
2
n
2
Cantidad acumulada
de cuentas
10
25
40
20
15
10
10
35
75
95
110
120
Me(x) = 60 + 30
60 35
40
x i a = Mnimo
si a = Me .
i =1
4.
Esta es la nica medida descriptiva que se puede utilizar en datos medidos en una escala
nominal. Si la variable es continua, la moda (o las modas) corresponden a aquellos valores de
la variable en los cuales la funcin alcanza un mximo local y habr tantas modas como
ESTADISTICA DESCRIPTIVA
25
Si los datos estn sin agrupar, o bien, si corresponden a una variable discreta ordenada
en una tabla de frecuencias, se aplica la definicin para obtenerla.
Si los datos corresponden a una variable continua agrupada en intervalos, slo se
puede calcular la moda si los intervalos son de igual amplitud y el intervalo con mayor
frecuencia se denomina clase modal y el valor modal est dado por:
Mo(x) = LI k + c
(n k n k 1 )
,
(n k n k 1 ) + (n k n k +1 )
M=Me=Mo
Si la distribucin es unimodal y asimtrica positiva (con cola a la derecha), entonces
M>Me>Mo. Grficamente es:
Mo Me M
Si la distribucin es unimodal
M<Me<Mo. Grficamente es:
ESTADISTICA DESCRIPTIVA
26
Me Mo
+x
k n
100
k n
+1
100
2
Pk =
k n
+1
100
si
si
kn
100
si los datos slo se han ordenado de menor a mayor (no se han tabulado).
kn
100
kn
N k 1
100
LI k + c k
nk
k n
,
100
el divisor
EJEMPLO:
Los trabajadores de una empresa clasificados segn su rendimiento mensual, cuantificado en
cientos de miles de $, dan origen a la distribucin presentada en la tabla siguiente.
ESTADISTICA DESCRIPTIVA
27
Rendimiento
Cantidad de trabajadores
50 - 70
70 - 90
90 - 110
110 - 130
130 - 150
150 - 170
170 - 190
18
27
20
12
11
9
3
a)
b)
Solucin.
a)
frecuencias acumuladas.
Rendimiento
Cantidad de trabajadores
50 - 70
70 - 90
90 - 110
110 - 130
130 - 150
150 - 170
170 - 190
k n
100
y compararlo
con
las
18
27
20
12
11
9
3
18
45
65
77
88
97
100
k n 20 100
=
= 20
El intervalo que contiene al valor P20 es el 2.
100
100
20 18
P20 = 70 + 20
= 71,48[cientos de miles de $] , es decir, el 20%
27
de los
k 65
12
k = 69,2% ,
ESTADISTICA DESCRIPTIVA
28
MG = n x1 x 2 x n
1200
= 1,0811
550
MH =
1
=
1
M
X
n
ni
yi
NOTA:
MH =
40 + 60
= 78,95 km/hora.
40 60
+
60 100
ESTADISTICA DESCRIPTIVA
29
IV.2
MEDIDAS DE DISPERSION.
A pesar de ser ms adecuada que la anterior, ya que elimina la influencia de los valores
extremos, no permite hacer una interpretacin precisa de un valor dentro de la distribucin. Al
igual que el rango, se usa bastante en Control de Calidad.
IV.2.3 LA VARIANZA Y LA DESVIACION ESTANDAR.
DEFINICION:
(x i )2
i =1
De todas las medidas descriptivas, esta es la nica en que es distinta la frmula poblacional de
la muestral. La varianza muestral, que se denota por s2, est dada por:
n
s2 =
(x i x )2
i =1
n 1
x i2 n (x )2
i =1
n 1
desarrollo de la sumatoria, con lo que se logra una frmula ms fcil para el clculo. En caso
que los datos estn en tablas de frecuencia la varianza muestral se obtiene por:
ESTADISTICA DESCRIPTIVA
30
s2 =
x i2 n i n (x )2
i =1
n 1
k2
1
k2
100 %
ESTADISTICA DESCRIPTIVA
31
EJEMPLO:
Usando los datos del ejemplo de la media, que se refera a la distribucin del saldo de 120
cuentas de crdito,
a) Obtenga la desviacin estndar.
b) Si se sabe que por las condiciones econmicas los saldos han aumentado un 20%,
determine la nueva desviacin estndar.
Solucin.
a)
Cantidad de cuentas
10
25
40
20
15
10
Suponiendo que los datos son de una muestra, la desviacin estndar muestral se
calculara como sigue:
s=
b)
Usos de la varianza.
La varianza (o la desviacin estndar) se usa como medida de dispersin cuando se ha
utilizado la media aritmtica como medida de tendencia central.
Tambin se usa para comparar la dispersin de dos o ms distribuciones, cuando ellas
presentan igual media aritmtica y las observaciones estn en la misma unidad de medida. Por
ejemplo, no se podr usar en la comparacin de la dispersin del rendimiento de la gasolina
de dos vehculos si uno est medido en Km por litro y el otro en millas por galn.
ESTADISTICA DESCRIPTIVA
32
Cuando las distribuciones tienen distinta media aritmtica o estn en unidades diferentes, se
usa una medida de dispersin relativa, como es el coeficiente de variacin.
IV.2.4. EL COEFICIENTE DE VARIACIN (CV(x) CVx).
DEFINICION:
CV(X) =
sx
x
41,23
= 0,4923 Esto
83,75
Zi =
xi
xi x
s
A
4,8
4,3
1,2
B
4,5
4,1
0,8
En cul de los dos cursos tuvo mejor desempeo el alumno?
ESTADISTICA DESCRIPTIVA
33
Solucin.
IV.3
MEDIDAS DE FORMA.
Existen varios coeficientes para medir la asimetra (o simetra), entre ellos estn:
1.
AS =
x Mo 3(x Me )
=
s
s
(x i x )3
i =1
2.
AS =
n
n
(x i x )
3
2
i =1
CURTOSIS.
DEFINICION:
ESTADISTICA DESCRIPTIVA
34
b2 =
(x i x )4
i =1
n
(x i x )
i =1
Para una distribucin normal b2=3, para una platicrtica b2<3 y para una leptocrtica b2>3.
xmn Q1
Q2
ESTADISTICA DESCRIPTIVA
Q3
xmx
35
Variable
III.
xT =
xi ni
i =1
donde n =
ni
h =1
La variacin total de los datos tiene dos fuentes de variacin, la variacin que hay en las
observaciones dentro de los estratos, que se mide con la intravarianza y se denota por w2 , y la
variacin que se produce entre los distintos estratos, que se mide con la intervarianza y se
denota por B2 . Por lo tanto, la varianza total T2 se obtiene por:
T2 = W2 + B2
La intravarianza se define como el promedio de las varianzas de los estratos, esto significa
que:
L
W2 =
i2 n i
i =1
B2 =
(x
xT ) ni
2
i =1
EJEMPLO:
ESTADISTICA DESCRIPTIVA
36
para
Marca
Cantidad de especmenes
(nh)
7
5
6
6
A
B
C
D
Media
( xh )
8,271
7,500
6,350
5,817
Varianza
( s 2h )
2,139
2,825
1,123
2,406
B2 =
8 , 271 7 + 7 , 5 5 + 6 , 35 6 + 5 ,817 6
= 7 , 0166
24
W2 =
Existe mayor variabilidad en el contenido de folacina al interior de las marcas, ya que W2 > B2 .
VI.
PRESENTACIN
DIMENSIONES.
DE
DATOS
BIDIMENSIONALES
DE
MS
Hasta ahora se ha estudiado datos considerando una sola variable en ellos. En este captulo
estudiaremos dos ms variables a cada observacin; variables que tienen entre s alguna
relacin.
La presentacin de estos datos puede hacerse mediante tablas de frecuencia bidimensionales
para el caso de dos variables o multidimensionales si se han medido ms de dos variables.
Aqu se presentar slo las tablas bidimensionales.
VI.1
El conjunto de datos {(x1, y1), (x2, y2), , (xn, yn)}de la variable dimensional (X, Y) se debe
presentar en una tabla de contingencia o de doble entrada con la siguiente estructura:
ESTADISTICA DESCRIPTIVA
37
TITULO
Clases de Y
Clases de X
x1
x2
y1
y2
n11
n21
xi
ni1
ni2
xr
nr1
nr2
yj
nij
nrj
yk
nik
nrk
FUENTE:
Esto indica que los datos de la variable X se han clasificado en r clases o intervalos y los datos
de la variable Y en k clases o intervalos. Para la clasificacin de las dos variables, se debe
seguir el mismo procedimiento que para una variable unidimensional.
Los valores nij de la tabla indican la frecuencia absoluta conjunta de la variable X en la clase i
y de la variable Y en la clase j, es decir corresponde al nmero de veces que se repiten ambas
clases en los n pares de datos. A estas r k frecuencias se acostumbra a llamarlas matriz de
frecuencias absolutas conjuntas.
A partir de esta primera tabla se pueden construir las tablas correspondientes a las frecuencias
relativas y a las frecuencias acumuladas (absolutas y relativas).
Por ejemplo, la estructura de la tabla de frecuencias conjuntas absolutas acumuladas, sera la
siguiente:
TITULO
Clases de Y
Clases de X
x1
x2
y1
y2
yj
xi
Ni1
Ni2
Nij
xr
Nr1
yk
Nr2
Nrj
Nik
Nrk
FUENTE:
ESTADISTICA DESCRIPTIVA
38
En que los valores Nij indican la cantidad de observaciones que hay hasta la clase i de la
variable X y hasta la clase j de la variable Y; es decir N ij =
nlm
l =1 m =1
y1
y2
n11
n21
yj
xi
ni1
ni2
xr
nr1
nr2
nrj
nrk
n.j
h.j
N.j
H.j
n. 1
h. 1
N. 1
H. 1
n. 2
h. 2
N. 2
H. 2
n. j
h. j
N. j
H. j
n. k
h. k
N. k
H. k
nij
yk
nik
ni.
N i.
h i.
Hi.
n 1.
n 2.
N 1.
N 2.
h 1.
h 2.
H 1.
H 2.
n i.
n r.
N i.
N r.
h i.
H i.
h r.
H r.
FUENTE:
En la notacin usada para las frecuencias marginales el punto usado en el subndice denota
que con respecto a esa variable se ha procedido a sumar. Es as como: n i . =
n ij
, es decir, la
j=1
n ij
, es decir, la suma de
i =1
ESTADISTICA DESCRIPTIVA
39
variable. Por ejemplo, h i (X/ Y < M(Y)) indica la frecuencia relativa en la clase i de la
variable X condicionada a todos los valores menores que el valor medio de Y.
Ntese que para indicar condicin se usa el smbolo " / ".
EJEMPLO:
Los siguientes datos corresponden a la cantidad de hijos (X) y a los ingresos mensuales, en
miles de $, de un grupo de familias:
X
Y 230 320 280 430 380 230 325 195 450 280 360 240 350 170 220 360 490 570 395 270
a)
b)
c)
Solucin.
a)
Para construir la tabla se usarn 6 clases para X, ya que es una variable discreta y
asume valores desde 0 a 5; para Y se usarn 5 intervalos por ser una variable continua
y tener slo 20 datos.
Ttulo: Distribucin de las familias segn nmero de hijos e ingresos mensuales.
Y: Ingresos (m$)
X: Cantidad de hijos
0
1
2
3
4
5
Cantidad de familias ( n . j )
330 - 410
0
1
1
2
1
0
Cantidad de
410 - 490 490 - 570 familias (n i. )
0
0
2
0
0
4
1
0
6
1
0
4
1
1
3
0
0
1
3
20
ESTADISTICA DESCRIPTIVA
40
X: Cantidad de hijos
0
1
2
3
4
5
VI.2
Ingresos (miles de $)
EJEMPLO:
600
500
400
300
200
100
0
0
Cantidad de hijos
Cuando el estudio es longitudinal, es decir, una de las variables es el tiempo, en el eje de las X
se grafica la variable tiempo y la otra variable en el eje de las Y. En estos casos el diagrama de
dispersin se llama grfico secuencial o de lnea.
ESTADISTICA DESCRIPTIVA
41
III.
X
1
2
3
4
10 - 15
15 - 25
4
18
7
0
5
30
12
2
25 - 50
1
7
6
8
Solucin.
a)
ESTADISTICA DESCRIPTIVA
42
Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
M(Y) =
b)
Cantidad de hogares
29
49
22
100
12,5 29 + 20 49 + 37,5 22
= 21,675 (miles de $)
100
La pregunta es Me (Y / X<3).
Para esto necesitamos la frecuencia de Y condicionada a los valores de X inferiores a
3. Esto es:
Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
Me (Y / X<3) = 15 + 10
Cantidad de hogares
22
35
8
65
32,5 22
=18
35
de tres hijos habran tenido un gasto en servicios bsicos igual o inferior a $18.000.
VII.2 MEDIDAS CONJUNTAS.
VII.2.1 LA COVARIANZA (Cov(X,Y)).
Es una medida descriptiva del tipo de relacin lineal que existe entre las variables y se puede
obtener tanto con datos en tablas bidimensionales como con los datos no tabulados.
(x i x) (y j y)
DEFINICION:
Cov(X, Y) =
= xy x y
Cuando la relacin entre las variables es lineal directa, entonces el valor de la covarianza es
positivo; si la relacin es lineal inversa la covarianza es negativa y cuando no existe relacin
lineal entre las variables, entonces la covarianza es cero.
EJEMPLO:
Obtener e interpretar la covarianza de los siguientes datos:
ESTADISTICA DESCRIPTIVA
43
xy = 3545
y = 298,75
xy = 443,125
Cov(X, Y) = 443,125 - 1,375 298,75 =32,34375, que indica una relacin lineal directa, ya
que es positiva.
VII.2.2 EL COEFICIENTE DE CORRELACION.
El coeficiente de correlacin mide el grado de asociacin lineal entre las variables.
Si las variables son cuantitativas, el coeficiente de correlacin que se debe calcular es el de
Pearson, que se obtiene por:
r=
Cov(X, Y)
SX SY
Los valores de r estn entre - 1 y + 1 . Si r = - 1 se dice que existe una asociacin lineal
negativa (inversa) perfecta entre las variables; si r = 1, se dice que existe una relacin lineal
positiva (directa) perfecta entre las variables y si r = 0, entonces los datos no estn
correlacionados linealmente.
Si las variables estn en un nivel de medicin ordinal, el coeficiente de correlacin a calcular
n
rs = 1
di
i =1
2
n n 1
donde di son las diferencias de los rangos de los valores de X e Y. (Los rangos son los valores,
entre 1 y n, asignados a cada valor observado de una variable al ordenarla de menor a mayor
jerarqua)
EJEMPLO:
Obtener el coeficiente de correlacin en el ejemplo anterior. Interpretar.
Solucin.
Como los datos son cuantitativos, obtenemos el coeficiente de correlacin de Pearson.
ESTADISTICA DESCRIPTIVA
44
r=
32,34375
= 0,35187 ,
1,21835 75,44659
1.
Los siguientes datos corresponden al nmero de das con aire contaminado (con
ndice superior a 100) en una muestra de varias ciudades del Orbe durante un ao.
248
79
63
58
221
106
32
59
248
ND
55
20
208
69
56
82
171
118
30
48
184
101
88
18
113
67
55
33
131
60
26
16
104
33
47
12
128
35
69
89
79
21
ND = No disponible
1.1
1.2
1.3
1.4
2.
2.1
2.2
Cantidad de trabajadores
32
46
25
12
ESTADISTICA DESCRIPTIVA
45
3.
4.
Nmero de
Vehculos
250
420
150
40
20
N de
unidades
(miles)
4.1
4.2
4.3
4.4
4.5
4.6
N promedio
de unidades
(miles)
5
10
15
20
25
N de
empresas
Proporcin
de empresas
N Acumulado
de empresas
0,1
0,3
14
50
Proporcin
Acumulada
de empresas
0,8
ESTADISTICA DESCRIPTIVA
46
4.7
5.
La lechera "Vacasur", hace un estudio estadstico de las ventas en sus tres sucursales,
obteniendo la siguiente informacin :
Nmero de ventas totales = 150 por semana
Promedio aritmtico total = 27 ( miles de $ )
Desviacin tpica total = 8 ( miles de $ )
Intervarianza = 4,33 ( miles de $ )2
Para las 40 ventas de la sucursal Pto. Octay una desviacin tpica de 10 ( miles de $), y
para las 50 ventas de la sucursal Osorno una desviacin tpica de 5 ( miles de $).
5.1
Calcule la intravarianza y haga un breve comentario comparando con la
intervarianza. Interprete.
5.2
Encuentre el valor del coeficiente de variabilidad en la sucursal "Puerto Montt"
sabiendo que su promedio aritmtico de ventas fue de 25 (miles de $) por
semana. Interprete brevemente su resultado.
6.
En una empresa donde los salarios diarios tienen un promedio de $120 y una
desviacin estndar de $13, el sindicato solicita que cada salario xi, se transforme en yi
mediante la siguiente relacin :
yi = 1,3 xi + 15
El directorio acoge parcialmente la peticin, rebajando los salarios resultantes ( yi ) en
un 10%, lo que es aceptado por el sindicato. Se pide calcular la media aritmtica y la
varianza de la distribucin final de los salarios.
7.
Se realiz una encuesta en tres comunas del Gran Santiago y se obtuvo la siguiente
informacin con respecto al Nmero de kilos de papas fritas que se consume
semanalmente por familia:
Comuna
A
B
C
ni
yi
Si
35
25
40
2
3
5
0,1
C.V.(yi)
0,1
ESTADISTICA DESCRIPTIVA
47
Sueldo Mensual
(miles de $)
800
1.100
1.400
1.700
2.000
8.1
8.2
8.3
8.4
9.
SEXO
Masculino
Femenino
1.100
1.400
1.700
2.000
2.600
1
7
10
8
4
3
5
6
4
2
Temperatura (C).
Contenido de Cobre (%).
Cantidad de alabeo.
50
40
60
80
100
16 21
21 26
26 31
3
2
1
1
2
2
0
3
3
0
1
4
75
16 21
21 26
26 31
2
4
1
3
2
2
1
3
2
1
3
2
100
16 21
21 26
26 31
1
3
1
1
0
1
2
3
4
0
2
4
125
16 21
21 26
26 31
1
2
1
2
4
1
1
4
2
0
3
2
ESTADISTICA DESCRIPTIVA
48
9.1
9.2
9.3
9.4
10.
10.1
10.2
10.3
10.4
10.5
Z: Sexo
0-3
3- 6
6-9
45 - 55
55 - 65
65 - 75
75 - 85
ESTADISTICA DESCRIPTIVA
49
IX.
BIBLIOGRAFA COMPLEMENTARIA
1.
2.
3.
4.
ESTADISTICA DESCRIPTIVA
50