Professional Documents
Culture Documents
N de empleados
Muy satisfechos
20
Satisfechos
25
Moderadamente satisfechos
22
Insatisfechos
18
Muy insatisfechos
10
Cecilia Larran R.
Estadstica Descriptiva
Pgina 40
Y si los datos estn agrupados en intervalos de clase, la moda ser el punto medio del
intervalo ms frecuente. La moda para datos agrupados en intervalos en tablas de
frecuencia, no es un valor exacto porque vara con las diferentes maneras de agrupar
una distribucin.
Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como
indica la tabla a continuacin.
300.000 350.000
Marca de clase
xi
325.000
N de trabajadores
ni
13
350.000 400.000
375.000
18
400.000 450.000
425.000
24
450.000 500.000
475.000
20
500.000 550.000
525.000
15
Sueldo
En este caso la moda es 425.000 pesos, por ser el punto medio del intervalo ms
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).
Limitacin de la moda: no sabemos qu ocurre con el resto de la distribucin de
datos.
x +x +x ...+x n
x= 1 2 3
=
n
Cecilia Larran R.
Estadstica Descriptiva
xi
i =1
total
n
Pgina 41
22 45 25 35 50
Sumatoria = x i = 705
705
15
x=
i 1
= 47 min
x
i 1
x1 +x 2 +x 3 ...+x N total
N
N
x n
i
i 1
donde xi
representa el
continuacin:
Cantidad de frutas
Xi
n de personas
ni
0
1
2
3
4
5
22
50
90
49
26
13
n = 250
Total
Cecilia Larran R.
Estadstica Descriptiva
x i ni
0
50
180
147
104
65
n = 250
xini
i
x =
= 2,184 frutas
Pgina 42
Marca de clase
xi
325
N de trabajadores
350 400
375
18
400 450
425
24
450 500
475
20
500 550
525
15
7875
90
38550
ni
13
Total
xini
4225
X = Sueldo mensual
n
90
Total =
xini
38550
38550
= 428,33
90
$428.333
Y = a + bX Y = a + bX ; a, b ctes.
(Demostracin tarea)
Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:
Complete
(Caso 1)
(Caos 2)
(caso 3)
$50.000,0
15%
7% + un bono fijo de
Sueldo actual
$30.000
Y(1) = X + 50
Y(2) = 1,15X
Y(3) = 1,07X + 30
Y(1) = 428,333 + 50
Y(3) = 1,1*428,333
Y(3) =
x = 428,333
(m $)
1,07*428,333 + 50
Y = Sueldo aumentado
Cecilia Larran R.
Estadstica Descriptiva
Pgina 43
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
Para el clculo de la mediana la variable debe ser por lo menos ordinal
En datos no agrupados (directos), con n impar, el valor central es la mediana.
Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20.
n = 9 datos.
La mediana es el valor 9.
1+ n
2
n = 8 datos;
ni
Ni
0
1
2
3
4
5
6
Total
40
26
14
6
3
0
1
n = 90
40
66
Mediana = 1
avera.
Interpretacin:
Cecilia Larran R.
Estadstica Descriptiva
Pgina 44
Comparacin entre
, Me y M o
proporcionan
Media
aritmtica
xi
x=
i =1
total
n
Mediana
Me
Moda
Mo
Observaciones
El nivel de medicin de la
variable X sea por lo menos en
escala de intervalos.
La media es muy sensible
cuando existen datos atpicos
o extremos.
Es preferible utilizar el promedio
aritmtico
como medida de
resumen si los datos son
homogneos.
La mediana
utiliza menos
informacin que la media, ya
que solo tiene en cuenta el
orden de los datos y no su
magnitud, por lo tanto, para
poder calcular la mediana el
nivel de medicin de la variable
X debe ser por lo menos en
escala ordinal.
La mediana se ve menos
alterada por los datos atpicos o
extremos.
Para el clculo de la moda la
variable puede tener cualquier
nivel de medicin, luego es la
nica medida de tendencia
central que se puede calcular si
el nivel de medicin de la
variable X es en escala nominal.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 45
Simtrica
Asimetra positiva
Asimetra Negativa
10
10
Simtrica
8
10
8
6
6
4
4
4
2
2
0
2.5
7.5
12.5
17.5
22.5
27.5
32.5
0
2.5
7.5
12.5
17.5
22.5
27.5
32.5
2.5
7.5
12.5
17.5
22.5
27.5
32.5
X = Me = Mo
Mo < Me < X
X < Me < Mo
Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artculo electrnico informa en su propaganda
que la vida til de su producto es superior a 5 aos.
Una muestra aleatoria de 90 unidades vendidas hace 10 aos, revel la siguiente
distribucin de las duraciones:
Duracin
0- 2
24
46
68
8 10
Frecuencia
10
20
25
22
13
9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3
Solucin
Promedio
Mediana
1
2
aaaaaaa
Cecilia Larran R.
Estadstica Descriptiva
Pgina 46
Ejercicio III-3
Media Ponderada o Promedio Ponderado
Sean x1 ,x2,....,xn , n datos y sea los nmero w1 ,w2,....,wn, los pesos correspondiente a
cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los
P1 (25%)
P2 (35%)
P3 (40%)
4,2
5,7
2,1
Promedio =
Ejercicio III-4
Promedio estratificado
X = Sueldo mensual (miles de $)
Planta
Promedio
N de trabajadores
Santiago (1)
Concepcin (2)
x1 = 568,320
x 2 = 665,210
n1 = 215
n2 = 180
n = n1 + n2+ n3
Antofagasta (3)
x3 = 480,715
n3 = 96
n x
i
X estr =
i=1
Cecilia Larran R.
Estadstica Descriptiva
Pgina 47
25%
25%
Mn
Q1
25%
Q2
25%
|
Q3
|
Mx
q1
q2
q3
q4
Mx
|
x(1)
(100 - p)%
|
x(n)
Mn
Mx
(100 - p)%
x(1)
Pp
x(n)
Mn.
Entre mn y Pp se encuentra el p% de los datos
Mx.
o
entre Pp y mx se
Cecilia Larran R.
Estadstica Descriptiva
Pgina 48
Me = Q2 = D5 = P50
Q3 = P75
q1 = D2 = P20
q2 =
q3 =
q4 =
Puntaje
Clculo percentiles Pp
En la definicin de percentil en un conjunto de datos es el valor tal que el p% de los
datos es menor o igual que l y el (100 p)% de los datos es superior o igual a l,
puede que ningn valor cumpla exactamente la definicin. Existen diversas formas de
interpolar para el clculo del Pp, en este curso vamos a utilizar el mtodo AEMPIRAL
explicado en la pgina 22 de texto Probabilidad y Estadstica. Douglas C. Montgomery
y George C. Runger (1996)
1ro) Se ordenan los n datos de menor a mayor
np
. El mtodo AEMPIRAL asigna la media
100
de x(j) y x(j+1) cuando j es un nmero entero, y asigna el valor que ocupa la
np
posicin siguiente a la parte entera de j cuando j =
es un nmero decimal
100
Del ejemplo:
lugar j=
14 50
100
P50
=7
n = 14
P50 =
65 68
= 66,5 = Me el 50% de los estudiante
2
Cecilia Larran R.
Estadstica Descriptiva
Pgina 49
aproximados.
Mediante interpolacin lineal en el grfico de frecuencias acumulada (ojiva) se
llega a la frmula del percentil.
Puntaje en un test de aptitud
Puntaje
X
15 20
20 25
25 30
30 35
35 40
40 45
N de
sujetos
ni
8
7
14
6
3
2
n = 40
Frecuencias acumuladas
Ni
Fi
(absoluta)
(relativa)
8
15
29
35
38
40
0,200
0,375
0,725
0,875
0,950
1,000
n = 40
lugar
np n 50
=
20
100 100
el percentil 50 o
mediana
aproximadamente se
encuentra en el lugar 20,
observando la columna Ni
de frec. acumuladas o el
grfico ojiva, el valor que
ocupa el lugar 20 se
encuentra en el tercer
intervalo.
P50 = Me [25, 30)
Puntaje
X
< 15
< 20
< 25
< 30
< 35
< 40
< 45
Cecilia Larran R.
Estadstica Descriptiva
Pgina 50
Interpolando
Linealmente, se
obtiene
Puntaje
P50 [25, 30) 25 es el lmite inferior del intervalo j
30 25 = 5 es la amplitud del intervalo j
intervalo j
Pp = liminf j
np
- Nj-1
100
+amplitud j
nj
Se utiliza
cuando no se
tienen los
datos de
cada unidad
de
observacin
20 15
P50 25 5
26,79 puntos
14
Interpretacin .
-
Suponga que al 15% de los puntajes ms altos pasan a una segunda etapa,
a partir de qu puntaje se va a realizar el corte para seleccionar a dichos
sujetos?.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 51
Ejercicio
En una industria, se realizan peridicamente un anlisis de la medicin del trabajo con el
fin de determinar el tiempo requerido para generar una unidad de produccin. En una
planta de procesamiento se registr durante 20 das el nmero de horas-trabajador
totales requeridas para realizar cierta tarea. Los datos recogidos son:
128 119 95 97 113 109 124 132 146 128 103
124 131 133 131 100 112 111 150
135
Cecilia Larran R.
Estadstica Descriptiva
Pgina 52
Cecilia Larran R.
Estadstica Descriptiva
Pgina 53
Q1 = P25
Las desviaciones
di = (xi - x )
se elevan al cuadrado para
convertirlas
en
positivas,
adems recuerde que
(xi - x)2
Desviacin estndar: s =
i =1
(xi - x) = 0
i =1
s2
Cecilia Larran R.
(x
i 1
x) 2
Estadstica Descriptiva
Pgina 54
Total
Grupo 2
x-x
(x - x)
3
4
4
5
5
5
5
6
6
7
50
-2
-1
-1
0
0
0
0
1
1
2
0
4
1
1
0
0
0
0
1
1
4
12
x-x
(x - x)2
1
2
3
4
5
5
6
7
8
9
50
-4
-3
-2
-1
0
0
1
2
3
4
0
16
9
4
1
0
0
1
4
9
16
60
Desviacin
estndar
Varianza
Grupo
Promedio
10
50
5 ptos
10
12
= 1,0954 ptos
10
(1,0954)2
10
50
5 ptos
10
60
= 2,4495 ptos
10
(2,4495)2
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor
dispersin o variabilidad.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 55
Observaciones:
N
)2
(x i
i 1
N
media de la poblacin, N tamao de la poblacin
(xi -x)
= i=1
n -1
s =
2
i=1
xi
n
2
i
(xi -x)
i=1
x -
i=1
n -1
n-1
(xi
2
Varianza s x
x)2ni
i 1
n-1
k
(x -x) n
2
Desviacin estndar: s
i 1
n-1
o la marca de clase en el
Cecilia Larran R.
Estadstica Descriptiva
Pgina 56
0
1
2
3
4
5
6
5
10
16
15
9
3
2
0
10
32
45
36
15
12
31,25
22,50
4,00
3,75
20,25
18,75
24,50
Total
n = 60
150
125,00
x=
Desviacin estndar s =
150
60
s2 =
125
59
= 2,119 varianza
varianza
2,119 1, 456
s =
2
i=1
xi ni
(xi -x)2 ni
n -1
x
=
2
i
i=1
ni -
i=1
n-1
s=
Cecilia Larran R.
i=1
x i ni
(xi -x)2 ni
n -1
x
=
2
i
ni -
i=1
i=1
Estadstica Descriptiva
n -1
Pgina 57
xn
i i
= 150 ;
x n
2
= 500
(150)2
60 1,456
59
500
sX
|x|
la
dispersin
de variables
que
1
2
3
4
5
6
7
8
9
10
172 175 168 178 159 166 176 180 179 171
78 75 70 68 44 66 72 95 70 74
Media
Desv. tp.
100*CV
CV
(% de variabilidad)
Peso (Y)
71,20
12,541
0,176
17,614%
Estatura (X)
172,40
6,620
0,038
3,840%
Interpretacin: La variable estatura es ms homognea (menor % de variabilidad)
Medidas de Forma
Coeficiente de asimetra de Fisher
n (x i -x) 3
CA= g1 =
n(n+1) (x i -x) 4
i=1
(n-1)(n-2)
s3
CA p = g 2 =
CA = 0; si la distribucin es perfectamente
simtrica
CA > 0; si hay asimetra positiva
CA < 0; si hay asimetra negativa
Un coeficiente de asimetra mayor que 1
en valor absoluto puede considerarse
alto.
Cecilia Larran R.
i=1
(n-1)(n-2)(n-3)s 4
(n-1) 2
-3
(n-2)(n-3)
Los
valores positivos de CAp
indicarn un fuerte
apuntamiento (leptocrtica),
valores negativos indican una
distribucin ms plana (platicrtica) y si los valores son
cercanos a cero el histograma o polgono de frecuencias
tiene una forma parecida a una campana (mesocrtica)
Estadstica Descriptiva
Pgina 58
Cecilia Larran R.
Estadstica Descriptiva
Pgina 59
Mtodo 1
Mtodo 2
Total
Cecilia Larran R.
Superconductores
(Si fallas)
31
42
73
Estadstica Descriptiva
Fallas
Total
19
8
27
50
50
100
Pgina 60
Ejemplo: Los datos que se muestran a continuacin son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleacin 1
66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleacin 2
71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
ALEACION
1
2
RI
1,6
1,5RI
2,4
(61,1 ; 67,5)
Interpretacin: ___________________
Cecilia Larran R.
Estadstica Descriptiva
Pgina 61
ALEACION
1
2
Total
n
10
10
20
Mn.
Mx.
Resistencia
(en Newton)
10,00 10,25
10,25 10,50
10,50 10,75
10,75 11,00
11,00 11,25
11,25 11,50
11,50 11,75
yi
10,125
10,375
10,625
10,875
11,125
11,375
11,625
Empresa
Alfha Delta
yn
y n
514,25
799,00
5514,5
8636,90625
i i
2
12
14
11
5
4
0
0
17
25
11
9
9
3
Alfha
Delta
48
74
2
i
Cecilia Larran R.
Estadstica Descriptiva
Pgina 62
Media
(promedio)
10,71354
n
48
Desv.
C.V.
estandar
0,32815 0,03063
% de variabilidad
3,063%
Respuesta: _______________
- Qu porcentaje de los rollos de alambre de acero de la empresa Delta
supera la resistencia media de los rollos de alambre de acero de la empresa
Alfha
Cecilia Larran R.
Estadstica Descriptiva
Pgina 63
2
x2
y2
3
x3
y3
n
xn
yn
La tabla contiene n
pares ordenados
Cecilia Larran R.
Estadstica Descriptiva
Pgina 64
Ejemplos
a) Una correlacin lineal positiva perfecta
X
2
4
5
6
7
8
9
10
12
13
Y
4
6
7
8
9
10
11
12
14
15
r=1
Y
11
14
11
7
9
11
3
7
6
1
Y
7
11
3
7
2
12
6
2
9
6
Cecilia Larran R.
Estadstica Descriptiva
Pgina 65
Significado de la correlacin
El valor de de la correlacin puede variar desde -1 (lo que indica
correlacin negativa perfecta), pasando por el 0 (que indica independencia
completa o ninguna relacin), hasta +1 (que significa perfecta correlacin
positiva)
La magnitud se relaciona con la intensidad o estrechez de la relacin.
Coeficiente de correlacin lineal de Pearson
r
n
sxy
(x -x)(y -y)
i 1
n -1
s xy
; -1 < r < 1
sxs y
COVARIANZA
n n
x i yi
n
n
(x i -x)(yi -y)
x i yi - i=1 i=1
n
sxy i=1
= i=1
n -1
n-1
Cecilia Larran R.
Estadstica Descriptiva
Pgina 66
Ejemplo:
sujeto
1
2
3
4
5
6
7
8
9
10
x
13
12
10
10
8
6
6
5
3
2
y
11
14
11
7
9
11
3
7
6
1
(x - x )
5,5
4,5
2,5
2,5
0,5
-1,5
-1,5
-2,5
-4,5
-5,5
Total
75
80
promedio
x =7,5
y = 8,0
Desviacin estndar de Y: s y =
sxy
(x - x )2 (y - y )2
30,25
9
20,25
36
6,25
9
6,25
1
0,25
1
2,25
9
2,25
25
6,25
1
20,25
4
30,25
49
124,5
Desviacin estndar de X: s x =
Covarianza de (x,y):
(y - y )
3
6
3
-1
1
3
-5
-1
-2
-7
(x - x)
n-1
(y - y)
n-1
(x -x)(y -y)
n-1
124,5
3, 719
9
144
4, 000
9
102
=
= 11,333
9
(x - x )(y - y )
16,5
27
7,5
-2,5
0,5
-4,5
7,5
2,5
9
38,5
144
102
Covarianza positiva
Interpretacin: si hubiese
relacin lineal, esta sera
directa
11,333
= 0,762
(3,719)(4,000)
Interpretacin: _________________________________________
Cecilia Larran R.
Estadstica Descriptiva
Pgina 67
Ejercicios V
Ejercicio V-1
Para determinada tarea en una fbrica, donde se necesita mucha destreza, se quiere
investigar si
la productividad en el trabajo debe ser mayor al aumentar los aos de
experiencia. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo.
Los datos de aos de experiencia y medicin de productividad son los siguientes:
Empleado
Aos de experiencia
Productividad
01
4
80
02
6
82
03
10
88
04
2
81
05
12
92
06
6
85
07
5
83
08
10
86
09
13
91
10
9
90
1 2
6 5
3
8
4 8 15
4 5 6 7 8
14 7 4 5 9
8
9
6
9 6 9 6 11
10 11 12
5 7 6
7
a.
Se desea pronosticar el tiempo que tardar un determinado circuito lgico tras una hora
de funcionamiento intensivo, utilizando informacin del tiempo de respuesta en fro.
Para un pronstico fiable, las variables deben estar fuertemente relacionadas, utilizando
una mediada estadstica adecuada, qu concluira usted?
b.
Ejercicio V-3
Se estn estudiando dos tipos de tubos para la utilizacin en cierta aplicacin industrial. Se
seleccionaron 12 ejemplares de cada tipo y se anot su duracin en semanas.
Tubo
Semanas de duracin
Tipo 1
Tipo 2
26,3 32,7 29,6 25,6 34,6 40,3 39,1 32,3 28,2 36,7 32,6 38,8
38,9 27,6 23,6 25,0 33,7 31,4 29,5 32,5 30,6 20,0 31,8 29,3
Analice en forma descriptiva ambos tipos de tubos e indique cul debera seleccionarse para la
aplicacin industrial (Justifique con medidas de tendencia central y de dispersin)
Cecilia Larran R.
Estadstica Descriptiva
Pgina 68
Ejercicio V-4
Se realizan mediciones del contenido de oxigeno en un una mina subterrnea, para
analizar la factibilidad de explotarla sin riesgos para los trabajadores. Se mide entonces el
contenido de oxigeno en miligramos/litro a diferentes profundidades (metros), obtenindose
la siguiente informacin:
Profundidad
Contenido O
15
6,5
20
5,6
30
5,4
40
6,0
50
4,6
25
5,0
35
5.0
45
4,8
65
1,0
60
1,4
70
0,1
Y = rendimiento (%)
2
i
93,1
92,0
93,8
91,7
94,0
90,3
99,9
98,2
92,8
90,3
96,1
91,1
96,2
97,9
91,1
92,7
87,0
89,4
92,7
89,4
94,2
89,0
92,6
102,1
2237,6
208924,80
91,5
87,2
90,6
89,2
90,9
88,2
92,8
91,3
87,8
95,3
92,6
89,9
95,1
91,4
90,4
96,4
91,5
90,6
87,0
91,4
91,0
91,7
95,5
97,0
2196,3
201164,17
a.
b.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 69
Ejercicio V-6
En una planta embotelladora de bebidas de fantasa, utilizan envases fabricados
con 2 tipos de plstico, de similares condiciones. ( A y B ).
Con muestras de 25 botellas fabricadas con cada tipo de plstico se midi la
resistencia (en psi). Algunos resultados parciales se encuentran a continuacin:
Resist_A Stem-and-Leaf Plot
Freq
Freq
1,00
2,00
1,00
4,00
7,00
4,00
2,00
1,00
2,00
1,00
2
59
0
5679
1222234
5689
01
9
14
5
Stem width:
10
Each leaf:
1 case(s)
Atpico = 171
X = Resistencia
Plstico A
Plstico A
5087
4898
1038093
963332
a.
b.
Determine para cada tipo de envase entre que valores (psi) se encuentran el
50% de las botellas con mayor resistencia
Cecilia Larran R.
Estadstica Descriptiva
Pgina 70
Colinesterasa srica
M
F
F
F
F
M
M
F
M
M
F
M
F
F
F
M
M
M
F
F
M
Cecilia Larran R.
Nivel de
exposicin
Acetilcolinesterasa
Gnero
Nivel de
exposicin
Acetilcolinesterasa
Alto
Moderado
Nulo
Moderado
Alto
Nulo
Moderado
Alto
Nulo
Moderado
Moderado
Nulo
Nulo
Alto
Alto
Nulo
Nulo
Alto
Nulo
Moderado
Nulo
6,4
6,5
7,3
6,8
6,6
7,5
7,0
6,8
7,8
7,1
9,7
7,9
10,8
6,9
9,5
6,9
8,5
6,1
9,4
6,2
4,6
F
M
M
M
F
M
F
M
F
M
M
F
F
F
F
F
M
M
M
M
M
Nulo
Alto
Nulo
Alto
Nulo
Moderado
Alto
Nulo
Moderado
Moderado
Alto
Alto
Moderado
Nulo
Nulo
Nulo
Alto
Moderado
Moderado
Moderado
Nulo
5,6
7,5
9,1
8,2
8,4
7,7
4,1
7,9
8,4
4,2
5,7
5,5
6,8
9,8
6,2
8,5
6,5
5,6
7,4
7,5
8,2
Estadstica Descriptiva
Pgina 71
f.
Promedio
Desviacin estndar
Coeficiente de variacin
Promedio
Desviacin estndar
Coeficiente de variacin
Nulo
Moderado
Alto
II.
Cecilia Larran R.
Nmero de nios
Leche entera (1)
Leche vegetal (2)
0
2
8
13
10
14
16
16
6
7
7
1
2
1
49
54
Estadstica Descriptiva
Pgina 72
a.
b.
CV
Entera (1)
Vegetal (2)
Utilice tres decimales
c. Para que se compruebe lo planteado por los investigadores la informacin
Interprete el
AGREGAR GRFI
III. Los siguientes datos muestran la relacin existente entre la alcoholemia
0,15 0,23 0,32 0,40 0,53 0,65 0,70 0,85 0,90 1,03
0,12 0,24 0,30 0,39 0,51 0,65 0,73 0,81 0,94 1,01
Muestre la informacin grficamente
Calcule e el coeficiente de correlacin de Pearson (indique el tipo de
relacin lineal existente entre las variables y la fuerza de correlacin
encontrada).
Cecilia Larran R.
Estadstica Descriptiva
Pgina 73