Professional Documents
Culture Documents
35
Por ejemplo, se puede hablar de una poblacin de pesos, una poblacin o universo de
densidades, entre otras cosas. Entonces, podemos definir poblacin como el conjunto ms
grande de valores (de una variable), por el cual existe algn inters.
Esta definicin indica que las poblaciones son definidas por el investigador y no estn
predeterminadas.
Las poblaciones o universos pueden ser finitos o infinitos. En el campo de la ingeniera
y ciencias generales las poblaciones son casi siempre infinitas.
En los estudios estadsticos el tamao completo de la poblacin aun siendo finita (N)
generalmente no se estudia o investiga en su totalidad. Puede ser conveniente o necesario
examinar solo una fraccin (muestra) de la poblacin.
35
Para la realizacin de un estudio estadstico se deben seguir ciertas etapas entre las cuales
las ms importantes son:
1)
2)
3)
4)
5)
6)
7)
8)
Variables:
X= peso es gramos.(variable cuantitativa)
Entidad: producto
terminado
35
Las variables son el conjunto de las caractersticas de las entidades de inters en una
investigacin estadstica.
Los valores que puede tomar una variable en estadstica no se pueden predecir antes de
realizar el experimento estadstico, por lo tanto ese valor es aleatorio (al azar).
Las caractersticas que se pueden medir a una entidad son de dos tipos, cuantitativo o
cualitativo (categrico); cada caracterstica es una variable aleatoria, las cuales se
subdividen de la misma manera:
Variable
cuantitativa
Continua.
Discreta.
Variable Aleatoria
35
35
>5
=5
<5
f+1
f+1
f+1
Par
Impar
Esquematizando:
175,78
175,78
4
17 5,786 175,79
35
Una distribucin de frecuencia o tabla de frecuencia es una disposicin tabular de datos; los
datos se distribuyen por clases o categoras con sus correspondientes frecuencias. Para
construir una distribucin de frecuencias, primero se divide el rango de los datos en clases;
si es posible, las clases deben tener el mismo ancho con la finalidad de mejorar la
informacin visual en la distribucin de frecuencias. Para la seleccin del nmero de clases
debe emplearse cierto criterio de modo que pueda desarrollarse un diagrama razonable. El
nmero de clases depende del nmero de observaciones y de la dispersin de los datos. En
general, una distribucin de frecuencias que emplea muy pocas o demasiadas clases no
contiene mucha informacin, por lo general el nmero de clases debe fluctuar entre 5 y 20
clases.
El nmero de clases se puede obtener mediante cualquiera de las dos frmulas siguientes:
M =1+3.322 log 10 n
M = n
n=Tama o de la muestra
M =N mero de clases
El smbolo que define una clase se llama intervalo de clase, los nmeros extremos de este
intervalo se llaman lmite inferior de clase y lmite superior de clase.
LICi = lmite inferior de la clase i
LICi
LSCi
El lmite inferior de la primera clase debe ser menor o igual que el dato menor
(LIC 1 X min ) y el lmite superior de la ltima debe cumplir la condicin LSC n X max .
El lmite superior de la primera clase se calcular con la siguiente frmula:
LSC 1=LIC 1 +(C Aprox)
LSC 1=L mite superior de la primera clase
35
35
LSC n X max
tabulacin.
8) Encasillar los datos examinando cada uno de ellos con el fin de conocer en que
categora debe colocarse.
EJEMPLO
Desarrollar una tabla de conteo para el anlisis de la resistencia a la tensin, en
libras por pulgada cuadrada (psi), de una muestra de tamao 80 (n=80) de una
nueva aleacin de aluminio y litio, que est siendo evaluada como posible material
para la fabricacin de elementos estructurados de aeronaves.
Resistencia a la tensin (psi) de una aleacin aluminio-litio
105
97
245
163
207
134
218
199
160
196
221
154
228
131
180
178
157
151
175
201
183
153
174
154
190
76
101
142
149
200
186
174
199
115
193
167
171
163
87
176
121
120
181
160
194
184
165
145
160
150
181
168
158
208
133
135
172
171
137
170
180
167
176
158
156
229
158
148
150
118
143
141
110
133
123
146
169
158
135
149
Tabla 1.1
Mayor
221
174
245
208
207
229
218
199
237
201
Menor
105
97
110
115
123
76
101
142
87
118
35
245
76
Tabla 1.2
Despus se busca el mayor dato de los mayores datos por fila y este ser el mayor
dato (245); igual se hace con el menor (76).
X max =245
X min =76
Posteriormente se determina el Rango
R= X max X min =24576=169
3) Establecer el nmero aproximado de categoras o clases
n=80 Tama o de la muestra
M =1+3.322 log 10 80=7.32
M =2 n
LIC i=LIC i1 +C
Conteo
Frecuenci
a absoluta
35
Tensin
(PSI)
76 98
99 121
122 144
145 167
168 190
191 213
214 236
237 - 259
TOTAL
Nmero de
76unidades
98
99(probetas)
121
3
122 144
7
145 167
10
168 190
191 25
213
20
214 236
9
237 259
4
TOTAL
2
///
//// //
//// //// /
//// //// //// //// ////
//// //// //// ////
//// ////
////
/
80
3
7
11
25
20
9
4
1
Tabla 1.3
80
Tabla 1.4
40
30
20
10
0
1 2 3 4 5 6 7 8 910
Figura 1
35
TENSIN
(PSI)
FRECUENCIA
RELATIVA
(%)
3.75
8.75
12.50
31.25
25.00
11.25
5.00
2.50
100.00
76-98
99-121
122-144
145-167
168-190
191-213
214-226
227-249
TOTAL
Tabla 1.5
(Para el ejemplo de
las 80 probetas
sometidas a tensin)
Tabla 1.6
40
30
20
10
0
1 2 3 4 5 6 7 8 910
TENSI
N
(PSI)
98
121
144
167
190
213
236
259
NUMERO
DE
PROBETA
S
3
10
20
45
65
74
78
80
35
Figura 2
m2=m1+ C=87+23
m2=110
Se construye una grfica
X Y ; colocando en
el eje X las marcas
clase y en el eje Y
frecuencias absolutas
cada clase; para
ejemplo de muestra
tamao 80 (n=80)
obtuvo la figura 1.
de
las
de
el
de
se
La frecuencia relativa de
una
clase
es
su
frecuencia
absoluta
dividida por la frecuencia
total de todas las clases y
se expresa generalmente
como un porcentaje. La
suma de las frecuencias
relativas de todas las
clases da como resultado
1 100% cuando se
expresa en porcentaje.
35
Figura 3
100
80
60
40
20
0
75
98
121
144
167
190
213
236
259
PORCENTA
JE
ACUMULA
DO
%
0
3.75
12.20
25.00
56.25
81.25
92.50
97.50
100.00
120
100
80
60
40
20
0
Figura 4
Tabla 1.7
35
La frecuencia acumulada
relativa o frecuencia
acumulada
en
porcentajes,
es
la
frecuencia
acumulada
dividida por la frecuencia
total. As por ejemplo,
las
tensiones
(PSI)
menores o iguales a 167
PSI (para el ejemplo de
las probetas) representan
35
X + X + Xn
X = 1 2
= i=1
n
n
Xi
.
EJEMPLO
Encontrar la media muestral de la resistencia a la tensin en Kgf/cm 2 de 10
observaciones de una carga de cemento portland.
Observaciones: 16.5, 16.40, 17.21, 16.35, 16.52, 17.04, 16.96, 17.15, 16.59, 16.57
167.29
X =media=
=16.729 Kgf /cm
10
El valor de la media
por esto se acostumbra calcular la media con un digito ms que los entregados en cada
medicin de la muestra.
Si ordenamos las medidas de menor a mayor magnitud, y las graficamos como puntos en un
eje horizontal X calibrado, en este mismo eje determinamos el valor de la media
X =16.729 Kgf /cm
La representacin grfica es un diagrama de puntos como sigue:
..
16.0
17.5
Figura 5
X =16.729
. ...
16.5
18.0
. ...
17.0
Datos ordenados:
16.35, 16.40, 16.50, 16.52, 16.57, 16.59, 16.96, 17.04, 17.15, 17.21
35
punto de equilibrio.
Esto significa, que si cada observacin individual representa, por ejemplo, una libra de
X
masa colocada en esos puntos del eje horizontal, un punto de apoyo localizado en
equilibrar todo el sistema de pesos.
De esta forma la media es una medida que representa al subconjunto o muestra observada.
Para los datos de resistencia de la aleacin litio-aluminio de la tabla (1-2), la media
12913
Lb
X =
=161.4
80
Pulg2
muestral es:
mi f i
X = i=1
mi=marca de clase
35
Tambin es posible pensar en el clculo de la media para todas las observaciones de una
poblacin, este promedio se conoce como media poblacional y se simboliza con la letra
griega .
Cuando existe un nmero finito (N) de observaciones la media es:
N
Xi
= i=1
N
n+1
2
n
2 y
35
X n +1
; para nimpar
2
Xn
2
+ X n +1
2
; para n par
~
X=
Una ventaja de la mediana es que los valores extremos no tienen mucha influencia sobre
ella.
EJEMPLO
Supongamos que las observaciones de una muestra son:
1, 3, 4, 2, 7, 6, 8
La media muestral es:
1+3+ 4+2+7 +6+8
X =
=4.43
7
n= 7 (impar)
La mediana ser:
X 7+1 X 8
= =X 4
2
2
1 2 3 4 6 7 8
~
X= X 4 =4.0
X1 X2 X3 X4 X5 X6 X7
La media muestral es 4.43, mientras que la mediana muestral es 4.0; ambas cantidades
proporcionan una medida razonable de la tendencia central de datos.
Ahora supngase que en los datos asignados se cambia el 6 por 245, al ordenarlos quedara
la muestra as:
1 2 3 4 7 8 2450
X1 X2 X3 X4 X5 X6 X7
La mediana sigue igual
~
X=4.0 , para estos datos la media es:
35
La media muestral
X =353.57
EJEMPLO
Supongamos que las calificaciones de 10 alumnos son:
0 91 92 93 94 95 95 96 97 98
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
X 10 = X 5=94
2
n=10 (par)
X 10 +1=X 6=95
2
La mediana es:
X + X 6 94+95
~
X= 5
=
=94.5
2
2
La media es:
0+ 91+92+93+ 94+95+ 95+96+ 97+98
X =
=85.1
10
Si usted fuera profesor de esta clase Que medida de tendencia central preferira
informar como el comportamiento general de la clase: la medida de 94.5 o la de
85.1?
35
Tanto la mediana como la moda se pueden calcular para datos agrupados, las formulas
son las siguientes:
n
f i
2
^
X =mediana=LIR mediana+
C
f mediana
LIR mediana
n : Tamao de muestra
f
fi
35
^
X =moda=LIR modal+
LIR modal
1
1
C
1 + 2
EJEMPLO
Partiendo de los datos agrupados de la muestra de tamao 80 (n=80), de la aleacin
aluminio-litio de la tabla 1.4
Encontrar:
a) La media para datos agrupados.
b) La mediana para datos agrupados.
c) La moda para datos agrupados.
Solucin:
Tensin
(Psi)
76 98
99 121
122 144
145 167
168 190
191 213
214 236
237 259
Total
Nmero de
unidades
(probetas)
3
7
11
25
20
9
4
1
Frecuencia
acumulada
(fa)
3
10
21
46
66
75
79
80
80
Marca de clase
(mi)
87
110
133
156
179
202
225
248
35
a) Media=
b)
n
2 =
mi f
i=1
80
2 = 40
12940
80
= 161.75 psi
c = 23
( 4021 )
~
X=144.5+
23=161,98 psi (Mediana)
25
c^
X
14
( 15+5
)23=160.60
144.5+
psi (Moda)
35
Nmero de
unidades (probetas)
3
7
11
25
20
9
4
1
80
Solucin:
35
a) Se busca en que clase o categora se ubica el primer cuarto ( n/4= 20) de los
datos, sumando las frecuencias absolutas desde la primera clase hasta donde sea
necesario.
(3+7+10) = 20, el cuartil se encuentra en la tercera clase
n
f
122+121
4
q1 = LIR3 +
LIR3 =
= 121.5
*c
2
f q1
f
f q1
= 10
q1 = 121.5 +
= 3+7 = 10
c = 23
( 804 10)
11
23
q1 = 144.5
q3
LIR3 =
LIR5
3n
4
de los datos
(3+7+10+25+15) = 60
( 34n f )
f q3
q3 = 167.5 +
( 6046 )
20
23
q3 = 183.60
168+167
= 167.5
2
c) Para encontrar los percentiles se dividen los datos en centsimas partes (n/100) y se
aplica el mismo procedimiento de los cuartiles.
P50 =
n
100 =
80
100
50
= 0.80
( 100n )
= 50(0.80) = 40
(3+7+10+20) = 40
35
P50 = LIR4 +
P50 = 144.5 +
( 50100n f )
f P50
( 4021 )
25
145+144
LIR4 =
= 144.5
2
23
P50 = 161.98
d) P80 =?
f)
80
e)
( 100n )
g) P80 = LIR5 +
n
100
80
100
= 0.80
= 80(0.80) = 64
( 80100n f )
f P80
*c
LIR5 =
168+167
= 167.5
2
h)
i)
( 6446 )
20
P80=
*
167.5
j)
k) P80 = 188.20
23
35
l)
m)
n)
o) Una medida de tendencia central sola no proporciona generalmente una descripcin
satisfactoria de un conjunto de datos. Se requiere determinar el grado de
variabilidad de los datos individuales con respecto a una medida de centralizacin;
que generalmente es la media . A esta clase de medidas se les conoce como
medidas de variabilidad. La variabilidad es sinnimo la dispersin.
p) 4.5.1 RANGO
q) Una medida muy sencilla de variabilidad es el rango de la muestra, definido como
la diferencia entre la observacin ms grande y la ms pequea.
Sur)frmula es:
R=
Max
X de
Min
X Max:
observacin
ms
grande.
s) XEl
rango
una muestra
es fcil
de calcular,
pero
ese ignora toda la informacin que
hay en la muestra entre la observacin ms grande y la ms pequea.
X Min: observacin ms pequea.
t)
u)
v)EJEMPLO
w)
x)
n= 5
y)
N 1
Muestra
aa)
,5,8,9
1,3
z)
N 2
Muestra
ab)
,5,5,9
1,5
ac)
R1= 9-1 = 8
ad)
R2= 9-1 = 8
ae)
af)
Las dos muestras poseen el mismo rango, sin embargo, en la segunda
muestra solo existe variabilidad en los valores extremos, mientras que en la primera
los tres valores intermedios cambian de manera considerable (esto no cambia el rango
R1).
ag) Los valores extremos no son tan propensos a aparecer en las muestras pequeas, y
si
en las grandes, en consecuencia, muestras pequeas tienden a tener rangos
pequeos y las muestras grandes rangos grandes.
ah) Para muestras pequeas (n10) la perdida de informacin no es tan seria; en control
de calidad estadstico las muestras son de tamao cuatro o cinco, por lo tanto se
aconseja el rango como medida de variabilidad.
ai) En general, lo que se desea es tener una medida de variabilidad que dependa de
todas las observaciones y no de unas cuantas como ocurre en el rango.
aj) 4.5.2 VARIANZA
ak) Las limitaciones del rango se pueden evitar con otras dos medidas de variabilidad
conocidas como varianza y desviacin estndar.
Laal)
desviacin estndar es la raz cuadrada positiva de la varianza.
am)
an) La varianza se puede calcular para la muestra o para toda la poblacin, cuando esta
es finita y est formada por N valores.
ao) Las formulas a usar son:
ap)
x i
n x i2( x i)
i =1
i=1
n(n1)
i=1
2
s =
(xi u)2
aq) 2= i=1
N x i( x i)
i=1
i=1
mi
2fi
ar)
i=1
2
s =
as)
n mi2 f i ( mi f i )
i =1
i=1
n (n1)
(miu)2 f i
at)
2= i=1
au)
N mi2 f i( mi f i )
i=1
i=1
av) Las unidades de medicin de la varianza son iguales al cuadrado de las unidades
con que se mide la variable.
aw)
s 2 sera
bb)
Dos maquinas en una lnea de produccin producen un mismo artculo. La
produccin para cada una es de 100 unidades. Un inspector de control de calidad
desea conocer la variabilidad de cada mquina, para esto establece la diferencia en
centmetros entre el largo de la pieza producida, contra el largo de la pieza prototipo,
como variable de control.
bc)
bd)
Xi
bf) # de
piez
as
bj) 30
bn) 40
bi) 1
bm)
2
bq)3
bu)Tot
al
by)
bz)
ca)
cb)
cc)
cd)
ce)
cf)
cg)
br) 30
bv) 100
mi2
fi
bh)Mi
fi
bk) 30
bo) 160
bl) 30
bp) 80
bs) 270
bw)
460
bt) 90
bx) 200
bg)
ch)
mi f i
uA=
i =1
1 ( 30 ) +2 ( 40 ) +3 (3)
=2.0 cm
100
ci)
2
A
N mi2 f i( mi f i )
i=1
i=1
200
100 2
100 ( 460 )
cj)
ck)
cl)
uB =
cm)
200
100 2
100 (560 )
2B=
cn)
Para la mquina B las piezas tienen un promedio de 2.0 cm de diferencia
por debajo, y con respecto al patrn o prototipo, pero la maquina B exhibe una mayor
variabilidad.
co)
2B > 2a
1.6 c m2
0.6 c m2
cp)
cq) 4.5.3 COEFICIENTE DE VARIACIN
cr) En ocasiones es deseable expresar la variacin como una fraccin de la media. Para
hacer esto se utiliza una medida adimensional de variacin relativa, denominada
coeficiente de variacin muestral.
cs) El coeficiente de variacin muestral es:
ct) Cv= S/
Cv=
/u
cv)
EJEMPLO
cw)
cx) Con un micrmetro, se realizan mediciones del dimetro de un tornillo, que tiene
una media de 44,03 mm y una desviacin estndar de 0,012 mm; con otro micrmetro se
toman mediciones de la longitud del tornillo, la media de la longitud es de 1,76 pulgadas
y una desviacin estndar de 0,0075 pulgadas.
cy) Los coeficientes de variacin son:
cz)
Cvd =
0.012 mm
=0.00 03
4 4 .03 mm
da)
db)
dc) CvL =
0.0075 plg
=0.0043
1.76 plg
dd)
de)
df) En consecuencia, las mediciones hechas con el primer micrmetro exhiben una
variabilidad relativamente menor que las efectuadas con el otro micrmetro.
dg)
dh)
di)
dj)
dk) Los conceptos de asimetra ( sesgo) y apuntamiento hacen referencia a la
comparacin del polgono de frecuencia de los datos provenientes de la muestra
(n) y una curva terica o normal, observada en la mayora de los fenmenos
naturales, en especial cuando el nmero de observaciones es grande.
dl) Una distribucin es simtrica cuando la media, la mediana y moda son iguales, es
decir, cuando su polgono de frecuencia tiende a ser simtrico o normal, en este caso
sus dos colas son iguales.
dm)
dn) Media=Mediana=Moda
do)
X =~
X= ^
X
dp) Pero si la distribucin unimodal tiene una cola ms larga hacia una de los lados, se
dice que es asimtrica o deforme.
dq) Si la deformacin o alargamiento de la cola se presenta hacia valores ms grandes
de la variable, es decir, hacia la derecha se dir que la distribucin es asimtrica
positiva en caso contrario la asimetra ser negativa.
dr)
X =~
X= ^
X~
X^
X X X ~
X^
X
Simtrica
Asimtrica negativa
Asimtrica
positiva
ds)
dt) 4.6.1 SESGO
du) Se conoce como sesgo al grado de asimetra de una distribucin, es decir cuanto se
aparta de la simetra.
dv) La asimetra o sesgo que se representa por As es igual a:
As=
dw)
dx)
x i
i =1
m3=
m3
s3
mi
3
f i
dy)
n
i =1
m3=
dz) La curva normal es el referente terico y no tiene sesgo (As=0); entonces el sesgo de
una distribucin puede ser:
ea)
As
eb)
As
= 0 Simtrica
ec)
As
eg)
mi
4
fi
xi
Ap=
i=1
i=1
m4=
m4=
eh)
ei)
ej)
Ap
> 3 Leptocrtica
ek)
Ap
= 3 Mesocrtica
el)
Ap
< 3 Platicrtica
em)
en)
m4
s4
eo)
ep) Para el ejemplo de la aleacin aluminio-litio:
eu)
eq) Tensi
er) N
es)
et)
fi(min (Psi)
u
fi
m
X )3
m
e
r
o
d
e
p
r
o
b
e
t
a
s
(f
i)
ex) 76 98
ey) 3
ez)
fa)
fb) 3
8
1.253.0
fe) 99
121
ff) 7
fg)
10
fh)
1
fl) 122
144
fm)1
1
fn)
21
fo)
1
fs) 145
167
fz)
168
190
gg) 191
213
gn) 214
236
ft) 2
5
fu)
46
fv)
1
ga) 2
0
gb)
66
gc)
1
gh) 9
go) 4
gi)
75
gp)
79
gj)
2
gq)
2
10,89
fi) 970.12
8,14
fp) 261.40
0,39
fw) 4.752,7
3
gd)
1
02.659,
06
ev)
fc)
fj)
fq)
fx)
ge)
gk)586.86
7,64
gl)
gr) 1.012.1
42,31
gs)
ew)
fi(miX )4
fd) 93.66
2.564,
07
fk) 50.20
4.131,
28
fr) 7.515.
261,2
3
fy) 27.32
8,22
gf) 1.770.
868,8
3
gm)
2
3.621.
422,5
4
gt) 64.01
8.001,
27
gu) 237
259
gv) 1
hb)Total
hc) 8
0
gw)
80
gx)
2
hd)
he)
ha)
gy)641.61
9,14
hf) 146.00
4,00
gz)
hg)
5
5.339.
650,8
8
hh)
2
96.15
9.228,
31
hj)
m 3=
146 , 004.00
=1,825.05
80
hk)
m 4=
296.159 .228,31
=3,701,990
80
hl)
hm)
hn)
S= 33.64 psi
ho)
Sesgo =
hp)
m3
s
Curtosis =
m4
s
1,825.05
=0.04
(33.64 )3
3 3 . 64 4
3,701,990
hq)
hr) El sesgo para el ejemplo de la aleacin aluminio-litio nos indica que el polgono de
frecuencias es bastante simtrico con una ligera cola a la izquierda y el
apuntamiento o curtosis es casi 3.
hs)
ht)
Estadstica
Estadstica descriptiva
Estadstica Inferencial
Variable
Variable continua
Variable discreta
Variable cuantitativa
Variable cualitativa
Poblacin, Muestra
Distribucin de frecuencia absoluta
Distribucin de frecuencia acumulada absoluta
Distribucin de frecuencia acumulada relativa
Polgonos de frecuencia
Media
Mediana
Moda
Varianza
Cuartiles
Percentiles
Coeficiente de variacin
Sesgo
Curtosis