Professional Documents
Culture Documents
APLICADA
OBJETIVO GENERAL:
Aplicar la estadstica descriptiva a situaciones reales de su
campo de trabajo, con el apoyo de calculadora y computadora,
que le permitir realizar inferencias a partir de la informacin
obtenida.
TEMAS:
1. Estadstica descriptiva
2. Distribuciones de probabilidad
3. Estimacin estadstica y muestreo
4. Pruebas de hiptesis
5. Anlisis multivariado
6. Estadstica no paramtrica
1. Estadstica descriptiva
a. Introduccin
Estadstica proviene de la palabra italiana statista, que
significa estadista, el que utiliza y registra los datos.
Estadstica, la ciencia de reunir, organizar, presentar,
analizar e interpretar datos para ayudar a tomar las
mejores decisiones.
Desde cuando existe?
El viejo testamento contiene informes de
levantamiento de censos.
En la edad media se empezaron a registrar las
propiedades.
Carlomagno pidi la descripcin de las
propiedades de la iglesia en el ao 726 dc
Enrique VIII pidi que se registraran los muertos
por la peste en Inglaterra en 1532.
Dnde se aplica?
En los estudios de las enfermedades
En el desarrollo de medicamentos
En las encuestas de opinin polticas y socio
econmicas
En la mercadotecnia
En la medicin y control de la calidad y la
productividad en las empresas
En los deportes y en los juegos de azar
En la aplicacin de pruebas
Y ....... En dnde no?
Subdivisiones de la estadstica:
Estadstica descriptiva: Muestra los datos y las
relaciones existentes entre ellos, por medio de grficas,
tablas y diagramas, sin hacer generalizacin acerca de
los mismos, solo los describe.
Estadstica inferencial: Generaliza ms all de los
datos mostrados , estimando relaciones que pueden no
ser completamente vlidas, por lo que debe
establecerse
la
posibilidad
de
su
certeza
(Generalizacin y afirmacin).
Teora de decisiones: Utilizacin de los mtodos y
tcnicas de la estadstica inferencial (inferencia
estadstica) para tomar decisiones en condiciones de
incertidumbre, a partir de los datos estadsticos y la
probabilidad de su validez.
Clasificacin de los datos:
Datos
Cualitativos
o atributos
Cuantitativos
o numricos
Discretos
Continuos
X = (X1, X2 , X3 , ......
, XK-2 , XK-1, XK )
Ejemplo
El gobierno desea averiguar si el nmero medio de hijos
por familia ha descendido respecto de la dcada
anterior. Para ello ha encuestado a 50 familias respecto
al nmero de hijos, y ha obtenido los siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
Se pide:
a) Cul es la poblacin objeto de estudio?
b) Qu variable estamos estudiando?
c) Qu tipo de variable es?
d) Construir la tabla de frecuencias?
e) Cul es el nmero de familias que tiene como
mximo 2 hijos?
f) Cuntas familias tienen ms de 1 hijo, pero como
mximo 3?
g) Qu porcentaje de familias tiene ms de 3 hijos?
Solucin:
f
2
4
21
15
6
1
1
N = 50
fa
2
6
27
42
48
49
50
fr
0.04
0.08
0.42
0.30
0.12
0.02
0.024
1
fra
0.04
0.12
0.54
0.84
0.96
0.98
1
Frecuencia
2
3
8
5
2
20
Ejemplo:
A continuacin se tienen las calificaciones de
50 alumnos que presentaron un examen de estadstica
con 150 reactivos:
27
43
43
44
47
49
50
54
58
65
68
71
71
71
73
73
74
75
76
77
79
80
81
82
82
84
84
86
88
88
91
91
93
94
94
94
96
97
103
106
107
108
108
116
120
120
122
123
127
128
Solucin:
Clases
Li Ls
Marca
de
clase
27 44
6%
35.5
44 61
18 %
52.5
61 78
11
20
40 %
69.5
78 95
16
36
72 %
86.5
95 112
43
86 %
103.5
112 129
50
100 %
120.5
50
Frecuencia
20
16
15
11
10
7
6
5
3
27
18.5
44
35.5
61
52.5
78
69.5
95
86.5
112
103.5
129
120.5
Calificacin
137.5
Frecuencia
Relativa
Acumulada
100%
Frecuencia
Acumulada
50
50
45
43
40
36
75%
35
30
25
50%
20
20
15
10
25%
3
0
27
44
61
78
95
112
129
Calificacin
= x =
Media poblacional =
Media muestral
X f
f
X =
Donde:
clase
F
4138
50
= 82.76
n
2
M =
n 1
F 1
fm
A + Lm
Donde: n
F
n 1
2
50 1
2
= 25.5
Mediana = M =
50 1
20 1
17 78
16
= 82.78125
d1
A
d1 d 2
m = Lm +
16 11
17
16 11 16 7
m = 78 +
= 84.0714
Mediana
Media
Moda
Observe que:
Comparaciones:
1. La mediana y la moda pueden utilizarse para datos
tanto cuantitativos como cualitativos.
2. La mediana y la moda no se ven mayormente
afectadas por los valores extremos.
Tasa de
Factor de
Ahorro al
inters
7%
8
10
12
18
1
2
3
4
5
(1.07 )(1.08)(1.10)(1.12)(1.18)
= 1.1093
Donde:
xk = son marcas de clase
fk = son las frecuencias de cada clase
f1 + f2 + .... + fk
50
50
MG =
La media armnica = representada por H, de una
cantidad finita de nmeros es igual al recproco o
inverso, de la media aritmtica de los recprocos de
dichos nmeros
As, dados los nmeros a1,a2, ... , an, la media armnica
ser igual a:
ni
100
120
125
140
10
5
4
3
ni
10
5
4
3
N= 22
1/xi
1/100
1/120
1/125
1/140
n
22
112 ,82
ni
0,195
x
i
ni/xi
0.1
0.042
0.032
0.021
0.195
xini
1000
600
500
420
2520
Entre la
x i n i media
2520 aritmtica,
X
114 ,545
la media
geomtrica
y
n
22
media armnica se da
siempre
la
siguiente
relacin:
H G X
4 10 100
n 1
F 1
fq
A + Lq
Donde: n
F
Y para el cuartil Q3
3(n 1)
F 1
fq
Q3 =
A + Lq
7( n 1)
F 1
10
fd
A + Ld
Etctera.
Todos los Cuantiles se pueden localizar en la ojiva.
Ejercicio de repaso:
En el 2001 se publicaron las siguientes tasas de
desempleo en 50 estados de la Unin Americana:
Estado
AL
AK
AZ
AR
CA
CO
CT
DE
FL
GA
HI
ID
%
5.3
6.3
4.7
5.1
6.3
3.7
3.3
3.5
4.8
4.0
4.6
5.0
Estado
LA
ME
MD
MA
MI
MN
MS
MO
MT
NE
NV
NH
%
6.0
4.0
4.1
3.7
5.3
3.7
5.5
4.7
4.6
3.1
5.3
3.5
Estado
OH
OK
OR
PA
RI
SC
SD
TN
TX
UT
VT
VA
%
4.3
3.8
6.3
4.7
4.7
5.4
3.3
4.5
4.9
4.4
3.6
3.5
IL
IN
IA
KS
KY
a.
b.
c.
d.
5.4
4.4
3.3
4.3
5.5
NJ
NM
NY
NC
ND
4.2
4.8
4.9
5.5
2.8
WA
WV
WI
WY
6.4
4.9
4.6
3.9
d. Medidas de dispersin
Caractersticas:
Las medidas de dispersin nos sirven para cuantificar la
separacin de los valores de un conjunto de datos o de
una distribucin.
Llamaremos DISPERSIN O VARIABILIDAD, a la
mayor o menor separacin de los valores de la muestra,
respecto de las medidas de centralizacin que hayamos
calculado.
Al calcular una medida de centralizacin como es la
media aritmtica, resulta necesario acompaarla de otra
medida que indique el grado de dispersin, del resto de
valores de la distribucin, respecto de esta media.
Desviacin estndar:
La desviacin tpica o
estndar, es la raz cuadrada, con signo positivo, de la
varianza. Se representa por para la poblacin y por S
para muestras, y tiene la siguiente expresin para datos
no agrupados:
2
( x ) 2
x2
2
N
f (x )2
fx 2
2
N
N
fx 2
fx
n 1
5
10
15
20
25
30
10
15
20
25
30
35
a.
b.
c.
d.
16
28
22
12
6
2
100
Haga un anlisis de tendencia central
Realice un anlisis de dispersin
Grafique
Aplique adicionalmente un software, como Excel o
Minitab
2.
Distribuciones de probabilidad
a. Principios de conteo
Permutaciones con repeticin
n!
( n r )!
n!
a!b!c!
Ejemplos:
1. De cuntas formas pueden ordenarse en una
estantera 5 libros de lomo blanco, 3 de lomo
azul y 6 de lomo rojo?
2. Cuntas palabras de 6 letras con o sin
sentido se pueden formas con las letras de
AMASAS ?
3. En una carrera por equipos participan 4
espaoles, 5 franceses y 3 marroques. Si lo
nico reseable de cada corredor es su
nacionalidad, de cuntas formas posibles
podran terminar la carrera?
168168
60
27720
403209
120
720
Combinaciones
Una combinacin es un arreglo donde el orden NO es
importante. La notacin para las combinaciones es C (n, r), que
es la cantidad de combinaciones de n
elementos
seleccionados r a la vez. Es igual a la cantidad de
permutaciones de n elementos tomados r a la vez dividido
por r factorial. Esto sera P (n, r) / r!, expresado normalmente
como:
C ( n, r )
n!
r!( n r )!
35
142506
P(X=x)
/4
La distribucin binomial
Consideremos los llamados ensayos Bernoulli, stos son
aquellos experimentos cuyo resultado es uno de dos posibles y
mutuamente excluyentes, a los que se denominarn xito y
fracaso.
Por ejemplo: Los siguientes son ensayos Bernoulli.
d) naranjas
X P(X=x)
0
0.422
0.422
0.141
0.016
n!
p xqn x
x!( n x)!
para x=0,1,2,,n.
Utilizando la funcin de Excel, o bien las tablas, se pueden
obtener los valores que toma esta distribucin.
La media y la desviacin estndar de la distribucin
binomial
La media de una distribucin probabilstica binomial con
parmetros n y p es:
=np
Por otro lado, la desviacin estndar de una distribucin
probabilstica binomial con parmetros n y p es:
Uniforme. Es la distribucin en
donde todos los eventos tienen la
misma probabilidad.
la funcin DISTR.BETA.INV
proporciona los valores inversos
de la funcin, es decir, se utiliza
como parmetro la imagen de la
funcin y regresa la variable
independiente.
Normal. Es la distribucin ms
utilizada porque la mayora de
las variables utilizadas en
fenmenos sociales se
distribuyen aproximadamente
siguiendo este modelo. Es la que
tocaremos a continuacin y se le
llama comnmente distribucin
normal.
La distribucin Normal
La curva de la distribucin normal puede ser modelada
utilizando la funcin
Ejemplo:
Supongamos que se sabe que el peso de los sujetos de una
determinada poblacin sigue una distribucin aproximadamente
normal, con una media de 80 Kg y una desviacin estndar de
10 Kg. Podremos saber cul es la probabilidad de que una
persona, elegida al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los
individuos en esa poblacin, sta sigue una distribucin N (80,
10). Si su distribucin fuese la de una normal estndar
podramos utilizar la tabla para calcular la probabilidad que nos
interesa. Como ste no es el caso, resultar entonces til
transformar esta caracterstica segn la ecuacin y obtener la
variable:
De la siguiente figura:
a. Estadstica inferencial
La estadstica Inferencial es el proceso por el cual se deducen
(infieren) propiedades o caractersticas de una poblacin a
partir de una muestra significativa, con el objeto de tomar
Muestreo
Poblacin:
Tamao
N
Media
Desv std.
Error de muestreo
Ejemplo:
La antigedad laboral de los ejecutivos que trabajan para una
empresa es:
Nombre
Sr. Jimnez
Aos
20
a.
b.
c.
d.
e.
Sr. Snchez
22
Sra. Rico
26
Sr. Mndez
24
Sra. Lpez
28
Utilizando la frmula de combinacin, Cuntas
muestras de tamao 2 son posibles?
Enumere todas las muestras de 2 ejecutivos de la
poblacin, y calcule las medias.
Organice las medias en una distribucin de
muestreo.
Compare la media de la poblacin y la media de las
medias de las muestras
Compare las dispersiones.
c. Estimacin
Estimador puntual.
Valor que se calcula a partir de la informacin de la
muestra, y que se usa para estimar el parmetro de la
poblacin.
Intervalo de confianza.
Un rango de valores que se construye a partir de datos de
la muestra, de modo que el parmetro ocurre dentro de
dicho rango con una probabilidad especfica, tambin se le
llama estimacin de intervalo. La probabilidad especfica se
conoce como Nivel de confianza.
.50
.50
.4750
-1.96
.4750
0
Escala z
1.96
S
n
Sx
Para 99%:
s
n
X 2.58
Y en general:
X Z
s
n
s
n
pZ
p 1 p
n
S
n
N n
N 1
Para proporciones:
p
p 1 p
n
N n
N 1
Z 2 p (1 p )
E2
Ejemplo 1:
El gerente de ventas de una gran empresa dedicada a la
comercializacin de productos farmacuticos, esta
analizando el desempeo de sus representantes mdicos.
De una muestra aleatoria de 256 representantes se obtuvo
una media de ventas anuales de $ 55 420, con una
desviacin estndar de $ 2 050.
a. Cul es el ingreso medio estimado de todos los
representantes mdicos?
b. Cules son los lmites del intervalo de confianza en
un nivel de confianza del 95% para la media?
c. Interprete los resultados
Ejemplo 2.
4. Pruebas de hiptesis
Hiptesis.
Enunciado acerca de un parmetro de la poblacin, que se
desarrolla con el propsito de realizar pruebas.
Prueba de hiptesis.
Procedimiento que se basa en la evidencia de las muestras
y en la teora de probabilidad para determinar si la hiptesis
es un enunciado razonable.
Procedimiento
hiptesis:
de
cinco
pasos
para
probar
una
Hiptesis nula.
Una afirmacin respecto del valor de un parmetro de la
poblacin.
Hiptesis alternativa.
Una afirmacin que se acepta si los datos de la muestra
proporcionan evidencia suficiente de que la hiptesis nula
es falsa.
Nivel de significancia.
La probabilidad de rechazar la hiptesis nula cuando es
verdadera.
Error tipo 1.
verdadera
Acepta
Rechaza
Ho
Ho
Decisin correcta Error de tipo 1
Ho es falso
Error de tipo 2
Decisin correcta
Estadstico de prueba.
Un valor que se calcula con base en la informacin de la
muestra, y que se utiliza para determinar si se rechaza la
hiptesis nula.
Usando distribucin normal (n 30):
Z
x
n
Valor crtico.
Punto de divisin entre la regin en que se rechaza la
hiptesis nula y la regin en la que no se rechaza
Las pruebas de significancia pueden ser de una o dos
colas.
Determinacin del estadstico de prueba:
La poblacin es
normal?
No
Si
Es N 30?
Es conocida la
Desviacin
estndar de la
poblacin?
No
Si
No
Use una
prueba no
paramtrica
Use Z
como
estadstico
de prueba
Z
x
s n
Use t como
estadstico
de prueba
x
s n
Si
Use Z
como
estadstico
de prueba
Z
x
n
Ejemplo 1:
Un estudio de la secretaria de salud mostr que el adulto tpico
consume al ao 120 litros de refresco de cola, con una
desviacin estndar de 12 litros. Una muestra aleatoria de 64
adolescentes revel que el ao pasado consumieron un
promedio de 123 litros de refresco de cola. En el nivel de
significancia de 0.05.
a. Es posible concluir que existe una diferencia
significativa entre el consumo promedio de los
adolescentes y de los adultos en general?
b. Consumen ms refresco de cola los adolescentes
que los adultos en general?
c. Cul es la probabilidad de un error tipo 1?
d. Interprete los resultados
x1 x 2
s12 s22
n1 n2
Ejemplo 2.
Los pacientes de la tercera edad de un hospital se quejan de
ser atendidos con mayor lentitud que a los dems pacientes.
Luego de estudiar el problema se recolect la informacin que
se muestra a continuacin. Con un nivel de significancia de
0.01, Es razonable concluir que el tiempo promedio de
Media de la
muestra
5.5 minutos
5.3 minutos
pP
P 1 P
n
p1 p2
pc 1 pc pc 1 pc
n1
n2
Donde
pc
Ejemplo 4:
NmeroTota lDexitos
x x2
1
NmeroTota lDeLasMuestras n1 n2
x
s
n
Ejemplo:
Una compaa aseguradora ha calculado que el costo promedio
de procesar una reclamacin es de $ 600, lo cual
comparativamente ms alto que la competencia. Para
verificarlo, toma una muestra aleatoria de 26 reclamos,
encontrando una media de $57 con una desviacin estndar de
$10. Con un nivel de significancia de 0.01 Podr concluir que
el costo es menor de lo que se pensaba o que la diferencia se
debe a la casualidad?
n1 1 s12 n2 1 s22
n1 n2 2
Estadstico de prueba:
t
x1 x2
1 1
n1 n2
s 2p
Donde:
gl = n1 + n2 1
Ejemplo:
Para ensamblar un motor de podadoras se crearon 2
procedimientos. Se desea saber si existe alguna diferencia en
los tiempos promedio. Para ello se seleccion una muestra de
2
3
Tiempo en minutos
9
3
5
8
4
7
sd
d 2
n 1
d
sd
2
4
Donde gl = n 1
Ejemplo:
Un grupo de personas se sometieron a una dieta para bajar de
peso, para verificar los resultados, se pesaron antes y despus
de seguir la dieta. En un nivel de significancia de 0.01 Se
puede concluir que los participantes perdieron peso?
Nombre
Jorge
Vicente
Martn
Francisco
Cesar
Gerardo
Juan
Luis
Peso (Libras)
Antes
Despus
155
154
141
147
162
157
164
150
211
196
184
178
172
169
228
217
Diferencia
d
Anlisis de varianzas
Distribucin F anova
Caractersticas:
o Se emplea para probar si dos muestras provienen de
poblaciones que poseen varianzas iguales y cuando se
trata de comparar varias medias poblacionales
o Existe una familia de distribuciones f determinadas por 2
parmetros:
o
o
o
o
o
s12
s22
Donde
s12 s22
Ejemplo:
La ruta de autobuses Norte Sur, tiene 2 rutas par ir de Ro
Medio a Plaza Amricas. Se estudian los tiempos de cada ruta
y se comparan con un nivel de significancia de 0.1 existe
diferencia en la variacin de los tiempos de recorrido para las
dos rutas?
Ruta
Tiempo
Desviaci
Tamao
A (Por M. Alemn)
B (Por Cuauhtemoc)
Promedio n estndar
(minutos) (minutos)
56
12
58
5
de la
muestra
7
8