Maestria - Estadistica Aplicada

ESTADSTICA
APLICADA
OBJETIVO GENERAL:
Aplicar la estadstica descriptiva a situaciones reales de su
campo de trabajo, con el apoyo de calculadora y computadora,
que le permitir realizar inferencias a partir de la informacin
obtenida.
TEMAS:
1. Estadstica descriptiva
2. Distribuciones de probabilidad
3. Estimacin estadstica y muestreo
4. Pruebas de hiptesis
5. Anlisis multivariado
6. Estadstica no paramtrica
Mtro. Arturo Rivera Lpez
1. Estadstica descriptiva
a. Introduccin
Estadstica proviene de la palabra italiana statista, que
significa estadista, el que utiliza y registra los datos.
Estadstica, la ciencia de reunir, organizar, presentar,
analizar e interpretar datos para ayudar a tomar las
mejores decisiones.
Desde cuando existe?
El viejo testamento contiene informes de
levantamiento de censos.
En la edad media se empezaron a registrar las
propiedades.
Carlomagno pidi la descripcin de las
propiedades de la iglesia en el ao 726 dc
Enrique VIII pidi que se registraran los muertos
por la peste en Inglaterra en 1532.
Dnde se aplica?
En los estudios de las enfermedades
En el desarrollo de medicamentos
En las encuestas de opinin polticas y socio
econmicas
En la mercadotecnia
En la medicin y control de la calidad y la
productividad en las empresas
En los deportes y en los juegos de azar
En la aplicacin de pruebas
Y ....... En dnde no?
Subdivisiones de la estadstica:
Estadstica descriptiva: Muestra los datos y las
relaciones existentes entre ellos, por medio de grficas,
tablas y diagramas, sin hacer generalizacin acerca de
los mismos, solo los describe.
Estadstica inferencial: Generaliza ms all de los
datos mostrados , estimando relaciones que pueden no
ser completamente vlidas, por lo que debe
establecerse
la
posibilidad
de
su
certeza
(Generalizacin y afirmacin).
Teora de decisiones: Utilizacin de los mtodos y
tcnicas de la estadstica inferencial (inferencia
estadstica) para tomar decisiones en condiciones de
incertidumbre, a partir de los datos estadsticos y la
probabilidad de su validez.
Clasificacin de los datos:
Datos
Cualitativos
o atributos
Cuantitativos
o numricos
Discretos
Continuos
Qu diferencia hay entre datos e informacin?
Definiciones de trminos estadsticos:

POBLACIN: Es el conjunto de elementos,
individuos o entes sujetos a estudio y de los cuales
queremos obtener un resultado.
VARIABLE: Es la caracterstica que estamos midiendo.
Existen dos categoras o tipo de variables:
Variable cualitativa: Es aquella que expresa un
atributo o caracterstica, ejemplo: Rubio, moreno, etc.
Variable cuantitativa: Es aquella que podemos
expresar numricamente: edad, peso, n. de hijos, etc.
Esta a su vez la podemos subdividir en:
Variable discreta, aquella que entre dos valores
prximos puede tomar a lo sumo un nmero finito de
valores. Ejemplos: el nmero de hijos de una familia, el
de obreros de una fabrica, el de alumnos de la
universidad, etc.
Variable continua, la que puede tomar un nmero
infinito de valores dentro de un intervalo. En muchas
ocasiones la diferencia es ms terica que prctica, ya
que los aparatos de medida dificultan que puedan existir
todos los valores del intervalo. Ejemplos, peso, estatura,
distancias, etc.
La variable se denota por las maysculas de letras
finales del alfabeto castellano. A su vez cada una de
estas variables puede tomar distintos valores,
colocando un subndice, que indica orden:
X = (X1, X2 , X3 , ......
, XK-2 , XK-1, XK )
Muestra: Conjunto de elementos que forman parte de

poblacin. La muestra representa a esta poblacin.
Muestra representativa:
La que contiene las
caractersticas relevantes en las mismas proporciones
que la poblacin.
Tamao muestral: Es el nmero de elementos u
observaciones que tomamos. Se denota por n N.
Dato: Cada uno de los individuos, cosas, entes
abstractos que integran una poblacin o universo
determinado. Dicho de otra forma, cada valor observado
de la variable.
b. Distribucin de frecuencias
Anlisis de los datos:
Los datos pueden describirse y analizarse de manera
agrupada o no agrupada, dependiendo de la cantidad
de datos y de la relacin entre ellos.
Los datos agrupados son de mayor utilidad, a pesar de
la prdida de exactitud, porque nos permiten distinguir
patrones y llegar a conclusiones lgicas a partir de las
causas y los efectos observados.
Qu debemos considerar al agrupar los datos?
El origen de los datos

Si la fuente es parcial o imparcial
La mejor forma de agruparlos
Si los datos comprueban o contradicen la

informacin preliminar
Si se tienen suficientes datos u observaciones
Los datos corresponden a una poblacin o a una
muestra.
Si los datos son representativos de la poblacin
estudiada.
Si es posible llegar a una conclusin lgica
Ejemplo
El gobierno desea averiguar si el nmero medio de hijos
por familia ha descendido respecto de la dcada
anterior. Para ello ha encuestado a 50 familias respecto
al nmero de hijos, y ha obtenido los siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
Se pide:
a) Cul es la poblacin objeto de estudio?
b) Qu variable estamos estudiando?
c) Qu tipo de variable es?
d) Construir la tabla de frecuencias?
e) Cul es el nmero de familias que tiene como
mximo 2 hijos?
f) Cuntas familias tienen ms de 1 hijo, pero como
mximo 3?
g) Qu porcentaje de familias tiene ms de 3 hijos?
Solucin:
a) La poblacin objeto de estudio es el conjunto de

familias de un determinado pas.
b) La variable que estamos estudiando es el nmero de
hijos por familia
c) El tipo de variable es discreta ya que el nmero de
hijos solo puede tomar determinados valores enteros
(es imposible tener medio o un cuarto de hijo).
d) Para construir la tabla de frecuencias tenemos que
ver cuantas familias tienen un determinado nmero de
hijos. Podemos ver que el nmero de hijos, toma los
valores existentes entre 0 hijos, los que menos y 6 hijos,
los que ms y tendremos:
xi
0
1
2
3
4
5
6
f
2
4
21
15
6
1
1
N = 50
fa
2
6
27
42
48
49
50
fr
0.04
0.08
0.42
0.30
0.12
0.02
0.024
1
fra
0.04
0.12
0.54
0.84
0.96
0.98
1
e) El nmero de familias que tienen dos o menos hijos

es: 2+4+21 = 27
f) El nmero de familias que tienen ms de un hijo pero
tres como mximo es: 21 + 15 = 36
g) Por ltimo el porcentaje de familias que tiene ms de

tres hijos, son aquellos que tienen 4; 5 y 6 es decir
6+1+1= 8
El porcentaje ser el tanto por uno multiplicado por cien
es decir, la frecuencia relativa de dichos valores
multiplicado por 100: ( 0.12+0.02+0.02)* 100 = 0,16 +
100 = 16 %
Distribucin de frecuencias: Es un agrupamiento de
datos en categoras mutuamente excluyentes dando el
nmero de observaciones de cada categora.
Construccin:
Determine el nmero de clases o categoras,
puede usar la regla emprica 2 a la k.
Organice los datos de menor a mayor.
Identifique el dato menor y el dato mayor para
determinar el rango total de los datos.
Calcule el ancho o amplitud de las clases, haga los
ajustes que considere convenientes.
Fije los lmites de cada clase.
Todas las clases deben tener el mismo ancho o
amplitud y no traslaparse. Por ejemplo:
Clases
50 59
60 69
70 79
80 89
90 99
Frecuencia
2
3
8
5
2
20
Se sugieren 5 o ms clases y no ms de 20, de

preferencia usar menos de 12 clases.
Realice el conteo de los datos, frecuencia de clase.
Calcule las frecuencias relativas, acumuladas y
acumuladas relativas.
Calcule el punto medio de cada clase o marca de
clase. ( Lmite inferior + lmite superior ) / 2
Ejemplo:
A continuacin se tienen las calificaciones de
50 alumnos que presentaron un examen de estadstica
con 150 reactivos:
27
43
43
44
47
49
50
54
58
65
68
71
71
71
73
73
74
75
76
77
79
80
81
82
82
84
84
86
88
88
91
91
93
94
94
94
96
97
103
106
107
108
108
116
120
120
122
123
127
128
Solucin:
Como 26 = 64 > 50, se sugieren 6

clases.
Dado que el rango es 128 27 = 101,

el ancho de clase debe ser ligeramente superior a
101 / 6 = 16.83, por ejemplo 17
Con A = 17, el rango sube a (17) (6)

=102, de modo tal que si la primera clase inicia
en 27, la ltima termina en 129, quedando como
sigue:
Clases
Li Ls
Frecuencia Frecuencia Frecuencia

Acumulada
Relativa
Marca
de
clase
27 44
6%
35.5
44 61
18 %
52.5
61 78
11
20
40 %
69.5
78 95
16
36
72 %
86.5
95 112
43
86 %
103.5
112 129
50
100 %
120.5
50
Investigar: Diagramas de caja y diagramas de tallo hoja
Frecuencia
20
16
15
11
10
7
6
5
3
27
18.5
44
35.5
61
52.5
78
69.5
95
86.5
112
103.5
129
120.5
Calificacin
137.5
HISTOGRAMA Y POLGONO DE FRECUENCIAS
Frecuencia
Relativa
Acumulada
100%
Frecuencia
Acumulada
50
50
45
43
40
36
75%
35
30
25
50%
20
20
15
10
25%
3
0
27
44
61
78
OJIVA MENOR QUE
95
112
129
Calificacin
c. Medidas de tendencia central

Tienen como propsito indicar el valor central de un
conjunto de observaciones, tambin llamadas de
posicin.
Media aritmtica, media o promedio:
=
= x =
Media poblacional =
Media muestral
Para datos agrupados:
X f
f
X =
Xi = Es el punto medio de cada
Donde:
clase
F
= La frecuencia de cada clase
Del ejemplo anterior:

X =
4138
50
= 82.76
Mediana = Es el valor ocupado por la posicin central

cuando los datos se ordenan de acuerdo a su magnitud.
M =
n
2
M =
n 1
F 1
fm
A + Lm
Donde: n
F
= Nmero total de elementos

= Suma de todas las frecuencias de
clase anteriores a la clase de la
mediana
fm
= Frecuencia de la clase de la
mediana
A
= Ancho de clase
Lm = Lmite inferior de la clase de la
mediana
Del ejemplo anterior:

Factor:
n 1
2
50 1
2
= 25.5
Este dato nos permite ubicar la clase de la mediana en

la frecuencia acumulada, la clase que va de 78 a 95,
dada la frecuencia acumulada 36:
Mediana = M =
50 1
20 1
17 78
16
= 82.78125
Moda = Es el valor que mas se repite en un conjunto de

datos.
d1
A
d1 d 2
m = Lm +
donde: Lm = Lmite inferior de la clase modal

d1 = Diferencia entre la frecuencia de
la clase modal y la frecuencia de la
clase inferior a la modal.
d2 = Diferencia entre la frecuencia de
la clase modal y la frecuencia de la
clase superior a la modal.
A = Ancho de la clase
Del ejemplo anterior, dado que la clase con la
frecuencia mayor es la de 78 95, con 16
observaciones:
16 11
17
16 11 16 7
m = 78 +
= 84.0714
Mediana
Media
Moda
Observe que:
Comparaciones:
1. La mediana y la moda pueden utilizarse para datos
tanto cuantitativos como cualitativos.
2. La mediana y la moda no se ven mayormente
afectadas por los valores extremos.
3. La moda se puede utilizar an cuando una o mas

clases sean de extremo abierto.
4. Una desventaja de la moda es que, o puede no
haber o puede haber mas de una en un conjunto de
datos.
5. Si la distribucin es simtrica, la media, la mediana y
la moda son iguales.
6. Cuando la distribucin esta sesgada a la izquierda o
a la derecha, la mediana es la mejor medida de
posicin o tendencia central, debido a que siempre
esta entre la moda y la media.
7. La media es la nica medida de posicin en la que la
suma de las desviaciones de los valores de la media
ser siempre cero.
Otras medidas de tendencia central:
La media geomtrica = Se utiliza para obtener tasas
promedio de cambio, tales como la tasa de crecimiento
poblacional, incremento de la inflacin, mejora en la
productividad, etc.
MG =
Pr oducto de todos los valores
Ejemplo: Se invirtieron $ 100 hace 5 aos en una

cuenta cuya tasa de inters tuvo incrementos en cada
uno de los aos, como se indica a continuacin.
Determine el promedio de la tasa de inters aplicada.
Ao
Tasa de
Factor de
Ahorro al
inters
7%
8
10
12
18
1
2
3
4
5
crecimiento final del ao

1.07
107.00
1.08
115.56
1.10
127.12
1.12
142.37
1.18
168.00
Si usamos la media aritmtica para el factor de

crecimiento:
= (1.07 + 1.18 + 1.10 + 1.12 + 1.18) / 5 = 1.11
Es decir, una tasa promedio de 11 % equivalente a:

100 (1.11 x 1.11 x 1.11 x 1.11 x 1.11) = $ 168.51
Pero si usamos la media geomtrica:
MG =
(1.07 )(1.08)(1.10)(1.12)(1.18)
= 1.1093
Es decir, una tasa promedio de 10.93 % equivalente a:

100 (1.1093 x 1.1093 x 1.1093 x 1.1093 x 1.1093) = $ 167.97
Lo que representa un clculo mas exacto.

Para calcular la MG de datos agrupados tenemos la
frmula:
f log x
MG = n x1 f 1 x2 f 2 ....xk fk = Inv Log

n
Donde:
xk = son marcas de clase
fk = son las frecuencias de cada clase
f1 + f2 + .... + fk
Del ejemplo tenemos:

MG =
50
(35.53 )(52.56 )(69.511 )(86.516 )(103.57 )(120.57 )
O tambin, el inverso logaritmo de

MG =
3 log 35.5 6 log 52.5 11 log 69.5 16 log 86.5 7 log103.5 7 log120.5
50
MG =
La media armnica = representada por H, de una
cantidad finita de nmeros es igual al recproco o
inverso, de la media aritmtica de los recprocos de
dichos nmeros
As, dados los nmeros a1,a2, ... , an, la media armnica
ser igual a:
Se utiliza para promediar velocidades, tiempos,

rendimiento, etc. (cuando influyen los valores
pequeos).
Su problema: cuando algn valor de la variable es 0 o
prximo a cero no se puede calcular.
Ejemplo: calcular la media armnica de la siguiente
distribucin:
xi
ni
100
120
125
140
10
5
4
3
Para poder hallarla, es necesario que calculemos el

inverso de x y el inverso de la frecuencia por lo que
ampliaremos la tabla con 2 columnas adicionales :
xi
100
120
125
140
ni
10
5
4
3
N= 22
1/xi
1/100
1/120
1/125
1/140
n
22
112 ,82
ni
0,195
x
i
ni/xi
0.1
0.042
0.032
0.021
0.195
xini
1000
600
500
420
2520
Entre la
x i n i media
2520 aritmtica,
X
114 ,545
la media
geomtrica
y
n
22
media armnica se da
siempre
la
siguiente
relacin:
H G X
Cuantiles: Cuartiles, deciles y percentiles

Son medidas de localizacin similares a las anteriores.
Su funcin es informar del valor de la variable que
ocupar la posicin que nos interese respecto de todo
el conjunto de variables.
Podemos decir que los Cuantiles son unas medidas de
posicin que dividen a la distribucin en un cierto
nmero de partes de manera que en cada una de ellas
hay el mismo de valores de la variable.
Las ms importantes son:
CUARTILES, dividen a la distribucin en cuatro partes

iguales (tres divisiones). Q1,Q2,Q3, correspondientes a
25%, 50%,75%.
DECILES, dividen a la distribucin en 10 partes iguales
(9 divisiones).D1,...,D9, correspondientes a 10%,...,90%
PERCENTILES, cuando dividen a la distribucin en
100 partes (99 divisiones).P1,...,P99, correspondientes a
1%,...,99%.
Existe un valor en cual coinciden los cuartiles, los
deciles y percentiles es cuando son iguales a la
Mediana y as veremos:
2
5
50
4 10 100
Por lo tanto, dada su similitud con la mediana, su

clculo es similar, por ejemplo para el cuartil Q1
Tenemos:
Q1 =
n 1
F 1
fq
A + Lq
Donde: n
F
= Nmero total de elementos

= Suma de todas las frecuencias de
clase anteriores a la clase del
quartil
fq = Frecuencia de la clase del cuartil
A
= Ancho de clase
Lq = Lmite inferior de la clase del cuartil
Y para el cuartil Q3
3(n 1)
F 1
fq
Q3 =
A + Lq
Del mismo modo para los deciles y percentiles, por

ejemplo para el decil D7
D7 =
7( n 1)
F 1
10
fd
A + Ld
Etctera.
Todos los Cuantiles se pueden localizar en la ojiva.
Ejercicio de repaso:
En el 2001 se publicaron las siguientes tasas de
desempleo en 50 estados de la Unin Americana:
Estado
AL
AK
AZ
AR
CA
CO
CT
DE
FL
GA
HI
ID
%
5.3
6.3
4.7
5.1
6.3
3.7
3.3
3.5
4.8
4.0
4.6
5.0
Estado
LA
ME
MD
MA
MI
MN
MS
MO
MT
NE
NV
NH
%
6.0
4.0
4.1
3.7
5.3
3.7
5.5
4.7
4.6
3.1
5.3
3.5
Estado
OH
OK
OR
PA
RI
SC
SD
TN
TX
UT
VT
VA
%
4.3
3.8
6.3
4.7
4.7
5.4
3.3
4.5
4.9
4.4
3.6
3.5
IL
IN
IA
KS
KY
a.
b.
c.
d.
5.4
4.4
3.3
4.3
5.5
NJ
NM
NY
NC
ND
4.2
4.8
4.9
5.5
2.8
WA
WV
WI
WY
6.4
4.9
4.6
3.9
Ordene los datos de menor a mayor

Construya una tabla de distribucin de frecuencias
Dibuje el histograma y la ojiva menor que
Calcule la media, mediana, moda y cuartiles
d. Medidas de dispersin
Caractersticas:
Las medidas de dispersin nos sirven para cuantificar la
separacin de los valores de un conjunto de datos o de
una distribucin.
Llamaremos DISPERSIN O VARIABILIDAD, a la
mayor o menor separacin de los valores de la muestra,
respecto de las medidas de centralizacin que hayamos
calculado.
Al calcular una medida de centralizacin como es la
media aritmtica, resulta necesario acompaarla de otra
medida que indique el grado de dispersin, del resto de
valores de la distribucin, respecto de esta media.
La dispersin nos proporciona informacin adicional que

nos permite juzgar la confiabilidad de nuestra medida
de tendencia central, y por otro lado, permite comparar
diferentes muestras.
A estas cantidades o coeficientes, les llamamos:
MEDIDAS DE DISPERSIN, pudiendo ser absolutas o
relativas
Medidas de dispersin y sus propiedades:
Medidas de dispersin absolutas:
Rango, recorrido o alcance
Rango intercuartlico.
Varianza
Desviacin tpica o estndar
Desviacin media
Medidas de dispersin relativas
Coeficiente de variacin o de PEARSON
ndice de variacin respecto de la mediana
Rango o recorrido: Se define como la diferencia
entre el mayor y el menor valor de las variables de una
distribucin.
Rango intercuartlico:
Se define como la diferencia
entre el tercer y el primer cuartil.
Desviacin media: Es la media aritmtica de los
valores absolutos de las desviaciones de los valores de
la variable con respecto de la mediana o a la media,
segn se requiera.
Varianza: Es la media aritmtica de los cuadrados de

las desviaciones de los valores de la variable con
respecto de la media de la distribucin.
NOTA: Su problema son las unidades ya que minutos
al cuadrado no existen, y si hablamos de longitud m x m
nos dara metros al cuadrado o sea superficie. El valor de la
varianza no lo podemos tomar de manera comparativa
porque no esta en las mismas unidades que los datos y la
media. Sin embargo, podemos obtener la raz cuadrada, y
as esta nueva medida, es la desviacin tpica o estndar:
Desviacin estndar:
La desviacin tpica o
estndar, es la raz cuadrada, con signo positivo, de la
varianza. Se representa por para la poblacin y por S
para muestras, y tiene la siguiente expresin para datos
no agrupados:
2
( x ) 2
x2
2
N
Y por la siguiente expresin para datos agrupados:

2
f (x )2
fx 2
2
N
N
Si operamos, podemos obtener la siguiente expresin,

que es mucho ms sencilla de operar, y obtenemos
menos error de redondeo:
2
s
fx 2
fx
n 1
Propiedades de la desviacin estndar

La desviacin estndar tiene una serie de
propiedades que comparte con la varianza:
La desviacin estndar es siempre un valor no
negativo S ser siempre 0 por definicin.
Es la medida de dispersin ptima por ser la ms
pequea.
Si a todos los valores de la variable se le suma una
misma constante la desviacin estndar no vara.
Si a todos los valores de la variable se multiplican
por una misma constante, la desviacin estndar
queda multiplicada por el valor absoluto de dicha
constante.
Aproximadamente el 60% de los valores de la
poblacin cae dentro de +/- 1 desviacin estndar
a partir de la media.
Investigar: Teorema de Chebyshev
Coeficiente de variacin de Pearson:

El problema de las medidas de dispersin absolutas es
que normalmente son un indicador que nos da
problemas a la hora de comparar.
Comparar muestras de variables que entre s no tienen
cantidades en las mismas unidades, de ah que en
ocasiones se recurra a medidas de dispersin relativas.
El coeficiente de variacin de PEARSON es una de las
ms significativas y lo podemos definir, como el
cociente entre la desviacin estndar y la media
aritmtica de una distribucin.
Es necesario tener en cuenta que al efectuar el
cociente eliminamos las unidades por tanto, el
coeficiente
es adimensional, habitualmente se le
multiplica por 100 para convertir los decimales a un por
ciento.
Ejemplo de repaso:
Una empresa esta preocupada por el bajo rendimiento
de sus trabajadores en los ltimos aos, un estudio
revel que existe cierta relacin entre la baja de
rendimiento y el sobrepeso de los empleados. El
gerente de RH decidi estudiar ms a fondo el nivel de
sobrepeso de los 100 empleados del rea
administrativa, en resumen obtuvo lo siguiente:
Kgs de
Frecuencia
sobrepeso
0 5
14
5
10
15
20
25
30
10
15
20
25
30
35
a.
b.
c.
d.
16
28
22
12
6
2
100
Haga un anlisis de tendencia central
Realice un anlisis de dispersin
Grafique
Aplique adicionalmente un software, como Excel o
Minitab
Fin de la primera parte
2.
Distribuciones de probabilidad
a. Principios de conteo
Permutaciones con repeticin
Una permutacin es un arreglo en donde el orden es

importante. La notacin para permutaciones es P (n, r) que es
la cantidad de permutaciones de n elementos si solamente se
seleccionan r.
P ( n, r )
n!
( n r )!
Ejemplo: Si 9 estudiantes toman un examen y todos obtienen

diferente calificacin, si consideramos las 3 calificaciones ms
altas, cualquier alumno podra alcanzar la calificacin ms alta.
La segunda calificacin ms alta podra ser obtenida por uno de
los 8 restantes. La tercera calificacin podra ser obtenida por
uno de los 7 restantes.
La cantidad de permutaciones posibles sera: P(9,3) = 9*8*7 =
504 combinaciones posibles de las tres calificaciones ms
altas.
Llamamos a las permutaciones con repeticin de n elementos
tomados de a en a, de b en b, de c en c, etc, cuando en los n
elementos existen elementos repetidos (un elemento aparece a
veces, otro b veces, otro c veces, etc) verificndose que
a+b+c+...=n.
El nmero de estas permutaciones ser:
PRna , b , c
n!
a!b!c!
Ejemplos:
1. De cuntas formas pueden ordenarse en una
estantera 5 libros de lomo blanco, 3 de lomo
azul y 6 de lomo rojo?
2. Cuntas palabras de 6 letras con o sin
sentido se pueden formas con las letras de
AMASAS ?
3. En una carrera por equipos participan 4
espaoles, 5 franceses y 3 marroques. Si lo
nico reseable de cada corredor es su
nacionalidad, de cuntas formas posibles
podran terminar la carrera?
168168
60
27720
Permutaciones sin repeticin

Las permutaciones sin repeticin de n elementos se definen
como las distintas formas de ordenar todos esos elementos
distintos, por lo que la nica diferencia entre ellas es el orden
de colocacin de sus elementos.
El nmero de estas permutaciones ser:
Pn = n!
Ejemplos:
1. De cuntas formas pueden sentarse 8
amigos en una fila de butacas de un cine?
2. De cuntas formas diferentes se pueden
fotografiar 5 amigos frontalmente en lnea recta?
3. Un tcnico de sonido tiene que unir 6
terminales en 6 conexiones. Si lo hiciera al azar,
de cuntas formas diferentes podra completar
las conexiones?
403209
120
720
Combinaciones
Una combinacin es un arreglo donde el orden NO es
importante. La notacin para las combinaciones es C (n, r), que
es la cantidad de combinaciones de n
elementos
seleccionados r a la vez. Es igual a la cantidad de
permutaciones de n elementos tomados r a la vez dividido
por r factorial. Esto sera P (n, r) / r!, expresado normalmente
como:
C ( n, r )
n!
r!( n r )!
Ejemplo: Si se seleccionan cinco cartas de un grupo de nueve,

cuantas combinaciones de cinco cartas habra?
La cantidad de combinaciones posibles sera: P(9,5)/5! =
(9*8*7*6*5)/(5*4*3*2*1) = 126 combinaciones posibles.
Ejemplos:
1. La probabilidad de sacarse el MELATE
depende del nmero de resultados posibles.
Sabes cuntas combinaciones posibles hay?
2. Siete amigos hacen cola para el cine. Al llegar
slo quedan 4 entradas. De cuntas formas
podran repartirse estas entradas para ver la
pelcula?
3. En una clase de 30 alumnos se quiere elegir
un grupo de 5 alumnos para participar en un
concurso. De cuntas formas podra hacerse?
35
142506
b. Distribuciones de probabilidad para variables

discretas
Consideremos inicialmente que existen las variables
aleatorias, siendo aquellas que se asocian a la ocurrencia de
un fenmeno aleatorio. Cuando una de estas variables
aleatorias toma diversos valores, la probabilidad asociada a
cada uno de tales valores puede ser organizada como una
distribucin de probabilidad, la cual es la distribucin de las
probabilidades asociadas a cada uno de los valores de la
variable aleatoria.
Las distribuciones de probabilidad pueden representarse a
travs de una tabla, una grfica o una frmula, en cuyo caso tal
regla de correspondencia se le denomina funcin de

probabilidad.
Por ejemplo: Consideremos a la variable aleatoria X como la
cantidad de guilas observadas cuando se lanzan dos volados.
El espacio muestral es el conjunto {AA, AS, SA, SS} y se puede
ver que la variable X puede tomar como valores 0, 1 y 2.
Si ahora se organizan estos resultados con el siguiente formato
X
P(X=x)
/4
Se podr explicar por qu se usa el nombre "distribucin de

probabilidad e incluso, con esta informacin se puede construir
una grfica de barras o un histograma como el que sigue:
Las propiedades de las distribuciones de variables

discretas son dos, y que posteriormente, al hablar de las
distribuciones de variables continuas, se repetirn de manera

muy similar:
1. 0 < P(X=x) < 1. Es decir, la probabilidad de un evento esta
entre 0 y 1.
2. P(X=x) = 1, o que es lo mismo: la suma de todas las

probabilidades de los eventos posibles de una variable
aleatoria es igual a la unidad.
Hay que hacer notar que estas propiedades se enuncian
suponiendo que conocemos el valor de la probabilidad, pero en
la realidad esto no ocurre, es decir que no sabemos la
probabilidad y lo que se hace es trabajar con estimaciones.
Precisamente esto nos lleva a modelos tericos que estiman
los resultados, los principales son los que a continuacin se
presentan.
Modelos de distribuciones de probabilidad de variables

discretas
Uniforme. Es la distribucin donde todos los eventos
elementales tienen la misma probabilidad. Por ejemplo:
tirar un dado, donde la funcin P(X=x)=1/6 para valores de
x=1,2,3,4,5,6.
Binomial. Es la que maneja la distribucin de la
probabilidad de obtener cierta cantidad de xitos al realizar
una cantidad de experimentos con probabilidad de xito
constante y con ensayos independientes.
Geomtrica. Es la distribucin de la probabilidad de
realizar cierto nmero de experimentos antes de obtener
un xito.
Hipergeomtrica. Es similar a la binomial, pero con un

tamao de muestra grande en relacin al tamao de la
poblacin. Puede calcularse con Excel.
De Poisson. Es la distribucin de la probabilidad de que
ocurra un evento raro en un periodo de tiempo, un espacio
o un lugar. Puede calcularse con Excel
La distribucin binomial
Consideremos los llamados ensayos Bernoulli, stos son
aquellos experimentos cuyo resultado es uno de dos posibles y
mutuamente excluyentes, a los que se denominarn xito y
fracaso.
Por ejemplo: Los siguientes son ensayos Bernoulli.
Un tornillo, puede estar defectuoso o no defectuoso.

El sexo de un beb al nacer, nio o nia.
La respuesta correcta o incorrecta en un examen.
Si consideramos una serie de ensayos Bernoulli que tiene

como caractersticas:
1. La probabilidad de xito permanece constante, ensayo
tras ensayo; y
2. Los ensayos son independientes entre s.
Entonces se tiene lo que se denomina experimento binomial,
donde el nmero de ensayos se denota con n, la probabilidad
de xito con p y la de fracaso con q. Hay que notar que las
probabilidades de xito y de fracaso estn relacionadas de la
siguiente manera: p + q = 1.
Por ejemplo: Consideremos un examen con tres preguntas de
opcin mltiple, con cuatro opciones, y que ser contestado al
azar.
Podemos utilizar el siguiente ejemplo < Lydia Lic. la por

proporcionadas fueron preguntas>:
1.- Las flores del girasol son:
a) rojas b) azules c) amarillas
d) naranjas
2.- La Constitucin Mexicana se firm en:

a) 1518 b) 1635 c) 1457 d) 1917
3.- El significado de la palabra mina es
a) lpiz b) rbol c) miedo d) fiera
Con esto contamos con un experimento binomial, ya que la
probabilidad de xito permanece constante en las tres
preguntas (p=) y las respuestas de una a otra pregunta son
independientes entre s. Se cuenta con una cantidad n=3 de
ensayos y q =1 p = 3/4.
Hay que decir que n y p son los llamados parmetros de la
distribucin.
Tenemos ahora la variable aleatoria X que representar el
nmero de respuestas correctas, siendo sus posibles valores:
0, 1, 2, y 3.
Para calcular la distribucin de probabilidad correspondiente,
consideraremos como E los xitos y como F los fracasos (el
subndice indica el nmero de pregunta). As pues, tenemos
que:
Al presentar esta informacin como tabla y su respectivo
histograma se obtiene:
X P(X=x)
0
0.422
0.422
0.141
0.016
En general, si se tienen n ensayos Bernoulli con probabilidad

de xito p y de fracaso q, entonces la distribucin de
probabilidad que la modela es la distribucin de probabilidad
binomial y su regla de correspondencia es:
P( X x)
n!
p xqn x
x!( n x)!
para x=0,1,2,,n.
Utilizando la funcin de Excel, o bien las tablas, se pueden
obtener los valores que toma esta distribucin.
La media y la desviacin estndar de la distribucin
binomial
La media de una distribucin probabilstica binomial con
parmetros n y p es:
=np
Por otro lado, la desviacin estndar de una distribucin
probabilstica binomial con parmetros n y p es:
Por ejemplo: Consideremos la distribucin resultante de

aplicar los exmenes del ejemplo anterior. Sus parmetros son
n=3 y p=0.25, entonces la media de la distribucin es:
= (3)(0.25) = 0.75
Y la desviacin estndar es:
Esto quiere decir que si se aplicara este examen, en teora, el

promedio de aciertos sera de 0.75 (casi de un acierto) con una
dispersin de 0.75.
Investigar: Distribuciones de probabilidad de Poisson y

Exponencial
c. Distribuciones de probabilidad para variables continuas
Hasta el momento se han considerado las distribuciones de
probabilidad para variables discretas, donde se poda asignar el
valor que toma la funcin de probabilidad cuando la variable
aleatoria tomaba un valor en concreto. Pero, al considerar las
variables continuas se encuentra uno el problema de que, lo
ms probable, los datos que se puedan recabar no sean
completamente exactos, o dos o ms de ellos no coincidan, por
lo que se tienen que trabajar en intervalos y, en ese momento,
modelar una funcin se convierte en un problema serio.
Sin embargo, se pueden realizar aproximaciones y describir la
probabilidad a travs de modelos tericos de probabilidad cuya
grfica es una lnea continua, a diferencia de las variables

discretas que le corresponde un histograma.
Modelos de distribucin de probabilidad de

variables continuas
Al igual que en el caso de las distribuciones de probabilidad de

variables discreta, en el caso de las distribuciones de
probabilidad de variables continuas se tienen varios modelos
tericos que en seguida presentamos.
A la derecha de cada modelo aparece la funcin de densidad

correspondiente a cada modelo.
Uniforme. Es la distribucin en
donde todos los eventos tienen la
misma probabilidad.
Exponencial. Se utiliza para

estudiar el tiempo entre dos
sucesos. La funcin de Excel que
le corresponde es DISTR.EXP.
Beta. Sirve para el estudio de

variaciones, a travs de varias
muestras, de un porcentaje que
representa algn fenmeno. La
funcin DISTR.BETA del Excel
sirve para obtener sus valores; y
la funcin DISTR.BETA.INV
proporciona los valores inversos
de la funcin, es decir, se utiliza
como parmetro la imagen de la
funcin y regresa la variable
independiente.
Gamma. Se utiliza para estudiar

variables cuya distribucin puede
ser asimtrica. La funcin de
Excel que le corresponde es
DISTR.GAMMA; y la funcin
DISTR.GAMMA.INV es la inversa
de la anterior.
ji cuadrada (). Es una
distribucin asociada a la prueba
, y se usa para comparar los
valores observados con los
esperados. La funcin
DISTR.CHI de Excel sirve para
este caso.
Normal. Es la distribucin ms
utilizada porque la mayora de
las variables utilizadas en
fenmenos sociales se
distribuyen aproximadamente
siguiendo este modelo. Es la que
tocaremos a continuacin y se le
llama comnmente distribucin
normal.
La distribucin Normal
La curva de la distribucin normal puede ser modelada
utilizando la funcin
donde y son los parmetros y corresponden a la media y a

la desviacin estndar, respectivamente, cuyos valores
permitidos son todos los reales, para son los reales
positivos y el dominio de f es el conjunto de los nmeros reales.
Dado que para variables continuas la probabilidad de que x
tome un valor en el intervalo (a,b) es el rea bajo la curva
limitado por rectas verticales que pasan por a y b, entonces se
puede encontrar la probabilidad en un intervalo integrando:
Aunque resulta ms cmodo el uso de las tablas que casi todos

los libros y formularios proveen.
Sin embargo, las tablas de los libros corresponden a la
distribucin normal con =0 y =1, por lo que en casos en que
los parmetros sean diferentes, entonces hay que realizar una
transformacin:
Propiedades de la curva de distribucin normal

Las propiedades de la curva son bsicamente seis, y su
demostracin est basada en conceptos de clculo:
1. Los valores de la curva son positivos
2. La curva es simtrica con respecto al valor de la media,
tiene una nica moda que coincide con la media y la
mediana. Segn esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor
que la media, y un 50% de observar un dato menor.
3. La curva tiene un valor mximo en el valor de la media
4. La distancia entre la lnea trazada en la media y el
punto de inflexin de la curva es igual a una desviacin
estndar . Cuanto mayor sea , ms aplanada ser la
curva de la densidad.
5. La curva, en sus extremos izquierdo y derecho, tiende a

acercarse infinitamente al valor cero, es decir, el eje de
las abscisas es asntota horizontal. Por ello, cualquier
valor entre
y
es tericamente posible.
6. El rea bajo la curva es la unidad
7. El rea bajo la curva comprendida entre los valores
situados aproximadamente a dos desviaciones estndar
de la media es igual a 0.95. En concreto, existe un 95%
de posibilidades de observar un valor comprendido en
el intervalo
8. La forma de la campana de Gauss depende de los

parmetros y . La media indica la posicin de la
campana, de modo que para diferentes valores de la
grfica es desplazada a lo largo del eje horizontal. Por
otra parte, la desviacin estndar determina el grado de
apuntamiento de la curva. Cuanto mayor sea el valor
de , ms se dispersarn los datos en torno a la media
y la curva ser ms plana. Un valor pequeo de este
parmetro indica, por tanto, una gran probabilidad de
obtener datos cercanos al valor medio de la distribucin.
Es importante conocer que, a partir de cualquier variable X que

siga una distribucin
N (, ), se puede obtener otra
caracterstica Z con una distribucin normal estndar, sin ms
que efectuar la transformacin:
Esta propiedad resulta especialmente interesante en la

prctica, ya que para una distribucin N (0, 1) existen tablas
publicadas a partir de las que se puede obtener de modo
sencillo la probabilidad de observar un dato menor o igual a un
cierto valor z, y que permitirn resolver preguntas de
probabilidad acerca del comportamiento de variables de las que
se sabe o se asume que siguen una distribucin
aproximadamente normal.
Ejemplo:
Supongamos que se sabe que el peso de los sujetos de una
determinada poblacin sigue una distribucin aproximadamente
normal, con una media de 80 Kg y una desviacin estndar de
10 Kg. Podremos saber cul es la probabilidad de que una
persona, elegida al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los
individuos en esa poblacin, sta sigue una distribucin N (80,
10). Si su distribucin fuese la de una normal estndar
podramos utilizar la tabla para calcular la probabilidad que nos
interesa. Como ste no es el caso, resultar entonces til
transformar esta caracterstica segn la ecuacin y obtener la
variable:
para poder utilizar dicha tabla. As, la probabilidad que se

desea calcular ser:
Como el rea total bajo la curva es igual a 1, se puede deducir

que:
Esta ltima probabilidad puede ser fcilmente obtenida a partir

de la tabla resultando ser P(Z 2) = 0.9772; por lo tanto, la
probabilidad buscada de que una persona elegida
aleatoriamente de esa poblacin tenga un peso mayor de 100
Kg , es de 1 0.9772 = 0.0228, es decir, aproximadamente de
un 2.3%.
De modo anlogo, podemos obtener la probabilidad de que el

peso de un sujeto est entre 60 y 100 Kg:
De la siguiente figura:
Tomando a = 2 y b = 2, podemos deducir que:
Por el ejemplo previo, se sabe que P(Z 2) = 0.9772 . Para la

segunda probabilidad, sin embargo, encontramos el problema
de que las tablas estndar no proporcionan el valor de P(Z 2)
para valores negativos de la variable. Sin embargo, haciendo
uso de la simetra de la distribucin normal, se tiene que:
Finalmente, la probabilidad buscada de que una persona

elegida al azar tenga un peso entre 60 y 100 Kg., es:
0.9772 0.0228 = 0.9544
Es decir, aproximadamente de un 95%. Resulta interesante

comprobar que se obtendra la misma conclusin recurriendo a
la propiedad de la distribucin normal.
Ejemplos:
Ver Archivo:
Ejercicios Descriptiva
Fin de la segunda parte
3. Estimacin estadstica y muestreo
a. Estadstica inferencial
La estadstica Inferencial es el proceso por el cual se deducen
(infieren) propiedades o caractersticas de una poblacin a
partir de una muestra significativa, con el objeto de tomar
decisiones en condiciones de incertidumbre, lo que implica el

uso de conceptos de probabilidad.
Uno de los aspectos principales de la inferencia es la
estimacin de parmetros estadsticos. La inferencia siempre
se realiza en trminos aproximados y declarando un cierto nivel
de confianza, interpretado en un cierto intervalo e confianza.
Si se quiere mejorar el nivel de confianza, se deber aumentar
el tamao de la muestra, o bien disminuir la precisin de la
estimacin dando un intervalo de confianza ms amplio.
Recprocamente, si se quiere aumentar la precisin en la
estimacin disminuyendo el tamao del intervalo, entonces hay
que aumentar el tamao de la muestra o bien consentir un nivel
de confianza menor.
Finalmente, si se quiere mejorar tanto la precisin como el nivel
de confianza, hay que tomar una muestra suficientemente
grande o tomar ms muestras de menor tamao.
Poblacin. Es un conjunto de unidades individuales,
compuesto de personas o cosas que se hallan en una
situacin determinada, que a la vez forman parte de un
universo.
Las poblaciones pueden ser infinitas o finitas. Una
poblacin infinita es la que contiene un nmero infinito de
unidades elementales; por ejemplo, el conjunto de piezas
que se obtienen en un proceso productivo; en el sentido de
que se siguen produciendo indefinidamente. Otro ejemplo
son todos los posibles resultados al lanzar una moneda sin
cesar.
Una poblacin es finita cuando tiene un nmero finito de
unidades elementales. Por ejemplo, los estudiantes de una
determinada universidad; el nmero de escuelas que
existen en una determinada ciudad, el nmero de rboles

de mango sembrados en una determinada parcela, etc. El
nmero de unidades elementales de una poblacin se
denota con la letra N, a los trminos que describen una
poblacin se les llama Parmetros
Muestra. Es una parte de la poblacin; por ejemplo, cuando se
desea hacer un estudio relativo al rendimiento acadmico
de los alumnos de la universidad, y para esto se toma slo
un grupo de estudiantes de la misma. Todos los estudiantes
de ella son la poblacin y el grupo escogido constituye la
muestra.
Para hacer una investigacin mediante el anlisis de una
muestra,
sta
tiene
que
ser,
necesariamente,
representativa.
La representatividad de la muestra implica que cada unidad
de la poblacin debe tener igual probabilidad de ser
seleccionada. En estas condiciones, se dice que la muestra
es aleatoria.
La obtencin de una muestra representativa es uno de los
aspectos ms importantes de la teora estadstica. Incluye
preguntas como, qu tan grande debe ser la muestra?,
qu tipo de datos deben ser recolectados?, cmo se
recogern stos?
El nmero de unidades elementales de una muestra se
denota con la letra n, a los trminos que describen una
muestra se les llama estadsticos o estadgrafos.
b.
Muestreo
El muestreo aleatorio simple es un procedimiento de

seleccin por el cual todos y cada uno de los elementos de la
poblacin tienen igual probabilidad de ser incluidos en la

muestra.
Ver tablas de nmeros aleatorios o la opcin de las
calculadoras
Muestreo aleatorio sistemtico, cuando se acomodan los
elementos o personas de la poblacin en cierta forma. Se
selecciona un punto de partida aleatorio y luego se toma cada
k-simo miembro para formar parte de la muestra.
Muestreo aleatorio estratificado, que requiere separar a la
poblacin en grupos que no se traslapen, llamados estratos, y
de elegir despus una muestra aleatoria simple en cada
estrato. Por ejemplo, si se desea obtener la informacin de los
alumnos de la universidad, se pueden tomar algunos alumnos
en forma aleatoria de cada saln; los salones son los estratos.
Muestreo aleatorio por conglomerados, que requiere elegir
una muestra aleatoria simple de unidades heterogneas entre
si de la poblacin, llamados conglomerados o racimos. Por
ejemplo, un estudio por colonias para inferir opiniones de la
poblacin de la ciudad.
Muestreo no aleatorio, cuando no todos los elementos de la
poblacin tienen la misma probabilidad de ser seleccionados.
Por ejemplo, el muestreo por conveniencia.
Error de muestreo o error muestral.

Diferencia entre un estadstico de la muestra y el parmetro de
la poblacin. Cualquier medida conlleva algn error, el
muestreo no es la excepcin. Si se emplea la _media de la
n1, x1, sse
1
muestra para estimar la media poblacional, entonces
incurre
_
en un error muestral.
Muestras: n2, x2, s2
_
n3, x3, s3
Poblacin:
Tamao
N
Media
Desv std.
Error de muestreo
Distribucin muestral de las medias de las muestras.

Distribucin de probabilidad de todas las medias posibles de las
muestras de un tamao de muestra dado.
Teorema del lmite central.

Si en cualquier poblacin se seleccionan muestras de un
tamao especfico, la distribucin muestral de las medias de
muestras es aproximadamente una distribucin normal. Esta
aproximacin mejora con muestras de mayor tamao.
Ejemplo:
La antigedad laboral de los ejecutivos que trabajan para una
empresa es:
Nombre
Sr. Jimnez
Aos
20
a.
b.
c.
d.
e.
Sr. Snchez
22
Sra. Rico
26
Sr. Mndez
24
Sra. Lpez
28
Utilizando la frmula de combinacin, Cuntas
muestras de tamao 2 son posibles?
Enumere todas las muestras de 2 ejecutivos de la
poblacin, y calcule las medias.
Organice las medias en una distribucin de
muestreo.
Compare la media de la poblacin y la media de las
medias de las muestras
Compare las dispersiones.
c. Estimacin
Estimador puntual.
Valor que se calcula a partir de la informacin de la
muestra, y que se usa para estimar el parmetro de la
poblacin.
Criterios para seleccionar un buen estimador:
Imparcialidad, sin sesgo

Eficiencia, bajo error estndar
Coherencia, confiabilidad
Suficiencia.
Intervalo de confianza.
Un rango de valores que se construye a partir de datos de
la muestra, de modo que el parmetro ocurre dentro de
dicho rango con una probabilidad especfica, tambin se le
llama estimacin de intervalo. La probabilidad especfica se
conoce como Nivel de confianza.
.50
.50
.4750
-1.96
.4750
0
Escala z
1.96
Intervalo de confianza para 95%

de Nivel de confianza
Error estndar de la media de la muestra. La desviacin

estndar de la distribucin muestral de las medias de las
muestras:
x
S
n
Sx
Por lo tanto, el intervalo de confianza de 95% para una

media es:
X 1.96
Para 99%:
s
n
X 2.58
Y en general:
X Z
s
n
s
n
Para el caso de proporciones:
pZ
p 1 p
n
Factor de correccin para poblaciones finitas:

Sx
S
n
N n
N 1
Para proporciones:
p
p 1 p
n
N n
N 1
Eleccin de un tamao apropiado de muestra:
El nivel de confianza que se desea

El margen de error que puede tolerar el investigador
La variabilidad en la poblacin que se estudia.
Tamao de muestra para estimar una media y una

proporcin:
Z S
Z 2 p (1 p )
E2
Ejemplo 1:
El gerente de ventas de una gran empresa dedicada a la
comercializacin de productos farmacuticos, esta
analizando el desempeo de sus representantes mdicos.
De una muestra aleatoria de 256 representantes se obtuvo
una media de ventas anuales de $ 55 420, con una
desviacin estndar de $ 2 050.
a. Cul es el ingreso medio estimado de todos los
representantes mdicos?
b. Cules son los lmites del intervalo de confianza en
un nivel de confianza del 95% para la media?
c. Interprete los resultados
Ejemplo 2.
En el reglamento del sindicato de una universidad se exige

que todas las propuestas analizadas deban ser aprobadas
con al menos 2/3 del total de votos. Una propuesta de
mejora ser votada en la prxima asamblea. Una muestra
de 200 miembros demostr que 140 de ellos apoyaban la
propuesta. Desarrolle un intervalo de confianza de 99%
para la proporcin de los miembros que apoyan la fusin.
Parece probable la aprobacin de la propuesta?
Ejemplo 3:
Se estima que hoy en da el 40% de los hogares en Mxico
pueden tener TV por cable. Si se desea probar esta
declaracin, considerando que la estimacin este dentro de
5 puntos porcentuales, con un nivel de confianza de 95%
Qu tan grande es la muestra que se requiere?
4. Pruebas de hiptesis
Hiptesis.
Enunciado acerca de un parmetro de la poblacin, que se
desarrolla con el propsito de realizar pruebas.
Prueba de hiptesis.
Procedimiento que se basa en la evidencia de las muestras
y en la teora de probabilidad para determinar si la hiptesis
es un enunciado razonable.
Procedimiento
hiptesis:
de
cinco
pasos
para
probar
una
1. Plantear la hiptesis nula (Ho) y la hiptesis

alternativa (H1).
2. Seleccionar un nivel de significancia
3. Calcular el estadstico de prueba
4. Formular la regla de decisin
5. Tomar una decisin
Hiptesis nula.
Una afirmacin respecto del valor de un parmetro de la
poblacin.
Hiptesis alternativa.
Una afirmacin que se acepta si los datos de la muestra
proporcionan evidencia suficiente de que la hiptesis nula
es falsa.
Nivel de significancia.
La probabilidad de rechazar la hiptesis nula cuando es
verdadera.
Error tipo 1.
verdadera
Rechazar la hiptesis nula Ho cuando es
Error tipo 2. Aceptar la hiptesis nula Ho cuando es falsa

Investigador
Hiptesis nula
Ho es verdad
Acepta
Rechaza
Ho
Ho
Decisin correcta Error de tipo 1
Ho es falso
Error de tipo 2
Decisin correcta
Estadstico de prueba.
Un valor que se calcula con base en la informacin de la
muestra, y que se utiliza para determinar si se rechaza la
hiptesis nula.
Usando distribucin normal (n 30):
Z
x
n
Valor crtico.
Punto de divisin entre la regin en que se rechaza la
hiptesis nula y la regin en la que no se rechaza
Las pruebas de significancia pueden ser de una o dos
colas.
Determinacin del estadstico de prueba:
La poblacin es
normal?
No
Si
Es N 30?
Es conocida la
Desviacin
estndar de la
poblacin?
No
Si
No
Use una
prueba no
paramtrica
Use Z
como
estadstico
de prueba
Z
x
s n
Use t como
estadstico
de prueba
x
s n
Si
Use Z
como
estadstico
de prueba
Z
x
n
Ejemplo 1:
Un estudio de la secretaria de salud mostr que el adulto tpico
consume al ao 120 litros de refresco de cola, con una
desviacin estndar de 12 litros. Una muestra aleatoria de 64
adolescentes revel que el ao pasado consumieron un
promedio de 123 litros de refresco de cola. En el nivel de
significancia de 0.05.
a. Es posible concluir que existe una diferencia
significativa entre el consumo promedio de los
adolescentes y de los adultos en general?
b. Consumen ms refresco de cola los adolescentes
que los adultos en general?
c. Cul es la probabilidad de un error tipo 1?
d. Interprete los resultados
Cuando se requiere comparar dos medias de poblacin, se

utiliza la siguiente frmula para calcular el estadstico de
prueba, con n 30:
Z
x1 x 2
s12 s22
n1 n2
Ejemplo 2.
Los pacientes de la tercera edad de un hospital se quejan de
ser atendidos con mayor lentitud que a los dems pacientes.
Luego de estudiar el problema se recolect la informacin que
se muestra a continuacin. Con un nivel de significancia de
0.01, Es razonable concluir que el tiempo promedio de
respuesta es mayor para los pacientes de la tercera edad que

para el resto de los pacientes?
Tipo de
paciente
Tercera edad
Otros
Media de la
muestra
5.5 minutos
5.3 minutos
Desv. Std. de Tamao de la

la muestra
muestra
0.40 minutos
50
0.30 minutos
100
Cuando se trata de proporciones, el estadstico de prueba

se obtiene de:
Z
pP
P 1 P
n
Donde p es la proporcin de la muestra y P la proporcin de la

poblacin.
Ejemplo 3.
Segn el INEGI, solo uno de cada 3 egresados de la
universidad obtiene un buen empleo en los primeros 6 meses.
Una encuesta aplicada a 200 recin egresados del Coln
revel que 80 tenan un buen empleo. A un nivel de
significancia de 0.02, Es posible concluir que a los egresados

del Coln les va mejor?
Para la diferencia entre dos proporciones poblacionales

tenemos el estadstico:
Z
p1 p2
pc 1 pc pc 1 pc
n1
n2
Donde
pc
Ejemplo 4:
NmeroTota lDexitos
x x2
1
NmeroTota lDeLasMuestras n1 n2
Una famosa empresa de perfumes pretende comercializar un

nuevo aroma para dama, pero duda si enfocarlo a las mujeres
jvenes o maduras. Al realizar una encuesta, 20 de 100
mujeres jvenes lo eligieron y 50 de 200 mujeres maduras
tambin. En un nivel de significancia de 0.05 Puede
asegurarse que hay diferencia significativa en las preferencias?
Pruebas de hiptesis para muestras pequeas (n < 30).

La distribucin t de Student.
Caractersticas:
Es similar a la distribucin normal, pero mas plana y
amplia
Tambin es una distribucin continua
No hay una distribucin t, sino una familia de
distribuciones t, todas con la misma media cero, pero
con su respectiva desviacin estndar diferente de
acuerdo con el tamao de la muestra.
A medida que aumenta el tamao de la muestra, la

distribucin se aproxima a la normal.
Para el uso de las tablas t, se requiere el nivel de
significancia y los grados de libertad, relacionados con
el tamao de la muestra
El estadstico de prueba es:
t
x
s
n
Ejemplo:
Una compaa aseguradora ha calculado que el costo promedio
de procesar una reclamacin es de $ 600, lo cual
comparativamente ms alto que la competencia. Para
verificarlo, toma una muestra aleatoria de 26 reclamos,
encontrando una media de $57 con una desviacin estndar de
$10. Con un nivel de significancia de 0.01 Podr concluir que
el costo es menor de lo que se pensaba o que la diferencia se
debe a la casualidad?
Prueba de hiptesis para 2 muestras poblacionales

independientes.
Varianza combinada:
s 2p
n1 1 s12 n2 1 s22
n1 n2 2
Estadstico de prueba:
t
x1 x2
1 1

n1 n2
s 2p
Donde:
gl = n1 + n2 1
Ejemplo:
Para ensamblar un motor de podadoras se crearon 2
procedimientos. Se desea saber si existe alguna diferencia en
los tiempos promedio. Para ello se seleccion una muestra de
5 empleados que usaron el procedimiento A y 6 que usaron el

procedimiento B, utilice un nivel de significancia de 0.10
Proc. A
Proc. B
2
3
Tiempo en minutos
9
3
5
8
4
7
Si las muestras son dependientes:
sd
d 2
n 1
d
sd
2
4
Donde gl = n 1
Ejemplo:
Un grupo de personas se sometieron a una dieta para bajar de
peso, para verificar los resultados, se pesaron antes y despus
de seguir la dieta. En un nivel de significancia de 0.01 Se
puede concluir que los participantes perdieron peso?
Nombre
Jorge
Vicente
Martn
Francisco
Cesar
Gerardo
Juan
Luis
Peso (Libras)
Antes
Despus
155
154
141
147
162
157
164
150
211
196
184
178
172
169
228
217
Diferencia
d
Anlisis de varianzas
Distribucin F anova
Caractersticas:
o Se emplea para probar si dos muestras provienen de
poblaciones que poseen varianzas iguales y cuando se
trata de comparar varias medias poblacionales
o Existe una familia de distribuciones f determinadas por 2
parmetros:
o
o
o
o
o
Los grados de libertad del numerador

Los grados de libertad del denominador
Es una distribucin continua
F no puede ser negativa
Tiene sesgo positivo
A medida que aumentan los valores, se acerca al eje x
El estadstico de prueba es:
F
s12
s22
Donde
s12 s22
Ejemplo:
La ruta de autobuses Norte Sur, tiene 2 rutas par ir de Ro
Medio a Plaza Amricas. Se estudian los tiempos de cada ruta
y se comparan con un nivel de significancia de 0.1 existe
diferencia en la variacin de los tiempos de recorrido para las
dos rutas?
Ruta
Tiempo
Desviaci
Tamao
A (Por M. Alemn)
B (Por Cuauhtemoc)
Promedio n estndar
(minutos) (minutos)
56
12
58
5
de la
muestra
7
8

Maestria - Estadistica Aplicada

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Maestria - Estadistica Aplicada

Uploaded by

Copyright:

Available Formats

ESTADSTICA

Mtro. Arturo Rivera Lpez

Qu diferencia hay entre datos e informacin?

Definiciones de trminos estadsticos:

Muestra: Conjunto de elementos que forman parte de

El origen de los datos

Si los datos comprueban o contradicen la

a) La poblacin objeto de estudio es el conjunto de

e) El nmero de familias que tienen dos o menos hijos

g) Por ltimo el porcentaje de familias que tiene ms de

Se sugieren 5 o ms clases y no ms de 20, de

Como 26 = 64 > 50, se sugieren 6

Dado que el rango es 128 27 = 101,

Con A = 17, el rango sube a (17) (6)

Frecuencia Frecuencia Frecuencia

Investigar: Diagramas de caja y diagramas de tallo hoja

HISTOGRAMA Y POLGONO DE FRECUENCIAS

OJIVA MENOR QUE

c. Medidas de tendencia central

Para datos agrupados:

Xi = Es el punto medio de cada

= La frecuencia de cada clase

Del ejemplo anterior:

Mediana = Es el valor ocupado por la posicin central

Para datos agrupados:

= Nmero total de elementos

Del ejemplo anterior:

Este dato nos permite ubicar la clase de la mediana en

Moda = Es el valor que mas se repite en un conjunto de

donde: Lm = Lmite inferior de la clase modal

3. La moda se puede utilizar an cuando una o mas

Pr oducto de todos los valores

Ejemplo: Se invirtieron $ 100 hace 5 aos en una

crecimiento final del ao

Si usamos la media aritmtica para el factor de

= (1.07 + 1.18 + 1.10 + 1.12 + 1.18) / 5 = 1.11

Es decir, una tasa promedio de 11 % equivalente a:

Es decir, una tasa promedio de 10.93 % equivalente a:

Lo que representa un clculo mas exacto.

MG = n x1 f 1 x2 f 2 ....xk fk = Inv Log

Del ejemplo tenemos:

(35.53 )(52.56 )(69.511 )(86.516 )(103.57 )(120.57 )

O tambin, el inverso logaritmo de

Se utiliza para promediar velocidades, tiempos,

Para poder hallarla, es necesario que calculemos el

Cuantiles: Cuartiles, deciles y percentiles

CUARTILES, dividen a la distribucin en cuatro partes

Por lo tanto, dada su similitud con la mediana, su

= Nmero total de elementos

Del mismo modo para los deciles y percentiles, por

Ordene los datos de menor a mayor

La dispersin nos proporciona informacin adicional que

Varianza: Es la media aritmtica de los cuadrados de

Y por la siguiente expresin para datos agrupados:

Si operamos, podemos obtener la siguiente expresin,

Propiedades de la desviacin estndar

Coeficiente de variacin de Pearson:

Fin de la primera parte

Una permutacin es un arreglo en donde el orden es

Ejemplo: Si 9 estudiantes toman un examen y todos obtienen

Permutaciones sin repeticin

Ejemplo: Si se seleccionan cinco cartas de un grupo de nueve,

b. Distribuciones de probabilidad para variables