You are on page 1of 37

INFERENCIA ESTADSTICA

Prof.: Sergio Moscoso Cerda


1.0 Introduccin
La inferencia estadstica se define como la parte del Mtodo Estadstico que,
por medio de un razonamiento inductivo, extiende los resultados obtenidos en
una muestra a la poblacin de la cual se extrajo dicha muestra.
1.1 Definiciones bsicas
i) Parmetro: Es un valor constante, por lo general desconocido, que describe
una caracterstica de la poblacin
ii) Estadstica: Variable que puede tomar cualquier valor que va a depender de
la muestra seleccionada
iii) Estimador de un Parmetro: Estadstica que cumple la condicin de que
sus posibles valores sean posibles valores del parmetro
Ejemplo:
Supongamos que deseamos conocer la edad promedio de los habitantes de la
regin metropolitana en un momento dado. Como no es posible averiguar la
edad de todos los habitantes de la regin metropolitana se decide tomar una
muestra de 1000 personas; para este grupo la suma de las edades es 30000
aos.
En este caso el parmetro de inters es la edad promedio de los habitantes de
la regin metropolitana. Notemos que para un momento dado la edad promedio
es un valor fijo; de all el carcter de constante con que se ha definido el
parmetro.
Definamos la variable suma de las edades de los individuos de la muestra.
Notemos que esta variable es una estadstica por el hecho de depender de la
muestra seleccionada, pero no es un estimador por cuanto el valor que pueda
tomar no est dentro del rango de los posibles valores de la edad promedio, sin
embargo, el promedio muestral de 25 aos, si es un estimador ya que dicho
valor est dentro de lo razonable para un promedio de edad.
2.0 Inferencia Estadstica
La Inferencia estadstica tiene relacin con:
i)

Estimacin Puntual

ii)

Estimacin por Intervalos

iii)

Ensayos de Hiptesis o Docimasia

2.1 Estimacin de parmetros


La estimacin de parmetros consiste en inferir el valor de algn parmetro
desconocido de la poblacin, sobre la base de una muestra.
La estimacin de parmetros puede ser de dos tipos:
- Puntual
- Intervalo de Confianza
2.1.1 Estimacin Puntual:
Los modelos poblacionales estn identificados por constantes o parmetros
como ,

2, p*, usualmente desconocidos.

Por ejemplo para estimar la proporcin poblacional


el valor que en la muestra presenta la estadstica

p* parece razonable usar

p (proporcin muestral).

Anlogamente si x es una variable aleatoria con distribucin Normal


(gaussiana) valores calculados en una muestra para las estadsticas x
son y 2 los parmetros respectivamente.

y s2

Las soluciones intuitivas que hemos mencionado son respaldadas por


teoremas rigurosamente demostrados en la teora estadstica.
2.1.1.2 Propiedades de los estimadores puntuales:
a) Estimadores insesgados
Un estimador debe estar prximo al valor verdadero del parmetro
desconocido, por ejemplo una media muestral es un estimador insesgado de la
media poblacional.
Cuando el estimador no es centrado se puede cuantificar el sesgo mediante el
coeficiente de sesgo (c.s) como

c.s (W ) = W E (W )
As. La estimacin de la media poblacional , lo hacemos mediante la media
muestral

x , y se puede afirmar que el estimador x

es un estimador centrado.

En cambio, la estimacin de la varianza poblacional (


2
clsica de la varianza muestral s =

( x x)
i

) con la formulacin

llegaramos a que es

sesgado; mientras que la formulacin de cuasivarianza

2
s =

se demuestra que es insesgado de poblacional

xi x

n 1

b) Estimadores eficientes
La eficiencia designa el tamao del error estndar del estadstico.
Si comparamos dos estadsticos de una muestra del mismo tamao y tratamos
de decidir cual es el estimador ms eficiente, se debe seleccionar el estadstico
que tenga el error estndar ms pequeo de la distribucin.
Se pude presentar dos estimadores, w1 y w2 centrados, pero con varianzas
diferentes, por ello un buen estimador debe cumplir la siguiente propiedad.
Diremos que un estimador w2 es ms eficaz que otro w1, si para cualquier
tamao muestral se cumple que

2 w 2 2 w1
Por lo tanto, el estimador ms eficiente es el que tiene menor varianza
La eficiencia de un estimador la podemos cuantificar mediante el coeficiente
de eficacia (c.e)

c.e(w ) =

2w

c) Congruencia (Consistencia)
Un estadstico es un estimador congruente del parmetro de una poblacin si,
al aumentar el tamao de la muestra, se logra una seguridad casi absoluta de
que el valor del estadstico se acerca mucho al valor del parmetro de la
poblacin. Si un estimador es congruente se torna ms confiable en muestras
grandes.
d) Suficiencia
Un estimador es suficiente si utiliza la informacin contenida en la muestra, al
punto que ningn otro estimador podra extraer de esta ltima ms informacin
referente al parmetro de la poblacin que va a ser estimado.
Ejemplo:
De una poblacin N ( ; 1) se obtienen muestras de tamao 2, empleando
como estimador de la media a:

A=

2
1
x1 + x2
3
3

2
4
B= x1 + x2
5
5
C=

x1 + x 2
2

Calculemos:
a) El coeficiente de sesgo de cada uno de ellos
b) La eficacia de los estimadores
c) El error de variacin para determinar el mejor estimador
Solucin

a) Dado que el coeficiente de sesgo es c.s(w ) = w E [w ] =

E [w ]

Luego, calculamos el coeficiente de sesgo de los tres estimadores, se tiene que


el sesgo de los tres estimadores es:

1 2
1
2
1
2
E [ A] = E x1 + x2 = E [ x1 ] + E [ x2 ] = + =
3 3
3
3
3
3
4 2
4
2
4
6
2
E [ B ] = E x1 + x2 = E [ x1 ] + E [ x2 ] = + =
5 5
5
5
5
5
5

1
1
1
x + x 1
E [C ] = E 1 2 = E [ x1 ] + E [ x2 ] = + =
2
2
2
2 2
Por lo tanto:

cs.( A) = = 0; estimador centrado


c.s(B) =

6
1
= ; estimador sesgado
5
5

c.s(C) = = 0; estimador centrado


b) Calculemos la varianza de cada estimador.
El enunciado nos dice que la varianza de la poblacin es uno (1.0)

1 2
4
1
5
2
1
V [ A] = V x1 + x2 = V [ x1 ] + V [ x2 ] = 1 + 1 = = 0,5556
3 3
9
9
9
3
3
4 2
4
16
20
2
4
V [ B ] = V x1 + x2 = V [ x1 ] + V [ x2 ] = 1 + 1 =
= 0,8000
5 5
25
25
25
5
5
1 1
1
1
2
1
1
V [C ] = V x1 + x2 = V [ x1 ] + V [ x2 ] = 1 + 1 = = 0,5000
2 2
4
4
4
2
2
Por lo que los coeficientes de eficacia sern:

c.s ( A) =

1
1
=
= 1, 7999
V [ A] 0,5556

c.s ( B) =

1
1
=
= 1, 2500
V [ B ] 0,8000

c.s (C ) =

1
1
=
= 2, 0000
V [C ] 0,5000

Por lo tanto, el estimador ms eficiente es el C


c) El error de variacin tiene por expresin:

e.v (W ) = c.s (W ) + V [W ]
2

Por lo tanto:
e.v(A) = 02 + 0,5556 = 0,5556

2
1

0,80

+
=
+ 0,80
e.v (B) =

5
25

e.v (C) = 02 + 0,50 = 0,50


El menor error de variacin corresponde al tercer estimador C

Los mtodos puntuales ms utilizados son el Mtodo de Momentos y el


Mtodo de Mxima Verosimilitud.
2.1.2 Mtodo de Momentos
El mtodo consiste en igualar los momentos muestrales de cualquier clase
(centrada o medial) y de cualquier orden, con sus homlogos poblacionales.

Se igualarn tantos momentos como parmetros poblacionales tengamos que


estimar.
Resultar, as un sistema que siempre ser compatible, siempre tendr
solucin y, adems solucin nica, si los valores de la muestra son
independientes. Resolviendo el sistema se obtendrn los valores de los
estimadores.
Al obligar que los momentos correspondientes sean iguales se cumplir con
que son los momentos centrales de primer orden (las medias) y los momentos
de segundo orden (las varianzas), cumplan las principales propiedades de los
estimadores.
Ejemplo:
En un conjunto habitacional de 200 viviendas estn censadas 80 familias con
tres hijos. Se desea conocer el parmetro proporcional de hijos hombres; Al
realizar la encuesta se obtuvo la siguiente distribucin de frecuencias:
N de hijos hombres
0
1
2
3

N de familias
1
3
3
1

Solucin:
Sea p: nmero de hijos hombres;
p sigue una distribucin binomial, con p constante y suponemos mayor que 0,1

Como hay un parmetro a determinar (p), slo se necesita una ecuacin, por lo
que se igualar un momento los ms sencillos, los centrales de primer orden,
es decir, las medias.
Se sabe que en una distribucin binomial se tiene que:

= np = 4p
Tambin sabemos que la media muestral es:

xn

x=

i i

i =1

12
= 1,5
8

Al igualar el momento poblacional y muestral se tiene que:

4 p = 1,5 p = 0,375
2.1.3 Mtodo de Mxima Verosimilitud

Se llama funcin de Verosimilitud, o funcin de densidad muestral, a la


funcin formada por el producto de las funciones de probabilidad para los
valores muestrales.
Si la poblacin tiene funcin de probabilidad f (x, a, b) donde x es la variable
suceso favorable y a, b los parmetros poblacionales que se quiere estimar, y
sea la muestra

x1 x2 x3 xn con frecuencias f1 f 2 f n ;
Luego la funcin de verosimilitud V es:

V = [ f ( x1 , a, b) ] 1 [ f ( x2 , a, b) ] 2 [ f ( xn , a, b) ] n
f

El mtodo de Mxima Verosimilitud consiste en hacer mxima esta funcin, con


respecto a los parmetros a estimar.
Dado la forma de la funcin V y basndonos en la propiedad de que el mximo
de una funcin coincide con el mximo del logaritmo de la misma funcin, el
clculo del estimador de Mxima Verosimilitud se facilita al resolver el sistema.

d ( Ln V)
=0
da
d ( Ln V)
=0
db

Toda solucin de este sistema ser el estimador de Mxima Verosimilitud del


parmetro poblacional.
Por otra parte, estas soluciones puntuales no toman en cuenta la variabilidad
inherente al hecho de que cada estadstica es una variable aleatoria y por tanto

hay una dispersin inevitable que debemos incorporar a nuestra respuesta para
que ella sea realista. Esto nos conduce al siguiente enfoque.
2.2 Estimacin por intervalos
Este tipo de estimacin consiste en dar un conjunto de posibles valores que
pueda tomar el parmetro en base a la muestra dada, esta estimacin se basa
en la teora de probabilidades y es necesario conocer la distribucin muestral
del estimador que se esta utilizando.

Tambin se pueden hacer ensayos de hiptesis, es decir, hacer dcimas de


hiptesis
2.3 Docimasia de Hiptesis
Consiste en probar la veracidad de una hiptesis planteada, respecto a alguna
caracterstica de la poblacin. Esto se basa en los resultados obtenidos
empricamente en una investigacin y las conclusiones obtenidas tienen
carcter probabilstica.
3.0 Distribuciones Muestrales
La distribucin de muestreo es una distribucin terica de un estimador, la que
se obtiene tomando al azar todas las posibles muestras de un mismo tamao
de una misma poblacin
3.1 Distribucin muestral de un promedio muestral
Para explicar este concepto lo haremos con el siguiente ejemplo

Ejemplo:
Supngase una poblacin de cuatro elementos (N = 4). Que para una
caracterstica dada toma los valores 3, 7, 11 y 15. Y considrese todas las
muestras de tamao dos con y sin reemplazo. Hallemos:
a) La media de la poblacin:
b) La desviacin estndar de la poblacin:
c) La media de la distribucin de muestral de media:

d) La desviacin estndar de la distribucin muestral de medias:

Solucin:
Como la poblacin esta formada por 3, 7, 11, 15. Se pueden formar:
4
i) = 6 muestras de tamao dos sin reposicin y
2

ii)

2 4 = 16

muestras de tamao dos con reposicin.

Entonces tenemos las siguientes muestras, las que se denotan en la tabla 1

Poblacin
3
7
11
15

Tabla 1
3
7
11
(3,3)
(3,7)
(3,11)
(7,3)
(7,7)
(7,11)
(11,3) (11,7) (11,11)
(15,3) (15,7) (15,11)

15
(3,15)
(7,15)
(11,15)
(15,15)

Ntese que todas las muestras que estn sobre y bajo la diagonal principal son
las mismas, por lo tanto, si queremos considerar el muestreo sin reposicin
basta que consideremos las muestras que estn sobre o bajo dicha diagonal.

a)

3 + 7 + 11 + 15
=9
4

(3 9) 2 + (7 9) 2 + (11 9) 2 + (15 9) 2
= 20
b) =
4
2

= 20 = 4,4721
c) La media de la distribucin muestral de medias:
Consideremos que el muestreo se hizo con y sin repeticin, luego se tiene:
i) Si el muestreo se hizo con repeticin.
Tomando las muestras de la tabla 1 y calculando sus medias se tiene la
siguiente distribucin de medias las que se notan en la tabla 2
Tabla 2
3
5
7
9

5
7
9
11

7
9
11
13

9
11
13
15

A esta tabla (matriz) se le llama distribucin de medias. Luego la media de


esta distribucin es:

x =

3 + 5 + 7 + 9 + 5 + 7 + 9 + 11 + 7 + 9 + 11 + 13 + 9 + 11 + 13 + 15
=9
16

Esto comprueba el siguiente teorema:


Teorema 1:

= X
Es decir, La media poblacional es igual a la media de la distribucin de
medias

ii) Si el muestreo se hizo sin reposicin


Si, en la tabla 2 utilizamos las medias que estn sobre la diagonal principal se
tiene
5, 7, 9, 9, 11, 13
Luego la media de la distribucin de muestreo sin reposicin es:

x =

5 + 7 + 9 + 9 + 11 + 13
=9
6

Esto comprueba que se cumple el teorema 1 si el muestreo es sin


reposicin
Demostracin del teorema 1:
Haciendo E ( x )= x y como

= x Luego
E (XK) = X k
X =

con k = 1, 2,...., n y como la media muestral se define como

x1 + x 2 + ... + x n
n

E ( x) =

Luego tenemos que

E ( x1 ) + E ( x 2 ) + ...E ( x n ) n *
=
= . Entonces
n
n

E(X) =

10

d) La desviacin estndar de la distribucin de medias con repeticin


Tomemos la distribucin de medias de la tabla 2 y como = 9 luego tenemos
que:

(3 9) 2 + (5 9) 2 + ... + (13 9) 2 + (15 9) 2 160


=
=
= 10
16
16

x = 10 = 3,1623
Lo que comprueba el siguiente teorema
Teorema n 2
Si una poblacin es infinita o si el muestreo es con reemplazo, entonces, la

varianza de la distribucin muestral de medias denotada por


por:

2
x

2x

esta dada

2
n

x se tiene que 2 = 20 y n = 2 y reemplazando


Luego para calcular
estos valores en la relacin anterior se tiene que:

2x =

20
= 10
2

Demostracin del Teorema n 2


x
x
Tenemos que X = 1 + ... + n y como x1, ...x n son independientes y tienen
n
n
2
1
1
1 2
2
varianza tenemos que Var ( x) = 2 Var ( x1 ) + ... + 2 Var ( x n ) = n 2 =
n
n
n
n
Entonces, se tiene el teorema n 2 2 x =

2
n

11

i) La desviacin estndar de la distribucin de medias sin reposicin.


Tomemos las muestras de tamaos 2 descritas en la tabla 2, de las cuales se
pueden tomar 6 muestras sin reposicin, entonces, se tiene
(3,7); (3,11); (3,15); (7,11); (7,15); (11,15)
y que tienen

2x =

x = 9 , luego se tiene que:

(5 9) 2 + (7 9) 2 + (9 9) 2 + (9 9) 2 + (11 9) 2 + (13 9) 2 40
=
= 6,6667
6
6

Por lo tanto

x = 6,6667 = 2,5820
Lo que comprueba el siguiente teorema
Teorema n 3: Si la poblacin es de tamao N, si el muestreo es sin
reposicin, y si el tamao de la muestra es n N , entonces se tiene:

2
x

2 N n

n N 1

Si hacemos que N = 4, n = 2 y 2 = 20 , luego sustituyendo en la relacin


anterior se tiene que:

2x =

20 4 2

= 6,6667
2 4 1

De los resultados anteriores se tiene que:


La distribucin del promedio muestral es normal con:
i)

ii)

Promedio:

Varianza :

x =

2
x

2
n

12

Laboratorio n 1

1) Cul es la probabilidad de cada muestra posible si:


a) se toma una muestra aleatoria de tamao 4 de una poblacin finita de
tamao 12?. Sol. 0,0020
b) se toma una muestra aleatoria de tamao 5 de una poblacin finita de
tamao 22?: Sol. 0,00000380
2) Menciona todas las selecciones posibles de dos de las seis ciudades
siguientes: Santiago, Talca, Chillan, Temuco, Valdivia y Puerto Montt. S una
persona selecciona aleatoriamente dos de estas ciudades para estudiar los
registros de contaminacin ambiental, encuentra la probabilidad.
a) De cada muestra posible. Sol. 0,0667
b) De que incluya a Santiago en la muestra. Sol. 0,3333
3) Elabora una lista de las muestras posibles, sin reposicin, de tamao dos
que se pueden tomar de una poblacin finita cuyos elementos se representan
como:
a, b, c, d, e, f, g, h
4) Una poblacin finita consistente en 6, 9, 12, 15, 18, 21. Halla
a) Todas las muestras posibles de tamao tres sin reposicin
b) Calcula la media poblacional y muestral del (a)
c) Asignando una probabilidad de 1/20 a cada muestra obtenida en (a),
estructura la distribucin muestral de la media para una muestra aleatoria (m.a)
de tamao tres sin reemplazo

13

Si se muestrea una poblacin que tiene distribucin de probabilidad


desconocida, la distribucin de muestreo de la media y varianza

y si el
n
tamao de la muestra es grande ( n 30 ). Bajo este supuesto llegamos a uno
de los teoremas ms tiles en Estadstica; se le conoce como Teorema del
Lmite Central
Teorema n 4: Teorema del Lmite Central

Si x1 , x 2 ,..., x n es una muestra aleatoria de tamao n tomada de una


poblacin (finita o infinita) con media y varianza 2 , y si x es la media
muestral, entonces, la forma del limite de la distribucin es.

x
z=

Cuando el tamao de muestra tiende a infinito corresponde utilizar la


distribucin Normal Estndar y tambin cuando se conoce la varianza
poblacional.

14

Laboratorio n 2

1) Supongamos que las estaturas de 4000 estudiantes de una universidad se


distribuyen normalmente con media de 176 cm. y desviacin estndar de 0,08
cm. si se tomaron 100 muestras de tamao 30, determina:
i) La media y la desviacin estndar si el muestreo se hizo con y sin reposicin
respectivamente
ii) En cuntas medias cabra esperar una media que:
a) Este entre 171 cm. y 177 cm.?
b) Sea menor que 172 cm.?
c) Este entre 178 cm. y 180 cm.?
d) Cuntos estudiantes cabra esperar que midieran ms de 175 cm.?
2) La siguiente muestra corresponde a los pesos de unas guaguas recin
nacidas en la regin Metropolitana
Peso en kilos
1,8
2,0
2,2
2,4
2,6

- 1,9
- 2,1
- 2,3
- 2,5
- 2,7

Nmero de
guaguas
20
50
60
50
20

Si el universo de nios nacidos es de 1000. Halla la probabilidad de que:


Un nio tomado al azar de la muestra
a) Pese a lo menos 2,06 Kg.
b) Pese a lo ms 2,48 Kg.

15

La varianza corregida poblacional se la define como:

2
n

S
l =
n 1
2

2 20

= 10 y
Tomemos la distribucin de muestreo de varianzas anterior l =
2

sustituyendo, se tiene que

2 =

2 10
= 20
2 1

Este resultado comprueba que podemos obtener la varianza poblacional a


partir de la varianza muestral

3.2 Distribucin muestral de diferencias de medias


Si X 1 representa el promedio de una caracterstica observada en una muestra

de tamao

n1

de una poblacin normal con media 1 y varianza 2 y X 2

representa el promedio de esa caracterstica en una muestra de tamao


una poblacin normal con 2 y 2 tal que ambas poblaciones sean
independientes, entonces se tiene que:

n2

de

La diferencia de las medias muestrales ( X 1 X 2 ) sigue una distribucin


normal con:
a) Promedio:

x x = 1 2 = x1 x 2
1

b) Varianza:

1
1
+
n1 n2

2 x x = 2
1

16

4.0 Estimacin de la media poblacional y la varianza poblacional en base


a una muestra

Consideremos una poblacin normalmente distribuida con media y 2


definidas como:

xi
i =1

2 =

(x
i =1

Donde N es el tamao de la poblacin


Como y 2 son generalmente desconocidos, se puede demostrar que los
mejores estimadores para y 2 son:
Media muestral

=x
n

x=

xi

i =1

Donde n es el tamao de la muestra


Varianza muestral:

(
n

S =
2

i =1

xi x

17

Varianza Poblacional

( x x)
n

=
.
2

i =1

n 1

Donde n es el tamao de la muestra

4.1 Estimacin de la diferencia de dos medias poblacionales con


varianzas poblacionales desconocidas pero iguales
Consideremos dos muestras de tamaos n1 y n2, respectivamente,
provenientes de dos poblaciones independientes y normalmente distribuidas

con medias 1 y 2 y varianzas iguales. Los mejores estimadores


insesgados de estos parmetros son:

a ) La media:
l 1 = x1; l 2 = x 2
b ) La varianza

2 =

(n1 1) S 21 + (n2 1) S 22
n1 + n2 2

Donde x1 y x 2 son las medias muestrales y


respectivas varianzas muestrales.

S 21 y S 2 2

son las

En funcin de estos estimadores, la teora estadstica puede demostrar que el


mejor estimador para las diferencias de medias poblacionales
diferencia de las medias muestrales

( x x ) , es decir:
1

1 2

es la

1 2 = x1 x 2

18

Ejemplo:
Dadas dos poblaciones formadas por (3, 5, 7) y (2, 4, 6), respectivamente,
Hallar
a) Los promedios de las poblaciones respectivas
b) La distribucin de Medias
c)

x x

d)

x x

Soluciones:
a) Los promedios de las poblaciones respectivas

1 =

3+5+7
=5
3

2 =

2+4+6
=4
3

b) La distribucin de Medias
De las poblaciones anteriores encontrar todas las muestras posibles de tamao
dos y calculando sus respectivas medias se tiene que:

x =

3+ 4+5+ 4+5+ 6+5+ 6+ 7


=5
9

x =

2+3+ 4+3+ 4+5+ 4+5+6


=4
9

c) Luego la distribucin de diferencias de medias:


1
1
1

1
1
1

x x
1

es:

1
1
1

Por lo tanto, se tiene que:

19

9
=1
9

x x =
1

d) Calculando

x x = 5 4 = 1
1

Los resultados (c) y (d) comprueban que:

1 2 = x1 x 2
5.0 Estimacin de Parmetros por intervalos de confianza
Este procedimiento nos lleva a elegir un conjunto de posibles valores del
parmetro, lo ms pequeo posible, de modo que la probabilidad de que este
conjunto contenga el verdadero valor del parmetro sea grande. Una

estimacin de intervalo de un parmetro

es un intervalo de la forma

1 < < 2 , donde  1 y  2 dependen del valor que tome el estimador


en una muestra dada y tambin en la distribucin muestral de


Podemos utilizar la distribucin muestral para elegir 1 y 2 tal que
para cualquier probabilidad especificada

donde

0 < < 1, tal que:

P l1 < < l2 = (1 ) 100%


Este intervalo

1 < < 2 , determinado en relacin con una muestra en

particular, recibe el nombre de Intervalo de Confianza del ( 1 ) 100%, la


fraccin

se conoce como Coeficiente de Confianza o Grado de

Confianza y los extremos 1 y 2 reciben el nombre de Limites de


Confianza inferior y superior respectivamente.

Por ejemplo cuando = 0,05 obtenemos un intervalo de confianza del 95%.


Los intervalos de confianza de parmetros no son nicos
En la tabla siguiente se indican algunos coeficientes de confianza segn sus
correspondientes Nivel de confianza.

20

Los valores que no estn en esta tabla se pueden calcular de la curva normal.
Nivel de
confianza

99.73%

99%

98%

96%

95.45%

95%

90%

88%

68.27%

50%

Coeficiente
confianza

3.00

2.58

2.33

2.05

2.00

1.96

1.645

1.28

1.00

0.6745

5.1 Estimacin por intervalo de una media poblacional con poblacin


normal y varianza conocida.

Consideremos, en general, una muestra de n observaciones independientes,


X1, X2,..., Xn de una variable X que nos interesa. Supongamos que X tiene
distribucin normal de parmetros y 2 y que 2 sea conocida.
Ya sabemos que:

Z=

Tendr distribucin normal de parmetros = 0 y 2 = 1

Ejemplo:
Supongamos que = 0,05 , encontrar el intervalo de confianza para estimar

Solucin:

P ( 1,96 Z 1,96 ) = 1
y como = 0,05 , entonces se tiene que:

P ( 1,96 Z 1,96 ) = 0,95


Luego, sustituyendo el valor de Z, se tiene que:

21

P 1,96
6
1.96 = 0,95
5

Desp
pejando

se tiene
e:

P x 1,996
x + 1,966
= 0,95
n
n

Diremos que:

1.96
,
x
+
1.
.96

n
n

Es un
u intervalo
o de confia
anza del 95
5% para es
stimar el pa
armetro

Nte
ese que el limite inferrior y el lim
mite superio
or son funcciones de
, por tan
nto,
son ellos mism
mos variables aleatorias. La situ
uacin graffica es la ssiguiente:

Por lo tanto, s
lo el 5% de
d las mue
estras tendrn probab
bilidades q
que estn fuera
f
de estos
e
lmite
es

22

Un planteamiento general nos lleva al siguiente teorema


Teorema 6: Intervalo de confianza para con conocida

Si

es el valor de la media de una muestra aleatoria de tamao n tomada de


2
, un intervalo de confianza
una poblacin normal con varianza conocida
del (1 ) 100% para

est dado por:

< < x + z / 2
P x z / 2
= (1 ) 100%
n
n

Ejemplo:
Si una muestra aleatoria de tamao 20 tomada de una poblacin normal con
varianza 225 tiene media de 64.3, construir un intervalo de confianza del 95%
para estimar la media de la poblacin
Solucin:
Como = 0,05 , entonces, se tiene que Z / 2 = 1.96 (ver tabla de la
Normal). Por lo tanto el intervalo de confianza del 95% para estimar la media
poblacional es:

64,3 1,96

15
15
< < 64,3 + 1,96
20
20

Resolviendo las operaciones aritmticas se tiene que:

57, 73 < < 70,87


La interpretacin del resultado anterior es: S se obtuviesen muestras del
mismo tamao en forma repetida de una poblacin, y cada vez que estas se
seleccionan, se calculan los valores especficos para el intervalo aleatorio

( x 6.5740, x + 6.5740 ) ; entonces, debe esperarse que un 95% de estos

intervalos contengan el valor de la media desconocida

Grficamente corresponde a:

23

Por otro lado, el


e intervalo
o especficco entre 57
7,73 y 70,87 no es m
ms que un
na

x 6.5740, x + 6.55740 , coon base enn los


a
realizacin del intervalo aleatorio
dato
os de una sola
s
muesttra, en la que el estim
mado es x = 64,3

5.2 Estimaci
E
n por inte
ervalo de un
u valor medio
m
poblacional c
con poblac
cin
norm
mal y varia
anza desc
conocida
Cuando el tam
mao de la muestra es menor que 30 o cu
uando la va
arianza
e desconocce correspo
onde utiliza
ar la distribucin t, cconocida co
omo
poblacional se
la disstribucin t de Stude
ent.

Prevviamente sabamos
s
q
que

x
d
n normal re
educida (0,1) si
tendra distribucin

a poblacional, Gosse
et demostr que esa variable
se desconoce la varianza
n t de parrmetros v = n 1. Donde
D
a v sse le
aleatoria tiene distribuci
deno
omina grad
dos de lib
bertad.
Disttribucin t de Stude
ent: Esta distribucin es Platic
rtica en co
omparacin
con la distribuccin norma
al.
La distribucin
d
n t es aprop
piada para
a realizar in
nferencias sobre med
dias cuand
do
se desconoce
d
e la varian
nza poblac
cional y la poblacin
n tiene un
na
distrribucin normal.
n
Sin embargo
o al aumen
ntar el tama
ao de la m
muestra y los
grad
dos de liberrtad, la disstribucin t se aproxim
ma a la forrma de la d
distribucin
n
norm
mal. La disttribucin t se puede aproximarr a la norm
mal cuando
o n 30 parra
una sola muesstra.
Enviista de su importancia esta disttribucin se
e encuentrra tabulada
a donde t , v
es ta
al que el rrea a su de
erecha, situada deba
ajo de la cu
urva de la d
distribucin t
con v grados de
d libertad es igual a . Esto es tal que::

P (t t ,v ) =
24

abla no contiene valo


ores de t ,v para > 0.50, ya
a que la de
ensidad es
s
La ta
sim
trica con respecto
r
a t = 0 y, po
or lo tanto, t1 ,v

= t , v .

abilidades relacionad
das con la distribuci
n t suelen
Cuando v 300 , las proba
apro
oximarse co
on el uso de
d distribucciones norrmales.
Para
a la distribu
ucin t tene
emos que::
a) Promed
dio

= 0
b) Varianzza

2 =

v
;v>2
v2

Ejem
mplo:
La distribucin
d
n t con 10 grados
g
de libertad se
e puede rep
presentar g
grficamen
nte
como el grafico
o anterior. Esto ocurrre porque la distribucin t es ssimtrica.
Ejem
mplo: Halla
a el valor de
e t1 para el
e cual
a) El rea som
mbreada a la
l derecha
a es 0,05. Utiliza
U
la ta
abla n 2 de
el apndice
e
ucin: Si el rea sombreada a la
a derecha es 0,05, entonces,
e
e
el rea de la
l
Solu
izquierda de t1 es 1 0,0
05 = 0,95, por lo tanto
o se tiene que

t.95,100 = 1,81

b) El rea totall es 0,05

25

Solucin: Si el rea total sombreada es 0,05, entonces el rea de la derecha


0,05
es
= 0,025 por simetra de t, entonces el rea de la izquierda es
2
1 0,025 = 0,975, por lo tanto se tiene que t.975, 10 = 2,23
c) El rea sombreada a la izquierda es 0,01
Solucin: Si el rea sombreada a la izquierda es 0,01, entonces, por simetra el
rea sombreada a la derecha es 0,01, entonces el rea de la izquierda es
1 0,01 = 0,99, por lo tanto se tiene que t.99, 10 = -2,76
Teorema 7: Intervalo de confianza para estimar

desconocida

Si x y s son los valores de la media y desviacin estndar de una muestra


aleatoria de tamao n tomada de una poblacin normal con varianza
desconocida

2 , un intervalo de confianza del (1 )100%

para estimar

est dado por:

s
s

P x t1 / 2, n 1
< < x + t1 / 2, n 1
= (1 ) 100%
n
n

Para n 30 , esta formula del intervalo de confianza y el teorema 4 con


sustituida por s producir casi los mismos resultados
Obsrvese que el coeficiente de confianza corresponde a la distribucin t
Ejemplo:
Un artculo publicado en una revista especializada presenta las siguientes 20
mediciones del tiempo en que los estudiantes demoran en contestar un
determinado test.
9.85
9.87
9.83
9.95

9.93
9.67
9.92
9.95

9.75
9.94
9.74
9.93

9.77
9.85
9.99
9.92

9.67
9.75
9.88
9.89

Encontrar un intervalo de confianza del 95 % para estimar el promedio del


tiempo que se demoran los estudiantes en contestar el test. Supngase que el
tiempo en contestar el test sigue una distribucin normal.
Solucin: Calculando en la muestra el promedio y la desviacin estndar se
tiene que:

26

x = 9,852
s = 0, 0965
x =

0, 0965
= 0, 0216
20

Y como = 0,05 , entonces, tenemos que

t.975,19 = 2, 093 . Luego el

intervalo pedido es:

[9.8525 2.093 0.0216,

9.8525 + 2.0933 0.0216] , es decir

9,8073 < < 9,8977


5.3 Tamao de la muestra

La precisin del intervalo de confianza x z / 2

z / 2

< < x + z / 2

es:

Esto significa que al utilizar x para estimar , se debe considerar el error


como:

E z / 2

Con una confianza de (1 ) 100% . El tamao apropiado de la muestra se


obtiene al seleccionar n de modo que:

z / 2

=E
27

Definicin:
Si x se utiliza como estimacin de , entonces puede tenerse una confianza
de (1 ) 100% de que el error x no ser mayor que una cantidad
especfica de E cuando el tamao de la muestra sea:

Primera aproximacin del tamao de n:

Z
n0 = / 2
E

Luego tenemos las siguientes opciones:

i)

Si n0 < 0, 05 N
Donde N es el tamao de la poblacin
Entonces, se tiene que el tamao de la muestra es:

n = n0
ii)

Si n0 0, 05 N
Donde N es el tamao de la poblacin.
Entonces, se tiene que el tamao de la muestra es:

n0
n=
n
1+ 0
N

28

Ejemplo:
Supngase que se desea que el error en la estimacin del promedio de edad
sea menor que 0,5 con una confianza del 95% y si = 3.5 . Cul es el
tamao de muestra requerido si N = 2000?
Solucin:
Como

Z / 2 = 1,96 ;

= 3,5 y E = 0,5, entonces, se tiene que:

1,96 3,5
n0 =
= 188, 2 189
0,5

Como

n0 0, 05 N
n=

( 189 100 ), luego se tiene que:

n0
189
=
= 173
n0
189
1+
1+
2000
N

Por lo tanto, el tamao de la muestra mnimo necesario es de 173 casos

5.4 Intervalos de confianza para estimar la diferencias de medias

Como en el punto 3.5 se estableci que


tiene una distribucin normal con:

a) Media

x1 x 2

es una variable aleatoria que

x x = 1 2
1

b) Varianza

c) Z =

(x

x1 x 2

21
n1

x 2 ) (1 2 )

2 x x
1

22
n2

Tiene distribucin normal estndar

29

Al sustituir Z en P ( Z / 2 < Z < Z / 2 ) = 1 nos lleva a formular el siguiente


teorema
Teorema 8: Intervalo de confianza para estimar 1 2
conocidas

con 1 y 2

Si x1 y x 2 son los valores de las medias de muestras aleatorias


independientes de tamao n1 y n2 tomadas de poblaciones normales con

varianzas conocidas 21 y 2 2 , un intervalo de confianza del (1 ) 100%

para 1 2 est dado por:

P ( x1 x 2 ) Z / 2 2 x1 x2 < 1 2 < ( x1 x 2 ) + Z / 2 2 x1 x2 = (1 )100%

En virtud del teorema del lmite central, este resultado puede usarse con
muestras aleatorias independientes de poblaciones normales con las
varianzas conocidas 21 y 2 2 , siempre que n1 y n2 sean lo
suficientemente grandes.
Ejemplo:
Construir un intervalo de confianza del 94% para estimar la diferencia real entre
los tiempos promedios de lectura de dos textos, dado que una muestra tomada
al azar de 40 individuos demor en promedio 10 horas y otra muestra de 50
individuos tiene una demora en promedio de 8 horas. Las desviaciones
estndar de las poblaciones son 1 y 0,72 respectivamente.
Solucin:
Para = 0,06 se tiene que Z / 2 = 1.88 Por lo tanto el intervalo de confianza
del 94% de 1 2 es:

12 0.72 2
(10 8) 1.88 +
50
40

< 1 2 < (10 8) + 1.88

12 0.72 2
+
50
40

Es decir:

1.6464 < 1 2 < 2.3536

30

Por lo tanto, tenemos un 94% de confianza en que el intervalo de 1,6464 a


2,3536 contiene la diferencia verdadera entre los tiempos de lectura de los
textos realizadas a las dos muestras.
Ntese que este es un intervalo de confianza significativo
Tamao de la muestra
Si se conocen (al menos aproximadamente) las desviaciones estndar
1 y 2 y los tamaos de las dos muestras son iguales (n1 = n2 = n),
entonces puede determinarse el tamao de la muestra requerido de modo que
se tenga una confianza del (1 ) 100% en que el error en la estimacin de

1 2 por x1 x 2 sea menor. El tamao de la muestra requerido es:


Primera aproximacin del tamao de n

z
n0 = / 2 ( 21 + 2 2 )
E
Luego, tendramos que:

i)

Si n0 < 0, 05 N
Donde N es el tamao de la poblacin
Entonces, se tiene que el tamao de la muestra es:

n = n0
ii)

Si n0 0, 05 N
Donde N es el tamao de la poblacin
Entonces, se tiene que el tamao de la muestra es:

31

n0
n=
n
1+ 0
N
Teorema 9: Intervalo de confianza para estimar 1 2 con 1 = 2 y
desconocidas
Si x1 y x2 son los valores de las medias de muestras aleatorias

independientes de tamao n1 y n2 tomadas de poblaciones normales con


varianzas desconocidas pero iguales, un intervalo de confianza del
(1 )100% para 1 2 est dado por:

x1 x 2 t1 / 2,v l

1 1
+
n1 n2

Con

(n1 1)S 21 + (n2 1)S 2 2


=
n1 + n2 2
2

Ejemplo:
Se ha realizado un estudio para comparar el contenido de nicotina de dos
marcas de cigarrillos: 10 cigarrillos de la marca A tuvieron un promedio de
nicotina de 3,1 miligramos con una desviacin estndar de 0,5 miligramos,
mientras que ocho cigarrillos de la marca B tuvieron un contenido de nicotina
promedio de 2,7 miligramos con una desviacin estndar de 0,7 miligramos.
Suponiendo que los conjuntos de datos son muestras tomadas al azar de
poblaciones normales con varianzas iguales, construyamos un intervalo de
confianza del 95% para estimar la diferencia real en el contenido promedio de
nicotina de las dos marcas de cigarrillos:
Solucin: Para = 0.05 y como

n1 + n2 2 = 16

tabla de la distribucin t tenemos que t.975,16

grados de libertad, de la

= 2,12

32

y el valor de

9 0, 25 + 7 0, 49
= 0,596
16

Por lo tanto, el intervalo de confianza del 95% para la diferencia de promedios


es:

( 3.1 2.7 ) 2,12 0,596

1 1
+
10 8

Entonces, el intervalo pedido es:

0, 20 < 1 2 < 1.0


Observemos que debido a que la diferencia real podra ser cero, no
podemos concluir que existe una diferencia real en el contenido de
nicotina de las dos marcas de cigarrillos.
Teorema 9.1 Intervalo de confianza para estimar 1 2 con 1 2
desconocidas
Si x1 y x2 son los valores de las medias de muestras aleatorias

independientes de tamao n1 y n2 tomadas de poblaciones normales con


varianzas desconocidas y distintas, un intervalo de confianza del
(1 )100% para 1 2 est dado por:

33

(x

x 2 t1 / 2, f

S12 S22
+

n
1 n2

con
S12 S22
+

n
n2
1

f =
2
S12 S22

n1 + n2
n1 + 1 n2 + 1
Ejemplo:
Un granjero dispone de dos explotaciones diferentes A y B con varias granjas
cada una para la cra de pollos. Con el objeto de estudiar la mortalidad de los
pollos en las dos explotaciones observa el nmero de pollos muertos tomando
una muestra de 4 granjas en la explotacin A y otras cuatro en la explotacin B
obteniendo los siguientes resultados
N pollos
muertos en A
N pollos
muertos en B

16

14

13

17

18

21

18

19

Suponiendo normalidad en las explotaciones, probar si la mortalidad de los


pollos puede considerarse diferente en las dos explotaciones con un nivel de
confianza del 95%. Resolver el problema bajo la hiptesis adicional de
varianzas iguales en las explotaciones.
Solucin I:
Consideremos un IC para estimar la diferencia de medias de dos
distribuciones normales con varianzas desconocidas y diferentes
El IC para la diferencia de medias se determina por el siguiente estadstico.

34

(x x ) ( ) f
2

S12 S22
+

n1 n2

Con
2

S12 S22
+

n
n2
1

2
f =
2
2
2
2
S1
S2

n1 + n2
n1 + 1 n2 + 1
Donde

S12 =

(x x )
i

n1 1

y S22 =

( x x )
i

n2 1

Lo que nos lleva al IC para la diferencia con varianzas desconocidas y


diferentes definido por

(x x )t
1

Los valores de

1 / 2, f

f y t1 / 2 , f

S12 S 22
+
n1 n2

en este caso resulta ser:

35

3,3333 2
+

4
4
2 7 t1 / 2, f = t.975,7 = 2.36
f =
2
2
3,3333
2


4 + 4
5
5
El intervalo de confianza ser entonces:

(15 19 ) 2,36

3,3333 2
+ = [ 1, 27 y 6, 73]

4
4

Como el intervalo no contiene el valor cero, se rechaza con una probabilidad


del 95% que x1 x 2 = 0, es decir, x 1 = x 2 .
Por lo tanto, aceptaremos la hiptesis de que la mortalidad en las dos granjas
es significativamente diferente.
Solucin II:
Supongamos ahora que las varianzas en las dos explotaciones son iguales y
desconocidas.
En esta situacin el IC para las diferencia de medias se basa en el siguiente
estadstico

x1 x 2 t1 ,v l

1 1
+
n1 n2

Con

(n1 1)S 21 + (n2 1)S 2 2


=
n1 + n2 2
2

36

El valor de 2 =

2,49997 ( 4 1) + 1,4999 ( 4 1)
4+42

= 1,99994

Adems, t1 / 2, n1 + n2 2 = t.975,6 = 2,45


El IC ser entonces

(15 19 ) 2,45

1 1
1,99994 + = [ 6,44996 y 1,55004 ]
4 4

Es conveniente observar en este problema que la hiptesis de igualdad de


varianzas en las dos poblaciones juega un papel importante, pues la ausencia
de esta hiptesis lleva a un resultado contrario al obtenido con su presencia.

37

You might also like