You are on page 1of 31

ESTADISTICA Y PROBABILIDADES

UNIDAD VI

MÉTODOS DE ESTIMACIÓN

UNIVERSIDAD NACIONAL DE LA RIOJA


6.1. ESTIMACIÓN PUNTUAL.

La inferencia estadística tiene que ver con la toma de decisiones o la elaboración de


predicciones acerca de los parámetros poblacionales, medidas descriptivas que
caracterizan a una población, a partir de la información contenida en una muestra
aleatoria de esa población. Algunos parámetros de interés podrían ser la media
poblacional, variancia poblacional o la proporción poblacional que posee determinado
atributo.

Cualquier inferencia que se haga sobre la población tendrá que basarse en estadísticos
maestrales y la elección de estos estadísticos dependerá de cual sea el parámetro de
interés de la población, en donde el verdadero parámetro será desconocido y el objetivo
será estimar su valor.

Un estimador de un parámetro poblacional es una variable aleatoria que depende de la


información de la muestra y cuyas realizaciones proporcionan aproximaciones al valor
desconocido del parámetro, mientras que una estimación es un valor específico
observado de un estadístico.

Para clarificar la diferencia entre un estimador y una estimación, supongamos que


queremos estimar el ingreso medio de las familias de un barrio en base a una muestra de
20 familias. Parece razonable basar nuestras conclusiones en el ingreso medio muestral,
por lo tanto, diremos que el estimador de la media poblacional es la media muestral, y
supongamos que habiendo tomado la muestra, hallamos que el ingreso promedio de las
familias de la muestra es $4500. Entonces la estimación de la media de la población es
$4500.

Para estudiar la estimación de un parámetro desconocido, debe considerarse dos


posibilidades. Primero, podríamos calcular en base a los datos de la muestra, un valor
representativo o tal vez el más representativo y es lo que vimos con la estimación de la
media muestral, los $4500. Alternativamente, podríamos estar interesados en encontrar
un intervalo o rango, en el cual estemos casi seguro de que esté el verdadero parámetro
poblacional.

2
Un estimador puntual de un parámetro poblacional es una función de la muestra que da
como resultado un único valor y la correspondiente realización se llama estimación
puntual.

En el ejemplo que vimos anteriormente, el ingreso medio de las familias, el parámetro


que se quiere estimar es la media poblacional, por lo tanto, el estimador puntual que se
utiliza es la media muestral y la estimación resultante fue de $4500.

Problema 1. Las ganancias por acciones de una muestra de 10 valores de la Bolsa de


Buenos Aires en un día particular fueron:

10 16 5 10 12 8 4 6 5 4

Hallar estimaciones puntuales para los siguientes parámetros poblacionales: media,


variancia, desvío estándar y la proporción para los que la ganancia por acción fue mayor
que 8,5.

n  10 X i  80 X 2
i  782

La estimación puntual de la media poblacional es:

X
X i

80
8
n 10
La estimación puntual de la variancia poblacional es:

 X  - n . X
2 2
i 782  10.64
S 2
   15,78
n -1 9
La estimación puntual del desvío estándar poblacional es:
S S2  15,78  3,97

Finalmente, en la muestra, el número de valores para los cuales la ganancia por acción
es mayor que 8,5 son cuatro. Por lo tanto, la estimación puntual de la proporción
poblacional es:
Xi 4
p   0,4
n 10

6.2. PROPIEDAD DE LOS ESTIMADORES.

3
Para la estimación específica, la elección del estimador puntual se ha hecho en base a
consideraciones intuitivas. En casi todos los casos, la media, variancia, desviación
estándar y proporción muestral son estimadores puntuales satisfactorios para los
correspondientes valores poblacionales. Sin embargo, antes de emplear algún estadístico
de muestra como estimador puntual, se debe comprobar si tiene ciertas propiedades
asociadas con los buenos estimadores puntuales.

Como pueden emplearse diversos estadísticos de una muestra como estimadores


puntuales de distintos parámetros poblacionales, usaremos la siguiente notación:

 = Parámetro poblacional de interés.


 = Estadístico o estimador puntual de  .

Las propiedades de un estimador son:

1. Insesgado. Si el valor esperado del estadístico de muestra es igual al parámetro


poblacional que se estima, se dice que ese estadístico es un estimador insesgado
del parámetro poblacional.

El estadístico de muestra  es un estimador insesgado del parámetro


poblacional  si:
E(  ) = 

Por consiguiente, el valor esperado o media, de todos los valores posibles de un


estadístico de muestra es igual al parámetro de la población que se estima.

Para tres de los estimadores considerados, tenemos:

E( X ) =  E( S 2 ) =  E( p ) = p

Por lo tanto, la media, la variancia y la proporción maestrales son estimadores


insesgados de los correspondientes parámetros poblacionales, La media de la
distribución de la desviación típica muestral no es la desviación típica

4
poblacional, por lo tanto, la desviación típica muestral no es un estimador
insesgado de la desviación típica poblacional.

2. Eficiencia. Supongamos que se puede usar una muestra aleatoria simple de n


elementos para obtener dos estimadores puntuales del mismo parámetro
poblacional. En este caso, preferiríamos usar el estimador puntual con la menor
variancia, porque tiende a proporcionar estimados más cercanos al valor del
parámetro poblacional. Se dice que el estimador puntual con la menor variancia
tiene una mayor eficiencia relativa que el otro.

El gráfico muestra dos distribuciones muestrales de dos estimadores puntuales


insesgados, para la distribución muestral 1 el estimador puntual es  1 y para la
distribución muestral 2 el estimador puntual es  2 . Observe que la variancia de

 1 es menor que la de  2 , por lo tanto, los valores de  1 tienen mayores


posibilidades de estar cerca del valor del parámetro  que los valores de  2 .
Como la variancia del estimador puntual  1 es menor que la de  2 , el
estimador puntual  1 es más eficiente que  2 y será el estimador puntual
preferido.
En resumen, se dice que  1 es más eficiente que  2 si:

Var(  1 ) < Var(  2 )

5
La eficiencia relativa de un estimador respecto al otro es el cociente de sus
variancias:

Var(  2 )
Eficiencia relativa =
Var(  1 )

Por último, si  es un estimador insesgado de  y no hay ningún otro


estimador insesgado que tenga menor variancia, entonces se dice que  es el
estimador insesgado más eficiente o de mínima variancia de  .

Algunos ejemplos de estimadores insesgados de mínima variancia son:

 La media muestral cuando la muestra proviene de una distribución normal.


 La variancia muestral cuando la muestra proviene de una distribución
normal.
 La proporción muestral binomial.

3. Consistencia. Un estimador es consistente cuando a medida que n se


incrementa, el estimador se aproxima al valor del parámetro, es decir, el valor
del estadístico se aproxima al valor del parámetro. Para que un estimador sea
consistente, debe ser insesgado y su variancia debe aproximarse a cero a medida
que n aumenta. La variancia de la distribución muestral es σ²/n, por lo tanto, a
medida que n aumenta σ se aproxima a cero.

Por lo tanto, se puede decir que la media muestral X es un estimador


consistente de la media poblacional  . Si un estadístico no es un estimador
consistente, tomar una muestra más grande para mejorar su estimado será inútil.

6.3. INTERVALOS DE CONFIANZA. FUNDAMENTOS.

6
Una estimación por intervalos especifica el rango o el intervalo dentro del cual
posiblemente se encuentre el parámetro desconocido y tal intervalo con frecuencia va
acompañado de una afirmación sobre el nivel de confianza que se da en su exactitud.

Si extraemos una muestra relativamente grande de la población es lógico pensar que la


información que nos aporta sea más fiable que la procedente de una muestra más
pequeña, siempre que las condiciones del muestreo sean las mismas para ambas
muestras. Sin embargo, este aspecto no se refleja en la estimación puntual. Por ejemplo,
nuestro estimador de la proporción de piezas defectuosas sería el mismo si
encontráramos 1 pieza defectuosa en una muestra de 10 que si descubriésemos 100
piezas defectuosas en una muestra de 1000. Como se verá, el incremento de la precisión
de nuestra información sobre los parámetros de la población se refleja en los
estimadores por intervalo, más específicamente, cuanto mayor sea la muestra, menor
será el intervalo que recoge nuestra incertidumbre sobre el verdadero valor del
parámetro siempre que las otras condiciones permanezcan iguales.

Sea  el parámetro a estimar y supongamos que hemos extraído una muestra aleatoria
y que basándonos en la información muestral es posible encontrar dos variables
aleatorias A y B, siendo A menor que B, de tal forma que:

P A    B  1  

La cantidad 1    se denomina contenido probabilístico o nivel de confianza del


intervalo. Si se extraen repetidamente muestras aleatorias de la población, el parámetro
 estará contenido en un 100.1    % de los intervalos calculados. El intervalo de
confianza obtenido de esta manera se escribe:

A   B

Por lo general, se trabaja con tres niveles de confianza 90%, 95% y 99%.

6.4. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA


DISTRIBUCIÓN NORMAL, VARIANCIA CONOCIDA.

7
Uno de los usos más comunes de los intervalos de confianza es estimar la media
poblacional. Por ejemplo:

 Un fabricante puede querer estimar la producción mensual promedio de su


planta.
 Un representante de mercadeo puede interesarse en la reducción en las ventas
semanales promedios.
 El jefe financiero de una firma que aparece entre las 500 mejores firmas puede
querer estimar los rendimientos trimestrales promedios que se tuvieron en
operaciones corporativas.

El intervalo de confianza se forma utilizando la media muestral como una estimación


puntual para el cual se suma y se resta un cierto valor para obtener los límites superior e
inferior del intervalo de confianza respectivamente. Supongamos que queremos calcular
un intervalo de confianza del 90% para la media poblacional. A partir de la distribución
acumulada de la variable aleatoria normal estandar, tenemos:

P Z  1,645  0,95

P Z  1,645  0,05

P  Z  1,645  0,05

La probabilidad de que la variable aleatoria Z esté entre -1,645 y 1,645 es:

P - 1,645  Z  1,645  1  P Z  1,645  P Z  1,645  1  0,5  0,5  0,90

Expresando esto en un intervalo de confianza, tenemos:


 X 
0,90  P - 1,645  Z  1,645  P - 1,645   1,645 
 / n 

 1,645. 1,645. 
0,90  P X    X 
 n n 

Por lo tanto, la probabilidad de que en el intervalo se encuentre la media poblacional es


de 0,90. Por lo tanto, el intervalo de confianza del 90% para la media poblacional es:

8
1,645. 1,645.
X  X
n n

En términos generales, el intervalo para un nivel de confianza específico es:

Z / 2 .  Z / 2 . 
X   X
n n

Problema 2. Un proceso produce bolsas de azúcar refinado. El peso del contenido de


estas bolsas tiene una distribución normal con desviación típica de 15 gr. Los contenidos
de una muestra aleatoria de 25 bolsas tienen un peso medio de 100 gr. Determinar un
intervalo de confianza del 95% para el verdadero peso medio de todas las bolsas de
azúcar producidas por el proceso.

Para definir el intervalo, se procede:


100.1     95%    5%  0,05

Por lo tanto:
 / 2  0,025

Para encontrar el valor de Z / 2 , buscamos por tabla aquel valor más cercano a:
0,975 = Z / 2 = 1,96
El intervalo de confianza del 95% para la media poblacional es:
Z / 2 .  Z / 2 . 
X   X
n n

9
(1,96) . (15) (1,96) . (15)
100     100 
25 25
94,12    105,88

Ahora bien, consideraremos la interpretación adecuada de los intervalos de confianza a


partir del Problema 2, donde se calcula, basándonos en una muestra de 25
observaciones, un intervalo de confianza del 95% para la media poblacional
desconocida que va desde 94,12 gramos a 105,88 gramos. Esta muestra de 25
observaciones es solo una de las muchas que pueden ser extraídas de la población y al
extraer una segunda muestra de tamaño igual a la primera, es totalmente seguro que la
media de esta será distinta a la extraída inicialmente. Por lo tanto, al calcular un
intervalo de confianza del 95% utilizando esta segunda muestra, este también será
diferente al intervalo obtenido en el Problema 2. Así, podríamos extraer un elevado
número de muestras aleatorias de 25 observaciones y calcular el correspondiente
intervalo de confianza del 95% para cada una de ellas y el contenido probabilístico
implica que el 95% de los intervalos calculados incluyen el verdadero valor del
parámetro. Es por esto que podemos decir que tenemos una confianza del 95% en
nuestra estimación por intervalos.

Analizando el intervalo de confianza, la media muestra está en el centro del intervalo y


la distancia entre los extremos es:

2 . Z / 2 . 
w
n

10
Por lo tanto, la longitud de un intervalo de confianza depende de su contenido
probabilístico, de la desviación típica poblacional y el tamaño muestral. En particular, se
verifica lo siguiente:

1. Dado un contenido probabilístico y un tamaño muestral, cuanto mayor sea la


desviación típica poblacional, mayor longitud tendrá el intervalo.
Intuitivamente, siempre que las otras condiciones permanezcan intactas, cuanto
más dispersa esté la distribución de la población alrededor de su media, más
incierta será nuestra inferencia sobre la media y esta incertidumbre adicional se
refleja en intervalos de confianza de mayor longitud.

2. Dado un contenido probabilístico y una desviación típica poblacional, cuanto


mayor sea el tamaño de la muestra, más corto será el intervalo de confianza.
Nuevamente, esta conclusión resulta intuitiva, cuanto mayor información
obtenemos sobre una población, más precisa debe ser nuestra inferencia y esta
se refleja en intervalos de confianza más cortos.

3. Dada una desviación típica poblacional y un tamaño muestral, cuanto mayor sea
el contenido probabilístico 1    , mayor será la longitud del intervalo de
confianza. En efecto, basándonos en la misma información muestral, a cambio
de una mayor certidumbre en nuestras declaraciones de probabilidad, obtenemos
una menor precisión de dichas afirmación y esto se refleja en intervalos de
confianza de mayor longitud ya que el contenido probabilístico aumenta.

Al elaborar intervalos de confianza para la media poblacional, se realizó sobre las


consideraciones de que la población se distribuye de forma normal y que su variancia es
conocida. Sin embargo, si el tamaño muestral es lo suficientemente grande, por el
teorema central del límite, los intervalos de confianza calculados sobre las
consideraciones antes descriptas, siguen siendo aproximadamente válidas incluso
cuando la distribución de la población no es normal. Además, cuando el tamaño
muestral es grande , la desviación típica muestral será un estimador lo suficientemente
bueno de la desviación típica poblacional, empleando de esta forma el primero en lugar

11
del segundo sin afectar seriamente el contenido probabilístico de los intervalos. Así, el
intervalo de confianza para el caso de utilizar muestras grandes es:

Z / 2 . S Z / 2 . S
X   X
n n

Como regla empírica, se considera que n = 30 observaciones o más constituye una


muestra grande. No se debe concluir que la aproximación es perfecta para tamaños
muestrales de 30 observaciones y totalmente erronea para muestras de 29
observaciones. La calidad de la aproximación mejora de forma gradual con el
incremento del tamaño muestral.

Problema 3. Se extrajo una muestra aleatoria de 172 artículos y se evaluó una


determinada característica de calidad en una escala de 1 a 5, la característica de calidad
recibió una calificación media de 4,38 con una desviación típica muestral de 0,70.
Calcular un intervalo de confianza del 99% para la media poblacional. Determinar un
intervalo de confianza del 99% para la media poblacional.

Para definir el intervalo, se procede:


100.1     99%    1%  0,01

Por lo tanto:
 / 2  0,005

Para encontrar el valor de Z / 2 , buscamos por tabla aquel valor más cercano a:
0,995 = Z / 2 = 2,575
El intervalo de confianza del 99% para la media poblacional es:
Z / 2 . S Z / 2 . S
X  X
n n
( 2,575) . (0,70) ( 2,575) . (0,70)
4,38     4,38 
172 172
4,24    4,52

6.5. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA


DISTRIBUCIÓN NORMAL, VARIANCIA DESCONOCIDA.

12
En este caso, de considerable interés práctico, es en el que la variancia de la población
es desconocida y el tamaño de la muestra es pequeño, por lo tanto, es necesario trabajar
con una familia de distribuciones denominada t de Student cuya variable aleatoria es:

X
t
S
n

Un miembro determinado de la familia de distribuciones de t de Student se caracteriza


por el número de grados de libertad. La forma de la distribución t de Student es similar a
la normal estándar, ambas tienen media 0 y son simétricas alrededor de esta pero la t de
Student tiene una dispersión mayor que la normal estándar y surge como resultado de la
incertidumbre adicional provocada por el hecho de sustituir la desviación típica
poblacional conocida por un estimador muestral. A medida que el número de grados de
libertad aumenta, la t de Student toma una forma más similar a la de la normal y cuando
el número de grados de libertad es elevado ambas distribuciones son prácticamente
idénticas. Esto resulta del hecho de que para una muestra grande, la desviación típica
muestral es un estimador muy preciso de la desviación típica poblacional.

Para calcular intervalos de confianza de la media de una población normal cuando la


variancia es desconocida, seguimos un argumento similar al punto anterior.
Supongamos que disponemos de una muestra aleatoria de n observaciones procedentes
de una población normal con media con variancia desconocida, el intervalo de
confianza viene dado por:

tn  1;  / 2 . S tn  1;  / 2 . S
X  X
n n

Problema 4. Se tomó una muestra aleatoria de 6 coches de un determinado modelo para


determinar el consumo de combustible por km.
18,60 18,40 19,20 20,80 19,40 20,50
Determinar un intervalo de confianza del 90% para el consumo de combustible por km
medio poblacional suponiendo que la población es normal.

La media muestral es:

13
X
X i

116 ,90
 19,4833
n 6
La variancia y desviación típica muestral es:

 X  - n . X
2
2282,41  (6).19,4833
2 2
i
S 2
   0,96
n -1 5
S S2  0,96  0,98

Para definir el intervalo, se procede:


100.1     90%    10%  0,1

Por lo tanto:
 / 2  0,05

Para encontrar el valor de tn  1;  / 2 , buscamos por tabla el valor para el cual:


tn  1;  / 2  t 5; 0, 05  2,015

El intervalo de confianza del 90% para la media poblacional es:


tn  1;  / 2 . S tn  1;  / 2 . S
X   X
n n
( 2,015) . (0,96) (2,015) . (0,96)
19,48     19,48 
6 6
18,67    20,29

El intervalo de confianza del 90% para el consumo de combustible medio poblacional


va de 18,67 a 20,29 kilómetros por litro.

La distribución t de Student es adecuada siempre que la muestra provenga de una


población que es aproximadamente normal. A menudo, por experiencia, se sabe si un
proceso genera datos con una distribución aproximada. Sin embargo, en muchos casos,
se debe decidir si una población es aproximadamente normal examinando la muestra.
Cuando el tamaño muestral es pequeño, desviaciones a la normalidad pueden ser difícil
de detectar y una manera razonable de proceder es construir un diagrama de caja o de
puntos de la muestra y si estos diagramas no revelan una asimetría fuerte o algún valor
atípico, entonces en la mayor parte de los caso la distribución t de Student será
confiable. También se puede determinar si una población es aproximadamente a partir
de una gráfica de probabilidad o Q-Q Plot Normal, el cual nos permite comparar la
distribución empírica de un conjunto de datos con la distribución normal. La
construcción del gráfico de probabilidad normal se realiza a través de los cuantiles de la
normal estándar, de forma que aceptaremos la hipótesis de normalidad de los datos,

14
siempre que los puntos en el gráfico tengan un comportamiento suficientemente
rectilíneo.

Problema 5. Se realizó recientemente un estudio con conductores de camiones que


tenían más o menos el mismo número de años de experiencia para comprobar el
comportamiento de 24 camiones de un determinado modelo en la misma autopista.
Aplicando InfoStat, estimar la media poblacional del consumo de combustible de este
modelo de camión con una confianza del 90% suponiendo que el consumo de
combustible, en kilómetros recorrido por litro de estos 24 camiones es:
15,5 21,0 18,5 19,3 19,7 16,9 20,2 14,5
16,5 19,2 18,7 18,2 18,0 17,5 18,5 20,5
18,6 19,1 19,8 18,0 19,8 19,2 20,3 21,8
El intervalo solicitado lo determinaremos aplicando la distribución t de Student pero
para aplicarla primero debemos verificar la normalidad de la distribución empírica a
partir del gráfico Q-Q Plot.

En la gráfica no se observa nada que indique ausencia de normalidad, por lo tanto


aceptamos la hipótesis de normalidad.

6.6. INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN.

15
Supongamos que estamos interesados en la proporción de miembros de la población que
poseen un determinado atributo, por ejemplo, una empresa puede estar interesada en
cuantos de sus clientes pagan con tarjeta en relación a los que pagan en efectivo o un
empresario puede estar interesado en que proporción sus productos son no defectuosos
en relación a los defectuosos. En cada uno de estos casos existen solo dos posibles
resultados, por lo tanto, la preocupación se concentra en la proporción de respuestas que
quedan dentro de uno de estos dos resultado.

Situándonos en el marco de la distribución binomial, p representa la proporción de


éxitos en n intentos independientes, cada uno con probabilidad de éxito p. En unidades
anteriores vimos que si n es grande en general, la distribución de las proporciones
muestrales será normal, cuya variable aleatoria Z queda definida:

pp
Z
p . (1 - p) /n

El denominador de la ecuación anterior no permite el cálculo ya que la proporción


poblacional es desconocida, pero para muestras grandes se logra buenas aproximaciones
sustituyendo la proporción poblacional p por la muestral p :

p . (1 - p) p . (1 - p)

n n

pp
Z
p . (1 - p) /n

Para calcular intervalos de confianza de la proporción p de una población seguimos un


argumento similar a los puntos anterior. Supongamos que disponemos de una muestra
aleatoria grande de n observaciones procedentes de una población con una proporción p
de éxitos, el intervalo de confianza viene dado por:

p . (1 - p) p . (1 - p)
p  Z / 2 .  p  p  Z / 2 .
n n

16
Los intervalos de confianza construidos de este modo son generalmente bastante
confiables cuando se basan en tamaños muestrales de 40 observaciones o más.

Problema 6. Se extrajo una muestra aleatoria de 344 artículos y se evaluó una


determinada característica de calidad y 83 de estos artículos resultaron defectuosos.
Determinar un intervalo de confianza del 90% para la proporción poblacional.

La proporción muestral es:


Defectuosos 87
p   0,241
Total 344
Para definir el intervalo, se procede:
100.1     90%    10%  0,10

Por lo tanto:
 / 2  0,05

Para encontrar el valor de Z / 2 , buscamos por tabla aquel valor más cercano a:
0,95 = Z / 2 = 1,645
El intervalo de confianza del 90% para la proporción poblacional es:
p . (1 - p) p . (1 - p)
p  Z / 2 .  p  p  Z / 2 .
n n

(0,241) . (1 - 0,241) (0,241) . (1 - 0,241)


0,241  1,645 .  p  0,241  1,645 .
344 344
0,203  p  0,279

El intervalo de confianza del 90% para la proporción de defectuosos poblacional va de


20,3% a 27,9%.

6.7. INTERVALOS DE CONFIANZA PARA LA VARIANCIA DE UNA


DISTRIBUCIÓN NORMAL.

Para elaborar un intervalo de confianza para la variancia  2 de una población normal,


debemos trabajar con la distribución  2 , chi cuadrado, cuya variable aleatoria es:

 n2-1 
 n - 1 . S 2
2

17
Para obtener un intervalo de confianza de 100.1    % para la variancia poblacional, se
obtiene primero el intervalo de confianza de 100.1    % para la variable aleatoria  2 .
Para efectuar este procedimiento se seleccionan los valores de la tabla chi cuadrada de
tal modo que α/2 quede a la izquierda del valor menor y α/2 quede a la derecha del valor
mayor. En otras palabras, los dos valores chi cuadrada se seleccionan de modo que α se
divida en partes iguales entre las dos colas de la distribución.

Estos dos valores de chi se designan como  2 v ,1   / 2 y  2 v ,  / 2 respectivamente.

18
Supongamos que disponemos de una muestra aleatoria de n observaciones procedentes
de una población normal con variancia  2 , el intervalo de confianza viene dado por:

 2 v,  / 2 
 n - 1 . S 2   2 v ,1   / 2
 2

Se utiliza esta ecuación para obtener una formula con  2 como único término central.
Primero se divide cada término por  n - 1 . S2 quedando:

 2 v,  / 2 1  2 v ,1   / 2
 
 n - 1 . S 2  2  n - 1 . S 2

Aplicando el elemento recíproco, el cual cambia la dirección de las desigualdades, e


invirtiendo el orden de los términos, obtenemos finalmente el intervalo de confianza
para la variancia  2 de una población normal:

 n - 1 . S 2  2 
 n - 1 . S 2
 2 v,  / 2  2 v ,1   / 2

Problema 7. Una muestra aleatoria de 15 observaciones de pastillas para el dolor de


cabeza tiene una desviación típica de 0,8% en la concentración de ingredientes activos.
Hallar un intervalo de confianza del 90% para la variancia poblacional.

La variancia muestral es:


S 2   0,8  0,64
2

Para definir el intervalo, se procede:


100.1     90%    10%  0,1

Por lo tanto:
 / 2  0,05

Para encontrar los valores de  2 v ,  / 2 y  2 v ,1   / 2 , buscamos por tabla los valor para el
cual:
 2 v ,  / 2   2 14, 0, 05  23,68 y  2 v ,1   / 2   2 14, 0,95  6,57

El intervalo de confianza del 90% para la variancia poblacional es:

19
 n - 1 . S 2  2 
 n - 1 . S 2
 2 v,  / 2  2 v ,1   / 2
15 - 1 .  0,64  2 
15 - 1 .  0,64
23,68 6,57

0,378   2  1,364

El intervalo de confianza del 90% para la variancia poblacional en la concentración de


ingredientes activos se encuentra entre 0,378 y 1,364. Dado que la desviación típica es
la raíz cuadrada de la variancia se puede calcular el intervalo de confianza para la
desviación típica poblacional tomado raíces cuadradas:
0,61    1,17

Por lo tanto, el intervalo de confianza del 90% para la desviación típica poblacional de
la concentración porcentual del ingrediente activo de estas pastillas va de 0,61% a
1,17%.

6.8. INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE


DOS POBLACIONES NORMALES.

Un problema importante en inferencia estadística es la comparación de dos medias


poblacionales. Así por ejemplo:

 Una empresa recibe envíos de una sustancia química de dos proveedores


distintos y se quiere estimar la diferencia entre los niveles medios de impurezas
presente en los envíos de ambos proveedores.
 La posibilidad del empleo de dos fertilizantes distintos e interesa la diferencia de
las producciones medias por hectárea.

Para comparar las medias poblacionales, se extrae una muestra aleatoria de las dos
poblaciones y la inferencia sobre la diferencia entre ambas medias se basa en los
resultados muestrales. El método apropiado para analizar esta información depende del
procedimiento empleado al seleccionar las muestras. Consideramos las dos
posibilidades siguientes:

20
1. Datos pareados. En este procedimiento las muestras se eligen por pares, una de
cada población, en donde los elementos de cada uno de estos pares deben estar
relacionados de manera que la comparación pueda ser establecida directamente.

2. Muestras independientes. En este método se extraen dos muestras


independientes de cada una de las dos poblaciones de manera que los miembros
de una muestra no tienen necesariamente relación con los miembros de la otra.

Intervalos de confianza para la diferencia de medias basados en datos pareados.


De manera general, supongamos que tomamos una muestra aleatoria de n pares de
observaciones representados por (x1, y1), (x2, y2), ... , (xn, yn), procedentes de dos
poblaciones con medias  x y  y . Sean d y Sd la media y la desviación típica

muestrales para las n diferencias d i   x i  y i  . Si se asume que las distribución de las

diferencias es normal, un intervalo de confianza del 100.1    % para   x   y  viene


dado por:

tn  1;  / 2 . S d tn  1;  / 2 . Sd
d  x  y  d 
n n
Problema 8. La tabla que se expone a continuación contiene los datos del consumo de
combustible correspondiente s a una muestra aleatoria de ocho automóviles de dos
modelos diferentes. Se forman pares con las dos muestras y cada elemento de un
determinado par fue conducido por el mismo piloto y en la misma ruta de manera que la
variabilidad entre pilotos y rutas puede eliminarse como factor de distorsión.
Suponiendo que la distribución poblacional es normal, determinan un intervalo de
confianza del 99% para la diferencia del consumo medio de combustible de los dos
automóviles.
i Coches x Coches y di di2
1 19,4 19,6 -0,2 0,04
2 18,8 17,5 1,3 1,69
3 20,6 18,4 2,2 4,84
4 17,6 17,5 0,1 0,01
5 19,2 18,0 1,2 1,44
6 20,9 20,0 0,9 0,81
7 19,3 18,8 -0,5 0,25
8 20,4 19,2 1,2 1,44
Total - - 6,2 10,52

21
La media de las diferencias en el consumo de combustible es:

d
d i

6,2
 0,775
n 8
La variancia de las diferencias en el consumo de combustible es:

 d  - n . d
2
10,52  (8). 0,775
2 2
i
S 2
d    0,816
n -1 7

S d  S d2  0,816  0,903

Para definir el intervalo, se procede:


100.1     99%    1%  0,01

Por lo tanto:
 / 2  0,005

Para encontrar el valor de tn  1;  / 2 , buscamos por tabla el valor para el cual:


tn  1;  / 2  t 7; 0, 005  3,499

El intervalo de confianza del 99% para la diferencia de las medias poblacionales es:
tn  1;  / 2 . S d tn  1;  / 2 . S d
d  x  y  d 
n n
(3,499) . (0,903) (3,499) . (0,903)
0,775    x   y  0,775 
8 8
 0,342   x   y  1,892

El intervalo de confianza del 99% para la diferencia en el consumo medio de


combustible de los dos tipos de automóviles va de -0,342 a 1,892 kilómetros por litro.
Dado que el intervalo incluye el 0, no existe evidencia suficiente en la muestra como
para rechazar la hipótesis de que las medias son iguales.

Intervalos de confianza para la diferencia de medias basados en muestras


independientes, variancias conocidas o tamaños muestrales grandes.
Supongamos ahora el caso en el que se toman muestras independientes, no
necesariamente del mismo tamaño, de dos poblaciones de interés, en donde n x

representa la muestra aleatoria de una población con media  x y variancia  x y ny


2

representa una muestra aleatoria independiente de una población con media  y y

variancia  y . Sean X e Y las medias muestrales respectivas. Un intervalo de


2

confianza del 100.1    % para   x   y  viene dado por:

22
 x2  y  x2  y
X  Y  Z  
2 2

/2 .    x   y  X  Y  Z / 2 . 
nx ny nx ny

Si el tamaño de las muestras son grandes, sustituyendo las variancias poblacionales por
las muestrales se obtiene una buena aproximación e incluso seguirá siendo válida
cuando las distribuciones poblacionales no sean normales.

2 2

X  Y  Z /2 .
S 2x S y

nx ny
  S2 S y
  x   y  X  Y  Z / 2 . x 
nx ny

Problema 9. Para una muestra aleatoria de 96 fumadores, la media en horas del


ausentismo mensual fue de 2,15 y desviación típica muestral de 2,09 horas. Para una
muestra aleatoria independiente de 206 trabajadores que nunca han fumado, la media en
horas es de 1,69 y la desviación típica muestral de 1,91 horas. Determinar un intervalo
de confianza del 99% para la diferencia entre las dos medias poblacionales.

Fumadores:
X  2,15 horas
n x  96
S x  2,10 horas

Trabajadores no fumadores:
Y  1,69 horas
n y  206
S y  1,91 horas

Para definir el intervalo, se procede:


100.1     99%    1%  0,01

Por lo tanto:
 / 2  0,005

Para encontrar el valor de Z / 2 , buscamos por tabla aquel valor más cercano a:
0,995 = Z / 2 = 2,575
El intervalo de confianza del 99% para la diferencia de las medias poblacionales es:
2 2

X  Y  Z /2 .
S 2x S y

nx ny
  S2 S y
  x   y  X  Y  Z / 2 . x 
nx ny

23
(2,09) 2 (1,91) 2
 2,15  1,69  2,575 .   x  y
96 206
(2,09) 2 (1,91) 2
  2,15  1,69   2,575 . 
96 206
 0,19   x   y  1,11

El intervalo de confianza del 99% para la diferencia de medias poblacionales va de


-0,19 a 1,11. Dado que el 0 está dentro del intervalo de confianza, no hay suficiente
evidencia en los datos como para rechazar la hipótesis de que ambas poblaciones tienen
igual media.

Intervalos de confianza para la diferencia de medias basados en muestras


independientes, variancias poblacionales iguales.
Supongamos ahora el caso en el cual los tamaños muestrales no son grandes. Cuando
las variancias poblacionales no son conocidas este problema resulta difícil de abordar
pero en los casos en los que se puede asumir que las variancias poblacionales son
iguales, se puede emplear un método sencillo.

Supongamos nuevamente que disponemos de dos muestras aleatorias nx y ny


provenientes de dos poblaciones normales con medias  x y  y y variancia común  2
. La inferencia sobre las medias poblacionales se basa en la diferencia entre las dos

medias muestrales   x   y  y la variancia toma la forma:

 1 1   nx  ny 

Var X  Y  .  2 2

nx ny
  2     2
n   n .n 

 x ny   x y 

Debido a que la variancia poblacional es desconocida y es la misma para ambas, esta


puede estimarse a partir del estimador:

 n x - 1 . S 2x   n y - 1 . S 2y
S
n x  n y - 2

De esta forma, un intervalo de confianza del 100.1    % para   x   y  viene dado


por:

24
 nx  ny   nx  ny 
X  Y  t nx  ny  2;  / 2 .S. 
 n .n 
 
   x   y  X  Y  tnx  ny  2;  / 2 . S . 
 n .n


 x y   x y 
Problema 10. En un proceso químico para imprimir tarjetas de circuitería, se han
comparado dos catalizadores diferentes para determinar si requieren diferentes tiempos
de inmersión para eliminar cantidades idénticas de material fotorresistente. Se
analizaron 12 lotes con el catalizador 1 y se obtuvo una media de tiempo de inmersión
de 24,6 minutos y una desviación típica de 0,85 minutos. Con el catalizador 2 se
analizaron 15 lotes obteniendo una media de 22,1 minutos y una desviación típica de
0,98 minutos. Determinar un intervalo de confianza del 95% en la diferencia de las
medias poblacionales suponiendo que las variancias en las dos poblaciones son iguales.

Catalizador 1:
X  24,6 minutos
n x  12
S x  0,85 minutos

Catalizador 2:
Y  22,1 minutos
n y  15
S y  0,98 minutos

Estimación de la variancia poblacional común:


 n x - 1 . S 2x   n y - 1 . S 2y 12 - 1 .  0,85 2  15 - 1 .  0,98 2
S   0,8557
 n x  n y - 2 12  15 - 2
S S2  0,8557  0,925

Para definir el intervalo, se procede:


100.1     95%    5%  0,05

Por lo tanto:
 / 2  0,025

Para encontrar el valor de tnx  ny  2;  / 2 , buscamos por tabla el valor para el cual:
tnx  ny  2;  / 2  t 25; 0, 025  2,060

El intervalo de confianza del 95% para la diferencia de las medias poblacionales es:

 nx  ny   nx  ny 
X  Y  t nx  ny  2;  / 2 .S. 
 n .n 
 
   x   y  X  Y  tnx  ny  2;  / 2 . S . 
 n .n


 x y   x y 

25
 12  15 
 24,6  22,1   2,060 .  0,925 .    x  y
 12. 15 
 12  15 
  24,6  22,1   2,060 .  0,925 .  
 12. 15 
1,76   x   y  3,24

Tenemos un 95% de confianza de que el catalizador 1 requiere un tiempo de inmersión


que está entre 1,76 minutos y 3,24 minutos más que el tiempo requerido por el
catalizador 2.
6.9. INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE DOS
PROPORCIONES.

En muchas situaciones se tiene interés en conocer la magnitud de la diferencia entre las


proporciones de dos poblaciones. Es posible que se quiera comparar, por ejemplo, entre
hombres y mujeres dos grupos de edades, dos grupos socioeconómicos o dos grupos de
diagnóstico con respecto a la proporción que posee alguna característica de interés.

Supongamos que una muestra nx de una población con una proporción de éxitos p x da
lugar a una proporción muestral px y que se obtiene una proporción muestral py a
partir de una muestra aleatoria independiente de tamaño ny procedente de una población
con proporción de éxitos p y . Además, si los tamaños muestrales son grandes, la
distribución es aproximadamente normal. Por lo tanto, si los tamaños muestrales son

grandes, un intervalo de confianza del 100.1    % para  p x  p y  viene dado por:

p 
 p y  Z / 2 .

px .1  px

py.1 py 
 px  py
x
nx ny

 
 p x  p y  Z / 2 .

px.1 px


py.1  py  
nx ny

Problema 11. En una muestra aleatoria de 75 ejes de árbol, 12 tienen un acabado


superficial más rugoso que lo permitido por las especificaciones. A continuación, se
modifica el proceso de acabado de la superficie y se realiza una segunda muestra
aleatoria de 85 ejes de árbol dando 10 elementos defectuosos en esta segunda muestra.

26
Determinar un intervalo de confianza del 95% en la diferencia de la proporción de
defectos producidos bajo los dos procesos.

Muestra 1:
Defectuosos 12
px    0,16
Total 75
n x  75

Muestra 2:
Defectuosos 10
py    0,12
Total 85
n y  85

Para definir el intervalo, se procede:


100.1     95%    5%  0,05

Por lo tanto:
 / 2  0,025

Para encontrar el valor de Z / 2 , buscamos por tabla aquel valor más cercano a:
0,975 = Z / 2 = 1,96
El intervalo de confianza del 95% para la diferencia de las medias poblacionales es:

p 
 p y  Z / 2 .

px.1 px


py.1 py 
 px  py

x
nx ny

 
 p x  p y  Z / 2 .

px .1 px


py.1  py  
nx ny

0,16. 0,84 0,12. 0,88


 0,16  0,12  1,96 .   px  py
75 85
0,16. 0,84 0,12. 0,88
  0,16  0,12  1,96 . 
75 85
 0,07  p x  p y  0,15

Este intervalo incluye el 0, de modo que, con base en los datos de la muestra, parece
poco probable que los cambios realizados en el proceso de acabado de la superficie
hayan reducido la proporción de los ejes de árbol defectuosos que se están produciendo.

6.10. DETERMINACIÓN DEL TAMAÑO DE MUESTRA PARA LA MEDIA Y


LA PROPORCIÓN.

27
Hasta el momento desarrollamos los métodos para construir intervalos de confianza
para estimar un parámetro poblacional basándonos en la información proporcionada por
una muestra. Seguidamente, un intervalo de confianza puede resultar demasiado amplio
y por lo tanto con un grado de incertidumbre poco deseado. Normalmente, la única
manera de reducir esta incertidumbre consiste en tomar una muestra con un tamaño
mayor.
Tamaño de muestra para la media.
Al tomar una muestra aleatoria de tamaño n procedente de una población normal con
media  y variancia conocida  2 , como vimos, el intervalo de confianza del
100.1    % viene dado por:

Z / 2 .  Z / 2 . 
X   X
n n

Este intervalo está centrado en la media muestral X , recorriendo a cada lado de esta
una distacia L igual a la mitad de la longitud del intervalo, dada por:

Z / 2 . 
L
n

El tamaño muestral que garantiza que el intervalo de confianza tenga una amplitud L a
cada lado de la media muestral es:

2
 Z / 2 .  
n 
 L 

Problema 12. La longitud de las barras de acero producidas por una cadena de
producción es una variable aleatoria con distribución normal y desviación típica 1,8
mm. Basándose en una muestra aleatoria de 9 observaciones se calculó el siguiente
intervalo de confianza del 99% para la longitud poblacional:
194,65    197,75

El director de producción cree que el intervalo es demasiado amplio y exige un intervalo


con el mismo nivel de confianza pero cuya longitud a cada lado de la media no sea
superior a 0,5 mm. Determinar cuántas observaciones debe tener la muestra.

28
Se tiene:
L  0,5 mm
  1,8 mm

Para definir el intervalo, se procede:


100.1     99%    1%  0,01

Por lo tanto:
 / 2  0,005

Para encontrar el valor de Z / 2 , buscamos por tabla aquel valor más cercano a:
0,995 = Z / 2 = 2,575
El tamaño muestral exigido es:
2 2
 Z / 2 .    2,575 . 1,8 
n     85,93
 L   0,5 

Se necesita una muestra aleatoria por lo menos de 86 observaciones. Este incremento en


el tamaño muestral representa el costo adicional de mejorar la precisión en la estimación
de la media poblacional, reflejada en un intervalo de confianza más corto.

Tamaño de muestra para la proporción.


Basándonos en una muestra aleatoria de n observaciones, el intervalo de confianza para
estimar la proporción poblacional viene dado por:

p . (1 - p) p . (1 - p)
p  Z / 2 .  p  p  Z / 2 .
n n

Igual que en el caso de la media, este intervalo está centrado en la proporción muestral
p recorriendo a cada lado de esta una distacia L igual a la mitad de la longitud del
intervalo, dada por:

p . (1 - p)
L  Z / 2 .
n

Esta ecuación no puede ser aplicada tal cual ya que depende de la proporción muestral,
la cual no conocemos de antemano, pero independientemente del resultado, p . (1 - p )

29
no puede ser mayor que 0,25 cuando el valor de la proporción muestral es de 0,5. De
este modo, la longitud L viene dada por:

0,25 Z / 2 . 0,5
L  Z / 2 . 
n n

El tamaño muestral que garantiza que el intervalo de confianza tenga una amplitud L a
cada lado de la proporción muestral es:

2
 Z / 2 
n  . 0,25
 L 

Problema 13. En una muestra aleatoria de 142 piezas de acero con tratamiento
superficial, se evaluó la dureza de la misma y 87 de estas piezas estaban dentro de
especificación. Se construyó el siguiente intervalo de confianza del 95% para la
proporción de piezas dentro de especificación:
0,533  p  0,693

Ahora se quiere construir un nuevo intervalo de confianza del 95% cuya longitud a cada
lado de la proporción muestral no sea superior a 0,06. Determinar cuántas observaciones
debe tener la muestra.

Se tiene:
L  0,06

Para definir el intervalo, se procede:


100.1     95%    5%  0,05

Por lo tanto:
 / 2  0,025

Para encontrar el valor de Z / 2 , buscamos por tabla aquel valor más cercano a:
0,975 = Z / 2 = 1,96
El tamaño muestral exigido es:
2 2
 Z / 2   1,96 
n  . 0,25    . 0,25  266,78
 L   0,06 

Así, 267 observaciones como mínimo garantiza un intervalo de confianza con la


longitud exigida.

30
BIBLIOGRAFIA

1. ENCICLOPEDIA DE MATEMÁTICAS
OCEANO Grupo Editorial S.A.

2. ESTADÍSTICA
Murria R. Spiegel - Larry J. Stephens
Mc Graw Hill
Año 2002

3. Estadística para los Negocios y la Economía


Paul Newbold
Prentice Hall
Año 2005
4. Probabilidad y Estadística para Ingeniería
William W. Hines - Douglas C. Montgomeri - David M, Goldsman - Connie M.
Borror
CECSA
Año 2006

5. Estadística para Ingeniería - Apuntes de Cátedra


Lic. Mauricio Pierfederici

6. http://es.wikipedia.org/wiki/Wikipedia:Portada

31

You might also like