You are on page 1of 9

Probabilidad y Estadstica

Estimacin estadstica
ESTIMACIN ESTADSTICA

1 1

BREVE RESUMEN. Lo que hemos estudiado hasta ahora son herramientas para desarrollar la estadstica inferencial que permite conocer caractersticas de la poblacin a partir de la informacin contenida en una muestra. Se vieron las formas en que pueden describirse un conjunto de datos. Los mtodos grficos, bsicamente la tabla de frecuencias relativas y el histograma, y las medidas descriptivas numricas: media, varianza, desviacin estndar. La estadstica inferencial busca describir la poblacin con estos grficos y medidas descriptivas numricas a partir de conocer como son para la muestra. Se estudi el concepto de probabilidad que provee de un mtodo para medir que tan buena es la inferencia. Adems permite razonar de la poblacin a la muestra, pues si se conoce la distribucin de probabilidad (terica) de una variable aleatoria es posible saber como va a ser aproximadamente la distribucin de frecuencias relativas si se obtiene una muestra de los valores de esta variable, o la probabilidad de obtener un resultado particular. Se estudiaron dos tipos de distribucin de probabilidad, las discretas y las continuas. Por ltimo se vieron las distribuciones muestrales que nos dicen como se distribuyen los valores de las estadsticas (que son las medidas descriptivas numricas obtenidas de una muestra) al tomar diferentes muestras del mismo tamao. En este tema vimos parte de la importancia que tiene la distribucin normal ya que muchas estadsticas tienen distribucin de muestreo aproximadamente normal cuando el tamao de la muestra es grande. Las estadsticas se usan para aproximar los parmetros y conocer las distribuciones muestrales de las estadsticas permite evaluar que tan confiable o buena es la aproximacin. Hay dos formas de realizar inferencias acerca de un parmetro poblacional: podemos estimar su valor (que es lo que vamos a ver esta clase), o bien, probar una hiptesis acerca de su valor (esto lo vamos a estudiar la prxima clase). TIPOS DE ESTIMADORES Los procedimientos de estimacin pueden dividirse en dos tipos: Estimacin puntual: la estimacin se representa mediante un solo nmero. Estimacin por intervalo: la estimacin se representa mediante dos nmeros que determinan un intervalo sobre la recta. Ejemplo. Se quiere estimar la altura media de los alumnos de un determinado curso. Se puede dar la estimacin diciendo que la altura media es de 1.65 m (estimacin puntual) o bien decir que la altura media estar entre 1.6 m y 1.7 m (estimacin por intervalo). Un estimador es una regla que expresa cmo calcular la estimacin, basndose en la informacin de la muestra y se enuncia, en general, mediante una frmula. Un estimador puntual utiliza los datos de la muestra para obtener un nmero que estima el valor del parmetro. Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores numricos entre los cuales se supone que est el valor del parmetro estimado.

Probabilidad y Estadstica

Estimacin estadstica

1 2

ESTIMACIN PUNTUAL CON MUESTRAS GRANDES Se pueden usar distintos estimadores para estimar un mismo parmetro. Por ejemplo para estimar la media poblacional se puede usar la media muestral, la mediana, la moda, el promedio entre el valor ms chico y ms grande de la muestra, etc.. Cada estimador obtenido de muestras de tamao fijo n, vara con cada muestra que se toma. Por lo tanto, los estimadores son variables aleatorias y pueden considerarse sus distribuciones muestrales (similar a los estadsticos que se estudiaron la clase pasada). La distribuciones de muestreo de los estimadores se usan para compararlos y decidir cual de todos es el mejor. Se prefiere un estimador que tenga una distribucin muestral cuya media coincida con el parmetro que se desea estimar y cuya extensin o dispersin (medida con la variancia) sea lo menor posible. Notacin. Si denota un parmetro entonces denotar la estadstica correspondiente. Como dijimos anteriormente, se prefiere una estadstica que tenga una distribucin muestral cuya media coincida con el parmetro que se desea estimar. Un estimador de este tipo se llama insesgado. Si es un estimador de un parmetro y si la media de la distribucin de es , es decir, E( ) = ,

entonces se dice que es un estimador insesgado. De otra manera, se llama sesgado. En la figura 6.2., p. 198, aparecen las distribuciones muestrales de dos estimadores , el primero insesgado, E( ) = , y el segundo sesgado, E( ) > . Si se calcula una vez lo ms probable es que se encuentre cerca de la media E( ). Entonces en el primer caso lo ms probable es que se encuentre cerca de y en el segundo que sea ms grande que . Se prefiere una estadstica que adems tenga una distribucin muestral cuya extensin o dispersin (medida con la variancia) sea lo menor posible. Nota: Para simplificar se habla de variancia del estimador para referirnos a la variancia de la distribucin muestral del estimador. En la figura 6.3, p. 199, aparecen las distribuciones muestrales de dos estimadores insesgados , E( ) = . Si se calcula una vez , en ambos casos, lo ms probable es que se encuentre cerca de la media E( ). Pero como la desviacin estndar del primero es menor que la del segundo, es ms probable que en el primer caso se encuentre ms cerca de la media que en el segundo caso. En base a lo anterior se elige de todas las estadsticas disponibles aquella con el menor sesgo y variancia posible. Ms an, el mejor estimador posible es aquel que es insesgado y que de todos los insesgados tiene la menor variancia, a este estimador se lo llama estimador insesgado de menor variancia (EIMV). En este curso definiremos poblaciones y los parmetros de inters y se dir en cada caso cual es el estimador adecuado, su media y su desviacin estndar.

Ejemplos de estimadores insesgados.

Probabilidad y Estadstica

Estimacin estadstica

1 3

Media muestral x (estimador insesgado de la media poblacional ) Si se seleccionan muestras aleatorias de n mediciones de una poblacin con media y desviacin estndar , la distribucin de muestreo de x tendr media E( x ) = . y desviacin estndar x =/ n .

Proporcin muestral p (estimador insesgado del parmetro p). Si se seleccionan muestras aleatorias de n observaciones de una poblacin binomial, con parmetro p, la distribucin de muestreo de la proporcin muestral p = E( p ) = p y desviacin estndar
p =

x tendr media n

pq n

Diferencia de medias x 1 x 2 (estimador insesgado del parmetro 1 2). Se tienen dos poblaciones I y II con medias y desviaciones estndar (1, 1) y (2, 2), respectivamente. Se seleccionan en forma independiente muestras de tamao n1 para I y de tamao n2 para II. Si x 1 y x 2 son las medias muestrales para tales muestras, entonces la distribucin de muestreo de x 1 x 2 tendr media E( x 1 x 2) = 1 2 y desviacin estndar

x1 x 2 =

2 12 2 + n1 n2

Proporcin muestral p 1 p 2 (estimador insesgado del parmetro p1 p2) Se tienen dos poblaciones binomiales I y II con parmetros p1 y p2, respectivamente. Se seleccionan en forma independiente muestras de tamao n1 para I y de tamao n2 para II. Si p 1 y p 2 son las proporciones muestrales de tales muestras, entonces la distribucin de muestreo de p 1 p 2 tendr media E( p 1 p 2) = p1 p2 y desviacin estndar
p1 p2 =

p1 q1 p 2 q 2 + n1 n2

Observar que en cada caso, se toma como estimador la estadstica que corresponde al parmetro que se quiere estimar. La media muestral, la proporcin muestral, la diferencia de medias muestrales y la diferencia de proporciones muestrales tienen una distribucin de muestreo que se aproxima a una normal cuando el tamao de la/s muestra/s es grande. Como regla prctica se supone que esto se cumple cuando n 30.

Probabilidad y Estadstica

Estimacin estadstica

1 4

Teniendo en cuenta esto y como estamos interesados en muestras grandes, en adelante supondremos que n 30, y que trabajamos con un estimador insesgado de que tiene una distribucin normal. Una manera de evaluar la bondad de una estimacin puntual es a travs de la distancia entre el estimador y el parmetro. Esta cantidad se denomina Error de estimacin. | |. Como se desea que este error sea lo menor posible, interesa saber si es menor que una cierta cota que se suele expresar en trminos de la desviacin estndar del estimador: Cota para el error de estimacin. c . Ahora bien, no se puede saber si | | < c pues desconocemos . Sin embargo, conociendo las caractersticas de la distribucin de , se puede calcular la probabilidad de que |

| < c , es decir, P(| | < c )

Por ejemplo, si c = 1.96 y suponiendo que la distribucin de es normal, P(| | < 1.96 ) = 0.95 En la siguiente figura aparece el rea correspondiente.

Ejemplo. Se quiere estimar la media de una poblacin. Se toma una muestra de tamao n = 50 y se obtiene x = 9.1, s = 0.24. Dar una estimacin para y evaluar la exactitud de la estimacin con c = 1.96. Parmetro Estimador x (insesgado E( x ) = y tiene una distribucin de muestreo normal si el tamao de la muestra es grande). Estimacin para : 9.1. Cota para el error de estimacin (usando s para aproximar ): 1.96 x = 1.96 / n 1.96 s / n = 1.96 0.24 / 50 0.07. Como P(| x | < 1.96 x ) = 0.95 P(| x | < 0.07) = 0.95 podemos decir que la probabilidad de que el error de estimacin sea menor que 0.07 es de 95%. En la siguiente figura aparece el rea correspondiente.

Probabilidad y Estadstica

Estimacin estadstica

1 5

INTERVALOS DE CONFIANZA PARA MUESTRAS GRANDES Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores numricos entre los cuales se dice que est el valor del parmetro estimado. Supongamos que queremos estimar la media de una poblacin. Se toma una muestra de tamao n y se determina con los datos de la muestra un intervalo [a1, b1]. Se espera que [a1, b1] contenga a , pero puede suceder que esto no ocurra. Se toma otra muestra de tamao n y se determina con los datos de la muestra un intervalo [a2, b2]. Se tambin en este caso que [a2, b2] contenga a , pero igual que antes puede suceder que esto no ocurra. Se puede repetir este procedimiento varias veces, digamos m, obtenindose un conjunto de intervalos [a1, b1], [a2, b2], ..., [am, bm]. Se espera que el estimador por intervalo, es decir, el procedimiento que se est usando para determinar cada intervalo, sea tal que un gran porcentaje de estos intervalos contenga a . El razonamiento anterior se puede hacer con cualquier otro parmetro . Cada uno de estos intervalos se llama intervalo de confianza y la probabilidad de que el intervalo contenga a se llama coeficiente de confianza. Ahora veremos como se determinan los intervalos de confianza y el coeficiente de confianza. Sea un estimador insesgado de que tiene una distribucin muestral normal o aproximadamente normal. Se tiene

Error de estimacin. | |

Cota para el error de estimacin. 1.96 (se expresa en trminos de la desviacin estndar). P(| | < 1.96 ) = 0.95 (para obtener este valor de P se tiene en cuenta que la distribucin de es normal y se usa la tabla 4)

Como P(| | < 1.96 ) = 0.95 puede escribirse como

P( [ 1.96 , + 1.96 ]) = 0.95, podemos decir que la probabilidad de que

Probabilidad y Estadstica

Estimacin estadstica

1 6

[ 1.96 , + 1.96 ] contenga a es 0.95 = 95%. De este modo, si es una estimacin particular de , entonces [ 1.96 , + 1.96 ]

es un intervalo de confianza para con un coeficiente de confianza de 95%, ms brevemente intervalo de confianza de 95%. Adems lmite inferior de confianza: LIC = 1.96 lmite superior de confianza: LSC = + 1.96

sea z la normal estandarizada correspondiente a : z = . P(| | < c ) = 1 P(| z | < c ) = 1

Ms general, para establecer el intervalo de confianza con nivel de confianza (1 )%,

P( < z < c) = 1 2 P(0 < z < c) = 1 P(0 < z < c) = (1 ) / 2 c 1/2 P( c < z ) = (1 ) / 2 P( c < z ) = /2. Por esta razn, si se escribe c = z/2 se tiene Intervalo de confianza de (1 )% para , usando un estimador insesgado que tiene una distribucin muestral normal. [ /2 , + z/2 ] es un intervalo de confianza de 1 z , lmite inferior de confianza: lmite superior de confianza: LIC = z/2

LSC = + z/2

donde z/2 es tal que P(z/2 < z ) = /2, o equivalentemente, P(0 < z < z/2) = (1 ) / 2 (ver figura 6.8, p. 204) Nota: Intervalos de confianza para parmetros particulares aparecen en los recuadros de las secciones: 6.5 (p. 207) para la media poblacional, 6.6 (p. 211) para la diferencia de dos medias poblacionales, 6.7 (p. 215) para el parmetro de una poblacin binomial, 6.8 (p. 219) para la diferencia entre dos parmetros binomiales. Estos casos particulares se obtienen reemplazando en cada caso por el estimador que corresponda a y con la desviacin estndar de . (En Ejemplos de estimadores

insesgados en p. 2 de este apunte aparecen en cada caso las expresiones de y , y que condiciones se deben cumplir. En particular, el tamao de la/s muestra/s es n 30 para que el estimador tenga una distribucin aproximadamente normal).

Usando la tabla 4 se puede calcular

Probabilidad y Estadstica
Coeficiente de confianza 1 0.90 0.95 0.99

Estimacin estadstica
(1 ) / 2 0.45 0.475 0.495 z/2 1.645 1.96 2.575 LIC c LSC + c

1 7

1.645 1.96 2.575

+ 1.645 + 1.96 + 2.575

Veamos como se obtienen los valores de z/2 para distintos valores de . Por ejemplo, se quiere determinar el valor de z/2 para obtener un intervalo de confianza que tenga coeficiente de confianza 1 = 90%= 0.9. Como (1 ) / 2 = 0.45, se debe ubicar en la tabla 4 de la normal, un valor de z/2 tal que P(0 < z < z/2) = (1 ) / 2 = 0 .45. En la tabla 4, no hay ningn valor de probabilidad igual a 0.45, sin embargo los valores ms cercanos a 0.45 son 0.4495 que corresponde a P(0 < z < 1.64) ( P(0 < z < 1.64) = 0.4495 ) 0.4505 que corresponde a P(0 < z < 1.65) ( P(0 < z < 1.65) = 0.4505 ) cumplindose 0.45 = (0.4495 + 0.4505) / 2. Luego se toma z/2 = (1.64 + 1.65) / 2 = 1.645. Nota: Se elige el valor de z/2 que d la probabilidad que est ms cerca de (1 ) / 2 , o bien, si (1 ) / 2 est a la mitad de dos valores de probabilidad se procede como en el caso anterior. Ejemplo. Se quiere estimar la media de una poblacin. Se toma una muestra de tamao n = 50 y se obtiene s = 0.24. x = 9.1 Encontrar un intervalo de confianza de 90% para . Parmetro Estimador x (insesgado E( x ) = y tiene una distribucin de muestreo normal si el tamao de la muestra es grande). Debemos encontrar z/2 tal que P(| x | < z/2 x ) = 0.90 Segn la tabla anterior, z/2 = 1.645. As P(| x | < 1.645 x ) = 0.90. Como x = 9.1

x = / n s / n = 0.24 / 50 0.034 1.645 x 1.645 0.034 0.056

entonces P(|9.1 | < 0.056) = 0.90 Conclusin: El intervalo [9.1 0.056, 9.1 + 0.056] = [9.044, 9.156] contiene a con una probabilidad de 90%.

Los intervalos de confianza que hemos considerado hasta ahora se suelen llamar intervalos de confianza bilaterales. Se pueden determinar tambin los

Probabilidad y Estadstica

Estimacin estadstica

1 8

Intervalos de confianza unilaterales de (1 )% para , usando un estimador insesgado que tiene una distribucin muestral normal o aproximadamente normal. [ z , ) es un intervalo de confianza unilateral inferior de 1 , lmite inferior de confianza: LIC = z

(, + z ] es un intervalo de confianza unilateral superior de 1 , lmite superior de confianza: LSC = + z

donde z es tal que P(z < z ) = , o equivalentemente, P(z < z) = 1 (ver figura 6.9. p. 206) TAMAO DE LA MUESTRA Tal como dijimos la clase anterior, se supone que se trabaja con muestras aleatorias. Ahora veremos como se determina el tamao de la muestra de modo tal que el error de estimacin sea menor que una cierta constante B con una probabilidad de 1 , es decir, P(| | < B) = 1 Como la cota para el error de estimacin se expresa como z/2 , se busca un tamao de muestra n tal que z/2 = B. Para la mayora de los estimadores depende de n. En particular, esto se cumple para todos los estimadores que vemos en este curso (recordar expresiones para para cada estadstica). Ejemplo. Determinar el tamao de la muestra para que el error al estimar la media de una poblacin sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tom una muestra de tamao n = 50 y se obtuvo x = 9.1 y s = 0.24. Se busca un tamao de muestra n tal que P(| x | < 0.06) = 0.95 O equivalentemente, se busca un tamao de muestra n tal que z/2 = 0.06 con 1 = 0.95. Como (1 )/2 = 0.475, segn la tabla 4, P(0 < z < z/2) = (1 )/2 para z/2 = 1.96 Se busca entonces un tamao de muestra n tal que z/2 x = 1.96 x = 1.96 / n = 0.06 de donde

se desconoce pero se puede aproximar con el valor s que corresponde a la muestra de n = 50.

1.96 2 n= . 0.06
2

1.96 n= 0.24 2 = 61.5 0.06


es decir, n = 62.

Probabilidad y Estadstica

Estimacin estadstica

1 9

Nota. Si no hubiramos tenido la estimacin s dada por una muestra anterior, podramos haber recurrido a la regla emprica para dar un valor aproximado de , siempre y cuando conociramos en que intervalo caen las mediciones, esto es, cual es el menor y mayor valor posible para las mediciones. Esta regla nos dice que el intervalo ( 2) contendr aproximadamente 95% de las mediciones. Este intervalo tiene longitud 4. Adems supongamos que sabemos que las mediciones caen en un intervalo de longitud 1. Luego 4 1 1 / 4 = 0.25. ______________________________________________________________________

You might also like